このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240514となっている論文です。

PDF登録状況(公開日: 20240514)

TitleAuthorsAbstract論文公表日・翻訳日
# 若年者脳認知発達(ABCD)データを用いた強迫性障害(OCD)のロバストバイオマーカー選択のためのXGBoostのハーネスティング

Harnessing XGBoost for Robust Biomarker Selection of Obsessive-Compulsive Disorder (OCD) from Adolescent Brain Cognitive Development (ABCD) data ( http://arxiv.org/abs/2407.00028v1 )

ライセンス: Link先を確認
Xinyu Shen, Qimin Zhang, Huili Zheng, Weiwei Qi, (参考訳) 本研究では,若年者脳認知発達研究(ABCD)の高相関神経信号解析における教師あり機械学習モデルの性能評価を行い,強迫性障害尺度の予測に焦点をあてた。 画像データによく見られる相関構造を模倣するデータセットをシミュレートし、ロジスティック回帰、弾性ネットワーク、ランダム森林、XGBoostをマルチコリニティに対処し、予測的特徴を正確に識別する能力に基づいて評価した。 本研究の目的は、ニューロイメージングデータを処理するための適切な機械学習手法の選択をガイドし、基礎となる信号を高い特徴相関で捉え、OCD(Obsessive-Compulsive Disorder)に関連する臨床的特徴を優先するモデルに焦点を当てることである。

This study evaluates the performance of various supervised machine learning models in analyzing highly correlated neural signaling data from the Adolescent Brain Cognitive Development (ABCD) Study, with a focus on predicting obsessive-compulsive disorder scales. We simulated a dataset to mimic the correlation structures commonly found in imaging data and evaluated logistic regression, elastic networks, random forests, and XGBoost on their ability to handle multicollinearity and accurately identify predictive features. Our study aims to guide the selection of appropriate machine learning methods for processing neuroimaging data, highlighting models that best capture underlying signals in high feature correlations and prioritize clinically relevant features associated with Obsessive-Compulsive Disorder (OCD).
翻訳日:2024-07-22 22:38:24 公開日:2024-05-14
# MetaFruitとファンデーションモデル: 総合的なマルチフルーツデータセットを活用して農業ファンデーションモデルを改善する

MetaFruit Meets Foundation Models: Leveraging a Comprehensive Multi-Fruit Dataset for Advancing Agricultural Foundation Models ( http://arxiv.org/abs/2407.04711v1 )

ライセンス: Link先を確認
Jiajia Li, Kyle Lammers, Xunyuan Yin, Xiang Yin, Long He, Renfu Lu, Zhaojian Li, (参考訳) 果実の収穫は、産業にとって大きな労働力と財政的な負担となり、ロボット収穫ソリューションの進歩に対する重要な必要性を強調している。 機械ビジョンに基づく果物検出は、ロボット操作をガイドする果物の堅牢な識別に重要な要素として認識されている。 深層学習と機械学習の技術を果物の検出に活用する大きな進歩にもかかわらず、共通する欠点は、様々な果樹園および/または様々な果樹種で開発モデルを迅速に拡張できないことである。 さらに、関連するデータの可用性の制限により、これらの課題はさらに複雑になる。 本研究では,4,248枚の画像と248,015枚の手動ラベル付きインスタンスを米国内の果樹園に分散した,公開可能な最大規模のマルチクラスフルーツデータセットであるMetaFruitを紹介する。 さらに, 異なる果樹条件下での広範囲な果実の識別が可能な, 先進的視覚基盤モデル(VFM)を利用した, 革新的オープンセット果実検出システムを提案する。 このシステムは、最小限のデータから数ショットの学習を通して学習する際の顕著な適応性を示すだけでなく、微妙な検出タスクのために人間の指示を解釈する能力を示す。 開発した基盤モデルの性能は,MetaFruitデータセットと他のオープンソースフルーツデータセットの両方において,既存の最先端アルゴリズムよりも優れており,農業技術とロボット収穫の分野における新たなベンチマークが設定されている。 MetaFruitデータセットと検出フレームワークは、ビジョンベースの果物収穫の今後の研究を促進するために、オープンソースとして公開されている。

Fruit harvesting poses a significant labor and financial burden for the industry, highlighting the critical need for advancements in robotic harvesting solutions. Machine vision-based fruit detection has been recognized as a crucial component for robust identification of fruits to guide robotic manipulation. Despite considerable progress in leveraging deep learning and machine learning techniques for fruit detection, a common shortfall is the inability to swiftly extend the developed models across different orchards and/or various fruit species. Additionally, the limited availability of pertinent data further compounds these challenges. In this work, we introduce MetaFruit, the largest publicly available multi-class fruit dataset, comprising 4,248 images and 248,015 manually labeled instances across diverse U.S. orchards. Furthermore, this study proposes an innovative open-set fruit detection system leveraging advanced Vision Foundation Models (VFMs) for fruit detection that can adeptly identify a wide array of fruit types under varying orchard conditions. This system not only demonstrates remarkable adaptability in learning from minimal data through few-shot learning but also shows the ability to interpret human instructions for subtle detection tasks. The performance of the developed foundation model is comprehensively evaluated using several metrics, which outperforms the existing state-of-the-art algorithms in both our MetaFruit dataset and other open-sourced fruit datasets, thereby setting a new benchmark in the field of agricultural technology and robotic harvesting. The MetaFruit dataset and detection framework are open-sourced to foster future research in vision-based fruit harvesting, marking a significant stride toward addressing the urgent needs of the agricultural sector.
翻訳日:2024-07-22 16:25:52 公開日:2024-05-14
# 確率的テクスチャフィルタによるシェーディング後のフィルタリング

Filtering After Shading With Stochastic Texture Filtering ( http://arxiv.org/abs/2407.06107v1 )

ライセンス: Link先を確認
Matt Pharr, Bartlomiej Wronski, Marco Salvi, Marcos Fajardo, (参考訳) 2次元テクスチャマップと3次元ボクセルアレイは、描画されたシーンの表面やボリュームにリッチなディテールを加えるために広く使われており、フィルターされたテクスチャルックアップは高品質な画像を生成するのに不可欠である。 本稿では,シェーディング評価後のテクスチャフィルタの適用により,BSDF 評価以前のテクスチャをフィルタするよりも,より正確な画像が得られることを示す。 これらの利点は単に理論的なものではなく、一般的な場合において明らかである。 我々は,テクスチャフィルタの確率的サンプリングを用いて,シェーディング後の実用的で効率的なフィルタリングが可能であることを実証した。 確率的テクスチャフィルタリングは、高品質なテクスチャフィルタの効率的な実装や、ニューラル表現を含む圧縮されたスパースなデータ構造に格納されたテクスチャの効率的なフィルタリングを含む、さらなる利点を提供する。 リアルタイムレンダリングとオフラインレンダリングの両方でアプリケーションを実演し、確率的フィルタリングによる追加エラーは最小限であることを示す。 この誤差は時空間デノジングまたは中程度の画素サンプリングレートでよく処理される。

2D texture maps and 3D voxel arrays are widely used to add rich detail to the surfaces and volumes of rendered scenes, and filtered texture lookups are integral to producing high-quality imagery. We show that applying the texture filter after evaluating shading generally gives more accurate imagery than filtering textures before BSDF evaluation, as is current practice. These benefits are not merely theoretical, but are apparent in common cases. We demonstrate that practical and efficient filtering after shading is possible through the use of stochastic sampling of texture filters. Stochastic texture filtering offers additional benefits, including efficient implementation of high-quality texture filters and efficient filtering of textures stored in compressed and sparse data structures, including neural representations. We demonstrate applications in both real-time and offline rendering and show that the additional error from stochastic filtering is minimal. We find that this error is handled well by either spatiotemporal denoising or moderate pixel sampling rates.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-14
# シャドウ:監督、俳優、アバター間の共進化プロセス

The Shadow: Coevolution Processes Between a Director, Actors and Avatars ( http://arxiv.org/abs/2407.09483v1 )

ライセンス: Link先を確認
Georges Gagneré, (参考訳) アンデルセンの物語『影』は、彼の影に学者が直面している演劇的な状況を提供する。 私は、シャドウアバター(Shadow avatar)と呼ばれる特定の生物をプログラミングして、物語を5つと物理ナレーターで演じた。 エドモンド・クーコー(Edmond Couchot)の仮想人間による技術進化への適応を支援するアイデアに反し、私は『影』を演出する過程で監督、俳優、シャドウアバターの関係を特徴づける進化のダイナミクスを説明している。

Andersen's tale The Shadow offers a theatrical situation confronting a Scholar to his Shadow. I program specific creatures that I called shadow avatar to stage the story with five of them and a physical narrator. Echoing Edmond Couchot's ideas about virtual people helping human beings to adapt to technological evolutions, I describe dynamics of coevolution characterizing the relationship between a director, actors, and shadow avatars during the process of staging The Shadow.
翻訳日:2024-07-22 13:48:17 公開日:2024-05-14
# バンディットアルゴリズムによる世界最大の母体保健プログラムにおける健康情報アクセスの改善

Improving Health Information Access in the World's Largest Maternal Mobile Health Program via Bandit Algorithms ( http://arxiv.org/abs/2407.12131v1 )

ライセンス: Link先を確認
Arshika Lalan, Shresth Verma, Paula Rodriguez Diaz, Panayiotis Danassis, Amrita Mahale, Kumar Madhu Sudan, Aparna Hegde, Milind Tambe, Aparna Taneja, (参考訳) 多くの非営利団体は、携帯電話が広く普及していることを理由に、未成年地域の受益者への音声やテキストによる情報提供をモバイルヘルス(mHealth)プログラムとして開始し、母子保健はmHealthプログラムの重要な領域となっている。 残念なことに、リスナーの減少は大きな課題であり、限られたリソースを使用してターゲットの介入を必要とする。 本論文は、インドの厚生労働省(MoHFW)が立ち上げ、非営利のARRMANが運営する、母子医療のための世界最大規模のmHealthプログラムであるKilkariに焦点を当てる。 我々は,自動ドロップアウトの削減と,受益者への介入の戦略的配分を通じてプログラムへの関与を促進することを目的としたCHAHAKシステムを提案する。 同様の領域における過去の研究は、ずっと小さなスケールのmHealthプログラムに焦点を合わせており、単一の限られた介入リソースを最適化するためにマルコフのレストレスマルチアームバンドを使用する。 しかし,本稿では,Kilkariにおけるマルコフ的アプローチを採用する上での課題を取り上げ,CHAHAKは代わりに,非マルコフ的時系列レス・バンドレットに依存し,複数の介入を最適化して聴取を改善する。 インド・オディシャ州の実際のKilkariデータを用いて、CHAHAKが複数の介入を活用してリスナーシップを強化し、地域社会に利益をもたらすことを示す。 CHAHAKが配備されると、これまでで最大の母方のmHealthプログラムが支援される。

Harnessing the wide-spread availability of cell phones, many nonprofits have launched mobile health (mHealth) programs to deliver information via voice or text to beneficiaries in underserved communities, with maternal and infant health being a key area of such mHealth programs. Unfortunately, dwindling listenership is a major challenge, requiring targeted interventions using limited resources. This paper focuses on Kilkari, the world's largest mHealth program for maternal and child care - with over 3 million active subscribers at a time - launched by India's Ministry of Health and Family Welfare (MoHFW) and run by the non-profit ARRMAN. We present a system called CHAHAK that aims to reduce automated dropouts as well as boost engagement with the program through the strategic allocation of interventions to beneficiaries. Past work in a similar domain has focused on a much smaller scale mHealth program and used markovian restless multiarmed bandits to optimize a single limited intervention resource. However this paper demonstrates the challenges in adopting a markovian approach in Kilkari; therefore CHAHAK instead relies on non-markovian time-series restless bandits, and optimizes multiple interventions to improve listenership. We use real Kilkari data from the Odisha state in India to show CHAHAK's effectiveness in harnessing multiple interventions to boost listenership, benefiting marginalized communities. When deployed CHAHAK will assist the largest maternal mHealth program to date.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-14
# LLM倫理をナビゲートする - 進歩,課題,今後の方向性

Navigating LLM Ethics: Advancements, Challenges, and Future Directions ( http://arxiv.org/abs/2406.18841v1 )

ライセンス: Link先を確認
Junfeng Jiao, Saleh Afroogh, Yiming Xu, Connor Phillips, (参考訳) 本研究では,人工知能分野におけるLarge Language Models(LLM)を取り巻く倫理的問題に対処する。 LLMと他のAIシステムによってもたらされる共通の倫理的課題、例えばプライバシと公正性、LLMからユニークな倫理的課題について検討する。 幻覚、検証可能な説明責任、検閲の複雑さの復号化といった課題を強調している。 この研究は、これらの複雑さに取り組み、説明責任を確保し、バイアスを減らし、LLMが情報伝達を形作る上で果たした影響力の透明性を高めることの必要性を強調している。 LLM倫理の緩和戦略と今後の方向性を提案し、学際的な協力を提唱する。 特定のドメインに合わせた倫理的なフレームワークや、さまざまなコンテキストに適応した動的監査システムを推奨している。 このロードマップは、LLMの責任ある開発と統合を導くことを目的としており、倫理的配慮が社会におけるAIの進歩を支配する未来を想定している。

This study addresses ethical issues surrounding Large Language Models (LLMs) within the field of artificial intelligence. It explores the common ethical challenges posed by both LLMs and other AI systems, such as privacy and fairness, as well as ethical challenges uniquely arising from LLMs. It highlights challenges such as hallucination, verifiable accountability, and decoding censorship complexity, which are unique to LLMs and distinct from those encountered in traditional AI systems. The study underscores the need to tackle these complexities to ensure accountability, reduce biases, and enhance transparency in the influential role that LLMs play in shaping information dissemination. It proposes mitigation strategies and future directions for LLM ethics, advocating for interdisciplinary collaboration. It recommends ethical frameworks tailored to specific domains and dynamic auditing systems adapted to diverse contexts. This roadmap aims to guide responsible development and integration of LLMs, envisioning a future where ethical considerations govern AI advancements in society.
翻訳日:2024-07-01 05:40:31 公開日:2024-05-14
# 大規模言語モデルに基づくマルチドロンのプロンプト駆動型タスク計画法

A Prompt-driven Task Planning Method for Multi-drones based on Large Language Model ( http://arxiv.org/abs/2406.00006v1 )

ライセンス: Link先を確認
Yaohua Liu, (参考訳) ドローン技術の急速な発展に伴い、様々な分野においてマルチドローンの応用が広まりつつある。 しかし、遠隔操作の複雑さや人間と機械の相互作用の利便性といった課題に直面している。 これらの課題に対処するために,大規模言語モデルに基づくマルチドローンのプロンプト駆動型タスク計画手法を提案する。 Prompt技術を導入することにより、マルチドローンシステムに適切なプロンプト情報を提供する。

With the rapid development of drone technology, the application of multi-drones is becoming increasingly widespread in various fields. However, the task planning technology for multi-drones still faces challenges such as the complexity of remote operation and the convenience of human-machine interaction. To address these issues, this paper proposes a prompt-driven task planning method for multi-drones based on large language models. By introducing the Prompt technique, appropriate prompt information is provided for the multi-drone system.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-14
# 大規模言語モデルと光ネットワーク:自動化への道を開く

When Large Language Models Meet Optical Networks: Paving the Way for Automation ( http://arxiv.org/abs/2405.17441v1 )

ライセンス: Link先を確認
Danshi Wang, Yidi Wang, Xiaotian Jiang, Yao Zhang, Yue Pang, Min Zhang, (参考訳) GPTの出現以来、大きな言語モデル(LLM)はあらゆる人生に革命的な進歩をもたらした。 優れた自然言語処理(NLP)技術として、LLMは様々な分野で最先端のパフォーマンスを継続的に達成してきた。 しかし、LPMはNLPタスクの汎用モデルと考えられており、光ネットワークのような特殊な分野の複雑なタスクに適用した場合、課題に直面する可能性がある。 本研究では, LLM駆動型エージェント(AI-Agent)を制御層に配置し, 物理層をインテリジェントに制御し, アプリケーション層との相互作用を効果的に行うことを目的とした, LLM駆動型光ネットワークのフレームワークを提案する。 AI-Agentは、外部ツールを活用して、光ネットワークに特化した包括的なリソースライブラリからドメイン知識を抽出することができる。 これは、ユーザ入力と巧妙なプロンプトによって実現され、光ネットワークにおける自律的な操作と保守のための制御命令と結果表現の生成を可能にする。 専門分野におけるLLMの能力向上と,その複雑なタスクに対する可能性向上のために,迅速なエンジニアリング,ドメイン知識ライブラリの確立,複雑なタスクの実装などの詳細について解説する。 さらに,ネットワークアラーム解析とネットワーク性能最適化という2つの典型的な課題に対して,提案手法を検証した。 良好な応答精度と2,400個のテスト状況のセマティックな類似性は、光ネットワークにおけるLLMの大きな可能性を示している。

Since the advent of GPT, large language models (LLMs) have brought about revolutionary advancements in all walks of life. As a superior natural language processing (NLP) technology, LLMs have consistently achieved state-of-the-art performance on numerous areas. However, LLMs are considered to be general-purpose models for NLP tasks, which may encounter challenges when applied to complex tasks in specialized fields such as optical networks. In this study, we propose a framework of LLM-empowered optical networks, facilitating intelligent control of the physical layer and efficient interaction with the application layer through an LLM-driven agent (AI-Agent) deployed in the control layer. The AI-Agent can leverage external tools and extract domain knowledge from a comprehensive resource library specifically established for optical networks. This is achieved through user input and well-crafted prompts, enabling the generation of control instructions and result representations for autonomous operation and maintenance in optical networks. To improve LLM's capability in professional fields and stimulate its potential on complex tasks, the details of performing prompt engineering, establishing domain knowledge library, and implementing complex tasks are illustrated in this study. Moreover, the proposed framework is verified on two typical tasks: network alarm analysis and network performance optimization. The good response accuracies and sematic similarities of 2,400 test situations exhibit the great potential of LLM in optical networks.
翻訳日:2024-06-02 14:30:04 公開日:2024-05-14
# Sonos音声制御バイアスアセスメントデータセット:音声アシスタントにおけるデモグラフィックバイアスアセスメント手法

Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants ( http://arxiv.org/abs/2405.19342v1 )

ライセンス: Link先を確認
Chloé Sekkat, Fanny Leroy, Salima Mdhaffar, Blake Perry Smith, Yannick Estève, Joseph Dureau, Alice Coucke, (参考訳) 最近の研究は、音声アシスタントが全員に等しく機能しないことを示しているが、音声技術の人口統計学的堅牢性の研究はいまだに少ない。 これは主に、制御された人口統計タグを持つ大規模なデータセットの希少性に起因する。 本稿では,音楽分野における北米英語の音声アシスタント要求(1,038人,166時間,170kの音声サンプル,9,040の独特なラベル付き転写文字を含む)からなるオープンデータセットであるSonos Voice Control Bias Assessment Datasetを紹介する。 また,一変量・多変量レベルの統計的人口統計バイアス評価手法を,この特定のユースケースに合わせて,文字起こし精度よりも音声言語理解指標を活用することで,ユーザエクスペリエンスの指標として優れたものと考えている。 このデータセットと統計学的手法による人口統計バイアスの検出能力を実証するために,最先端の音声認識モデルと音声言語理解モデルについて検討する。 その結果、年齢、方言地域、民族間での成績の統計的に有意な差が見られた。 多変量検査は、方言領域、性別、年齢の混合効果に光を放つために重要である。

Recent works demonstrate that voice assistants do not perform equally well for everyone, but research on demographic robustness of speech technologies is still scarce. This is mainly due to the rarity of large datasets with controlled demographic tags. This paper introduces the Sonos Voice Control Bias Assessment Dataset, an open dataset composed of voice assistant requests for North American English in the music domain (1,038 speakers, 166 hours, 170k audio samples, with 9,040 unique labelled transcripts) with a controlled demographic diversity (gender, age, dialectal region and ethnicity). We also release a statistical demographic bias assessment methodology, at the univariate and multivariate levels, tailored to this specific use case and leveraging spoken language understanding metrics rather than transcription accuracy, which we believe is a better proxy for user experience. To demonstrate the capabilities of this dataset and statistical method to detect demographic bias, we consider a pair of state-of-the-art Automatic Speech Recognition and Spoken Language Understanding models. Results show statistically significant differences in performance across age, dialectal region and ethnicity. Multivariate tests are crucial to shed light on mixed effects between dialectal region, gender and age.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-14
# 時系列モデルの合同予測領域

Joint Prediction Regions for time-series models ( http://arxiv.org/abs/2405.12234v1 )

ライセンス: Link先を確認
Eshant English, Nicola Paoletti, (参考訳) 機械学習アルゴリズムは、ポイント予測を提供することで有名だが、予測間隔は提供していない。 予測と予測間隔の信頼性を必要とするアプリケーションは数多く存在する。 これらの間隔を合わせると、所望の意義レベルを持つ共同予測領域が生まれる。 IIDデータの場合、JPR(Joint Prediction Region)の計算は容易である。 しかし、観測間の依存性のため、時系列にJPRが必要な場合、タスクは過度に困難になる。 このプロジェクトの目的は、WolfとWunderliのJPRの構築方法を実装し、他の手法(例えばNPヒューリスティック、Joint Marginals)と比較することである。 この手法はブートストレッピングに基づいており、異なる予測器(例えばARIMAとLSTM)を用いて異なるデータセット(Min Temp、Sunspots)に適用される。 この手法を応用する一つの課題は、モデルに対する標準誤差を導出することであり、解析的には得られない。 異なる予測器の予測標準誤差を推定する新しい手法も考案された。 最後に,本手法を合成データセットに適用し,実験平均値と実験幅を求め,Wolf and Wunderli紙の結果を統合した。 実験の結果,ニューラルネットワークのような強力な予測器による幅の狭化,予測水平線Hの増加による幅の拡大,重要度αの低減,K-FWEにおけるパラメータkによる幅の制御,およびジョイントマージナルを用いた情報の損失が示された。

Machine Learning algorithms are notorious for providing point predictions but not prediction intervals. There are many applications where one requires confidence in predictions and prediction intervals. Stringing together, these intervals give rise to joint prediction regions with the desired significance level. It is an easy task to compute Joint Prediction regions (JPR) when the data is IID. However, the task becomes overly difficult when JPR is needed for time series because of the dependence between the observations. This project aims to implement Wolf and Wunderli's method for constructing JPRs and compare it with other methods (e.g. NP heuristic, Joint Marginals). The method under study is based on bootstrapping and is applied to different datasets (Min Temp, Sunspots), using different predictors (e.g. ARIMA and LSTM). One challenge of applying the method under study is to derive prediction standard errors for models, it cannot be obtained analytically. A novel method to estimate prediction standard error for different predictors is also devised. Finally, the method is applied to a synthetic dataset to find empirical averages and empirical widths and the results from the Wolf and Wunderli paper are consolidated. The experimental results show a narrowing of width with strong predictors like neural nets, widening of width with increasing forecast horizon H and decreasing significance level alpha, controlling the width with parameter k in K-FWE, and loss of information using Joint Marginals.
翻訳日:2024-05-27 03:08:05 公開日:2024-05-14
# アスペクト・センス・アウェアネスの増幅:アスペクト・ベース・センシティメント・アナリティクスのための新しいアプローチ

Amplifying Aspect-Sentence Awareness: A Novel Approach for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2405.13013v1 )

ライセンス: Link先を確認
Adamu Lawan, Juhua Pu, Haruna Yunusa, Jawad Muhammad, Aliyu Umar, (参考訳) Aspect-Based Sentiment Analysis (ABSA)は、顧客フィードバック分析や製品レコメンデーションシステムといったアプリケーションにおいて、自然言語処理(NLP)においてますます重要になっている。 ABSAは、テキストで言及されている特定の側面に関する感情を抽出することで、従来の感情分析を超越している。 最近の研究は、依存関係木のような構文情報を統合することで、長距離構文関係をよりよく理解し、文脈とアスペクトを結びつけることの価値を浮き彫りにしている。 これらの利点にもかかわらず、構文情報と意味情報を組み合わせた場合、エラー解析への感受性や計算複雑性の増加といった課題が続いている。 これらの課題に対処するために,アスペクト・センス・アウェアネス(A3SN)を増幅し,アスペクト・センス・アウェアネスを増幅する新しい手法を提案する。 トランスフォーマーの標準的なプロセスに従って、我々の革新的なアプローチはマルチヘッドアテンション機構を導入し、文とアスペクトセマンティック情報でモデルを増強する。 また、アスペクト・センスの注意を増幅するマルチヘッドアテンションモジュールも追加しました。 文とアスペクトの焦点を2倍にすることで、文コンテキストにおけるアスペクトの重要性を効果的に強調した。 これにより、微妙な関係や依存関係を正確にキャプチャできる。 さらに、ゲート融合は、ABSAに不可欠なマルチヘッドおよび増幅アスペクト・センス・アテンション・アテンション・アテンション・メカニズムから特徴表現を統合する。 3つのベンチマークデータセットに対する実験結果は、A3SNの有効性と、SOTA(State-of-the-art)ベースラインモデルよりも優れていることを示している。

Aspect-Based Sentiment Analysis (ABSA) is increasingly crucial in Natural Language Processing (NLP) for applications such as customer feedback analysis and product recommendation systems. ABSA goes beyond traditional sentiment analysis by extracting sentiments related to specific aspects mentioned in the text; existing attention-based models often need help to effectively connect aspects with context due to language complexity and multiple sentiment polarities in a single sentence. Recent research underscores the value of integrating syntactic information, such as dependency trees, to understand long-range syntactic relationships better and link aspects with context. Despite these advantages, challenges persist, including sensitivity to parsing errors and increased computational complexity when combining syntactic and semantic information. To address these issues, we propose Amplifying Aspect-Sentence Awareness (A3SN), a novel technique designed to enhance ABSA through amplifying aspect-sentence awareness attention. Following the transformer's standard process, our innovative approach incorporates multi-head attention mechanisms to augment the model with sentence and aspect semantic information. We added another multi-head attention module: amplify aspect-sentence awareness attention. By doubling its focus between the sentence and aspect, we effectively highlighted aspect importance within the sentence context. This enables accurate capture of subtle relationships and dependencies. Additionally, gated fusion integrates feature representations from multi-head and amplified aspect-sentence awareness attention mechanisms, which is essential for ABSA. Experimental results across three benchmark datasets demonstrate A3SN's effectiveness and outperform state-of-the-art (SOTA) baseline models.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-14
# QCRD:大規模言語モデルにおける品質誘導型コントラストレナール蒸留

QCRD: Quality-guided Contrastive Rationale Distillation for Large Language Models ( http://arxiv.org/abs/2405.13014v1 )

ライセンス: Link先を確認
Wei Wang, Zhaowei Li, Qi Xu, Yiqing Cai, Hang Song, Qi Qi, Ran Zhou, Zhida Huang, Tao Wang, Li Xiao, (参考訳) 大きな言語モデル(LLM)のデプロイは、リソースの制限と推論効率の面で課題を生じさせる。 これらの課題に対処するために、近年の研究では、LLMが生み出す知識の合理性を蒸留することによって強化された、より小さなタスク特化言語モデルの使用に焦点を当てている。 しかし、従来の研究は主に肯定的な知識の有効性を強調し、知識ノイズと否定的な知識の探索を見越している。 本稿では, コントラスト学習の観点から, 品質誘導型コントラスト論理蒸留による推論能力学習の一般的な手法を提案する。 肯定的知識を学習するために,自己整合性を通じて正の有理性を収集し,温度サンプリングによって生じるLCMの有理性に悪影響を及ぼす。 負の知識蒸留では、反復前の小さな言語モデル自体の温度サンプリングを用いて負の有理値を生成する。 最後に、比較的損失は、正と負の有理をより小さな言語モデルによりよく蒸留するように設計され、そこでは、オンライン更新判別器を使用して、有理の質を判断し、トレーニングプロセスをより最適化するために重みを割り当てる。 複数の推論タスクに関する広範な実験を通じて,提案手法が従来の蒸留法を一貫して上回り,高品質な理性を生み出すことを実証した。

Deploying large language models (LLMs) poses challenges in terms of resource limitations and inference efficiency. To address these challenges, recent research has focused on using smaller task-specific language models, which are enhanced by distilling the knowledge rationales generated by LLMs. However, previous works mostly emphasize the effectiveness of positive knowledge, while overlooking the knowledge noise and the exploration of negative knowledge. In this paper, we first propose a general approach called quality-guided contrastive rationale distillation for reasoning capacity learning, considering contrastive learning perspectives. For the learning of positive knowledge, we collect positive rationales through self-consistency to denoise the LLM rationales generated by temperature sampling. For the negative knowledge distillation, we generate negative rationales using temperature sampling for the iteration-before smaller language models themselves. Finally, a contrastive loss is designed to better distill the positive and negative rationales into the smaller language model, where an online-update discriminator is used to judge the qualities of rationales and assign weights for better optimizing the training process. Through extensive experiments on multiple reasoning tasks, we demonstrate that our method consistently outperforms the previous distillation methods and produces higher-quality rationales.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-14
# 大規模言語モデルを用いたディベートビルダーの開発

Assisted Debate Builder with Large Language Models ( http://arxiv.org/abs/2405.13015v1 )

ライセンス: Link先を確認
Elliot Faugier, Frédéric Armetta, Angela Bonifati, Bruno Yun, (参考訳) ADBL2は議論を支援するツールである。 これは、多種多様なドメインで関係に基づく引数マイニングを一般化し実行するための、大きな言語モデルの能力に基づいている。 関係に基づくマイニングを活用した最初のオープンソースツールであり,(1)議論における既定関係の検証,(2)大規模言語モデルによる新たな議論の創出を支援する。 ADBL2は高度にモジュール化されており、プラグインとして使用されるオープンソースの大規模言語モデルでも動作する。 副産物として、ADBL2が使用可能な関係ベースの引数マイニングのための最初の微調整Mistral-7B大言語モデルも提供します。

We introduce ADBL2, an assisted debate builder tool. It is based on the capability of large language models to generalise and perform relation-based argument mining in a wide-variety of domains. It is the first open-source tool that leverages relation-based mining for (1) the verification of pre-established relations in a debate and (2) the assisted creation of new arguments by means of large language models. ADBL2 is highly modular and can work with any open-source large language models that are used as plugins. As a by-product, we also provide the first fine-tuned Mistral-7B large language model for relation-based argument mining, usable by ADBL2, which outperforms existing approaches for this task with an overall F1-score of 90.59% across all domains.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-14
# Darija Open Datasetの進化 - バージョン2の紹介

The Evolution of Darija Open Dataset: Introducing Version 2 ( http://arxiv.org/abs/2405.13016v1 )

ライセンス: Link先を確認
Aissam Outchakoucht, Hamza Es-Samaali, (参考訳) Darija Open Dataset(DODA)は、モロッコの方言であるDarijaの自然言語処理能力を向上するためのオープンソースプロジェクトである。 約10万のエントリがあるDODAは、Darija- English翻訳のための最大の共同プロジェクトである。 データセットにはセマンティックな分類と構文的な分類、綴りのバリエーション、複数の時制にまたがる動詞の活用、数万の翻訳文がある。 データセットにはラテン文字とアラビア文字の両方で書かれたエントリが含まれており、異なるソースやアプリケーションで見られる言語的なバリエーションと好みを反映している。 このようなデータセットの可用性は、Darijaを正確に理解し、生成できるアプリケーションを開発するために重要であり、モロッコのコミュニティの言語的ニーズをサポートし、近隣地域の同様の方言に拡張する可能性がある。 本稿では,グローバルなNLP景観におけるDODAの戦略的重要性,その成果,そしてその活用と拡張を推進していくであろう今後の発展について考察する。

Darija Open Dataset (DODa) represents an open-source project aimed at enhancing Natural Language Processing capabilities for the Moroccan dialect, Darija. With approximately 100,000 entries, DODa stands as the largest collaborative project of its kind for Darija-English translation. The dataset features semantic and syntactic categorizations, variations in spelling, verb conjugations across multiple tenses, as well as tens of thousands of translated sentences. The dataset includes entries written in both Latin and Arabic alphabets, reflecting the linguistic variations and preferences found in different sources and applications. The availability of such dataset is critical for developing applications that can accurately understand and generate Darija, thus supporting the linguistic needs of the Moroccan community and potentially extending to similar dialects in neighboring regions. This paper explores the strategic importance of DODa, its current achievements, and the envisioned future enhancements that will continue to promote its use and expansion in the global NLP landscape.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-14
# ウェアラブル医療機器におけるフェデレーションヒト活動認識における個人データ漏洩

Private Data Leakage in Federated Human Activity Recognition for Wearable Healthcare Devices ( http://arxiv.org/abs/2405.10979v1 )

ライセンス: Link先を確認
Kongyang Chen, Dongping Zhang, Bing Mi, (参考訳) ウェアラブルリストバンドや腕時計は、行動に基づいてユーザの活動状況を決定することや適切なエクササイズレコメンデーションを提供するなど、健康モニタリングに利用することができる。 もちろん、単一のウェアラブルデバイスの個々のデータ認識とローカルコンピューティング能力は制限されており、堅牢なユーザ行動認識モデルをトレーニングすることは困難である。 通常、ジョイントモデリングは複数のウェアラブルデバイスのコラボレーションを必要とする。 適切な研究アプローチとしてフェデレーションヒューマンアクティビティ認識(HAR)がある。これは、ユーザのローカルエクササイズデータをアップロードすることなく、グローバルモデルをトレーニングすることができる。 しかし、最近の研究は、フェデレートドラーニングが依然として深刻なデータセキュリティとプライバシーの問題に直面していることを示している。 我々の知る限り、フェデレートHARには会員情報漏洩に関する研究は存在しない。 そこで本研究では,ユーザ行動認識のための複数のウェアラブルデバイスの共同モデリングプロセスについて検討し,ウェアラブルデータのプライバシー漏洩問題を分析することを目的とした。 本システムでは,ウェアラブルデバイスユーザとパラメータサーバからなるフェデレーション学習アーキテクチャについて検討する。 パラメータサーバは、動作センサデータを独立して知覚し、ローカルモデルトレーニングを行い、サーバにアップロードするユーザ毎に初期モデルを配布する。 サーバは収束するまでこれらのローカルモデルを集約する。 フェデレートされた学習アーキテクチャでは、サーバは興味を持ち、モデルパラメータから関連するユーザに関するプライバシー情報を取得しようとするかもしれない。 そこで我々は,異なるクライアントデータ間でのモデル一般化の差異を生かした,悪意のあるサーバに基づくメンバシップ推論攻撃を検討する。 公開されている5つのHARデータセットにデプロイされた実験により、悪意のあるサーバメンバシップ推定の精度が92\%に達することを示した。

Wearable wristband or watch can be utilized for health monitoring, such as determining the user's activity status based on behavior and providing reasonable exercise recommendations. Obviously, the individual data perception and local computing capabilities of a single wearable device are limited, making it difficult to train a robust user behavior recognition model. Typically, joint modeling requires the collaboration of multiple wearable devices. An appropriate research approach is Federated Human Activity Recognition (HAR), which can train a global model without uploading users' local exercise data. Nevertheless, recent studies indicate that federated learning still faces serious data security and privacy issues. To the best of our knowledge, there is no existing research on membership information leakage in Federated HAR. Therefore, our study aims to investigate the joint modeling process of multiple wearable devices for user behavior recognition, with a focus on analyzing the privacy leakage issues of wearable data. In our system, we consider a federated learning architecture consisting of $N$ wearable device users and a parameter server. The parameter server distributes the initial model to each user, who independently perceives their motion sensor data, conducts local model training, and uploads it to the server. The server aggregates these local models until convergence. In the federated learning architecture, the server may be curious and seek to obtain privacy information about relevant users from the model parameters. Hence, we consider membership inference attacks based on malicious servers, which exploit differences in model generalization across different client data. Through experimentation deployed on five publicly available HAR datasets, we demonstrate that the accuracy of malicious server membership inference reaches 92\%.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-14
# I型量子井戸構造におけるキャリアの量子閉じ込めに関する研究

Research on the Quantum confinement of Carriers in the Type-I Quantum Wells Structure ( http://arxiv.org/abs/2405.10980v1 )

ライセンス: Link先を確認
Xinxin Li, Zhen Deng, Yang Jiang, Chunhua Du, Haiqiang Jia, Wenxin Wang, Hong Chen, (参考訳) 量子閉じ込めは低次元構造において固有の性質であると考えられている。 伝統的に、井戸の中に閉じ込められたキャリアは、離散的なエネルギーレベルのために逃げられないと考えられている。 しかし, これまでの研究では, 低次元構造におけるキャリアエスケープの効率性について明らかにしており, 従来の理解とは矛盾している。 本研究では,ブリュアン帯全体の量子閉じ込めによるバルク物質分散と量子化エネルギー分散の重畳として,量子井戸のエネルギーバンド構造を概観する。 すべての波動ベクトルを考慮し、各量子化エネルギーレベルでキャリアエネルギーの一定の分布を求め、エネルギーサブバンドを生じさせる。 これらの結果により、キャリアは電場の影響下で井戸から脱出することができる。 さらに、キャリア輸送に関連する量子井戸構造における様々なエネルギーバンドシナリオの包括的概要をまとめた。 このような新しい解釈は、低次元エネルギーバンドの理解を深め、新しい物理現象を発見し、優れた性能を持つ新しいデバイスを設計する上で重要な意味を持つ。

Quantum confinement is recognized to be an inherent property in low-dimensional structures. Traditionally it is believed that the carriers trapped within the well cannot escape due to the discrete energy levels. However, our previous research has revealed efficient carrier escape in low-dimensional structures, contradicting this conventional understanding. In this study, we review the energy band structure of quantum wells considering it as a superposition of the bulk material dispersion and quantization energy dispersion resulting from the quantum confinement across the whole Brillouin zone. By accounting for all wave vectors, we obtain a certain distribution of carrier energy at each quantization energy level, giving rise to the energy subbands. These results enable carriers to escape from the well under the influence of an electric field. Additionally, we have compiled a comprehensive summary of various energy band scenarios in quantum well structures, relevant to carrier transport. Such a new interpretation holds significant value in deepening our comprehension of low-dimensional energy bands, discovering new physical phenomena, and designing novel devices with superior performance.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-14
# ローリー・リッツ変分法について : 非直交基底集合

On the Raleigh-Ritz variational method. Non-orthogonal basis set ( http://arxiv.org/abs/2405.10340v1 )

ライセンス: Link先を確認
Francisco M. Fernández, (参考訳) レイリー・リッツ変分法の主な方程式を概説し、2つのエルミート行列の同時対角化問題との関係について考察する。

We overview the main equations of the Rayleigh-Ritz variational method and discuss their connection with the problem of simultaneous diagonalization of two Hermitian matrices.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-14
# モデル発見のためのスケーラブルなスパース回帰 - インサイトへの高速レーン

Scalable Sparse Regression for Model Discovery: The Fast Lane to Insight ( http://arxiv.org/abs/2405.09579v1 )

ライセンス: Link先を確認
Matthew Golden, (参考訳) 膨大な利用可能なデータと不満足な数学的記述を持つ力学系の無限例が存在する。 シンボリックライブラリーに適用されたスパース回帰は、データから直接支配方程式を学習する強力なツールとして急速に現れ、これらの学習方程式は質的な単純さと人間の解釈可能性と定量的な精度のバランスをとる。 本稿では,反復特異値分解(SVD)を利用した包括探索を拡張した汎用モデル非依存スパース回帰アルゴリズムを提案する。 この高速化されたスキームである Scalable Pruning for Rapid Identification of Null vecTors (SPRINT) は、解析的境界を持つ二分法を用いて、ヌルベクトルに対する最適なランク1修飾を素早く同定する。 これは、小さな係数に対する感度を維持することを目的としており、大きなシンボリックライブラリーにとって妥当な計算コストである。 宇宙の年齢を徹底的な探索で計算するが、SPRINTでは1日で計算できる。

There exist endless examples of dynamical systems with vast available data and unsatisfying mathematical descriptions. Sparse regression applied to symbolic libraries has quickly emerged as a powerful tool for learning governing equations directly from data; these learned equations balance quantitative accuracy with qualitative simplicity and human interpretability. Here, I present a general purpose, model agnostic sparse regression algorithm that extends a recently proposed exhaustive search leveraging iterative Singular Value Decompositions (SVD). This accelerated scheme, Scalable Pruning for Rapid Identification of Null vecTors (SPRINT), uses bisection with analytic bounds to quickly identify optimal rank-1 modifications to null vectors. It is intended to maintain sensitivity to small coefficients and be of reasonable computational cost for large symbolic libraries. A calculation that would take the age of the universe with an exhaustive search but can be achieved in a day with SPRINT.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-14
# 隠れたニューロン活性化ラベルの誤りマージン解析

Error-margin Analysis for Hidden Neuron Activation Labels ( http://arxiv.org/abs/2405.09580v1 )

ライセンス: Link先を確認
Abhilekha Dalal, Rushrukh Rayan, Pascal Hitzler, (参考訳) 人工知能の分野では、高レベルの概念が人工知能内でどのように表現されるかを理解することが根本的な課題である。 既存の説明可能なAIにおける文献では、ニューロンにその機能を理解するための概念をラベル付けすることの重要性が強調されているが、ほとんどの場合、どの刺激がニューロンを活性化するかを特定することに重点を置いているが、これは情報検索におけるリコールの概念に対応している。 これは2つの仕事の第1部であり、他の刺激に対するニューロンの反応、すなわちその正確さを調査することが必須である。 これをニューロンラベルのエラーマージンと呼ぶ。

Understanding how high-level concepts are represented within artificial neural networks is a fundamental challenge in the field of artificial intelligence. While existing literature in explainable AI emphasizes the importance of labeling neurons with concepts to understand their functioning, they mostly focus on identifying what stimulus activates a neuron in most cases, this corresponds to the notion of recall in information retrieval. We argue that this is only the first-part of a two-part job, it is imperative to also investigate neuron responses to other stimuli, i.e., their precision. We call this the neuron labels error margin.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-14
# 離散事象シミュレーションモデルを用いた人口動態からの個人間相互作用の学習

Learning Individual Interactions from Population Dynamics with Discrete-Event Simulation Model ( http://arxiv.org/abs/2205.02332v3 )

ライセンス: Link先を確認
Yan Shen, Fan Yang, Mingchen Gao, Wen Dong, (参考訳) 膨大なデータによって、研究者はニューラルネットワークやエンジニアリングされたシステム、ソーシャルネットワークといった複雑なシステムのダイナミクスを学ぶために、より強力な計算ツールを追求することができる。 従来の機械学習アプローチは、動的ベイズネットワークと状態空間モデルの両方で複雑なシステムダイナミクスをキャプチャするが、これは、スパースグラフや微分方程式のシステムでダイナミクスを規定するのは簡単ではないため、スケールするのが難しい。 本稿では,多変量正規分布を仮定した複雑系力学の離散時間シミュレーション表現を,局所的相互作用の列に分解できることから学習する。 この結果から,本アルゴリズムは,意味のあるイベントを持つ複数のフィールドにおいて,複雑なネットワークダイナミクスをデータ効率よくキャプチャできることがわかった。

The abundance of data affords researchers to pursue more powerful computational tools to learn the dynamics of complex system, such as neural networks, engineered systems and social networks. Traditional machine learning approaches capture complex system dynamics either with dynamic Bayesian networks and state space models, which is hard to scale because it is non-trivial to prescribe the dynamics with a sparse graph or a system of differential equations; or a deep neural networks, where the distributed representation of the learned dynamics is hard to interpret. In this paper, we will explore the possibility of learning a discrete-event simulation representation of complex system dynamics assuming multivariate normal distribution of the state variables, based on the observation that many complex system dynamics can be decomposed into a sequence of local interactions, which individually change the system state only minimally but in sequence generate complex and diverse dynamics. Our results show that the algorithm can data-efficiently capture complex network dynamics in several fields with meaningful events.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-14
# 構成・プライバシー・削除のためのタンジェント変換器

Tangent Transformers for Composition, Privacy and Removal ( http://arxiv.org/abs/2307.08122v3 )

ライセンス: Link先を確認
Tian Yu Liu, Aditya Golatkar, Stefano Soatto, (参考訳) 本稿では,事前学習した初期化の周囲に1次テイラー展開を演算して得られる線形化変圧器の微調整手法であるTangent Attention Fine-Tuning(TAFT)を紹介する。 線形化から生じるヤコビアン・ベクター積は1つの前方通過で効率的に計算でき、同じ数のパラメータを用いてトレーニングと推論コストを元の非線形積と同じ桁に削減できることを示す。 さらに、下流の様々な視覚的分類タスクに適用すると、結果のTangent TransformerをTAFTで微調整することで、元の非線形ネットワークの微調整と相容れない性能が得られることを示す。 タンジェントトランスフォーマーは,新しい重み集合に対して線形であり,結果として生じる微調整損失は凸であるので,モデル構成や並列トレーニング,機械学習,差分プライバシーなどに関して,TAFTは非線形微調整に比べていくつかの利点がある。 私たちのコードは、https://github.com/tianyu139/tangent-model-compositionで利用可能です。

We introduce Tangent Attention Fine-Tuning (TAFT), a method for fine-tuning linearized transformers obtained by computing a First-order Taylor Expansion around a pre-trained initialization. We show that the Jacobian-Vector Product resulting from linearization can be computed efficiently in a single forward pass, reducing training and inference cost to the same order of magnitude as its original non-linear counterpart, while using the same number of parameters. Furthermore, we show that, when applied to various downstream visual classification tasks, the resulting Tangent Transformer fine-tuned with TAFT can perform comparably with fine-tuning the original non-linear network. Since Tangent Transformers are linear with respect to the new set of weights, and the resulting fine-tuning loss is convex, we show that TAFT enjoys several advantages compared to non-linear fine-tuning when it comes to model composition, parallel training, machine unlearning, and differential privacy. Our code is available at: https://github.com/tianyu139/tangent-model-composition
翻訳日:2024-05-16 22:33:52 公開日:2024-05-14
# コインを投げるのではなく、ゲームをするメカニズム

Mechanisms that play a game, not toss a coin ( http://arxiv.org/abs/2308.10413v2 )

ライセンス: Link先を確認
Toby Walsh, (参考訳) ランダム化機構は、決定論的機構と比較して良い規範的特性を持つことができる。 しかし、ランダム化されたメカニズムは、検証可能性などいくつかの方法で問題となる。 本稿では,コインを投げる代わりにエージェントがゲームをするようにすることで,そのようなメカニズムをデランドマイズすることを提案する。 エージェントの最善のアクションはランダムにプレイすることであり、このプレイはメカニズムに「ランダムネス」を注入する。 このデランドマイゼーションは、元のランダム化機構のよい規範的性質の多くを保っているが、例えば、決定論的で容易に監査できるメカニズムを与える。 ランダム化メカニズムを6つの異なる領域でデランドマイズする方法として,投票,施設配置,タスク割り当て,学校選択,ピア選択,リソース割り当ての3つを検討した。 そこで本研究では,これらの6つの領域に対して,優れた規範的特性を持つ新規なデランドマイズ機構を提案する。 各機構は混合ナッシュ平衡を持ち、エージェントは均一な混合戦略でモジュラー算術ゲームをする。 1つの混合ナッシュ均衡を除いて、エージェントは元の問題を誠実に報告する。 従って、デランドマイズ法は `quasi-strategy proof'' である。 ある領域において、デランドミゼーションの結果、新しい望ましい規範的性質が出現することを示す。

Randomized mechanisms can have good normative properties compared to their deterministic counterparts. However, randomized mechanisms are problematic in several ways such as in their verifiability. We propose here to derandomize such mechanisms by having agents play a game instead of tossing a coin. The game is designed so an agent's best action is to play randomly, and this play then injects ``randomness'' into the mechanism. This derandomization retains many of the good normative properties of the original randomized mechanism but gives a mechanism that is deterministic and easy, for instance, to audit. We consider three related methods to derandomize randomized mechanism in six different domains: voting, facility location, task allocation, school choice, peer selection, and resource allocation. We propose a number of novel derandomized mechanisms for these six domains with good normative properties. Each mechanism has a mixed Nash equilibrium in which agents play a modular arithmetic game with an uniform mixed strategy. In all but one mixed Nash equilibrium, agents report their preferences over the original problem sincerely. The derandomized methods are thus ``quasi-strategy proof''. In one domain, we additionally show that a new and desirable normative property emerges as a result of derandomization.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-14
# 線形多木構造方程式モデルの学習

Learning Linear Polytree Structural Equation Models ( http://arxiv.org/abs/2107.10955v4 )

ライセンス: Link先を確認
Xingmei Lou, Yu Hu, Xiaodong Li, (参考訳) 我々は、線形構造方程式モデル(SEM)からデータを生成し、因果構造がポリツリーによって特徴づけられる場合に、有向非巡回グラフ(DAG)を学習する問題に興味を持っている。 ガウスのポリツリーモデルでは、よく知られたChow-Liuアルゴリズムのサンプルサイズについて十分な条件を考察し、CPDAGで一意に表現されるポリツリーの骨格と等価クラスの両方を正確に復元する。 一方、骨格とPDAGの回収に必要なサンプルサイズに関する必要条件は、それぞれの十分な条件に合致し、これらの課題の難易度を鋭く評価する情報理論の下限によっても引き起こされる。 また、線形ポリツリーモデルの下での逆相関行列推定の問題を考察し、次元とv構造の総数で有界な推定誤差を確立する。 また、各ノードが変数群を表すような群線型ポリツリーモデルの拡張も検討する。 この理論的な知見は総合的な数値シミュレーションによって示され、ベンチマークデータを用いた実験は、真のグラフィカル構造がポリツリーによってのみ近似できる場合に、ポリツリー学習の堅牢性を示す。

We are interested in the problem of learning the directed acyclic graph (DAG) when data are generated from a linear structural equation model (SEM) and the causal structure can be characterized by a polytree. Under the Gaussian polytree models, we study sufficient conditions on the sample sizes for the well-known Chow-Liu algorithm to exactly recover both the skeleton and the equivalence class of the polytree, which is uniquely represented by a CPDAG. On the other hand, necessary conditions on the required sample sizes for both skeleton and CPDAG recovery are also derived in terms of information-theoretic lower bounds, which match the respective sufficient conditions and thereby give a sharp characterization of the difficulty of these tasks. We also consider the problem of inverse correlation matrix estimation under the linear polytree models, and establish the estimation error bound in terms of the dimension and the total number of v-structures. We also consider an extension of group linear polytree models, in which each node represents a group of variables. Our theoretical findings are illustrated by comprehensive numerical simulations, and experiments on benchmark data also demonstrate the robustness of polytree learning when the true graphical structures can only be approximated by polytrees.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-14
# スパースグラフの滑らかな匿名性

Smooth Anonymity for Sparse Graphs ( http://arxiv.org/abs/2207.06358v2 )

ライセンス: Link先を確認
Alessandro Epasto, Hossein Esfandiari, Vahab Mirrokni, Andres Munoz Medina, (参考訳) 適切に定義されたプライバシ保証を提供するユーザデータを扱う場合、最重要である。 本研究では,スパースデータセット全体を第三者とプライベートに操作し,共有することを目的としている。 実際、差分プライバシは、プライバシのゴールドスタンダードとして現れていますが、スパースデータセット、例えばスパースネットワークを主要な結果の1つとして共有することに関して、初期データセットと合理的に類似した状態を維持するための差分プライバシメカニズムが、非常に弱いプライバシ保証を持つ運命にあることを証明しています。 このような状況では、$k$-anonymity(匿名性)といった他のプライバシー概念を検討する必要があります。 本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。 さらに,我々の理論的保証を裏付ける実験的な評価を行い,そのアルゴリズムが匿名化データ上での下流機械学習タスクの性能を向上させることを示す。

When working with user data providing well-defined privacy guarantees is paramount. In this work, we aim to manipulate and share an entire sparse dataset with a third party privately. In fact, differential privacy has emerged as the gold standard of privacy, however, when it comes to sharing sparse datasets, e.g. sparse networks, as one of our main results, we prove that \emph{any} differentially private mechanism that maintains a reasonable similarity with the initial dataset is doomed to have a very weak privacy guarantee. In such situations, we need to look into other privacy notions such as $k$-anonymity. In this work, we consider a variation of $k$-anonymity, which we call smooth-$k$-anonymity, and design simple large-scale algorithms that efficiently provide smooth-$k$-anonymity. We further perform an empirical evaluation to back our theoretical guarantees and show that our algorithm improves the performance in downstream machine learning tasks on anonymized data.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-14
# ニューラルネットワークのリプシッツ連続性に関する基礎的研究

Some Fundamental Aspects about Lipschitz Continuity of Neural Networks ( http://arxiv.org/abs/2302.10886v4 )

ライセンス: Link先を確認
Grigory Khromov, Sidak Pal Singh, (参考訳) リプシッツ連続性は任意の予測モデルの重要な機能特性であり、その堅牢性、一般化、および敵の脆弱性を自然に支配する。 より厳密な境界の獲得と、特定のリプシッツ特性を強制するための異なる実践戦略の開発に焦点を当てた他の研究とは対照的に、ニューラルネットワークのリプシッツ挙動を徹底的に検討し、特徴付けることを目的としている。 このようにして、最も単純な下限と最も一般的な下限と上限の限界をなくすことにより、さまざまな設定(アーキテクチャ、データセット、ラベルノイズなど)で実証的な調査を行う。 この研究のハイライトとして、下リプシッツ境界の顕著な忠実さを示し、上と下の両方の境界における顕著な二重輝き傾向を特定し、ラベルノイズが関数の滑らかさと一般化に与える影響を説明する。

Lipschitz continuity is a crucial functional property of any predictive model, that naturally governs its robustness, generalisation, as well as adversarial vulnerability. Contrary to other works that focus on obtaining tighter bounds and developing different practical strategies to enforce certain Lipschitz properties, we aim to thoroughly examine and characterise the Lipschitz behaviour of Neural Networks. Thus, we carry out an empirical investigation in a range of different settings (namely, architectures, datasets, label noise, and more) by exhausting the limits of the simplest and the most general lower and upper bounds. As a highlight of this investigation, we showcase a remarkable fidelity of the lower Lipschitz bound, identify a striking Double Descent trend in both upper and lower bounds to the Lipschitz and explain the intriguing effects of label noise on function smoothness and generalisation.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-14
# Google OCRで書かれたチベット文字をベースとしたニューラルネットワークによる補正モデル

Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts ( http://arxiv.org/abs/2304.03427v2 )

ライセンス: Link先を確認
Queenie Luo, Yung-Sung Chuang, (参考訳) 人文科学の学者は、過去の歴史、宗教、社会政治構造を研究するために古代の写本に大きく依存している。 OCR技術を用いたこれらの貴重な写本のデジタル化に多くの努力が注がれているが、ほとんどの写本は、何世紀にもわたって、OCR(Optical Character Recognition)プログラムが、失明したグラフやページの汚れを捉えることを期待できないように、ブレンドされた。 本研究は,Google OCRによるチベット文字を用いたニューラルスペル補正モデルを用いて,OCRによる雑音の自動補正を行う。 本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。 まず、チベットの原文コーパスを2つの構造化データフレーム – ペアのおもちゃデータとペアのリアルデータ – に特徴付けました。 そこで我々は,信頼スコア機構をTransformerアーキテクチャに実装し,スペル訂正タスクを実行する。 Loss and Character Error Rateによると、Transformer + Confidence score mechanismアーキテクチャはTransformer, LSTM-2-LSTM, GRU-2-GRUアーキテクチャよりも優れていることが証明されている。 最後に, モデルのロバスト性を検討するために, 誤ったトークン, 注意の可視化, 自己注意のヒートマップを分析した。

Scholars in the humanities rely heavily on ancient manuscripts to study history, religion, and socio-political structures in the past. Many efforts have been devoted to digitizing these precious manuscripts using OCR technology, but most manuscripts were blemished over the centuries so that an Optical Character Recognition (OCR) program cannot be expected to capture faded graphs and stains on pages. This work presents a neural spelling correction model built on Google OCR-ed Tibetan Manuscripts to auto-correct OCR-ed noisy output. This paper is divided into four sections: dataset, model architecture, training and analysis. First, we feature-engineered our raw Tibetan etext corpus into two sets of structured data frames -- a set of paired toy data and a set of paired real data. Then, we implemented a Confidence Score mechanism into the Transformer architecture to perform spelling correction tasks. According to the Loss and Character Error Rate, our Transformer + Confidence score mechanism architecture proves to be superior to Transformer, LSTM-2-LSTM and GRU-2-GRU architectures. Finally, to examine the robustness of our model, we analyzed erroneous tokens, visualized Attention and Self-Attention heatmaps in our model.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-14
# キャビティ量子電気力学における量子触媒作用

Quantum catalysis in cavity quantum electrodynamics ( http://arxiv.org/abs/2305.19324v2 )

ライセンス: Link先を確認
A. de Oliveira Junior, Martí Perarnau-Llobet, Nicolas Brunner, Patryk Lipka-Bartosik, (参考訳) 触媒は、多くの科学分野、特に化学や生物学において重要な役割を担っている。 ここでは、原子が光学キャビティと相互作用するジャイアン・カミングスモデル(Jaynes-Cummings model)というパラダイム的な量子光学セットアップで触媒過程を示す。 原子は触媒の役割を担い、キャビティ内で非古典的な光を決定論的に生成することができる。 古典的」なコヒーレントな状態で調製された空洞を考慮し、原子状態と相互作用時間を適切に選択することを考えると、以下の性質を持つ進化が得られる。 第一に、空洞の状態は修正され、現在は非古典性(英語版)を特徴としている。 第二に、このプロセスは触媒であり、原子は決定論的に初期状態に戻され、何度も再利用される。 さらに, 本研究の結果は散逸下では堅牢であり, キャビティ損失と原子崩壊を含むシナリオに適用可能であることも示唆した。 最後に, この触媒過程の機構, 特に相関と量子コヒーレンスの主な役割を明らかにする。

Catalysis plays a key role in many scientific areas, most notably in chemistry and biology. Here we present a catalytic process in a paradigmatic quantum optics setup, namely the Jaynes-Cummings model, where an atom interacts with an optical cavity. The atom plays the role of the catalyst, and allows for the deterministic generation of non-classical light in the cavity. Considering a cavity prepared in a ``classical'' coherent state, and choosing appropriately the atomic state and the interaction time, we obtain an evolution with the following properties. First, the state of the cavity has been modified, and now features non-classicality, as witnessed by sub-Poissonian statistics or Wigner negativity. Second, the process is catalytic, in the sense that the atom is deterministically returned to its initial state exactly, and can be re-used multiple times. What is more, we also show that our findings are robust under dissipation and can be applied to scenarios featuring cavity loss and atomic decay. Finally, we investigate the mechanism of this catalytic process, in particular highlighting the key role of correlations and quantum coherence.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-14
# ベンガル語におけるフェイクニュースに対処する: 要約と拡張が事前訓練された言語モデルに与える影響を明らかにする

Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models ( http://arxiv.org/abs/2307.06979v2 )

ライセンス: Link先を確認
Arman Sakif Chowdhury, G. M. Shahariar, Ahammed Tarik Aziz, Syed Mohibul Alam, Md. Azad Sheikh, Tanveer Ahmed Belal, (参考訳) ソーシャルメディアやオンラインニュースソースの台頭により、フェイクニュースは世界中で大きな問題となっている。 しかし、ベンガル語のような低資源言語における偽ニュースの検出は、研究において限られた関心を集めている。 本稿では,ベンガル語における偽ニュース記事の分類方法として,5つの事前学習言語モデルを用いた要約と拡張手法を提案する。 弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。 我々の研究は、BERTベースのモデルのトークン長制限に対処するため、ニュースの要約にも重点を置いている。 広汎な実験と厳密な評価を通じて,ベンガルの偽ニュース検出における要約と拡張の有効性を示す。 3つの異なるテストデータセットを用いてモデルを評価した。 BanglaBERTベースモデルは、拡張テクニックと組み合わせて、最初のテストデータセットで96%の精度を達成した。 第2のテストデータセットでは、要約されたニュース記事でトレーニングされたBanglaBERTモデルが97%の精度を達成した。 最後に、mBERTベースモデルは、一般化性能評価のために予約された第3のテストデータセットで86%の精度を達成した。 データセットと実装はhttps://github.com/arman-sakif/Bengali-Fake-News-Detectionで公開されている。

With the rise of social media and online news sources, fake news has become a significant issue globally. However, the detection of fake news in low resource languages like Bengali has received limited attention in research. In this paper, we propose a methodology consisting of four distinct approaches to classify fake news articles in Bengali using summarization and augmentation techniques with five pre-trained language models. Our approach includes translating English news articles and using augmentation techniques to curb the deficit of fake news articles. Our research also focused on summarizing the news to tackle the token length limitation of BERT based models. Through extensive experimentation and rigorous evaluation, we show the effectiveness of summarization and augmentation in the case of Bengali fake news detection. We evaluated our models using three separate test datasets. The BanglaBERT Base model, when combined with augmentation techniques, achieved an impressive accuracy of 96% on the first test dataset. On the second test dataset, the BanglaBERT model, trained with summarized augmented news articles achieved 97% accuracy. Lastly, the mBERT Base model achieved an accuracy of 86% on the third test dataset which was reserved for generalization performance evaluation. The datasets and implementations are available at https://github.com/arman-sakif/Bengali-Fake-News-Detection
翻訳日:2024-05-16 18:31:50 公開日:2024-05-14
# 一般化された測定による修正オットーサイクルと修正スワップによる冷凍

Refrigeration by modified Otto cycles and modified swaps through generalized measurements ( http://arxiv.org/abs/2308.08532v3 )

ライセンス: Link先を確認
Naghi Behzadi, (参考訳) そこで本研究では,Ottoサイクル冷凍機を一般化した測定チャネルで改良し,熱力学的冷凍サイクルを2種類導入した。 これらの冷凍機は、測定ベースストロークの前(第1種)および後(第2種)の活性化に対応し、関連するオットーサイクルにおける冷蔵装置による冷却媒体の完全熱化を行う。 我々は, 既知のオットーサイクル冷凍機の古典冷却以上の測定強度パラメータで, 第一種冷凍機の性能係数が線形に増加することを示した。 第2のタイプは、修正サイクルに沿って測定チャネルによって誘導される量子エンジンによって供給される別の自律冷凍機を興味深い形で導入する。 また, 検討された測定チャネルにより, スワップ冷凍機に改良を加えている。 得られた改造スワップ冷凍機の熱力学特性は, オットーサイクルの熱力学特性と同じであることがわかった。

We introduce two types of thermodynamic refrigeration cycles obtained through modification of the Otto cycle refrigerator by a generalized measurement channel. These refrigerators are corresponding to the activation of the measurement-based stroke before (first type) and after (second type) the full thermalization of the cooling medium by the cold reservoir in the related familiar Otto cycle. We show that the coefficient of performance for the first type modified refrigerator increases linearly in terms of measurement strength parameter, beyond the classical cooling of the known Otto cycle refrigerator. The second type interestingly introduces another autonomous refrigerator whose supplying work is provided by a quantum engine induced by the measurement channel along the modified cycle. By the considered measurement channel, we also establish such modifications on the swap refrigerator. It is observed that the thermodynamic properties of the obtained modified swap refrigerators are the same as of the modified Otto cycle ones respectively.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-14
# 散逸性光格子の空間準周期駆動と無作為拡散冷原子雲におけるブリルアンモードの起源

Spatial quasiperiodic driving of a dissipative optical lattice and origin of directed Brillouin modes in a randomly diffusing cold atom cloud ( http://arxiv.org/abs/2309.03325v2 )

ライセンス: Link先を確認
David Cubero, Kefeng Jiang, Alexander Staron, Casey Scoggins, Daniel Wingert, Ian Dilyard, Stone Oliver, Samir Bali, (参考訳) 3次元の散逸性光学格子に閉じ込められた原子はポテンシャル井戸の内部で振動し、時には隣接する井戸に飛びつき、あらゆる方向に拡散する。 弱いプローブビームによる照明は格子を変調し、プローブの移動方向と垂直に移動するブリルアンモードと呼ばれる原子密度波を伝播させる。 プローブは、格子対称軸に対して小さな角度で入射し、下層の光電位の周期の倍の空間周期を持たない駆動電位摂動を生じさせ、空間準周期駆動の機構の探索を可能にする。 理論は、電流のフーリエ分解を原子密度波の寄与に基いて、従来研究されていた準周期格子とは異なり、2つの非共振周波数で駆動される格子が準周期から周期への駆動遷移として誘導電流の急激な抑制を示す可能性があることを示し、空間準周期的に駆動される格子はそのような急激な応答を示さない。 さらに、空間準周期的に駆動された格子の詳細なモデリングにより、伝播変調と井戸内を振動する原子の平均速度との間の速度マッチングの結果だけでなく、変調周波数と振動周波数の間の周波数マッチングという新しいメカニズムの明確な結果として、進行伝播が生じることが明らかとなった。 送信されたプローブスペクトルをオフ軸プローブ角の関数として, 詳細なモデルによる速度・周波数マッチング予測と整合性を示す。

Atoms confined in a three-dimensional dissipative optical lattice oscillate inside potential wells, occasionally hopping to adjacent wells, thereby diffusing in all directions. Illumination by a weak probe beam modulates the lattice, yielding propagating atomic density waves, referred to as Brillouin modes which travel perpendicular to the direction of travel of the probe. The probe is made incident at a small angle relative to a lattice symmetry axis, yielding a driving potential perturbation whose spatial period is not a multiple of the period of the underlying optical potential, thus enabling exploration of the regime of space quasiperiodic drive. A theory, based on the Fourier decomposition of the current into its atomic density wave contributions, reveals that unlike the previously studied time quasiperiodic case, wherein a lattice driven by two incommensurate frequencies may exhibit abrupt suppression in directed current as the driving transitions from quasiperiodic to periodic, a spatial-quasiperiodically driven lattice exhibits no such abrupt response. Further, detailed modeling of spatial-quasiperiodically driven lattices reveals that directed propagation occurs not only as a consequence of velocity-matching between the propagating modulation and the average velocity of the atom oscillating inside a well as was previously reported in the literature, but also as a distinct consequence of a new mechanism, namely, frequency-matching between the modulation frequency and the oscillation frequencies. A systematic measurement of the transmitted probe spectra as a function of off-axis probe angle is presented, which is consistent with the velocity- and frequency-matching predictions from the detailed model.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-14
# 生成的画像ダイナミクス

Generative Image Dynamics ( http://arxiv.org/abs/2309.07906v3 )

ライセンス: Link先を確認
Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski, (参考訳) 本研究では,シーン動作に先立って画像空間をモデル化する手法を提案する。 我々の先行研究は、木、花、ろうそく、風に揺れる服など、自然で振動的なダイナミクスを描写した実映像から抽出された運動軌跡の収集から得られたものである。 我々は、フーリエ領域に先立って、この密集した長期的な動きをモデル化する: 訓練されたモデルでは、周波数調整された拡散サンプリングプロセスを用いてスペクトル体積を予測し、ビデオ全体にわたる動きのテクスチャに変換することができる。 画像ベースのレンダリングモジュールとともに、これらのトラジェクトリは、静止画をシームレスにループするビデオに変えたり、スペクトルボリュームを画像空間のモーダルベースとして解釈することで、実際の画像内のオブジェクトと現実的に対話できるようにするなど、多数のダウンストリームアプリケーションに使用することができる。

We present an approach to modeling an image-space prior on scene motion. Our prior is learned from a collection of motion trajectories extracted from real video sequences depicting natural, oscillatory dynamics such as trees, flowers, candles, and clothes swaying in the wind. We model this dense, long-term motion prior in the Fourier domain:given a single image, our trained model uses a frequency-coordinated diffusion sampling process to predict a spectral volume, which can be converted into a motion texture that spans an entire video. Along with an image-based rendering module, these trajectories can be used for a number of downstream applications, such as turning still images into seamlessly looping videos, or allowing users to realistically interact with objects in real pictures by interpreting the spectral volumes as image-space modal bases, which approximate object dynamics.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-14
# 2元最適化問題に対する固定点グロバー適応探索

Fixed-point Grover Adaptive Search for Binary Optimization Problems ( http://arxiv.org/abs/2311.05592v3 )

ライセンス: Link先を確認
Ákos Nagy, Jaime Park, Cindy Zhang, Atithi Acharya, Alex Khan, (参考訳) 二次二項最適化問題に対するGrover-type法について検討する。 制約のない (QUBO) の場合、$m$非ゼロ項を持つ$n$次元問題に対して、調整可能なパラメータを持つような問題に対して、$\Lambda \in \left[ 1, m \right] \cap \mathbb{Z}$ というマーカーオラクルを構築する。 d \in \mathbb{Z}_+$ 精度では、オラクルは$O \left(n + \Lambda d \right)$ qubitsを使用し、合計深さ$O \left( \tfrac{m}{\Lambda} \log_2 \left(n \right) + \log_2 \left(d \right) \right)$、非クリフォード深さ$O \left( \tfrac{m}{\Lambda} \right)$を持つ。 さらに、各キュービットは少なくとも$O \left( \log_2 \left( \Lambda + d \right) \right)$他のキュービットに接続する必要がある。 最大グラフ切断の場合、$d = 2 \log_2 \left(n \right)$ は常に十分であり、マーカーオラクルの深さは $O \left( \log_2 \left(n \right) \right)$ のように浅くすることができる。 すべての$\Lambda$の値に対して、これらのオラクルの非クリフォードゲート数は、以前の構成よりも厳格に低い($\sim 2$の係数で)。 次に、我々のオラクル設計とハイブリッド固定点Grover Search of Li et al [9] を用いて、新しいQUBO問題に対するemph{Fixed-point Grover Adaptive Searchを紹介した。 この方法はGrover Adaptive Search of Gilliam et al [5]よりも優れた性能を保証する。 最後に、高い確率と$O \left( \tfrac{\log_2 \left(n \right)}{\sqrt{\epsilon}} \right)$timeにおいて、この適応的手法は最良の$\epsilon 2^n$の設定を見つける。

We study a Grover-type method for Quadratic Binary Optimization problems. In the unconstrained (QUBO) case, for an $n$-dimensional problem with $m$ nonzero terms, we construct a marker oracle for such problems with a tuneable parameter, $\Lambda \in \left[ 1, m \right] \cap \mathbb{Z}$. At $d \in \mathbb{Z}_+$ precision, the oracle uses $O \left( n + \Lambda d \right)$ qubits, has total depth $O \left( \tfrac{m}{\Lambda} \log_2 \left( n \right) + \log_2 \left( d \right) \right)$, and non-Clifford depth of $O \left( \tfrac{m}{\Lambda} \right)$. Moreover, each qubit required to be connected to at most $O \left( \log_2 \left( \Lambda + d \right) \right)$ other qubits. In the case of a maximal graph cuts, as $d = 2 \log_2 \left( n \right)$ always suffices, the depth of the marker oracle can be made as shallow as $O \left( \log_2 \left( n \right) \right)$. For all values of $\Lambda$, the non-Clifford gate count of these oracles is strictly lower (by a factor of $\sim 2$) than previous constructions [5]. We then introduce a novel \emph{Fixed-point Grover Adaptive Search for QUBO Problems}, using our oracle design and a hybrid Fixed-point Grover Search of Li et al. [9]. This method has better performance guarantees than the Grover Adaptive Search of Gilliam et al. [5]. Finally, we give a heuristic argument that, with high probability and in $O \left( \tfrac{\log_2 \left( n \right)}{\sqrt{\epsilon}} \right)$ time, this adaptive method finds a configuration that is among the best $\epsilon 2^n$ ones.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-14
# BioCLIP:生命樹のビジョン基盤モデル

BioCLIP: A Vision Foundation Model for the Tree of Life ( http://arxiv.org/abs/2311.18803v3 )

ライセンス: Link先を確認
Samuel Stevens, Jiaman Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, Yu Su, (参考訳) ドローンから携帯電話まで、さまざまなカメラで収集された自然界の画像は、生物情報の豊富さを増している。 科学と保存のために画像から生物学的に関連のある情報を抽出する計算方法やツール、特にコンピュータビジョンが爆発的に増えている。 しかし、これらのほとんどは特定のタスク用に設計され、新しい質問やコンテキスト、データセットに容易に適応または拡張できない、目覚ましいアプローチである。 画像上の生物生物学の一般的な疑問に対するビジョンモデルは、タイムリーに必要である。 この問題に対処するため、我々は、最も大きく、最も多様な生物学画像のML対応データセットであるTreeOfLife-10Mをキュレートし、リリースする。 次に,生命樹の基盤モデルであるBioCLIPを開発し,TreeOfLife-10Mが捉えた生物のユニークな特性,すなわち植物,動物,菌類の豊富で多様なイメージを活用するとともに,リッチな構造化された生物学的知識の活用を可能にした。 様々な微細な生物分類タスクに対する我々のアプローチを厳格にベンチマークし、BioCLIPが既存のベースライン(絶対値16%から17%)を一貫して大幅に上回っていることを発見した。 内在的評価は、BioCLIPが生命の樹の階層的な表現を学び、その強い一般化性に光を当てたことを示している。 https://imageomics.github.io/bioclipにはモデル、データ、コードがあります。

Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks and find that BioCLIP consistently and substantially outperforms existing baselines (by 16% to 17% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. https://imageomics.github.io/bioclip has models, data and code.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-14
# p-進量子力学, ディラック方程式, アインシュタイン因果性違反

p-Adic Quantum Mechanics, the Dirac Equation, and the violation of Einstein causality ( http://arxiv.org/abs/2312.02744v3 )

ライセンス: Link先を確認
W. A. Zúñiga-Galindo, (参考訳) 本稿では、量子力学におけるプランク長におけるローレンツ対称性の破れについて研究する。 位置変数として3次元の p-進ベクトルを用いるが、時間は実数のままである。 この設定では、プランク長は 1/p であり、p は素数であり、ローレンツ対称性は自然に破られる。 量子力学のディラック・ヴォン・ノイマン形式論の枠組みでは、粒子や反粒子の存在を予測し、標準粒子のように電荷共役を予測できる新しいp進ディラック方程式を導入する。 p-進空間の離散性は、新しい方程式の解にかなりの制限を与える。 この方程式は、標準の場合では不可能な局所解を許容する。 p-進ディラック方程式によって進化が制御される孤立量子系がアインシュタイン因果性を満たすことが示され、これは光の速度が従来の物質やエネルギーが空間を移動する速度の上限ではないことを意味する。 新しい p-進ディラック方程式は標準方程式を置き換えることを意図していないが、プランク長スケールにおける古典方程式の新しいバージョン(または極限)として理解すべきである。

This article studies the breaking of the Lorentz symmetry at the Planck length in quantum mechanics. We use three-dimensional p-adic vectors as position variables, while the time remains a real number. In this setting, the Planck length is 1/p, where p is a prime number, and the Lorentz symmetry is naturally broken. In the framework of the Dirac-von Neumann formalism for quantum mechanics, we introduce a new p-adic Dirac equation that predicts the existence of particles and antiparticles and charge conjugation like the standard one. The discreteness of the p-adic space imposes substantial restrictions on the solutions of the new equation. This equation admits localized solutions, which is impossible in the standard case. We show that an isolated quantum system whose evolution is controlled by the p-adic Dirac equation does not satisfy the Einstein causality, which means that the speed of light is not the upper limit for the speed at which conventional matter or energy can travel through space. The new p-adic Dirac equation is not intended to replace the standard one; it should be understood as a new version (or a limit) of the classical equation at the Planck length scale.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-14
# 局所位相誤差推定を用いたディジタルツインニングのための無線レイトレーシングの校正

Calibrating Wireless Ray Tracing for Digital Twinning using Local Phase Error Estimates ( http://arxiv.org/abs/2312.12625v2 )

ライセンス: Link先を確認
Clement Ruah, Osvaldo Simeone, Jakob Hoydis, Bashir Al-Hashimi, (参考訳) シミュレーションインテリジェンスの原理を具現化し、デジタルツイン(DT)システムは物理システムの高忠実な仮想モデルを構築し維持する。 本稿では,次世代無線システムにおける無線アクセスネットワーク(RAN)セグメントのDTを可能にする技術として広く見なされているレイトレーシング(RT)に焦点を当てる。 RTはチャネル条件をシミュレートし、データ拡張と予測ベースの送信を可能にする。 しかし、RTヒンジの有効性は、RTが想定する電磁特性の実際のチャネル条件への適応(キャリブレーションと呼ばれるプロセス)に影響を及ぼす。 RTキャリブレーションの主な課題は、RTソフトウェアに供給される幾何学的モデルの小さな相違が、シミュレーションされた伝搬経路の予測位相の精度を妨げているという事実である。 この問題の既存の解決策は、チャネル電力プロファイルに依存するか、相情報を無視するか、あるいはシミュレーションされた位相をキャリブレーションに十分正確なものと仮定してチャネル応答を操作する。 本稿では,RT生成したチャネル応答の位相誤差を推定・補償する,新しいチャネル応答に基づく手法を提案する。 提案手法は,位相誤差のない決定論的モデルと均一な位相誤差を持つ確率的モデルとをブリッジする事前位相誤差分布を柔軟に選択した変動予測最大化アルゴリズムに基づく。 このアルゴリズムは計算効率が高く、Sionnaライブラリで利用可能なオープンソースの差別化可能なRTソフトウェアを活用して、RT予測の精度で既存の手法より優れていることを示す。

Embodying the principle of simulation intelligence, digital twin (DT) systems construct and maintain a high-fidelity virtual model of a physical system. This paper focuses on ray tracing (RT), which is widely seen as an enabling technology for DTs of the radio access network (RAN) segment of next-generation disaggregated wireless systems. RT makes it possible to simulate channel conditions, enabling data augmentation and prediction-based transmission. However, the effectiveness of RT hinges on the adaptation of the electromagnetic properties assumed by the RT to actual channel conditions, a process known as calibration. The main challenge of RT calibration is the fact that small discrepancies in the geometric model fed to the RT software hinder the accuracy of the predicted phases of the simulated propagation paths. Existing solutions to this problem either rely on the channel power profile, hence disregarding phase information, or they operate on the channel responses by assuming the simulated phases to be sufficiently accurate for calibration. This paper proposes a novel channel response-based scheme that, unlike the state of the art, estimates and compensates for the phase errors in the RT-generated channel responses. The proposed approach builds on the variational expectation maximization algorithm with a flexible choice of the prior phase-error distribution that bridges between a deterministic model with no phase errors and a stochastic model with uniform phase errors. The algorithm is computationally efficient, and is demonstrated, by leveraging the open-source differentiable RT software available within the Sionna library, to outperform existing methods in terms of the accuracy of RT predictions.
翻訳日:2024-05-16 18:02:32 公開日:2024-05-14
# LLMをプログラマとした完全ゼロショット合成視覚推論に向けて

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers ( http://arxiv.org/abs/2401.01974v2 )

ライセンス: Link先を確認
Aleksandar Stanić, Sergi Caelles, Michael Tschannen, (参考訳) 視覚的推論は、数十億のモデルパラメータとトレーニング例にスケールされたエンドツーエンドのニューラルネットワークによって支配される。 しかし、最も大きなモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。 コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。 近年,これらのモデルは,構成的視覚的質問応答,視覚的接地,映像的時間的推論といったタスクにおいて,優れた性能を発揮している。 しかしながら、現在の形式では、これらのモデルはプロンプト内のコンテキスト内サンプルのヒューマンエンジニアリングに大きく依存しており、しばしばデータセットとタスク固有であり、高度に熟練したプログラマが多大な労力を必要とする。 本研究では、空間的・時間的に抽象的なルーチンを導入し、少数のラベル付き例を利用してインコンテキストの例を自動的に生成し、人間が作成したインコンテキストの例を避けることによって、これらの問題を緩和するフレームワークを提案する。 多くの視覚的推論タスクにおいて、我々のフレームワークは、パフォーマンスの一貫して向上し、コントローラとしてのLCMをより堅牢にし、コンテキスト内サンプルのヒューマンエンジニアリングの必要性を排除している。

Visual reasoning is dominated by end-to-end neural networks scaled to billions of model parameters and training examples. However, even the largest models struggle with compositional reasoning, generalization, fine-grained spatial and temporal reasoning, and counting. Visual reasoning with large language models (LLMs) as controllers can, in principle, address these limitations by decomposing the task and solving subtasks by orchestrating a set of (visual) tools. Recently, these models achieved great performance on tasks such as compositional visual question answering, visual grounding, and video temporal reasoning. Nevertheless, in their current form, these models heavily rely on human engineering of in-context examples in the prompt, which are often dataset- and task-specific and require significant labor by highly skilled programmers. In this work, we present a framework that mitigates these issues by introducing spatially and temporally abstract routines and by leveraging a small number of labeled examples to automatically generate in-context examples, thereby avoiding human-created in-context examples. On a number of visual reasoning tasks, we show that our framework leads to consistent gains in performance, makes LLMs as controllers setup more robust, and removes the need for human engineering of in-context examples.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-14
# ChatQA: 会話型QAおよびRAG上でのGPT-4の通過

ChatQA: Surpassing GPT-4 on Conversational QA and RAG ( http://arxiv.org/abs/2401.10225v3 )

ライセンス: Link先を確認
Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 本稿では,検索強化生成(RAG)と会話型質問応答(QA)において,GPT-4よりも優れたモデル群であるChatQAを紹介する。 そこで本研究では,RAGの性能を大幅に向上させる2段階の命令チューニング手法を提案する。 効率よく検索するために,対話型QAに最適化された高密度検索器を導入し,既存のクエリ書き換えモデルに匹敵する結果を得るとともに,展開コストを大幅に削減する。 また、RAG、テーブル関連QA、算術計算、解決不可能な質問を含むシナリオに関する総合的な評価を含む10のデータセットを含むChatRAG Benchを提案する。 我々のChatQA-1.0-70B(スコア:54.14)は、GPT-4よりも弱い基礎モデルであるLlama2上に構築され、OpenAI GPTモデルの合成データに頼ることなく、ChatRAG Bench上でGPT-4-0613(スコア:53.90)とGPT-4-Turbo-2024-04-09(スコア:54.03)をわずかに上回ることができる。 特に、Llama3-ChatQA-1.5-70BモデルはGPT-4-Turbo-2024-04-09の精度をマージンで上回る。 この分野での研究を進めるために、我々はモデルウェイト、チューニングデータ、ChatRAG Bench、およびコミュニティ向けのレトリバーをオープンソース化した。

In this work, we introduce ChatQA, a suite of models that outperform GPT-4 on retrieval-augmented generation (RAG) and conversational question answering (QA). To enhance generation, we propose a two-stage instruction tuning method that significantly boosts the performance of RAG. For effective retrieval, we introduce a dense retriever optimized for conversational QA, which yields results comparable to the alternative state-of-the-art query rewriting models, while substantially reducing deployment costs. We also present the ChatRAG Bench, which encompasses ten datasets covering comprehensive evaluations on RAG, table-related QA, arithmetic calculations, and scenarios involving unanswerable questions. Our ChatQA-1.0-70B (score: 54.14), built on Llama2, a weaker foundation model than GPT-4, can slightly outperform GPT-4-0613 (score: 53.90) and GPT-4-Turbo-2024-04-09 (score: 54.03) on the ChatRAG Bench, without relying on any synthetic data from OpenAI GPT models. Notably, Llama3-ChatQA-1.5-70B model surpasses the accuracy of GPT-4-Turbo-2024-04-09 by a margin. To advance research in this field, we open-sourced the model weights, instruction tuning data, ChatRAG Bench, and retriever for the community: https://chatqa-project.github.io/.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-14
# 非社会的インテリジェンス : AGI談話の想定に関する考察

Unsocial Intelligence: an Investigation of the Assumptions of AGI Discourse ( http://arxiv.org/abs/2401.13142v3 )

ライセンス: Link先を確認
Borhane Blili-Hamelin, Leif Hancox-Li, Andrew Smart, (参考訳) 人間の知能に匹敵する機械の夢は、その誕生以来AIの分野を形成してきた。 しかし、人間レベルのAIや人工知能(Artificial General Intelligence, AGI)の意味は、いまだ解明されていない。 AGIの定義は、様々な非互換な値と仮定を受け入れている。 AGI談話の破局的な世界観は、異なる価値観や未来を追求する批判に不可欠である。 この目的のために、我々は、AGI定義の分類を提供し、彼らが行う重要な社会的、政治的、倫理的仮定を調べるための基盤を築き上げます。 これらの定義がAGIや人間レベルのAIを技術的なトピックとして捉え、暗黙的に選択される価値の高い選択肢を明らかにするインスタンスを強調します。 フェミニスト、STS、社会科学の奨学金をもとに、人間と機械の両方における知能の政治的・社会的性格を描き、未来の機械知能を想像するための文脈的・民主的・参加的な経路を提案する。 将来のAIの発展には、それがエンコードする価値、それを含むか排除する人々、および認識論的正義へのコミットメントへの明確な注意が必要である。

Dreams of machines rivaling human intelligence have shaped the field of AI since its inception. Yet, the very meaning of human-level AI or artificial general intelligence (AGI) remains elusive and contested. Definitions of AGI embrace a diverse range of incompatible values and assumptions. Contending with the fractured worldviews of AGI discourse is vital for critiques that pursue different values and futures. To that end, we provide a taxonomy of AGI definitions, laying the ground for examining the key social, political, and ethical assumptions they make. We highlight instances in which these definitions frame AGI or human-level AI as a technical topic and expose the value-laden choices being implicitly made. Drawing on feminist, STS, and social science scholarship on the political and social character of intelligence in both humans and machines, we propose contextual, democratic, and participatory paths to imagining future forms of machine intelligence. The development of future forms of AI must involve explicit attention to the values it encodes, the people it includes or excludes, and a commitment to epistemic justice.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-14
# 先進的なアーティストの意見:AI生成芸術における透明性、オーナーシップ、公正性に関する調査研究

Foregrounding Artist Opinions: A Survey Study on Transparency, Ownership, and Fairness in AI Generative Art ( http://arxiv.org/abs/2401.15497v4 )

ライセンス: Link先を確認
Juniper Lovato, Julia Zimmerman, Isabelle Smith, Peter Dodds, Jennifer Karson, (参考訳) 生成AIツールは、アートのようなアウトプットを作成し、時には創造的なプロセスを支援するために使用される。 これらのツールは芸術家に潜在的な利益をもたらすが、芸術労働を害し、芸術的・知的財産権を侵害する可能性がある。 ジェネレーティブAIのクリエーターは、アーティストからの明確な同意なく、アーチストのデジタル作品をスクラップして、ジェネレーティブAIモデルをトレーニングし、大規模にアートライクなアウトプットを生成する。 これらのアウトプットは、現在、市場での人間アーティストとの競争に使われ、また、生成過程においてアートを作成するアーティストによって使用されている。 我々は459人のアーティストを調査し、ジェネレーティブAIアートの潜在的有用性と害に関するアーティストの意見の緊張関係を調査した。 本研究では、生成AIアートモデルの有用性と脅威、AIアートトレーニングモデルにおける芸術作品の公開における公正な実践、AIアートデリバティブの所有と権利、公正な補償に関するアーティストの意見を調査する。 その結果、ほとんどのアーティストは、クリエーターがAIトレーニングで使用されているアートを開示し、AIアウトプットがモデルクリエーターに属さないことを信じ、AIがアートワークや彼らのアートから利益を得ていることへの懸念を表明している。 この研究の結果が、アートコミュニティとジェネレーティブAI研究者と開発者の間で、より有意義なコラボレーションと整合性をもたらすことを期待しています。

Generative AI tools are used to create art-like outputs and sometimes aid in the creative process. These tools have potential benefits for artists, but they also have the potential to harm the art workforce and infringe upon artistic and intellectual property rights. Without explicit consent from artists, Generative AI creators scrape artists' digital work to train Generative AI models and produce art-like outputs at scale. These outputs are now being used to compete with human artists in the marketplace as well as being used by some artists in their generative processes to create art. We surveyed 459 artists to investigate the tension between artists' opinions on Generative AI art's potential utility and harm. This study surveys artists' opinions on the utility and threat of Generative AI art models, fair practices in the disclosure of artistic works in AI art training models, ownership and rights of AI art derivatives, and fair compensation. Results show that a majority of artists believe creators should disclose what art is being used in AI training, that AI outputs should not belong to model creators, and express concerns about AI's impact on the art workforce and who profits from their art. We hope the results of this work will further meaningful collaboration and alignment between the art community and Generative AI researchers and developers.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-14
# LLMを用いた目に見えないリポジトリのコンテクストAPI補完

Contextual API Completion for Unseen Repositories Using LLMs ( http://arxiv.org/abs/2405.04600v3 )

ライセンス: Link先を確認
Noor Nashid, Taha Shabani, Parsa Alian, Ali Mesbah, (参考訳) 大規模言語モデルは、多様なコード関連タスクに対処する上で大きな進歩を遂げた。 しかし、それらの採用は、実世界のドメイン固有の情報の欠如、例えばリポジトリ内のソフトウェアプロジェクトのAPI呼び出しなど、アウトプット生成の不整合によって妨げられている。 本稿では,API補完タスクのためのコードリポジトリ内で,グローバルおよびローカルなコンテキスト情報を活用することで幻覚を緩和する新しい手法を提案する。 当社のアプローチは、ローカルAPI補完の最適化に重点を置いて、コード補完タスクの洗練に適合しています。 ローカルAPIに対する洞察を導き出すため,API完了時に関連するインポートステートメントについて検討し,そのメソッドシグネチャから抽出する。 APIトークンの補完について、インライン変数を分析し、適切なインポートされたモジュールと相関付けすることで、利用可能なローカルAPIから最もコンテキストに関連のある提案をランク付けするアプローチを可能にします。 さらに、会話型のAPI補完には、プロジェクト全体にわたる検索ベースの検索で、開発者クエリに最も関連性の高いAPIを集めます。 提案したベンチマークであるAPIEvalのフレームワークには,当社のツールであるLANCEが採用されています。 平均精度は,APIトークン完了時の82.6%,会話API完了時の76.9%である。 平均して、LANCEはAPIトークンの補完と会話APIの補完で、Copilotを143%、Copilotを142%上回っている。 言語固有のトレーニングや微調整なしに、軽量なコンテキスト分析を多言語環境に適用することで、最小限の例と労力で効率的な実装が可能になることを示唆している。

Large language models have made substantial progress in addressing diverse code-related tasks. However, their adoption is hindered by inconsistencies in generating output due to the lack of real-world, domain-specific information, such as for intra-repository API calls for unseen software projects. We introduce a novel technique to mitigate hallucinations by leveraging global and local contextual information within a code repository for API completion tasks. Our approach is tailored to refine code completion tasks, with a focus on optimizing local API completions. We examine relevant import statements during API completion to derive insights into local APIs, drawing from their method signatures. For API token completion, we analyze the inline variables and correlate them with the appropriate imported modules, thereby allowing our approach to rank the most contextually relevant suggestions from the available local APIs. Further, for conversational API completion, we gather APIs that are most relevant to the developer query with a retrieval-based search across the project. We employ our tool, LANCE, within the framework of our proposed benchmark, APIEval, encompassing two different programming languages. Our evaluation yields an average accuracy of 82.6% for API token completion and 76.9% for conversational API completion tasks. On average, LANCE surpasses Copilot by 143% and 142% for API token completion and conversational API completion, respectively. The implications of our findings are substantial for developers, suggesting that our lightweight context analysis can be applied to multilingual environments without language-specific training or fine-tuning, allowing for efficient implementation with minimal examples and effort.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-14
# Almanac Copilot:自律的な電子健康記録ナビゲーションを目指す

Almanac Copilot: Towards Autonomous Electronic Health Record Navigation ( http://arxiv.org/abs/2405.07896v2 )

ライセンス: Link先を確認
Cyril Zakka, Joseph Cho, Gracia Fahed, Rohan Shad, Michael Moor, Robyn Fong, Dhamanpreet Kaur, Vishnu Ravi, Oliver Aalami, Roxana Daneshjou, Akshay Chaudhari, William Hiesinger, (参考訳) 臨床医は大量の時間を臨床文書に費やし、非効率性は医療の質に影響を与え、臨床医のバーンアウトを増加させる。 電子カルテ(EMR)の約束にもかかわらず、紙ベースの記録からの移行は、ユーザエクスペリエンスの低下、ドキュメントの負担の増加、警告疲労など、臨床医の健康と負の関連がある。 本研究では,臨床医が情報検索や注文の配置など,EMR固有のタスクで支援できる自律型エージェントであるAlmanac Copilotを紹介する。 EHR-QAは、実際の患者データに基づいて300の共通EHRクエリの合成評価データセットであり、Almanac Copilotは74%(n = 221タスク)のタスク完了率と平均スコアが2.45以上(95% CI:2.34-2.56)を得る。 本研究は,日常業務の自動化とドキュメンテーションプロセスの合理化により,現在のEMMシステムによって臨床医に課される認知負荷を軽減する自律エージェントの有意な可能性を明らかにする。

Clinicians spend large amounts of time on clinical documentation, and inefficiencies impact quality of care and increase clinician burnout. Despite the promise of electronic medical records (EMR), the transition from paper-based records has been negatively associated with clinician wellness, in part due to poor user experience, increased burden of documentation, and alert fatigue. In this study, we present Almanac Copilot, an autonomous agent capable of assisting clinicians with EMR-specific tasks such as information retrieval and order placement. On EHR-QA, a synthetic evaluation dataset of 300 common EHR queries based on real patient data, Almanac Copilot obtains a successful task completion rate of 74% (n = 221 tasks) with a mean score of 2.45 over 3 (95% CI:2.34-2.56). By automating routine tasks and streamlining the documentation process, our findings highlight the significant potential of autonomous agents to mitigate the cognitive load imposed on clinicians by current EMR systems.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-14
# 閉弱相互作用系の非コヒーレント進化は、ミクロ状態の確率の分配をもたらす

Non-coherent evolution of closed weakly interacting system leads to equidistribution of probabilities of microstates ( http://arxiv.org/abs/2402.14971v2 )

ライセンス: Link先を確認
A. P. Meilakhs, (参考訳) マクロ量子系の非コヒーレント進化の概念を導入する。 弱い相互作用を持つ系に対して、このような進化はマルコフ確率過程であることを示す。 過程を特徴づける系の状態間の遷移の速度は、フェルミの黄金律によって見出される。 このような進化は時間的に不可逆であり、系の全ての状態に確率の分配をもたらす。 さらに、単粒子状態における平均粒子数の時間依存性を探索し、その仮定の下でボルツマン衝突積分によって支配されることを示す。 この理論において、非コヒーレンス(英: non-coherence)とは、時間的に可逆なユニタリ進化を時間的に可逆な確率的進化に変換するメカニズムである。 このようにして、有名な時間的問題に対する可能な解を提示する。

We introduce a concept of non-coherent evolution of macroscopic quantum systems. We show that for weakly interacting systems such evolution is a Markovian stochastic process. The rates of transitions between states of the system, that characterize the process, are found by Fermi's golden rule. Such evolution is time-irreversible and leads to the equidistribution of probabilities across every state of the system. Further, we search for time dependence of mean numbers of particles in single-particle states and find that under made assumptions it is governed by Boltzmann collision integral. In this theory, the non-coherence is the mechanism that transforms time-reversible unitary evolution into time-irreversible stochastic evolution. Thus we present the possible solution for the famous time-arrow problem.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-14
# 直接空気捕獲用材料発見における量子コンピューティングの探索

Exploration of Quantum Computing in Materials Discovery for Direct Air Capture Applications ( http://arxiv.org/abs/2404.13122v2 )

ライセンス: Link先を確認
Marco Antonio Barroca, Rodrigo Neumann Barros Ferreira, Mathias Steiner, (参考訳) 二酸化炭素の直接空気捕捉(DAC)は気候変動を緩和するための有望な方法である。 金属-有機フレームワークのような固形剤は、現在DACアプリケーションでテストされている。 しかし、大規模に展開する可能性は完全には実現されていない。 膨大な化学探索空間と分子選択性に対するDAC要求を考えると、固体の吸着剤の計算的な発見は困難である。 量子コンピューティングは、分子結合エネルギーを予測することによって、DACのための固体の吸着剤の発見を加速させる可能性がある。 本研究では, 量子コンピュータを用いた金属-有機系におけるガス吸着のシミュレーション法とアルゴリズムについて検討する。 具体的には、典型的な金属-有機化合物の結合部位を表すMg+2金属中心におけるCO2,N2,H2O分子のポテンシャルエネルギー面をシミュレートする。 量子ビット-ADAPT-VQE法を用いて,従来の計算ハードウェアと量子コンピューティングハードウェアの両方でシミュレーションを行い,ハードウェア効率を保ちながら妥当な精度を実現する。

Direct air capture (DAC) of carbon dioxide is a promising method for mitigating climate change. Solid sorbents, such as metal-organic frameworks, are currently being tested for DAC application. However, their potential for deployment at scale has not been fully realized. The computational discovery of solid sorbents is challenging, given the vast chemical search space and the DAC requirements for molecular selectivity. Quantum computing can potentially accelerate the discovery of solid sorbents for DAC by predicting molecular binding energies. In this work, we explore simulation methods and algorithms for predicting gas adsorption in metal-organic frameworks using a quantum computer. Specifically, we simulate the potential energy surfaces of CO2, N2, and H2O molecules at the Mg+2 metal center that represents the binding sites of typical metal-organic frameworks. We apply the qubit-ADAPT-VQE technique to run simulations on both classical computing and quantum computing hardware, and achieve reasonable accuracy while maintaining hardware efficiency.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-14
# 個々の表面スピンの非共鳴電気量子制御

Non-resonant electric quantum control of individual on-surface spins ( http://arxiv.org/abs/2404.19036v2 )

ライセンス: Link先を確認
Santiago A. Rodríguez, Sergio S. Gómez, Joaquín Fernández-Rossier, Alejandro Ferrón, (参考訳) 量子制御技術は、孤立原子を含む異なる量子系の特性を操作し、活用する上で重要な役割を果たしている。 本稿では,STM(Scanning Tunneling Microscopy)により実装されたLandau-Zener-St\"uckelberg-Majorana (LZSM) 干渉計を用いて,単一表面原子スピン上の量子制御を実現することを提案する。 具体的には, MgO/Ag(100)表面上の孤立したFe原子において, 時間依存性の非共鳴交流電場をSTM先端表面ギャップにわたって適用することにより, 正確な量子状態操作を実現する方法についてモデル化する。 本研究では,Landau ZenerトンネルとLZSM干渉計を併用して,個々のFe原子の量子スピントンネルを測定するプロトコルを提案する。 提案実験はESR-STMインスツルメンテーションを用いて実施することができ、地上での単一スピン制御の研究に新たな場所を開くことができる。

Quantum control techniques play an important role in manipulating and harnessing the properties of different quantum systems, including isolated atoms. Here, we propose to achieve quantum control over a single on-surface atomic spin using Landau-Zener-St\"uckelberg-Majorana (LZSM) interferometry implemented with Scanning Tunneling Microscopy (STM). Specifically, we model how the application of time-dependent, non-resonant AC electric fields across the STM tip-surface gap makes it possible to achieve precise quantum state manipulation in an isolated Fe atom on a MgO/Ag(100) surface. We propose a protocol to combine Landau Zener tunneling with LZSM interferometry that permits one to measure the quantum spin tunneling of an individual Fe atom. The proposed experiments can be implemented with ESR-STM instrumentation, opening a new venue in the research of on-surface single spin control.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-14
# ViM-UNet:バイオメディカルセグメンテーションのためのビジョンマンバ

ViM-UNet: Vision Mamba for Biomedical Segmentation ( http://arxiv.org/abs/2404.07705v2 )

ライセンス: Link先を確認
Anwai Archit, Constantin Pape, (参考訳) CNN、特にUNetは、バイオメディカルセグメンテーションのデフォルトアーキテクチャである。 UNETRのようなトランスフォーマーベースのアプローチは、グローバルな視野から恩恵を受けながら、より大きなランタイムとより高いパラメータ数に悩まされている。 最近のVision Mambaアーキテクチャは、トランスフォーマーに代わる魅力的な代替手段を提供し、グローバルな視野を提供するが、効率は高い。 本稿では,新しいセグメンテーションアーキテクチャであるViM-UNetを紹介し,それをUNetとUNETRと比較する。 タスクによっては、UNetと同等かそれ以上の性能を示し、より効率的であると同時に、UNETRよりも優れています。 私たちのコードはオープンソースで、https://github.com/constantinpape/torch-em/blob/main/vimunet.mdでドキュメント化されています。

CNNs, most notably the UNet, are the default architecture for biomedical segmentation. Transformer-based approaches, such as UNETR, have been proposed to replace them, benefiting from a global field of view, but suffering from larger runtimes and higher parameter counts. The recent Vision Mamba architecture offers a compelling alternative to transformers, also providing a global field of view, but at higher efficiency. Here, we introduce ViM-UNet, a novel segmentation architecture based on it and compare it to UNet and UNETR for two challenging microscopy instance segmentation tasks. We find that it performs similarly or better than UNet, depending on the task, and outperforms UNETR while being more efficient. Our code is open source and documented at https://github.com/constantinpape/torch-em/blob/main/vimunet.md.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-14
# 量子エントロピー対の幾何学的問題

Quantum entropy couples matter with geometry ( http://arxiv.org/abs/2404.08556v3 )

ライセンス: Link先を確認
Ginestra Bianconi, (参考訳) 我々は、高次ネットワーク上の離散幾何学、すなわちセルコンプレックス上の物質場を結合する理論を提案する。 このアプローチの鍵となる考え方は、その計量の量子エントロピーを高次のネットワークに関連付けることである。 具体的には2つのコントリビューションを持つアクションを提案する。 最初の寄与は、計量による高次ネットワークに関連する体積の対数に比例する。 真空中で、この寄与は幾何学のエントロピーを決定する。 第二の寄与は、高次ネットワークの計量と物質とゲージ場によって誘導される計量の間の量子相対エントロピーである。 誘導計量はトポロジカルスピノルと離散ディラック作用素の項で定義される。 ノード、エッジ、高次元セルで定義されたトポロジカルスピノルは、物質場を符号化する。 離散ディラック作用素はトポロジカルスピノル上で作用し、高階ネットワークの計量と極小置換の離散版によるゲージ場に依存する。 距離、物質およびゲージ場に対する結合力学方程式を導出し、離散曲線空間における場理論方程式を得るための情報理論の原理を提供する。

We propose a theory for coupling matter fields with discrete geometry on higher-order networks, i.e. cell complexes. The key idea of the approach is to associate to a higher-order network the quantum entropy of its metric. Specifically we propose an action having two contributions. The first contribution is proportional to the logarithm of the volume associated to the higher-order network by the metric. In the vacuum this contribution determines the entropy of the geometry. The second contribution is the quantum relative entropy between the metric of the higher-order network and the metric induced by the matter and gauge fields. The induced metric is defined in terms of the topological spinors and the discrete Dirac operators. The topological spinors, defined on nodes, edges and higher-dimensional cells, encode for the matter fields. The discrete Dirac operators act on topological spinors, and depend on the metric of the higher-order network as well as on the gauge fields via a discrete version of the minimal substitution. We derive the coupled dynamical equations for the metric, the matter and the gauge fields, providing an information theory principle to obtain the field theory equations in discrete curved space.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-14
# 光子を用いたハードウェアランダム数生成のためのデータ解析法

Data Analysis Methods Preliminaries for a Photon-based Hardware Random Number Generator ( http://arxiv.org/abs/2404.09395v3 )

ライセンス: Link先を確認
Dmitriy Beznosko, Keith Driscoll, Fernando Guadarrama, Steven Mai, Nikolas Thornton, (参考訳) 現代の世界では、高品質な乱数が必要である。 サイバーセキュリティの暗号化キーから、科学的使用のためのモデルやシミュレーションまで、このランダムな数字は高品質で、迅速に達成できることが重要です。 乱数生成の一般的な解決策の1つは擬ランダム数生成器(PRNG)である。 PRNGは、予測不可能な現象を数または文字列に量子化し、そのシードに基づいてランダムに数を生成するアルゴリズムに入力することで、ランダムな数を生成する。 種を見つけるのが容易な場所には、ユーザのマウスの動きやマシンのアップタイムがある。 しかしこれらは擬似ランダムのみであり、同じ種が2回与えられた場合、PRNGは同じ「ランダム」出力を生成する。 これはMinecraftのようなゲームには最適ですが、サイバーセキュリティ暗号化キー生成には向いていません。 ハードウェア乱数生成器(HRNG)を用いることで、PRNGの欠陥に影響を受けない乱数を高速に得ることができる。

High quality random numbers are necessary in the modern world. Ranging from encryption keys in cyber security to models and simulations for scientific use: it's important that these random numbers are of high quality and quickly attainable. One common solution to the generation of random numbers is that of pseudo-random number generators, or PRNGs. PRNGs generate random numbers by first quantifying some unpredictable phenomena into a number or string and feeding it into an algorithm which yields numbers randomly based on that seed. Easy places to find seeds include the user's mouse movements or the machine's uptime. These are only pseudorandom, however, as if given the same seed twice, the PRNG would generate the same 'random' output. This is great for games like Minecraft, but not so great for cybersecurity encryption key generation. By using a hardware random number generator (HRNG), random numbers that are not susceptible to the flaws found in PRNGs can be attained at a high rate.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-14
# UPose3D:クロスビューとテンポラルクイズを用いた不確かさを意識した3次元人物位置推定

UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues ( http://arxiv.org/abs/2404.14634v2 )

ライセンス: Link先を確認
Vandad Davoodnia, Saeed Ghorbani, Marc-André Carbonneau, Alexandre Messier, Ali Etemad, (参考訳) UPose3Dは、多視点人間のポーズ推定のための新しいアプローチであり、精度とスケーラビリティの課題に対処する。 提案手法は,3Dアノテーションを直接必要とせず,ロバスト性や柔軟性を向上させることで,既存のポーズ推定フレームワークを進化させる。 提案手法のコアとなる2次元キーポイント推定器から,時間的・横断的な情報を活用することにより,1つの画像上で動作可能な2次元キーポイント推定器から,ポーズコンパイラモジュールが予測を洗練する。 我々の新しいクロスビュー融合戦略は、どんなカメラにもスケーラブルであり、合成データ生成戦略は、多様なアクター、シーン、視点の一般化を保証する。 最後に、UPose3Dは2Dキーポイント推定器とポーズコンパイラモジュールの両方の予測不確実性を利用する。 これにより、アウトレーヤやノイズの多いデータに対して堅牢性が提供され、アウト・オブ・ディストリビューション設定における最先端のパフォーマンスが実現します。 さらに、流通環境では、UPose3Dは3Dアノテートされたデータに依存するパフォーマンスに対抗し、2Dの監督のみに依存する手法の中でも最先端の手法である。

We introduce UPose3D, a novel approach for multi-view 3D human pose estimation, addressing challenges in accuracy and scalability. Our method advances existing pose estimation frameworks by improving robustness and flexibility without requiring direct 3D annotations. At the core of our method, a pose compiler module refines predictions from a 2D keypoints estimator that operates on a single image by leveraging temporal and cross-view information. Our novel cross-view fusion strategy is scalable to any number of cameras, while our synthetic data generation strategy ensures generalization across diverse actors, scenes, and viewpoints. Finally, UPose3D leverages the prediction uncertainty of both the 2D keypoint estimator and the pose compiler module. This provides robustness to outliers and noisy data, resulting in state-of-the-art performance in out-of-distribution settings. In addition, for in-distribution settings, UPose3D yields a performance rivaling methods that rely on 3D annotated data, while being the state-of-the-art among methods relying only on 2D supervision.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-14
# 深層学習を用いた解釈可能なENSO予測における初期誤差感度の同定

Using Deep Learning to Identify Initial Error Sensitivity for Interpretable ENSO Forecasts ( http://arxiv.org/abs/2404.15419v3 )

ライセンス: Link先を確認
Kinya Toride, Matthew Newman, Andrew Hoell, Antonietta Capotondi, Jakob Schlör, Dillon Amaya, (参考訳) モデルシミュレーションのレポジトリにおいて、モデル・アナログ予測と深層学習を統合し、類似した初期気候状態から予測を生成する、単純で効果的な手法であるモデル・アナログ予測を解釈可能なモデル・アナログとして導入する。 このハイブリッドフレームワークは、畳み込みニューラルネットワークを使用して、状態依存の重みを推定し、初期アナログ状態を特定し、標的軌道をシャドウイングする。 この手法の利点は、推定重みによる初期エラーに敏感な領域の洞察と、アナログ予測によるシステムの物理的進化を辿ることができるという点にある。 我々は,コミュニティアースシステムモデルバージョン2大アンサンブルを用いて,季節ごとの時間スケールでエルニコ~南方振動(ENSO)を予測した。 その結果,赤道太平洋海面温度異常を9~12ヶ月で予測する手法は,原型(未加重)モデルアナログ法と比較して10%改善した。 さらに,本モデルでは,再解析データセットと比較した場合の冬と春の初期化の改善を実証する。 提案手法は,太平洋メリディショナルモード,赤道リチャージ発振器,確率風力など,季節によって変化する様々な物理過程に関連付けられた状態依存性の地域感度を明らかにする。 さらに、El Ni\no と La Ni\~na イベントの感度に相違が生じる。 エルニーナ予測は熱帯太平洋の海面温度における初期不確実性に対してより敏感であり、ラニーナ予測は熱帯太平洋の帯状風ストレスにおける初期不確実性に対してより敏感である。 このアプローチは、地域温度や降水量を含む多様な気候現象を予測するために幅広い意味を持ち、元々のモデル・アナログのアプローチでは困難である。

We introduce an interpretable-by-design method, optimized model-analog, that integrates deep learning with model-analog forecasting, a straightforward yet effective approach that generates forecasts from similar initial climate states in a repository of model simulations. This hybrid framework employs a convolutional neural network to estimate state-dependent weights to identify initial analog states that lead to shadowing target trajectories. The advantage of our method lies in its inherent interpretability, offering insights into initial-error-sensitive regions through estimated weights and the ability to trace the physically-based evolution of the system through analog forecasting. We evaluate our approach using the Community Earth System Model Version 2 Large Ensemble to forecast the El Ni\~no-Southern Oscillation (ENSO) on a seasonal-to-annual time scale. Results show a 10% improvement in forecasting equatorial Pacific sea surface temperature anomalies at 9-12 months leads compared to the original (unweighted) model-analog technique. Furthermore, our model demonstrates improvements in boreal winter and spring initialization when evaluated against a reanalysis dataset. Our approach reveals state-dependent regional sensitivity linked to various seasonally varying physical processes, including the Pacific Meridional Modes, equatorial recharge oscillator, and stochastic wind forcing. Additionally, disparities emerge in the sensitivity associated with El Ni\~no versus La Ni\~na events. El Ni\~no forecasts are more sensitive to initial uncertainty in tropical Pacific sea surface temperatures, while La Ni\~na forecasts are more sensitive to initial uncertainty in tropical Pacific zonal wind stress. This approach has broad implications for forecasting diverse climate phenomena, including regional temperature and precipitation, which are challenging for the original model-analog approach.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-14
# 近似チャネルシミュレーションのサンプル複雑さについて

Some Notes on the Sample Complexity of Approximate Channel Simulation ( http://arxiv.org/abs/2405.04363v2 )

ライセンス: Link先を確認
Gergely Flamich, Lennie Wells, (参考訳) チャネルシミュレーションアルゴリズムは、所定のターゲット分布のランダムサンプルを$Q$で効率的にエンコードし、機械学習ベースの損失データ圧縮における応用を見つけることができる。 しかし、正確なサンプルをエンコードするアルゴリズムは、通常ランダムランタイムを持ち、一貫した符号化時間が望ましい場合に適用性を制限する。 そこで本研究では,固定ランタイムを用いた近似スキームについて検討する。 まず、Agustsson と Theis の結果を強化し、ターゲット分布の組 $Q$ と符号化分布 $P$ が存在し、任意の近似スキームのランタイムが $D_\infty[Q \Vert P]$ で少なくとも超多項式的にスケールすることを示す。 対照的に、非正規化されたRadon-Nikodym微分 $r \propto dQ/dP$ と $D_{KL}[Q \Vert P]$ の知識があれば、$\mathrm{TV}[Q \Vert P] \leq \epsilon$ と $\exp_2\big(D_{KL}[Q \Vert P] + o(1)) \big/ \epsilon\big($)$ を保証できる。

Channel simulation algorithms can efficiently encode random samples from a prescribed target distribution $Q$ and find applications in machine learning-based lossy data compression. However, algorithms that encode exact samples usually have random runtime, limiting their applicability when a consistent encoding time is desirable. Thus, this paper considers approximate schemes with a fixed runtime instead. First, we strengthen a result of Agustsson and Theis and show that there is a class of pairs of target distribution $Q$ and coding distribution $P$, for which the runtime of any approximate scheme scales at least super-polynomially in $D_\infty[Q \Vert P]$. We then show, by contrast, that if we have access to an unnormalised Radon-Nikodym derivative $r \propto dQ/dP$ and knowledge of $D_{KL}[Q \Vert P]$, we can exploit global-bound, depth-limited A* coding to ensure $\mathrm{TV}[Q \Vert P] \leq \epsilon$ and maintain optimal coding performance with a sample complexity of only $\exp_2\big((D_{KL}[Q \Vert P] + o(1)) \big/ \epsilon\big)$.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-14
# TLINet: ニューラルネットワークの時間論理推論

TLINet: Differentiable Neural Network Temporal Logic Inference ( http://arxiv.org/abs/2405.06670v2 )

ライセンス: Link先を確認
Danyang Li, Mingyu Cai, Cristian-Ioan Vasile, Roberto Tron, (参考訳) データからシステム動作の形式的な記述を抽出することへの関心が高まっている。 信号時相論理 (Signal Temporal Logic, STL) は、空間的時間的特性を解釈可能性で記述するために用いられる表現的形式言語である。 本稿では,STL式を学習するニューラルネットワークシンボリックフレームワークであるTLINetを紹介する。 TLINetの計算は微分可能であり、学習プロセス中に既製の勾配ベースのツールを使用することができる。 従来の手法とは対照的に,時間論理に基づく勾配法に特化して設計された最大演算子の近似法を導入し,STL満足度評価の正しさを保証した。 我々のフレームワークは、構造だけでなく、STL公式のパラメータも学習し、演算子と様々な論理構造の柔軟な組み合わせを可能にします。 我々はTLINetを最先端のベースラインに対して検証し、我々のアプローチが解釈可能性、コンパクト性、豊かな表現性、計算効率でこれらのベースラインより優れていることを示した。

There has been a growing interest in extracting formal descriptions of the system behaviors from data. Signal Temporal Logic (STL) is an expressive formal language used to describe spatial-temporal properties with interpretability. This paper introduces TLINet, a neural-symbolic framework for learning STL formulas. The computation in TLINet is differentiable, enabling the usage of off-the-shelf gradient-based tools during the learning process. In contrast to existing approaches, we introduce approximation methods for max operator designed specifically for temporal logic-based gradient techniques, ensuring the correctness of STL satisfaction evaluation. Our framework not only learns the structure but also the parameters of STL formulas, allowing flexible combinations of operators and various logical structures. We validate TLINet against state-of-the-art baselines, demonstrating that our approach outperforms these baselines in terms of interpretability, compactness, rich expressibility, and computational efficiency.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-14
# FlexiSCD: 動的欠陥のためのフレキシブルなSurface Code Deformer

FlexiSCD: Flexible Surface Code Deformer for Dynamic Defects ( http://arxiv.org/abs/2405.06941v2 )

ライセンス: Link先を確認
Keyi Yin, Xiang Fang, Yunong Shi, Travis Humble, Ang Li, Yufei Ding, (参考訳) 量子誤り訂正(Quantum Error Correction, QEC)符号は、物理量子ビットに冗長に量子情報を符号化することで、量子コンピュータをノイズから保護するために不可欠である。 しかし、動的欠陥は大きな課題となり、様々な量子プラットフォームにわたる計算中に物理量子ビットが故障する可能性がある。 現在の欠陥軽減戦略は表面コードに重点を置いているが、QEC能力の完全回復や論理演算の妨害に失敗することが多い。 本稿では,適応的欠陥軽減を表面コードワークフローに統合するコード変形フレームワークであるFlexiSCDを紹介する。 ゲージ変換に基づいて基本変形命令を戦略的に作成し、特定の欠陥に合わせて最適化されたプロセスを可能にし、QEC能力をより少ないキュービットリソースで効率的に復元する。 また、効率的な論理演算のための適応的なコードレイアウトも設計する。 評価の結果、FlexiSCDは、従来の手法に比べて、障害発生率を35\times\sim70\times$に下げ、キュービットリソースの半分しか必要としないことがわかった。 従来の欠陥除去技術を超え、QEC能力を保ち、表面コード通信を改善している。

Quantum Error Correction (QEC) codes are vital for protecting quantum computers from noise by encoding quantum information redundantly in physical qubits. However, dynamic defects pose a significant challenge, potentially rendering physical qubits faulty during computation across various quantum platforms. Current defect mitigation strategies focus on surface codes, but often fail to fully restore QEC capability or disrupt logical operations. In our paper, we introduce FlexiSCD, a code deformation framework that integrates adaptive defect mitigation into surface code workflows. It strategically crafts basic deformation instructions based on gauge transformations, enabling optimized processes tailored to specific defects, restoring QEC capability efficiently with fewer qubit resources. We also design an adaptive code layout for efficient logical operations. Our evaluation demonstrates that FlexiSCD reduces failure rates by $35\times\sim70\times$ and requires only half the qubit resources compared to previous methods. It surpasses previous defect removal techniques, preserving QEC capability and improving surface code communication.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-14
# 日本の人々は暗黒の商業パターンをシミュレートする

Deceptive, Disruptive, No Big Deal: Japanese People React to Simulated Dark Commercial Patterns ( http://arxiv.org/abs/2405.08831v1 )

ライセンス: Link先を確認
Katie Seaborn, Tatsuya Itagaki, Mizuki Watanabe, Yijia Wang, Ping Geng, Takao Fujii, Yuto Mandai, Miu Kojima, Suzuka Yoshida, (参考訳) ダークパターンと偽造デザイン(DP)は、ユーザーインターフェース要素であり、人々を騙してパーベイヤに利益をもたらすアクションを取る。 このようなデザインは広く展開されており、日本など一部の国では、グローバルな権力階層や地域社会言語的な使用状況に遡ることができる特色がある。 本報告では,日本人(n=30)が模擬DPを注入した模擬ショッピングサイトを経験する最初のユーザスタディについて報告する。 Alphabet Soup と Misleading Reference Pricing が最も軽蔑的で、目立たしくないことがわかりました。 社会的証明、アイテムのスニーキング、そしてアントランスレーションは最も軽蔑的ではなかったが、アントランスレーションは殆どの人がアカウントをキャンセルするのを妨げた。 ウェブサイトを体験した後、ムードは著しく悪化した。 ユーザ態度, 知覚, 行動を評価するためのスケーラブルなアプローチを, 対話的な文脈で評価する上で, 我が国の消費者ベースにおける最初の経験的知見を貢献する。 我々は、より人間的な研究と、業界と理想的に協力して、野生の本物のデザインを評価することを奨励します。

Dark patterns and deceptive designs (DPs) are user interface elements that trick people into taking actions that benefit the purveyor. Such designs are widely deployed, with special varieties found in certain nations like Japan that can be traced to global power hierarchies and the local socio-linguistic context of use. In this breaking work, we report on the first user study involving Japanese people (n=30) experiencing a mock shopping website injected with simulated DPs. We found that Alphabet Soup and Misleading Reference Pricing were the most deceptive and least noticeable. Social Proofs, Sneaking in Items, and Untranslation were the least deceptive but Untranslation prevented most from cancelling their account. Mood significantly worsened after experiencing the website. We contribute the first empirical findings on a Japanese consumer base alongside a scalable approach to evaluating user attitudes, perceptions, and behaviours towards DPs in an interactive context. We urge for more human participant research and ideally collaborations with industry to assess real designs in the wild.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-14
# 認知論:暗黒パターンと知覚設計の研究における理論のスコーピングレビュー

Theorizing Deception: A Scoping Review of Theory in Research on Dark Patterns and Deceptive Design ( http://arxiv.org/abs/2405.08832v1 )

ライセンス: Link先を確認
Weichen Joe Chang, Katie Seaborn, Andrew A. Adams, (参考訳) 日常のインターフェースやインタラクションにおける暗黒パターンや偽造設計(DP)の問題が増加し続けている。 DPは、ユーザーが意図しない選択をすることを欺くユーザーインターフェイスの中で、操作的で悪意のある要素である。 対照的に、過去20年間でDPの研究は大幅に増加した。 分野が成熟するにつれて、認識学的なギャップも健全で圧力のかかる関心事になっている。 このスコーピングレビューでは、2014年から2023年までの51件の学術論文を評価し、DP研究における理論の実態を明らかにした。 そこで我々は,これらの理論がどう参照されたのかを考察し,DP研究への理論の組み入れを強化することを求める。 また,様々な理論的スコープとレンズから将来のDP研究をコンテキスト化・通知するための,包括的で安定した基盤を確立するための幅広い理論的基盤も提案する。

The issue of dark patterns and deceptive designs (DPs) in everyday interfaces and interactions continues to grow. DPs are manipulative and malicious elements within user interfaces that deceive users into making unintended choices. In parallel, research on DPs has significantly increased over the past two decades. As the field has matured, epistemological gaps have also become a salient and pressing concern. In this scoping review, we assessed the academic work so far -- 51 papers between 2014 to 2023 -- to identify the state of theory in DP research. We identified the key theories employed, examined how these theories have been referenced, and call for enhancing the incorporation of theory into DP research. We also propose broad theoretical foundations to establish a comprehensive and solid base for contextualizing and informing future DP research from a variety of theoretical scopes and lenses.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 宇宙機に対する敵対的機械学習の脅威

Adversarial Machine Learning Threats to Spacecraft ( http://arxiv.org/abs/2405.08834v1 )

ライセンス: Link先を確認
Rajiv Thummala, Shristi Sharma, Matteo Calabrese, Gregory Falco, (参考訳) 宇宙機は最も初期の自律システムの一つである。 ループの中で人間なしで機能する能力は、人類の偉大な業績のいくつかを生んでいる。 自律性への依存が高まるにつれ、宇宙車両は、自律的なプロセス、特に機械学習に基づく確率論的プロセスを破壊するために設計された攻撃に対して、ますます脆弱になる。 本稿では、敵機械学習(AML)が宇宙船にもたらす脅威を解明し、実証することを目的とする。 まず、宇宙船のAML脅威分類を導入する。 次に、NASAのCore Flight System(cFS)とNASAのOn-board Artificial Intelligence Research(OnAIR)プラットフォームを用いた実験シミュレーションにより、宇宙船に対するAML攻撃の実行を実演する。 我々の研究は、自律的な宇宙船にAMLに焦点をあてたセキュリティ対策を取り入れる上での必須事項を浮き彫りにした。

Spacecraft are among the earliest autonomous systems. Their ability to function without a human in the loop have afforded some of humanity's grandest achievements. As reliance on autonomy grows, space vehicles will become increasingly vulnerable to attacks designed to disrupt autonomous processes-especially probabilistic ones based on machine learning. This paper aims to elucidate and demonstrate the threats that adversarial machine learning (AML) capabilities pose to spacecraft. First, an AML threat taxonomy for spacecraft is introduced. Next, we demonstrate the execution of AML attacks against spacecraft through experimental simulations using NASA's Core Flight System (cFS) and NASA's On-board Artificial Intelligence Research (OnAIR) Platform. Our findings highlight the imperative for incorporating AML-focused security measures in spacecraft that engage autonomy.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# PolyGlotFake: マルチ言語とマルチモーダルのDeepFakeデータセット

PolyGlotFake: A Novel Multilingual and Multimodal DeepFake Dataset ( http://arxiv.org/abs/2405.08838v1 )

ライセンス: Link先を確認
Yang Hou, Haitao Fu, Chuankai Chen, Zida Li, Haoyu Zhang, Jianjun Zhao, (参考訳) 生成AIの急速な進歩に伴い、音声と視覚の両方を操作できるマルチモーダルディープフェイクが、公衆の関心を喚起している。 現在、ディープフェイク検出は、これらの増大する脅威に対処するための重要な戦略として現れています。 しかし、ディープフェイク検出のトレーニングや検証において重要な要素として、既存のディープフェイクデータセットのほとんどは視覚的モーダルに重点を置いており、マルチモーダルである少数は時代遅れの手法を採用しており、オーディオコンテンツは単一の言語に限られており、現在のディープフェイク技術における最先端の進歩とグローバリゼーショントレンドを表現できない。 このギャップに対処するため、我々は新しい多言語、多モーダルなディープフェイクデータセットPolyGlotFakeを提案する。 これには、7つの言語のコンテンツが含まれており、様々な最先端で人気のあるText-to-Speech、音声のクローン、リップシンク技術を使って作成されている。 我々はPolyGlotFakeデータセットの最先端検出手法を用いて総合的な実験を行う。 これらの実験は、マルチモーダルディープフェイク検出の研究を進める上で、データセットの重要な課題とその実用的価値を実証する。

With the rapid advancement of generative AI, multimodal deepfakes, which manipulate both audio and visual modalities, have drawn increasing public concern. Currently, deepfake detection has emerged as a crucial strategy in countering these growing threats. However, as a key factor in training and validating deepfake detectors, most existing deepfake datasets primarily focus on the visual modal, and the few that are multimodal employ outdated techniques, and their audio content is limited to a single language, thereby failing to represent the cutting-edge advancements and globalization trends in current deepfake technologies. To address this gap, we propose a novel, multilingual, and multimodal deepfake dataset: PolyGlotFake. It includes content in seven languages, created using a variety of cutting-edge and popular Text-to-Speech, voice cloning, and lip-sync technologies. We conduct comprehensive experiments using state-of-the-art detection methods on PolyGlotFake dataset. These experiments demonstrate the dataset's significant challenges and its practical value in advancing research into multimodal deepfake detection.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# EHRSQL-2024のPromptMindチーム: Ensemble LLMによるSQL生成の信頼性向上

PromptMind Team at EHRSQL-2024: Improving Reliability of SQL Generation using Ensemble LLMs ( http://arxiv.org/abs/2405.08839v1 )

ライセンス: Link先を確認
Satya K Gundabathula, Sriram R Kolar, (参考訳) 本稿では,電子カルテのための信頼性の高いテキスト・トゥ・SQLシステムの開発を目的とした,EHRSQL-2024共有タスクへのアプローチを提案する。 本稿では,大規模言語モデル(LLM)を利用して,EHRSQLクエリの生成を促進および微調整する2つのアプローチを提案する。 どちらの手法も、LLMが訓練されている実世界の知識と、そのタスクに必要なドメイン固有の知識とのギャップを埋めることに集中する。 本論文は,各アプローチの結果を個別に提供し,高い実行精度を達成できることを実証する。 さらに,アンサンブルアプローチにより,誤りの低減による生成信頼性の向上が図られる。 このアプローチは、共有タスクコンペで2位を獲得しました。 本稿で概説した手法は,精度と信頼性の両方を重視したドメイン固有のテキスト-SQL問題への転送が可能なように設計されている。

This paper presents our approach to the EHRSQL-2024 shared task, which aims to develop a reliable Text-to-SQL system for electronic health records. We propose two approaches that leverage large language models (LLMs) for prompting and fine-tuning to generate EHRSQL queries. In both techniques, we concentrate on bridging the gap between the real-world knowledge on which LLMs are trained and the domain specific knowledge required for the task. The paper provides the results of each approach individually, demonstrating that they achieve high execution accuracy. Additionally, we show that an ensemble approach further enhances generation reliability by reducing errors. This approach secured us 2nd place in the shared task competition. The methodologies outlined in this paper are designed to be transferable to domain-specific Text-to-SQL problems that emphasize both accuracy and reliability.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# サファイアにおける減圧クラッド導波路のフェムト秒レーザー書き込み

Femtosecond laser writing of depressed cladding waveguides in sapphire ( http://arxiv.org/abs/2405.08840v1 )

ライセンス: Link先を確認
Sarah Winkler, Joachim R. Krenn, Jakob Wahl, Alexander Zesar, Yves Colombe, Klemens Schüppert, Clemens Rössler, Christian Sommer, Philipp Hurdax, Philip Lichtenegger, Bernhard Lamprecht, (参考訳) サファイアバルク材料中の可視光を導出する曲線導波路は、トラップイオン量子プロセッサのスケーラブルな集積光学に対する有望な解である。 我々の知る限り、これまでサファイアにおいて曲面導波路は調査されておらず、未ドープ平面サファイア基板における可視光の導波路も報告されていない。 ここでは,サファイアにおける圧縮クラッド導波路のフェムト秒レーザーによる書き込みを実演する。 パルスエネルギー、パルス持続時間、繰り返し速度などのレーザーパラメータと導波路形状パラメータは728nm光を誘導するために最適化された。 その結果、伝搬損失1.9 (3) dB/cmの単一モード導波路が得られた。 曲線導波路の調査では, 曲率半径が15mm未満の総損失が急激に増加した。 本研究は,サファイア基板の体積に集積光導波路を形成するための強力な技術としてフェムト秒レーザー書き込みの可能性を示すものである。 このような導波路は、閉じ込められたイオン量子プロセッサにおける集積光学のためのビルディングブロックになり得る。

A promising solution for scalable integrated optics of trapped-ion quantum processors are curved waveguides guiding visible light within sapphire bulk material. To the best of our knowledge, no curved waveguides were investigated in sapphire so far and no waveguides for visible light in undoped planar sapphire substrates were reported. Here, we demonstrate femtosecond laser writing of depressed cladding waveguides in sapphire. Laser parameters such as pulse energy, pulse duration, and repetition rate, as well as waveguide geometry parameters were optimized to guide 728 nm light. This resulted in single-mode waveguides with a propagation loss of 1.9 (3) dB/cm. The investigation of curved waveguides showed a sharp increase in total loss for curvature radii below 15 mm. Our results demonstrate the potential of femtosecond laser writing as a powerful technique for creating integrated optical waveguides in the volume of sapphire substrates. Such waveguides could be a building block for integrated optics in trapped ion quantum processors.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 負荷予測のためのディープラーニングの自動学習

Automated Deep Learning for Load Forecasting ( http://arxiv.org/abs/2405.08842v1 )

ライセンス: Link先を確認
Julie Keisler, Sandra Claudel, Gilles Cabriel, Margaux Brégère, (参考訳) 電力消費の正確な予測は、特に再生可能エネルギーの利用が増加するにつれて、グリッドの性能と安定性を確保するために不可欠である。 天気やカレンダーの変数など、多くの外部要因に依存しているため、電気の予測は難しい。 回帰モデルは現在有効であるが、新しい説明変数の出現と予測する信号の時間性の改善の必要性は、新しい方法論、特にディープラーニングモデルの探索を奨励している。 しかし、Deep Neural Networks(DNN)は、データポイントの欠如と説明変数の異なるタイプ(例えば整数、フロート、カテゴリー)のために、このタスクに苦労している。 本稿では,負荷予測のためのDNNを実現するためにAutomated Deep Learning(AutoDL)を用いた理由と方法を説明する。 最終的に、DRAGONパッケージを拡張してロード予測に適用することで、EnergyDragonと呼ばれるAutoDLフレームワークを作成しました。 EnergyDragonは、DNNトレーニングに埋め込まれた機能を革新的な方法で自動的に選択し、ネットワークのアーキテクチャとハイパーパラメータを最適化する。 本稿では、EnergyDragonが、他のAutoDLアプローチと同様に、最先端の負荷予測手法よりも優れた独自のDNNを見つけることができる、フランスの負荷信号について示す。

Accurate forecasting of electricity consumption is essential to ensure the performance and stability of the grid, especially as the use of renewable energy increases. Forecasting electricity is challenging because it depends on many external factors, such as weather and calendar variables. While regression-based models are currently effective, the emergence of new explanatory variables and the need to refine the temporality of the signals to be forecasted is encouraging the exploration of novel methodologies, in particular deep learning models. However, Deep Neural Networks (DNNs) struggle with this task due to the lack of data points and the different types of explanatory variables (e.g. integer, float, or categorical). In this paper, we explain why and how we used Automated Deep Learning (AutoDL) to find performing DNNs for load forecasting. We ended up creating an AutoDL framework called EnergyDragon by extending the DRAGON package and applying it to load forecasting. EnergyDragon automatically selects the features embedded in the DNN training in an innovative way and optimizes the architecture and the hyperparameters of the networks. We demonstrate on the French load signal that EnergyDragon can find original DNNs that outperform state-of-the-art load forecasting methods as well as other AutoDL approaches.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# FLEXIBLE:明示的帰納的グラフ学習を活用したセルトラフィック予測

FLEXIBLE: Forecasting Cellular Traffic by Leveraging Explicit Inductive Graph-Based Learning ( http://arxiv.org/abs/2405.08843v1 )

ライセンス: Link先を確認
Duc Thinh Ngo, Kandaraj Piamrat, Ons Aouedi, Thomas Hassan, Philippe Raipin-Parvédy, (参考訳) 通信の観点から見ると、ユーザやサービスの急増は、トラフィックの需要と限られたリソースをエスカレートする次世代ネットワークに挑戦する。 正確なトラフィック予測は、ネットワークオペレーターにネットワーク条件に関する貴重な洞察を与え、最適なアロケーションポリシーを提案する。 近年,グラフニューラルネットワーク(GNN)を用いた時空間予測が,セルトラフィック予測の有望な方法として浮上している。 しかし、道路交通予測の定式化にインスパイアされた既存の研究は、基地局の動的配置と除去を見落とし、GNNベースの予測器が進化するグラフを扱う必要がある。 本研究は,新しい帰納的学習手法と一般化可能なGNNベースの予測モデルを導入し,セルラートラフィックの多彩なグラフをワンタイムトレーニングで処理する。 また、このモデルを最小限の労力で伝達学習によって容易に活用できることを示し、異なる分野に適用できることを示した。 実験の結果、特にトレーニングデータを20%未満に下げた希少なデータ設定では、最先端と比較して9.8%の性能改善が見られた。

From a telecommunication standpoint, the surge in users and services challenges next-generation networks with escalating traffic demands and limited resources. Accurate traffic prediction can offer network operators valuable insights into network conditions and suggest optimal allocation policies. Recently, spatio-temporal forecasting, employing Graph Neural Networks (GNNs), has emerged as a promising method for cellular traffic prediction. However, existing studies, inspired by road traffic forecasting formulations, overlook the dynamic deployment and removal of base stations, requiring the GNN-based forecaster to handle an evolving graph. This work introduces a novel inductive learning scheme and a generalizable GNN-based forecasting model that can process diverse graphs of cellular traffic with one-time training. We also demonstrate that this model can be easily leveraged by transfer learning with minimal effort, making it applicable to different areas. Experimental results show up to 9.8% performance improvement compared to the state-of-the-art, especially in rare-data settings with training data reduced to below 20%.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 大規模言語モデルと形式検証によるAIコードの自動修復

Automated Repair of AI Code with Large Language Models and Formal Verification ( http://arxiv.org/abs/2405.08848v1 )

ライセンス: Link先を確認
Yiannis Charalambous, Edoardo Manino, Lucas C. Cordeiro, (参考訳) 次世代のAIシステムは、強力な安全保証を必要とする。 本報告では,NULLポインタ推論,アウトオブバウンドアクセス,ダブルフリー,メモリリークなど,ニューラルネットワークと関連するメモリ安全性特性のソフトウェア実装について検討する。 私たちの目標は、これらの脆弱性を検出し、大きな言語モデルの助けを借りて、自動的に修正することにあります。 この目的のために、我々はまず、既存のニューラルネットワークコードのデータセットであるNeuroCodeBenchのサイズを、プログラム突然変異の自動化プロセスによって約81kプログラムに拡大した。 次に,最新のソフトウェア検証装置であるESBMCを用いて,変更ニューラルネットワーク実装のメモリ安全性を検証する。 ESBMCが脆弱性を見つけると、ソースコードを修復するために大きな言語モデルを実行します。 最新のタスクでは、様々な最先端のプロンプトエンジニアリング技術の性能と、大規模言語モデルを繰り返し呼び出す反復的なアプローチを比較した。

The next generation of AI systems requires strong safety guarantees. This report looks at the software implementation of neural networks and related memory safety properties, including NULL pointer deference, out-of-bound access, double-free, and memory leaks. Our goal is to detect these vulnerabilities, and automatically repair them with the help of large language models. To this end, we first expand the size of NeuroCodeBench, an existing dataset of neural network code, to about 81k programs via an automated process of program mutation. Then, we verify the memory safety of the mutated neural network implementations with ESBMC, a state-of-the-art software verifier. Whenever ESBMC spots a vulnerability, we invoke a large language model to repair the source code. For the latest task, we compare the performance of various state-of-the-art prompt engineering techniques, and an iterative approach that repeatedly calls the large language model.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 多次特徴のクロスインパタンスに基づくクリックスルーレート予測法

A Click-Through Rate Prediction Method Based on Cross-Importance of Multi-Order Features ( http://arxiv.org/abs/2405.08852v1 )

ライセンス: Link先を確認
Hao Wang, Nao Li, (参考訳) 現行のクリックスルーレート予測(CTR)モデルは、アダマール製品やインナー製品を通して明示的または暗黙的な高次特徴交差を生成するが、機能交差の重要性にはほとんど注意を払わない。 本稿では、新しいモデルFiiNet(Multiple Order Feature Interaction Importance Neural Networks)を提案する。 モデルはまず選択的なカーネルネットワーク(SKNet)を使用して、マルチオーダーの機能クロスを明示的に構築する。 機能的相互作用の組み合わせの重要性をきめ細かな方法で動的に学習し、重要な機能的クロスの組み合わせの注意重みを増し、特徴的クロスの重みを減らします。 本稿では、FiiNetモデルが機能相互作用の組合せの重要性をきめ細かな方法で動的に学習し、モデルの推奨性能と解釈可能性を向上させることを検証するために、2つの実データセット上でのクリックスルーレート予測モデルと比較し、選択されたカーネルネットワークを組み込んだFiiNetモデルが推奨効果を効果的に向上し、より優れた解釈可能性をもたらすことを証明した。 FiiNetモデルの実装はPyTorchで利用可能である。

Most current click-through rate prediction(CTR)models create explicit or implicit high-order feature crosses through Hadamard product or inner product, with little attention to the importance of feature crossing; only few models are either limited to the second-order explicit feature crossing, implicitly to high-order feature crossing, or can learn the importance of high-order explicit feature crossing but fail to provide good interpretability for the model. This paper proposes a new model, FiiNet (Multiple Order Feature Interaction Importance Neural Networks). The model first uses the selective kernel network (SKNet) to explicitly construct multi-order feature crosses. It dynamically learns the importance of feature interaction combinations in a fine grained manner, increasing the attention weight of important feature cross combinations and reducing the weight of featureless crosses. To verify that the FiiNet model can dynamically learn the importance of feature interaction combinations in a fine-grained manner and improve the model's recommendation performance and interpretability, this paper compares it with many click-through rate prediction models on two real datasets, proving that the FiiNet model incorporating the selective kernel network can effectively improve the recommendation effect and provide better interpretability. FiiNet model implementations are available in PyTorch.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 拡散力学系における測定誘起相転移

Measurement-induced phase transitions in systems with diffusive dynamics ( http://arxiv.org/abs/2405.08861v1 )

ライセンス: Link先を確認
Hyunsoo Ha, Akshat Pandey, Sarang Gopalakrishnan, David A. Huse, (参考訳) スクランブルと射影測定の競合は、測定誘起絡み合い相転移(MIPT)を引き起こす可能性がある。 本研究では,MIPTの普遍性クラスが拡散保存密度に結合されたときに大きく変化することを示す。 具体的には、古典的拡散粒子(`measurers'')によって局所的に監視される1+1dランダムクリフォード回路を考える。 測定密度における拡散相関は、通常の時空ランダムMIPT臨界点への関連する摂動であり、この相転移のための新しい普遍性クラスを生成する。 例えば、拡散測定器は低密度または高密度であるが、この効果は無限の寿命を持つ稀な空間領域を生成する焼成ランダムネスによって生じるグリフィス効果よりもかなり弱い。

The competition between scrambling and projective measurements can lead to measurement-induced entanglement phase transitions (MIPT). In this work, we show that the universality class of the MIPT is drastically altered when the system is coupled to a diffusing conserved density. Specifically, we consider a 1+1d random Clifford circuit locally monitored by classically diffusing particles (``measurers''). The resulting diffusive correlations in the measurement density are a relevant perturbation to the usual space-time random MIPT critical point, producing a new universality class for this phase transition. We find ``Griffiths-like'' effects due to rare space-time regions where, e.g., the diffusive measurers have a low or high density, but these are considerably weaker than the Griffiths effects that occur with quenched randomness that produce rare spatial regions with infinite lifetime.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 極限サイクル、固定点、臨界減速の量子起源について

On the quantum origin of limit cycles, fixed points, and critical slowing down ( http://arxiv.org/abs/2405.08866v1 )

ライセンス: Link先を確認
Shovan Dutta, Shu Zhang, Masudul Haque, (参考訳) 古典散逸力学の最も象徴的な特徴は、持続的な極限サイクル振動とそのような振動の開始時に臨界減速である。 一方、一般マルコフ散逸の対象となる量子系は指数関数的に時間的に減少し、特異な定常状態に近づく。 ここでは、マルコフのマスター方程式によって支配される量子系において、コヒーレントな極限サイクルの振動と代数的減衰が古典的極限に近づき、単一スピンモデルと2サイト損失のボース・ハッバードモデルを用いて一般的な機構を説明できることを示す。 特に,リウビルスペクトルの脱コヒーレンス速度が低下する緩やかな分岐が限界周期の指紋であることが示され,一方,分岐点のスペクトル崩壊によってパワーロー崩壊が実現された。 また、量子スペクトルがギャップ化され、線形化された古典力学から生成できる古典的固定点の場合とどのように異なるかを示す。

Among the most iconic features of classical dissipative dynamics are persistent limit-cycle oscillations and critical slowing down at the onset of such oscillations, where the system relaxes purely algebraically in time. On the other hand, quantum systems subject to generic Markovian dissipation decohere exponentially in time, approaching a unique steady state. Here we show how coherent limit-cycle oscillations and algebraic decay can emerge in a quantum system governed by a Markovian master equation as one approaches the classical limit, illustrating general mechanisms using a single-spin model and a two-site lossy Bose-Hubbard model. In particular, we demonstrate that the fingerprint of a limit cycle is a slow-decaying branch with vanishing decoherence rates in the Liouville spectrum, while a power-law decay is realized by a spectral collapse at the bifurcation point. We also show how these are distinct from the case of a classical fixed point, for which the quantum spectrum is gapped and can be generated from the linearized classical dynamics.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# カラビ・ヤウ超表面のDNA

The DNA of Calabi-Yau Hypersurfaces ( http://arxiv.org/abs/2405.08871v1 )

ライセンス: Link先を確認
Nate MacFadden, Andreas Schachner, Elijah Sheridan, (参考訳) 本研究では, 4次元反射性ポリトープの三角測量のための遺伝的アルゴリズムを実装し, バトリエフによるカラビ・ヤウ3次元超曲面を誘導する。 このようなアルゴリズムは、弦理論のコンパクト化において、アクシオン崩壊定数やアクシオン-光子カップリングなどの物理可観測物を効率的に最適化できることを実証する。 本実装では,ポリトープ三角法からカラビ・ヤウ超曲面への写像における指数関数的に大きな冗長因子を排除し,2面の微細な正則な三角法を拡張することで,ホモトピー非等価なカラビ・ヤウ3次元の三角法のパラメータ化を選択する。 特に、この符号化が、遺伝的アルゴリズムに限らず、様々な最適化戦略に対応可能なクロイザー・スカルクリスト全体をどのように表現するかについて議論する。 最適な性能を達成するため,ベイズ最適化を用いて遺伝的アルゴリズムのハイパーパラメータを調整した。 私たちの実装は、Markov Chain Monte Carlo や Simulated Annealing など、他のサンプリングおよび最適化戦略よりもはるかに優れています。 最後に、我々の遺伝的アルゴリズムは、ホッジ数 $h^{1,1} = 491$ の極大ポリトープに対しても効率よく最適化を行うことを示した。

We implement Genetic Algorithms for triangulations of four-dimensional reflexive polytopes which induce Calabi-Yau threefold hypersurfaces via Batryev's construction. We demonstrate that such algorithms efficiently optimize physical observables such as axion decay constants or axion-photon couplings in string theory compactifications. For our implementation, we choose a parameterization of triangulations that yields homotopy inequivalent Calabi-Yau threefolds by extending fine, regular triangulations of two-faces, thereby eliminating exponentially large redundancy factors in the map from polytope triangulations to Calabi-Yau hypersurfaces. In particular, we discuss how this encoding renders the entire Kreuzer-Skarke list amenable to a variety of optimization strategies, including but not limited to Genetic Algorithms. To achieve optimal performance, we tune the hyperparameters of our Genetic Algorithm using Bayesian optimization. We find that our implementation vastly outperforms other sampling and optimization strategies like Markov Chain Monte Carlo or Simulated Annealing. Finally, we showcase that our Genetic Algorithm efficiently performs optimization even for the maximal polytope with Hodge numbers $h^{1,1} = 491$, where we use it to maximize axion-photon couplings.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 二次ボソニックリンドブレディアンにおける有限・無限サイズ安定性の相互作用

The Interplay of Finite and Infinite Size Stability in Quadratic Bosonic Lindbladians ( http://arxiv.org/abs/2405.08873v1 )

ライセンス: Link先を確認
Mariam Ughrelidze, Vincent P Flynn, Emilio Cobanera, Lorenza Viola, (参考訳) 自由ボソン系の開多体系における動的メタスタビリティを理解するための枠組みを提供し、無限大(熱力学)限界における系の動的安定性は、任意の有限サイズのトランケーションのものと著しく異なり、異常な過渡的ダイナミクスが発生する可能性がある。 擬似分光法を利用して, 漸近的および過渡的ダイナミクスの相違点を, 基礎となる2次ボソニックリンドブレディアン(QBL)ジェネレータの非正規性に辿り着き, 動的転移性の異なる2つのフレーバーが生じることを示す。 異常過渡増幅(Phys. Rev. Lett. 127, 245701 (2021))の文脈で議論されたI型動的メタスタビリティを示すQBLは、無限大の極限で動的に不安定であるが、開放境界が課されると安定となる。 この研究で明らかになったタイプII-動的準安定QBLは無限大では動的に安定であるが、任意の有限系サイズの開境界条件下では不安定となる。 消散剤の両タイプの転移性を示す代表モデルと、制限された閉系(ハミルトニアン)設定を示し、それらが与えうる特異な物理的挙動を解析する。 動的メタスタビリティは、(実際の有限ではなく)無限系の安定性の位相を反映した過渡現象によって、絡み合いエントロピーの発生にそれ自体が現れることを示し、その結果、I型系の超体積スケーリングの出現に直接結びついている。 最後に, エルミート系, 特に非正規系において, 無限サイズのQBLのスペクトル特性が, 共振擬スペクトルモードにより対応する有限QBLの線形応答関数にどのように反映されるかを示す。

We provide a framework for understanding dynamical metastability in open many-body systems of free bosons, whereby the dynamical stability properties of the system in the infinite-size (thermodynamic) limit may sharply differ from those of any finite-size truncation, and anomalous transient dynamics may arise. By leveraging pseudospectral techniques, we trace the discrepancy between asymptotic and transient dynamics to the non-normality of the underlying quadratic bosonic Lindbladian (QBL) generator, and show that two distinct flavors of dynamical metastability can arise. QBLs exhibiting type I dynamical metastability, previously discussed in the context of anomalous transient amplification [Phys. Rev. Lett. 127, 245701 (2021)], are dynamically unstable in the infinite-size limit, yet stable once open boundaries are imposed. Type II-dynamically metastable QBLs, which we uncover in this work, are dynamically stable for infinite size, but become unstable under open boundary conditions for arbitrary finite system size. We exhibit representative models for both types of metastability in the dissipative, as well as the limiting closed-system (Hamiltonian) settings, and analyze distinctive physical behavior they can engender. We show that dynamical metastability manifests itself in the generation of entanglement entropy, by way of a transient which reflects the stability phase of the infinite (rather than the actual finite) system and, as a result, is directly tied to the emergence of super-volume scaling in type I systems. Finally, we demonstrate how, even in Hermitian, and especially in highly non-normal regimes, the spectral properties of an infinite-size QBL are reflected in the linear response functions of the corresponding finite QBLs, by way of resonant pseudospectral modes.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 光量子ウォークネットワークの有限要素組立法

Finite-element assembly approach of optical quantum walk networks ( http://arxiv.org/abs/2405.08884v1 )

ライセンス: Link先を確認
Christopher R. Schwarze, David S. Simon, Anthony D. Manni, Abdoulaye Ndao, Alexander V. Sergienko, (参考訳) 線形コヒーレント散乱器ネットワークの集合散乱行列を計算するための有限要素法を提案する。 これらは光散乱器か、量子ウォーク理論で研究されたより一般的な散乱コインかもしれない。 フィードフォワード散乱器の2次元格子技術は存在するが、本手法は散乱器の集合の任意のネットワーク構成に適用可能である。 光学における従来の有限要素法とは異なり、この方法はマクスウェルの方程式を直接解くのではなく、マクスウェルの方程式が散乱行列法の中で抽象化された後に生じる線形で結合した散乱問題を組み立て、解決するために用いられる。 このアプローチでは、ネットワーク上の量子ウォークの1つの時間ステップに対応するグローバルなユニタリが組み立てられる。 この大域的行列に関係する境界条件を適用した後、問題は単項となり、出力散乱状態である定常解を持つ。 固有スペクトルの直接計算を必要とせずに散乱状態を得る行列逆変換を用いて、この定常解を得るアルゴリズムを提案する。 この手法は、既知の閉形式解を持つ結合キャビティ干渉計の例で数値的に検証される。 最後に、この手法は1次元格子上の散乱体 (2-正則グラフ) を記述するレッドヘッファー星生成物の一般化であることが示され、薄膜光学の設計にしばしば適用され、現在のアプローチは高次元位相再生可能な光学デバイスの設計と検証のための貴重なツールとなり、任意のグラフ上の量子ウォークの研究である。

We present a finite-element approach for computing the aggregate scattering matrix of a network of linear coherent scatterers. These might be optical scatterers or more general scattering coins studied in quantum walk theory. While techniques exist for two-dimensional lattices of feed-forward scatterers, the present approach is applicable to any network configuration of any collection of scatterers. Unlike traditional finite-element methods in optics, this method does not directly solve Maxwell's equations; instead it is used to assemble and solve a linear, coupled scattering problem that emerges after Maxwell's equations are abstracted within the scattering matrix method. With this approach, a global unitary is assembled corresponding to one time step of the quantum walk on the network. After applying the relevant boundary conditions to this global matrix, the problem becomes non-unitary, and possesses a steady-state solution which is the output scattering state. We provide an algorithm to obtain this steady-state solution exactly using a matrix inversion, yielding the scattering state without requiring a direct calculation of the eigenspectrum. The approach is then numerically validated on a coupled-cavity interferometer example that possesses a known, closed-form solution. Finally, the method is shown to be a generalization of the Redheffer star product, which describes scatterers on one-dimensional lattices (2-regular graphs) and is often applied to the design of thin-film optics, making the current approach an invaluable tool for the design and validation of high-dimensional phase-reprogrammable optical devices and study of quantum walks on arbitrary graphs.
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 敵対的攻撃による共形推論の落とし穴と約束

The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks ( http://arxiv.org/abs/2405.08886v1 )

ライセンス: Link先を確認
Ziquan Liu, Yufei Cui, Yan Yan, Yi Xu, Xiangyang Ji, Xue Liu, Antoni B. Chan, (参考訳) 患者の健康と道路安全に決定が深く影響する医療画像や自律運転などの安全クリティカルなアプリケーションでは、高い敵の堅牢性を維持し、潜在的な敵の攻撃から保護し、意思決定における確実な定量化を確保することが不可欠である。 様々な形態の対戦訓練(AT)を通して、敵の堅牢性を高めることに焦点を当てた広範な研究により、敵の訓練されたモデルに固有の不確実性に関する顕著な知識ギャップが残っている。 本研究は, 対人防衛コミュニティにおける標準対人攻撃の文脈において, 共形予測(CP)の性能を検証し, ディープラーニングモデルの不確実性について検討する。 既存のCP法は、モデルが逆向きに訓練されていない場合、一般に使用される$l_{\infty}$-norm境界攻撃の下で情報的予測セットを生成せず、CPの敵対的訓練の重要性を裏付けるものであることが最初に明らかにされた。 次に本論文は, CP の予測セットサイズ (PSS) が, 標準的な AT よりも悪い場合が多いことを示し, 改良された PSS のための CP 効率 AT の研究を促した。 我々は, CP効率を向上させるため, ATにおけるエントロピー最小化正規化器によるベータ重み付け損失を最適化することを提案する。 さらに,3つの一般的なATベースラインにまたがる4つの画像分類データセットに関する実証的研究により,提案した不確実性低減AT(AT-UR)の有効性が検証された。

In safety-critical applications such as medical imaging and autonomous driving, where decisions have profound implications for patient health and road safety, it is imperative to maintain both high adversarial robustness to protect against potential adversarial attacks and reliable uncertainty quantification in decision-making. With extensive research focused on enhancing adversarial robustness through various forms of adversarial training (AT), a notable knowledge gap remains concerning the uncertainty inherent in adversarially trained models. To address this gap, this study investigates the uncertainty of deep learning models by examining the performance of conformal prediction (CP) in the context of standard adversarial attacks within the adversarial defense community. It is first unveiled that existing CP methods do not produce informative prediction sets under the commonly used $l_{\infty}$-norm bounded attack if the model is not adversarially trained, which underpins the importance of adversarial training for CP. Our paper next demonstrates that the prediction set size (PSS) of CP using adversarially trained models with AT variants is often worse than using standard AT, inspiring us to research into CP-efficient AT for improved PSS. We propose to optimize a Beta-weighting loss with an entropy minimization regularizer during AT to improve CP-efficiency, where the Beta-weighting loss is shown to be an upper bound of PSS at the population level by our theoretical analysis. Moreover, our empirical study on four image classification datasets across three popular AT baselines validates the effectiveness of the proposed Uncertainty-Reducing AT (AT-UR).
翻訳日:2024-05-16 15:15:00 公開日:2024-05-14
# 自然言語による人間・機械協調粒子加速器の大規模言語モデル

Large Language Models for Human-Machine Collaborative Particle Accelerator Tuning through Natural Language ( http://arxiv.org/abs/2405.08888v1 )

ライセンス: Link先を確認
Jan Kaiser, Annika Eichler, Anne Lauscher, (参考訳) 粒子加速器の自律的なチューニングは、物理発見、がん研究、物質科学などの最先端の高インパクト応用を可能にすることを目的として、活発で挑戦的な研究分野である。 自律的な加速器チューニングにおける重要な課題は、最も有能なアルゴリズムは、新しいチューニングタスクごとにアルゴリズムを実装するために、最適化や機械学習、あるいは同様の分野の専門家を必要とすることである。 本研究では,粒子加速器をチューニングするための大規模言語モデル (LLM) を提案する。 本稿では,LLMが演算子からの自然言語のみに基づいて粒子加速器サブシステムを正常かつ自律的にチューニングできることの実証例を示し,その性能をベイズ最適化(BO)や強化学習訓練最適化(RLO)などの最先端最適化アルゴリズムと比較する。 また,LLMが高非線形実世界の目的関数の数値最適化を行う方法を示す。 最終的にこの研究は、LLMが解決し、粒子加速器の日々の操作に自律的なチューニングアルゴリズムの展開を加速するのに役立つ、さらに複雑なタスクを表している。

Autonomous tuning of particle accelerators is an active and challenging field of research with the goal of enabling novel accelerator technologies cutting-edge high-impact applications, such as physics discovery, cancer research and material sciences. A key challenge with autonomous accelerator tuning remains that the most capable algorithms require an expert in optimisation, machine learning or a similar field to implement the algorithm for every new tuning task. In this work, we propose the use of large language models (LLMs) to tune particle accelerators. We demonstrate on a proof-of-principle example the ability of LLMs to successfully and autonomously tune a particle accelerator subsystem based on nothing more than a natural language prompt from the operator, and compare the performance of our LLM-based solution to state-of-the-art optimisation algorithms, such as Bayesian optimisation (BO) and reinforcement learning-trained optimisation (RLO). In doing so, we also show how LLMs can perform numerical optimisation of a highly non-linear real-world objective function. Ultimately, this work represents yet another complex task that LLMs are capable of solving and promises to help accelerate the deployment of autonomous tuning algorithms to the day-to-day operations of particle accelerators.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 動画の多様性を考慮したテキストセマンティックマッチングを用いた言語誘導自己監督ビデオ要約

Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video ( http://arxiv.org/abs/2405.08890v1 )

ライセンス: Link先を確認
Tomoya Sugihara, Shuntaro Masuda, Ling Xiao, Toshihiko Yamasaki, (参考訳) 現在のビデオ要約法は主に、時間を要する手動アノテーションを必要とする教師付きコンピュータビジョン技術に依存している。 さらに、アノテーションは常に主観的であり、このタスクをより困難にします。 これらの課題に対処するために,ビデオ要約をテキスト要約タスクに変換する実現可能性を分析し,大言語モデル(LLM)を活用して映像要約を促進する。 本稿では,LLMによる映像要約のための自己教師型フレームワークを提案する。 提案手法は,ビデオフレームの字幕を生成することから始まり,LLMによってテキスト要約に合成される。 その後,フレームキャプションとテキスト要約のセマンティック距離を測定した。 ビデオの多様性に応じてモデルを最適化するための,新たな損失関数を提案することに注意が必要だ。 最後に、字幕がテキスト要約と類似したフレームを選択することで要約ビデオを生成することができる。 我々のモデルは、他の最先端手法と競合する結果を達成し、ビデオ要約における新しい経路を舗装する。

Current video summarization methods primarily depend on supervised computer vision techniques, which demands time-consuming manual annotations. Further, the annotations are always subjective which make this task more challenging. To address these issues, we analyzed the feasibility in transforming the video summarization into a text summary task and leverage Large Language Models (LLMs) to boost video summarization. This paper proposes a novel self-supervised framework for video summarization guided by LLMs. Our method begins by generating captions for video frames, which are then synthesized into text summaries by LLMs. Subsequently, we measure semantic distance between the frame captions and the text summary. It's worth noting that we propose a novel loss function to optimize our model according to the diversity of the video. Finally, the summarized video can be generated by selecting the frames whose captions are similar with the text summary. Our model achieves competitive results against other state-of-the-art methods and paves a novel pathway in video summarization.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# RS-Reg:ランダムな平滑化による確率的かつロバストな回帰

RS-Reg: Probabilistic and Robust Certified Regression Through Randomized Smoothing ( http://arxiv.org/abs/2405.08892v1 )

ライセンス: Link先を確認
Aref Miri Rekavandi, Olga Ohrimenko, Benjamin I. P. Rubinstein, (参考訳) ランダムな平滑化は、分類タスクにおける敵に対する確証のある堅牢性を示している。 ベースモデルへのゼロ次アクセスのみの成功にもかかわらず、ランダム化された平滑化は一般的な回帰形式に拡張されていない。 確率によって柔軟に回帰タスクのロバスト性を定義することにより、有効出力を観測するユーザ特定確率に対して、入力データ点摂動($\ell_2$ノルムを使用)上の境界を確立する方法を示す。 さらに,回帰モデルが制約なく動作するシナリオにおいて,基本平均関数の漸近特性を示す。 次に、出力が有界な回帰モデルの族を扱う際に、入力摂動の証明された上限を導出する。 シミュレーションは理論結果の有効性を検証し、回帰タスクにおける単純な平滑化関数(平均化)の利点と限界を明らかにする。 コードは \url{https://github.com/arekavandi/Certified_Robust_Regression} で公開されている。

Randomized smoothing has shown promising certified robustness against adversaries in classification tasks. Despite such success with only zeroth-order access to base models, randomized smoothing has not been extended to a general form of regression. By defining robustness in regression tasks flexibly through probabilities, we demonstrate how to establish upper bounds on input data point perturbation (using the $\ell_2$ norm) for a user-specified probability of observing valid outputs. Furthermore, we showcase the asymptotic property of a basic averaging function in scenarios where the regression model operates without any constraint. We then derive a certified upper bound of the input perturbations when dealing with a family of regression models where the outputs are bounded. Our simulations verify the validity of the theoretical results and reveal the advantages and limitations of simple smoothing functions, i.e., averaging, in regression tasks. The code is publicly available at \url{https://github.com/arekavandi/Certified_Robust_Regression}.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# ADA-Track: 交互検出・関連付きマルチカメラ3D多物体追跡

ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association ( http://arxiv.org/abs/2405.08909v1 )

ライセンス: Link先を確認
Shuxiao Ding, Lukas Schneider, Marius Cordts, Juergen Gall, (参考訳) 3D Multi-Object Tracking (MOT) に対する多くのクエリベースのアプローチは、トラッキング・バイ・アテンションのパラダイムを採用し、IDに一貫性のある検出のためのトラッククエリと、IDに依存しないトラック生成のためのオブジェクトクエリを利用する。 しかし、トラッキング・バイ・アテンションは、サブ最適である検出・追跡タスクの両方に1つの埋め込みでクエリを検出し、追跡する。 他のアプローチはトラッキング・バイ・検出のパラダイムに似ており、分離されたトラックと検出クエリを使ってオブジェクトを検知し、その後に関連付ける。 しかし、これらの手法は検出と関連タスクの相乗効果を生かしていない。 両パラダイムの長所を組み合わせることで,多視点カメラによる3D MOTのための新しいエンドツーエンドフレームワークであるADA-Trackを導入する。 エッジ拡張型クロスアテンションに基づく学習可能なデータアソシエーションモジュールを導入し,外観と幾何学的特徴を活用する。 さらに、このアソシエーションモジュールをDreTRベースの3D検出器のデコーダ層に統合し、DreTRライクなクエリ・ツー・イメージのクロスアテンションと、データアソシエーションのためのクエリ・ツー・クエリ・クロスアテンションの同時検出を可能にする。 これらのデコーダ層を積み重ねることで、クエリは検出タスクと関連タスクの交互に洗練され、タスク依存を効果的に活用する。 提案手法をnuScenesデータセット上で評価し,従来の2つのパラダイムと比較してアプローチの利点を実証する。 コードはhttps://github.com/dsx0511/ADA-Track.comで入手できる。

Many query-based approaches for 3D Multi-Object Tracking (MOT) adopt the tracking-by-attention paradigm, utilizing track queries for identity-consistent detection and object queries for identity-agnostic track spawning. Tracking-by-attention, however, entangles detection and tracking queries in one embedding for both the detection and tracking task, which is sub-optimal. Other approaches resemble the tracking-by-detection paradigm, detecting objects using decoupled track and detection queries followed by a subsequent association. These methods, however, do not leverage synergies between the detection and association task. Combining the strengths of both paradigms, we introduce ADA-Track, a novel end-to-end framework for 3D MOT from multi-view cameras. We introduce a learnable data association module based on edge-augmented cross-attention, leveraging appearance and geometric features. Furthermore, we integrate this association module into the decoder layer of a DETR-based 3D detector, enabling simultaneous DETR-like query-to-image cross-attention for detection and query-to-query cross-attention for data association. By stacking these decoder layers, queries are refined for the detection and association task alternately, effectively harnessing the task dependencies. We evaluate our method on the nuScenes dataset and demonstrate the advantage of our approach compared to the two previous paradigms. Code is available at https://github.com/dsx0511/ADA-Track.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 品質制限を備えたCLIP: ビジョンタスクのための強力な事前トレーニング

CLIP with Quality Captions: A Strong Pretraining for Vision Tasks ( http://arxiv.org/abs/2405.08911v1 )

ライセンス: Link先を確認
Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Oncel Tuzel, (参考訳) CLIPモデルは、ゼロショット分類と検索タスクにおいて極めてよく機能する。 しかし、最近の研究では、CLIPの学習表現は、オブジェクト検出、セマンティックセグメンテーション、深さ推定といった密集した予測タスクには適していないことが示されている。 最近では、下流タスクにおけるCLIPの弱いパフォーマンスを軽減するために、CLIPモデルのマルチステージトレーニング手法が導入されている。 本研究では,画像テキストデータセットのキャプションの品質向上がCLIPの視覚的表現の質の向上に寄与し,下流の高密度な予測視覚タスクに顕著な改善をもたらすことを明らかにする。 事実,CLIPプレトレーニングは,近年の教師付き,自己監督型,弱監督型プレトレーニング法を超越していることがわかった。 画像エンコーダとしての ViT-B/16 を用いた CLIP モデルでは,Masked Autoencoder (MAE) のような最近の最先端の Masked Image Modeling (MIM) による意味的セグメンテーションおよび深度推定タスクにおいて,12.1% の mIoU と 11.5% の RMSE が得られた。 モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。 CLIPプリトレーニングを備えた最近のモバイルビジョンアーキテクチャであるMCi2は、セマンティックセグメンテーションタスクのためにImageNet-22kで事前トレーニングされたSwin-Lと同じようなパフォーマンスを取得し、より小さい6.1$\times$である。 さらに, 高密度予測タスクの微調整では, キャプション品質の改善が10\times$データ効率をもたらすことを示す。

CLIP models perform remarkably well on zero-shot classification and retrieval tasks. But recent studies have shown that learnt representations in CLIP are not well suited for dense prediction tasks like object detection, semantic segmentation or depth estimation. More recently, multi-stage training methods for CLIP models was introduced to mitigate the weak performance of CLIP on downstream tasks. In this work, we find that simply improving the quality of captions in image-text datasets improves the quality of CLIP's visual representations, resulting in significant improvement on downstream dense prediction vision tasks. In fact, we find that CLIP pretraining with good quality captions can surpass recent supervised, self-supervised and weakly supervised pretraining methods. We show that when CLIP model with ViT-B/16 as image encoder is trained on well aligned image-text pairs it obtains 12.1% higher mIoU and 11.5% lower RMSE on semantic segmentation and depth estimation tasks over recent state-of-the-art Masked Image Modeling (MIM) pretraining methods like Masked Autoencoder (MAE). We find that mobile architectures also benefit significantly from CLIP pretraining. A recent mobile vision architecture, MCi2, with CLIP pretraining obtains similar performance as Swin-L, pretrained on ImageNet-22k for semantic segmentation task while being 6.1$\times$ smaller. Moreover, we show that improving caption quality results in $10\times$ data efficiency when finetuning for dense prediction tasks.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 自由フェルミオン混合状態における量子Mpemba効果

The quantum Mpemba effect in free-fermionic mixed states ( http://arxiv.org/abs/2405.08913v1 )

ライセンス: Link先を確認
Filiberto Ares, Vittorio Vitale, Sara Murciano, (参考訳) 近年、エンタングルメント非対称性(英語版)として知られる対称性の破れを研究する新しいプローブが登場し、量子クエンチの後に対称性が動的に復元される方法を探るために利用されている。 興味深いことに、あるシナリオでは、より大きな初期対称性の破れが、量子Mpemba効果と同様に、より高速な回復をもたらすことが示されている。 本研究では,混合初期状態と非単元ダイナミクスが対称性回復に及ぼす影響について検討する。 状態の混合性は異なるソースから生じうる。 我々は、初期純状態や初期熱状態のユニタリダイナミクスに影響を及ぼす退廃過程や散逸過程を考察する。 前者の場合、クエンチ後の静止状態は、古典的なムペンバ効果の現象学に類似した初期構成から独立している。 解析計算と数値シミュレーションを組み合わせることで,XYスピンチェーンモデルの検討を行い,量子Mpemba効果の発生条件を明らかにした。 この現象は、状態がより混ざり合うにつれて最終的に抑制されるにもかかわらず、散逸の有無や有限温度で依然として起こることが判明した。

Recently, a novel probe to study symmetry breaking, known as entanglement asymmetry, has emerged and has been utilized to explore how symmetry is dynamically restored following quantum quenches. Interestingly, it has been shown that, in certain scenarios, greater initial symmetry breaking leads to faster restoration, akin to a quantum Mpemba effect. This study focuses on investigating the effect of mixed initial states and non-unitary dynamics on symmetry restoration. The mixedness of a state can arise from different sources. We consider dephasing or dissipative processes affecting initial pure states or unitary dynamics of initially thermal states. In the former case, the stationary state after the quench is independent of the initial configuration, resembling the phenomenology of the classical Mpemba effect. Investigating the XY spin chain model, through a combination of analytical calculations and numerical simulations, we identify the conditions for the occurrence of the quantum Mpemba effect. It turns out that this phenomenon still occurs in the presence of dissipation or at finite temperature, even though it will be eventually suppressed as the state becomes more mixed.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 量子資源理論における有限サイズ触媒作用

Finite-size catalysis in quantum resource theories ( http://arxiv.org/abs/2405.08914v1 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Kamil Korzekwa, (参考訳) 量子触媒(Quantum catalysis)は、様々な資源理論において強力なツールとして登場した。 触媒的に有効となる状態変換は、エントロピー量子化器(例えば、フォン・ノイマンエントロピーや非平衡自由エネルギー)の単調な振る舞いによって公式に特徴づけられるが、そのような特徴付けはしばしば非物理学的な仮定、すなわち無限大次元の触媒を使用する能力に依存する。 このアプローチは、量子情報処理に触媒を用いることの実用的意義について、非常に限定的な洞察を与える。 ここでは、量子資源理論の幅広いクラスにまたがってこの問題に対処する。 漸近的な状態を超えて量子情報ツールを活用することで、有限サイズの触媒を用いた触媒変換が存在するための十分な条件を確立する。 さらに、有限サイズ触媒とマルチコピー変換の接続を明らかにする。 触媒の状態を慎重に調整することで、触媒の必要な寸法を大幅に減らし、最小限の資源で効率的な触媒変換を可能にする。 最後に, エンタングルメントと熱力学の資源理論, 触媒的ユニタリ変換の文脈での例を示す。

Quantum catalysis, the ability to enable previously impossible transformations by using auxiliary systems without degrading them, has emerged as a powerful tool in various resource theories. Although catalytically enabled state transformations have been formally characterized by the monotonic behaviour of entropic quantifiers (e.g., the von Neumann entropy or non-equilibrium free energy), such characterizations often rely on unphysical assumptions, namely the ability of using catalysts of infinitely large dimension. This approach offers very limited insights into the practical significance of using catalysis for quantum information processing. Here, we address this problem across a broad class of quantum resource theories. Leveraging quantum information tools beyond the asymptotic regime, we establish sufficient conditions for the existence of catalytic transformations with finite-size catalysts. We further unveil connections between finite-size catalysis and multi-copy transformations. Notably, we discover a fascinating phenomenon of catalytic resonance: by carefully tailoring the catalysts's state, one can drastically reduce the required dimension of the catalyst, thus enabling efficient catalytic transformations with minimal resources. Finally, we illustrate our findings with examples from the resource theories of entanglement and thermodynamics, as well in the context of catalytic unitary transformations.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 量子エンタングルメントによる乱流抵抗ライダーの実験的実証

Experimental Demonstration of Turbulence-resistant Lidar via Quantum Entanglement ( http://arxiv.org/abs/2405.08916v1 )

ライセンス: Link先を確認
Binod Joshi, Michael M. Fitelson, Yanhua Shih, (参考訳) 乱流抵抗型量子ライダーシステムの実証実験を報告する。 検出と測光の重要な技術として、Lidarは従来のLidar技術の能力と相補する証明済みの優位性を探るため、量子の観点からの研究にかなりの注意を払っている。 強い大気乱流のような環境要因は、これらのシステムの性能に有害な影響を及ぼす可能性がある。 光子対の2光子干渉による量子ライダー系の乱流抵抗運転の可能性を示す。 さらに、報告された量子ライダーは、期待される耐雑音性も示している。 本研究は, 乱流および騒音下で動作可能な高精度タイミング配置技術を提案する。

We report a proof-of-principle experimental demonstration of a turbulence-resistant quantum Lidar system. As a key technology for sensing and ranging, Lidar has drawn considerable attention for a study from quantum perspective, in search of proven advantages complementary to the capabilities of conventional Lidar technologies. Environmental factors such as strong atmospheric turbulence can have detrimental effects on the performance of these systems. We demonstrate the possibility of turbulence-resistant operation of a quantum Lidar system via two-photon interference of entangled photon pairs. Additionally, the reported quantum Lidar also demonstrates the expected noise resistance. This study suggests a potential high precision timing-positioning technology operable under turbulence and noise.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 量子機械学習における特徴の重要性と説明可能性

Feature Importance and Explainability in Quantum Machine Learning ( http://arxiv.org/abs/2405.08917v1 )

ライセンス: Link先を確認
Luke Power, Krishnendu Guha, (参考訳) 多くの機械学習(ML)モデルはブラックボックスモデルと呼ばれ、なぜ予測されるのかについて本当の洞察を与えていない。 特徴の重要性と説明可能性は、特に医療や金融といった設定において、MLモデルの透明性と信頼を高めるために重要である。 スーパーポジションのような量子力学的現象をML技術と組み合わせて量子機械学習(QML)の分野を作るなど、量子コンピューティングのユニークな能力により、そのような技術はQMLモデルに適用できる。 本稿では、古典的MLモデルと比較して、QMLの特徴的重要性と説明可能性について考察する。 広く知られているIrisデータセットを利用することで、SVMやRandom Forestsのような古典的なMLアルゴリズムは、IBMのQiskitプラットフォームで実装されたハイブリッド量子アルゴリズムと比較される。 本稿では,ALE (Accumulated Local Effects) やSHAP (SHapley Additive exPlanations) の解説とともに,順列化を用いてMLで生成された知見を比較し,特徴的重要な手法を1つ残すことを目的とする。

Many Machine Learning (ML) models are referred to as black box models, providing no real insights into why a prediction is made. Feature importance and explainability are important for increasing transparency and trust in ML models, particularly in settings such as healthcare and finance. With quantum computing's unique capabilities, such as leveraging quantum mechanical phenomena like superposition, which can be combined with ML techniques to create the field of Quantum Machine Learning (QML), and such techniques may be applied to QML models. This article explores feature importance and explainability insights in QML compared to Classical ML models. Utilizing the widely recognized Iris dataset, classical ML algorithms such as SVM and Random Forests, are compared against hybrid quantum counterparts, implemented via IBM's Qiskit platform: the Variational Quantum Classifier (VQC) and Quantum Support Vector Classifier (QSVC). This article aims to provide a comparison of the insights generated in ML by employing permutation and leave one out feature importance methods, alongside ALE (Accumulated Local Effects) and SHAP (SHapley Additive exPlanations) explainers.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# Neural Collapse with Differential Privacy: Curious Behaviors of NoisyGD with Near-perfect Representation Learning

Neural Collapse Meets Differential Privacy: Curious Behaviors of NoisyGD with Near-perfect Representation Learning ( http://arxiv.org/abs/2405.08920v1 )

ライセンス: Link先を確認
Chendi Wang, Yuqing Zhu, Weijie J. Su, Yu-Xiang Wang, (参考訳) De et al (2022) による最近の研究によると、公共データセットの事前学習による大規模表現学習は、特徴空間の高次元性にもかかわらず、下流タスクにおける差分プライベート(DP)学習を著しく向上させる。 この現象を理論的に説明するために,表現学習における階層型モデルの設定を考察し,ニューラルネットワーク(NC)と呼ばれる深層学習における学習特徴に関連する興味深い現象について考察した。 NCの枠組み内では、誤分類誤差が実際の特徴と理想的なものの間の距離がしきい値より小さい場合の次元に依存しないことを示す誤差境界を確立する。 さらに、最後のレイヤの機能の品質は、NCのフレームワーク内でトレーニング済みのさまざまなモデルの下で実証的に評価され、より強力なトランスフォーマーがより優れた機能表現をもたらすことを示す。 さらに,DPの微調整はDPのない微調整に比べ,特に摂動の存在下では頑健ではないことが明らかとなった。 これらの観測は、理論的分析と実験的評価の両方によって支持されている。 さらに,DP微調整の堅牢性を高めるため,特徴正規化や主成分分析(PCA)のような次元削減手法の採用など,いくつかの戦略を提案する。 実験では, 最終層の特徴に対してPCAを施すことにより, テスト精度を大幅に向上することを示した。

A recent study by De et al. (2022) has reported that large-scale representation learning through pre-training on a public dataset significantly enhances differentially private (DP) learning in downstream tasks, despite the high dimensionality of the feature space. To theoretically explain this phenomenon, we consider the setting of a layer-peeled model in representation learning, which results in interesting phenomena related to learned features in deep learning and transfer learning, known as Neural Collapse (NC). Within the framework of NC, we establish an error bound indicating that the misclassification error is independent of dimension when the distance between actual features and the ideal ones is smaller than a threshold. Additionally, the quality of the features in the last layer is empirically evaluated under different pre-trained models within the framework of NC, showing that a more powerful transformer leads to a better feature representation. Furthermore, we reveal that DP fine-tuning is less robust compared to fine-tuning without DP, particularly in the presence of perturbations. These observations are supported by both theoretical analyses and experimental evaluation. Moreover, to enhance the robustness of DP fine-tuning, we suggest several strategies, such as feature normalization or employing dimension reduction methods like Principal Component Analysis (PCA). Empirically, we demonstrate a significant improvement in testing accuracy by conducting PCA on the last-layer features.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# Neural Active Learningが部分モニタリングフレームワークを発表

Neural Active Learning Meets the Partial Monitoring Framework ( http://arxiv.org/abs/2405.08921v1 )

ライセンス: Link先を確認
Maxime Heuillet, Ola Ahmad, Audrey Durand, (参考訳) 我々は,エージェントがコストのかかる情報取得(ラベル付き観測)と予測エラーのコストとの間にある一連の観測とトレードオフを通して操作するオンラインアクティブラーニング(OAL)に焦点をあてる。 本稿では,部分的モニタリングに基づくOALタスクのための新しい基盤を提案する。 従来研究されてきたバイナリおよびマルチクラスOALタスクが,部分的監視の事例であることを示す。 我々は、コストに敏感なOALタスクを新たに導入することで、OALの現実世界の可能性を広げる。 我々は,深層ニューラルネットワークの予測不確実性を考慮した最初のPM戦略であるNeuralCBPを提案する。 オープンソースデータセットに対する広範な実証評価は、NeuralCBPが複数のバイナリ、マルチクラス、コストに敏感なOALタスクに対して、最先端のベースラインに対して好適なパフォーマンスを示していることを示している。

We focus on the online-based active learning (OAL) setting where an agent operates over a stream of observations and trades-off between the costly acquisition of information (labelled observations) and the cost of prediction errors. We propose a novel foundation for OAL tasks based on partial monitoring, a theoretical framework specialized in online learning from partially informative actions. We show that previously studied binary and multi-class OAL tasks are instances of partial monitoring. We expand the real-world potential of OAL by introducing a new class of cost-sensitive OAL tasks. We propose NeuralCBP, the first PM strategy that accounts for predictive uncertainty with deep neural networks. Our extensive empirical evaluation on open source datasets shows that NeuralCBP has favorable performance against state-of-the-art baselines on multiple binary, multi-class and cost-sensitive OAL tasks.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 時間適応位相推定

Time-adaptive phase estimation ( http://arxiv.org/abs/2405.08930v1 )

ライセンス: Link先を確認
Brennan de Neeve, Andrey V. Lebedev, Vlad Negnevitsky, Jonathan P. Home, (参考訳) 位相推定は量子コンピュータにおける単一量子ビットゲートキャリブレーションの堅牢な方法として知られており、ベイズ推定は量子系における学習の最適な方法の考案に広く用いられている。 本稿では,事前位相知識に基づいて制御位相とコヒーレント進化時期を適応的に選択するベイズ位相推定手法を提案する。 雑音の存在下では、既知の理論的境界に関してほぼ最適性能を示し、推定値が推定器のモデルで考慮されていない雑音に対して頑健であることを示し、量子コンピュータの演算を校正するのに適する手法を提案する。 本研究では, 制御パラメータ値の有用性を, 事前確率関数を用いて決定し, 予測される知識の獲得を, 予測される情報ゲインの絞り込み, あるいは期待される情報ゲインのいずれにおいても定量化する。 特に、期待される利得の速度を最大化することにより、ハイゼンベルク極限より1.42倍高い標準偏差を持つ位相推定値が得られる。 この方法は、利用者の最小限の努力で、利用可能な事前知識と実験的な欠陥を考慮に入れた最適なソリューションを提供する。 測定確率のモデルでは、多くの種類のノイズの影響を特定でき、状態準備や読み出しに要する時間など、未知の位相につながるコヒーレント進化以外の測定シーケンスに含まれる時間を考慮して、知識獲得率を容易に調整することができる。

Phase estimation is known to be a robust method for single-qubit gate calibration in quantum computers, while Bayesian estimation is widely used in devising optimal methods for learning in quantum systems. We present Bayesian phase estimation methods that adaptively choose a control phase and the time of coherent evolution based on prior phase knowledge. In the presence of noise, we find near-optimal performance with respect to known theoretical bounds, and demonstrate some robustness of the estimates to noise that is not accounted for in the model of the estimator, making the methods suitable for calibrating operations in quantum computers. We determine the utility of control parameter values using functions of the prior probability of the phase that quantify expected knowledge gain either in terms of expected narrowing of the posterior or expected information gain. In particular, we find that by maximising the rate of expected gain we obtain phase estimates having standard deviation a factor of 1.42 above the Heisenberg limit, which is the lowest value we know of for sequential phase estimation. The methods provide optimal solutions accounting for available prior knowledge and experimental imperfections with minimal effort from the user. The effect of many types of noise can be specified in the model of the measurement probabilities, and the rate of knowledge gain can easily be adjusted to account for times included in the measurement sequence other than the coherent evolution leading to the unknown phase, such as times required for state preparation or readout.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 骨X線解析のための深層学習表現の自己監督型視覚・言語アライメント

Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis ( http://arxiv.org/abs/2405.08932v1 )

ライセンス: Link先を確認
Alexandre Englebert, Anne-Sophie Collin, Olivier Cornu, Christophe De Vleeschouwer, (参考訳) 本稿では, 骨X線を用いた視覚言語事前訓練と, 骨X線撮影に関心のある下流の課題に対処するために, フランスの報告と組み合わせて行うことを提案する。 フランスの医療報告を匿名化し処理するために、実用的な処理パイプラインが導入された。 事前学習は、深層モデルエンコーダから派生した視覚的およびテキスト的埋め込み空間の自己教師付きアライメントで構成される。 得られた画像エンコーダは、変形性関節症の定量化、小児手首の骨年齢の推定、骨骨折、異常検出など、様々な下流作業に使用される。 提案手法は,人的専門家のアノテーションをはるかに多く必要とする代替手段と比較して,下流タスクの競合性能を示す。 我々の研究は、フランスのレポートを統合して、骨のX線表現にまつわる埋め込み空間を形作り、大量のペア画像と病院で利用可能なデータを活用した最初の研究である。 言語固有のシナリオにおいて、一般的なビジョンラゲージのディープモデルに頼ることにより、より広範な医療アプリケーションのためのビジョンモデルのデプロイに寄与する。

This paper proposes leveraging vision-language pretraining on bone X-rays paired with French reports to address downstream tasks of interest on bone radiography. A practical processing pipeline is introduced to anonymize and process French medical reports. Pretraining then consists in the self-supervised alignment of visual and textual embedding spaces derived from deep model encoders. The resulting image encoder is then used to handle various downstream tasks, including quantification of osteoarthritis, estimation of bone age on pediatric wrists, bone fracture and anomaly detection. Our approach demonstrates competitive performance on downstream tasks, compared to alternatives requiring a significantly larger amount of human expert annotations. Our work stands as the first study to integrate French reports to shape the embedding space devoted to bone X-Rays representations, capitalizing on the large quantity of paired images and reports data available in an hospital. By relying on generic vision-laguage deep models in a language-specific scenario, it contributes to the deployement of vision models for wider healthcare applications.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 三角ネットワークにおける景観探索

Exploring the Local Landscape in the Triangle Network ( http://arxiv.org/abs/2405.08939v1 )

ライセンス: Link先を確認
Elisa Bäumer, Victor Gitton, Tamás Kriváchy, Nicolas Gisin, Renato Renner, (参考訳) 三角形ネットワークで実現可能な分布の集合を特徴づけるのは、非常に難しい問題である。 本研究では,三角形ネットワークの局所的(古典的な)分布の集合の内部近似について検討する。 非局所的なように見える量子分布は、Elegant Joint Measurement (EJM) [Entropy. 2019; 21(3):325] である。 我々は、解析的およびニューラルネットワークに基づく内部近似を比較し、この2つの方法の間に顕著な一致を見出した。 また、ニューラルネットワークツールを用いて、局所分布が現れる可能性のある相関レベルと対称性のトレードオフを与えるネットワークベルの不等式を予想する。 我々の結果は、EJMが非局所であるという予想を大幅に強化する。

Characterizing the set of distributions that can be realized in the triangle network is a notoriously difficult problem. In this work, we investigate inner approximations of the set of local (classical) distributions of the triangle network. A quantum distribution that appears to be nonlocal is the Elegant Joint Measurement (EJM) [Entropy. 2019; 21(3):325], which motivates us to study distributions having the same symmetries as the EJM. We compare analytical and neural-network-based inner approximations and find a remarkable agreement between the two methods. Using neural network tools, we also conjecture network Bell inequalities that give a trade-off between the levels of correlation and symmetry that a local distribution may feature. Our results considerably strengthen the conjecture that the EJM is nonlocal.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 力学系と複素ネットワーク:クープマン作用素の視点から

Dynamical systems and complex networks: A Koopman operator perspective ( http://arxiv.org/abs/2405.08940v1 )

ライセンス: Link先を確認
Stefan Klus, Nataša Djurdjevac Conrad, (参考訳) クープマン・オペレーターはここ数年で多くの研究分野に参入し、変革を遂げてきた。 無限次元線形作用素による高非線形力学系を表現する$\unicode{x2013}$haは、長い間知られていた概念であるが、データからクープマン作用素を推定するための大規模データセットと効率的な機械学習アルゴリズムが、このフレームワークを極めて強力で普及させた。 クープマン作用素理論は、詳細な数学的モデルを必要とすることなく、システムの特性的大域的性質に関する洞察を得ることができる。 これらの手法が複雑なネットワークを解析し、クープマン作用素とグラフラプラシアンの関係を強調するためにどのように使用できるかを示す。

The Koopman operator has entered and transformed many research areas over the last years. Although the underlying concept$\unicode{x2013}$representing highly nonlinear dynamical systems by infinite-dimensional linear operators$\unicode{x2013}$has been known for a long time, the availability of large data sets and efficient machine learning algorithms for estimating the Koopman operator from data make this framework extremely powerful and popular. Koopman operator theory allows us to gain insights into the characteristic global properties of a system without requiring detailed mathematical models. We will show how these methods can also be used to analyze complex networks and highlight relationships between Koopman operators and graph Laplacians.
翻訳日:2024-05-16 15:05:10 公開日:2024-05-14
# 確率ヒルクライミングとランダム再スタートを用いたQAOAのパラメータ最適化比較と絡み合った非絡み合った混合演算子を用いた局所探索

Parameter optimization comparison in QAOA using Stochastic Hill Climbing with Random Re-starts and Local Search with entangled and non-entangled mixing operators ( http://arxiv.org/abs/2405.08941v1 )

ライセンス: Link先を確認
Brian García Sarmina, Guo-Hua Sun, Shi-Hai Dong, (参考訳) 本研究では,様々な問題モデルを対象とした量子近似最適化アルゴリズム (QAOA) における局所探索 (LS) 戦略と比較して,ランダム再起動 (SHC-RR) を用いた確率ヒルクライミングの有効性を検討した。 再起動回数とSHCステップを含む一様パラメータ設定を用いて、LSを2つの異なる摂動操作(乗法と和法)で解析する。 比較分析では,最大カットおよびランダムイジングモデル (RI) の複数のバージョンを含み,QAOAモデルの深さが1L$から3L$までである。 これらのモデルには様々な混合演算子構成が含まれており、これは$RX$と$RY$ゲートを統合し、混合演算子内の絡み合いのステージの影響を探索する。 また,QAOAモデルの比較にQuantum Fisher Information (QFI) を用い,QAOAの全体的な性能における絡み目の配置の重要性を実証した。 さらに,量子回路の深さが増加するにつれて,先行パラメータのQFI値は影響を受けないことがわかった。 以上の結果から,SHC-RRはLSアプローチよりも優れており,より単純な最適化機構にもかかわらず優れた有効性を示した。 さらに,混合演算子における絡み合い段階の包含が,特定の問題文脈による結果の増大や低下など,モデルの性能に大きく影響することが観察された。

This study investigates the efficacy of Stochastic Hill Climbing with Random Restarts (SHC-RR) compared to Local Search (LS) strategies within the Quantum Approximate Optimization Algorithm (QAOA) framework across various problem models. Employing uniform parameter settings, including the number of restarts and SHC steps, we analyze LS with two distinct perturbation operations: multiplication and summation. Our comparative analysis encompasses multiple versions of max-cut and random Ising model (RI) problems, utilizing QAOA models with depths ranging from $1L$ to $3L$. These models incorporate diverse mixing operator configurations, which integrate $RX$ and $RY$ gates, and explore the effects of an entanglement stage within the mixing operator. We also used Quantum Fisher Information (QFI) to compare the different QAOA models, demonstrating the importance of the placement of the entanglement stage in the overall performance of QAOA. Additionally, we observed that the QFI values of previous parameters are not affected as the depth of the quantum circuit increases. Our results consistently show that SHC-RR outperforms LS approaches, showcasing superior efficacy despite its ostensibly simpler optimization mechanism. Furthermore, we observe that the inclusion of entanglement stages within mixing operators significantly impacts model performance, either enhancing or diminishing results depending on the specific problem context.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 長期変換器の展開における課題:理論的ピーク性能分析

Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis ( http://arxiv.org/abs/2405.08944v1 )

ライセンス: Link先を確認
Yao Fu, (参考訳) トランスフォーマーベースのロングコンテキスト生成モデルは、時間単位のビデオ理解やプロジェクトレベルのコーディングエージェントといった、新たなAIアプリケーションを動かす。 長いコンテキストトランスフォーマー(例:100Kから10Mトークン)のデプロイは、短いコンテキスト(例:4Kトークン)モデルと比較すると、極めて高価である。 長文トランスのコスト削減は、2024年から始まった研究とエンジニアリングの難題になりつつある。 この研究は、GPU高帯域メモリ(HBM)の限られたサイズで複数の長コンテキスト要求を処理する際の効率上の課題を定量的に分析するための並列プログラミングフレームワークについて述べる。 計算コストを4Kのコンテキストと比較すると,KVキャッシュの大きさであるtextit{oneの単一ソースに遡る。 我々は、A100 NVLink上の50Kコンテキストの34B GPT-3.5レベルモデルを使用し、その大きなKVキャッシュが、(1)長い入力のプリフィルが短い入力よりもはるかに長い計算時間とGPUメモリを必要とすること、(2)GPU HBMに格納されている大きなKVキャッシュが、並列ユーザ数を大幅に制限すること、(3)デコード中、HBMからSMへのKVキャッシュの繰り返し読み込みが遅延を大幅に増加すること、(4)KVキャッシュのオーバーフローがHBMからDDRに切り替わることによって、大きなコンテキスト切替遅延が発生すること、の4つのタイプのデプロイメント課題を説明している。 このフレームワークを使用して、既存の作業を分析し、それらを組み合わせてエンドツーエンドシステムを構築する可能性を特定します。 全体として、この研究は長期のコンテクストトランスフォーマーデプロイメントを分析するための基本的なフレームワークを提供し、1Mコンテキストの推論コストを4K以下に抑えるための方向性を特定する。

Transformer-based long context generative models power emerging AI applications like hour-long video understanding and project-level coding agent. Deploying long context transformers (e.g., 100K to 10M tokens) is prohibitively expensive compared to short context (e.g., 4K tokens) model variants. Reducing the cost of long-context transformers is becoming a pressing research and engineering challenge starting from the year of 2024. This work describes a concurrent programming framework for quantitatively analyzing the efficiency challenges in serving multiple long-context requests under limited size of GPU high-bandwidth memory (HBM) regime. We give a detailed analysis of how all additional computational costs, compared to 4K context, trace back to \textit{one single source: the large size of the KV cache}. We use a 34B GPT-3.5 level model of 50K context on A100 NVLink as a running example, and describe how its large KV cache causes four types of deployment challenges: (1) prefilling long inputs takes much longer compute time and GPU memory than short inputs; (2) after prefilling, the large KV cache residing on the GPU HBM substantially restricts the number of concurrent users being served; (3) during decoding, repeatedly reading the KV cache from HBM to SM largely increases latency; (4) when KV cache memory overflows, swapping it from HBM to DDR causes significant context switching latency. We use this framework to analyze existing works and identify possibilities of combining them to build end-to-end systems. Overall, this work offers a foundational framework for analyzing long context transformer deployment and identifies directions towards reducing the inference cost of 1M context to be as cheap as 4K.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 可視性変化のための無線干渉画像の学習

Learned radio interferometric imaging for varying visibility coverage ( http://arxiv.org/abs/2405.08958v1 )

ライセンス: Link先を確認
Matthijs Mars, Marta M. Betcke, Jason D. McEwen, (参考訳) Square Kilometre Array (SKA)のような次世代の干渉望遠鏡では、高度に計算効率の良い再構成技術の必要性が特に高い。 電波干渉計の学習されたデータ駆動再構成技術の設計における課題は、観測ごとに異なるため、望遠鏡の様々な可視範囲を無視する必要があることである。 このため、学習後処理や学習未学習の反復的再構成法は、通常、特定の観測ごとに再訓練され、計算オーバーヘッドが大きい。 本研究は,可視性カバレッジを最小限から最小限にすることなく,可視性カバレッジのばらつきに敏感にするための学習後処理と,可視性カバレッジの異なる反復的手法を開発し,これらの手法を提案する。 学習された後処理技術は、トレーニングデータにエンコードされた事前情報に大きく依存しており、他の可視性カバレッジに乏しい。 対照的に、ネットワーク内の望遠鏡測定演算子を含むアンロール反復法は、最先端の再構築品質と計算時間を実現し、他のカバレッジを一般化し、微調整をほとんど必要とせず、ほとんど必要としない。 さらに、現実的な電波観測によく応用され、これらの画像の高ダイナミックレンジを再構築することができる。

With the next generation of interferometric telescopes, such as the Square Kilometre Array (SKA), the need for highly computationally efficient reconstruction techniques is particularly acute. The challenge in designing learned, data-driven reconstruction techniques for radio interferometry is that they need to be agnostic to the varying visibility coverages of the telescope, since these are different for each observation. Because of this, learned post-processing or learned unrolled iterative reconstruction methods must typically be retrained for each specific observation, amounting to a large computational overhead. In this work we develop learned post-processing and unrolled iterative methods for varying visibility coverages, proposing training strategies to make these methods agnostic to variations in visibility coverage with minimal to no fine-tuning. Learned post-processing techniques are heavily dependent on the prior information encoded in training data and generalise poorly to other visibility coverages. In contrast, unrolled iterative methods, which include the telescope measurement operator inside the network, achieve state-of-the-art reconstruction quality and computation time, generalising well to other coverages and require little to no fine-tuning. Furthermore, they generalise well to realistic radio observations and are able to reconstruct the high dynamic range of these images.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 鳥の視点からストリートビューへ:調査

Bird's-Eye View to Street-View: A Survey ( http://arxiv.org/abs/2405.08961v1 )

ライセンス: Link先を確認
Khawlah Bajbaa, Muhammad Usman, Saeed Anwar, Ibrahim Radwan, Abdul Bais, (参考訳) 近年、ストリートビューの画像は地理空間データ収集や都市分析の最も重要な情報源となり、意味のある洞察を生み出し、意思決定を支援する。 衛星画像からのストリートビュー画像の合成は、2つの領域間の外観と視点の相違から難しい課題である。 本研究では,20件の最近の研究論文を概説し,対応する衛星画像からストリートビュー画像がどのように合成されるのかを概観した。 主な発見は次の通りである。 (i)より現実的で正確なストリートビュー画像の合成に新しい深層学習技術が必要である。 (ii)公的利用のためにより多くのデータセットを収集する必要がある。 3) 得られた画像の適切な評価のために, より具体的な評価基準を検討する必要がある。 筆者らは,時代遅れの深層学習技術を適用したため,近年の文献では詳細かつ多様なストリートビュー画像の生成に失敗していると結論づけた。

In recent years, street view imagery has grown to become one of the most important sources of geospatial data collection and urban analytics, which facilitates generating meaningful insights and assisting in decision-making. Synthesizing a street-view image from its corresponding satellite image is a challenging task due to the significant differences in appearance and viewpoint between the two domains. In this study, we screened 20 recent research papers to provide a thorough review of the state-of-the-art of how street-view images are synthesized from their corresponding satellite counterparts. The main findings are: (i) novel deep learning techniques are required for synthesizing more realistic and accurate street-view images; (ii) more datasets need to be collected for public usage; and (iii) more specific evaluation metrics need to be investigated for evaluating the generated images appropriately. We conclude that, due to applying outdated deep learning techniques, the recent literature failed to generate detailed and diverse street-view images.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 超電導量子ビットリードアウトアーキテクチャにおけるサイドチャネル脆弱性の理解

Understanding Side-Channel Vulnerabilities in Superconducting Qubit Readout Architectures ( http://arxiv.org/abs/2405.08962v1 )

ライセンス: Link先を確認
Satvik Maurya, Chaithanya Naik Mude, Benjamin Lienhard, Swamit Tannu, (参考訳) 周波数多重化は資源効率の高い超伝導量子ビット読み出しを実現するための有効な方法である。 複数の共振器が共通のフィードラインを共有することができるため、キュービットの読み出しに関わるケーブルや受動的コンポーネントの数は劇的に削減できる。 しかし、このスケーラビリティの改善は、重要な非理想性 -- 読み出しのクロストークの増加 -- の価格で実現されます。 従来の研究では、読み出しクロストークによる量子ビット測定誤差が量子コンピュータの信頼性を損なうため、より良いデバイスや識別器の開発を目標としていた。 しかし,本研究では,システムの信頼性を超えて,複数のユーザ間で共有されるシステムに脆弱性を発生させることができることを示す。 これらの脆弱性は、読み出しクロストークによる相関エラーと直接関係している。 これらの相関エラーは、悪質な攻撃者が被害者の量子ビットの状態を予測するために利用することができ、結果として情報漏洩を引き起こす。

Frequency-multiplexing is an effective method to achieve resource-efficient superconducting qubit readout. Allowing multiple resonators to share a common feedline, the number of cables and passive components involved in the readout of a qubit can be drastically reduced. However, this improvement in scalability comes at the price of a crucial non-ideality -- an increased readout crosstalk. Prior works have targeted building better devices and discriminators to reduce its effects, as readout-crosstalk-induced qubit measurement errors are detrimental to the reliability of a quantum computer. However, in this work, we show that beyond the reliability of a system, readout crosstalk can introduce vulnerabilities in a system being shared among multiple users. These vulnerabilities are directly related to correlated errors due to readout crosstalk. These correlated errors can be exploited by nefarious attackers to predict the state of the victim qubits, resulting in information leakage.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# LLMは意味型コード構造である

LLMs are Meaning-Typed Code Constructs ( http://arxiv.org/abs/2405.08965v1 )

ライセンス: Link先を確認
Jason Mars, Yiping Kang, Jayanaka Dantanarayana, Chandra Irugalbandara, Kugesan Sivasothynathan, Lingjia Tang, (参考訳) ジェネレーティブAI(GenAI)モデルによるプログラミングは、ニューロシンボリックプログラミングの一種であり、多くのドメインで非常に採用されている。 しかし、今日のコードでのGenAIモデルの利用は複雑で、直感に反し、しばしば特別なフレームワークを必要とするため、複雑さが増す。 これは、現在、GenAIモデルと従来のプログラミングコード構造の性質を結合する適切な抽象化について不明確なためです。 本稿では,ニューロプログラミングとシンボリックプログラミングのギャップを埋めるために,新しい抽象概念のセットを紹介する。 従来の型(例えば文字列)の基本的な意味値を表す新しい特殊型であるMeaningを紹介します。 我々は、特にLLMであるGenAIモデルが、言語レベルで意味型ラップコード構造として解釈されるべきであると考えている。 我々は,意味と伝統的な型間の翻訳の問題を定式化し,この変換を開発者から抽象化するランタイム機能であるAutomatic Meaning-Type Transformation (A-MTT)を提案する。 この新たなコード構造とOTTを活用することで、LLMをシームレスに利用し、潜在的に複雑な従来のプログラミングロジックの代わりに問題を解決するニューロシンボリックプログラムの実装例を実演する。

Programming with Generative AI (GenAI) models is a type of Neurosymbolic programming and has seen tremendous adoption across many domains. However, leveraging GenAI models in code today can be complex, counter-intuitive and often require specialized frameworks, leading to increased complexity. This is because it is currently unclear as to the right abstractions through which we should marry GenAI models with the nature of traditional programming code constructs. In this paper, we introduce a set of novel abstractions to help bridge the gap between Neuro- and symbolic programming. We introduce Meaning, a new specialized type that represents the underlying semantic value of traditional types (e.g., string). We make the case that GenAI models, LLMs in particular, should be reasoned as a meaning-type wrapped code construct at the language level. We formulate the problem of translation between meaning and traditional types and propose Automatic Meaning-Type Transformation (A-MTT), a runtime feature that abstracts this translation away from the developers by automatically converting between M eaning and types at the interface of LLM invocation. Leveraging this new set of code constructs and OTT, we demonstrate example implementation of neurosymbolic programs that seamlessly utilizes LLMs to solve problems in place of potentially complex traditional programming logic.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 摂動に基づく繰り返しニューラルネットワークの学習

Perturbation-based Learning for Recurrent Neural Networks ( http://arxiv.org/abs/2405.08967v1 )

ライセンス: Link先を確認
Jesus Garcia Fernandez, Sander Keemink, Marcel van Gerven, (参考訳) リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力によって、計算の潜在的な可能性を秘めている。 時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることで、バックプロパゲーション(BP)アルゴリズムを拡張する。 しかし、このアプローチは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。 さらにBPTTは、長いシーケンスの勾配情報の伝播に苦しむことが示されており、勾配の消滅につながっている。 BPTTのような勾配に基づく手法を使う別の戦略は、摂動に基づく手法で勾配を確率的に近似することである。 この学習アプローチは極めて単純で、ネットワーク内のフォワードパスのみを必要とし、フィードバックとしてグローバルな強化信号を必要とする。 その単純さにもかかわらず、そのアップデートのランダムな性質は典型的に非効率な最適化をもたらし、ニューラルネットワークのトレーニングにおけるその有効性を制限する。 本研究では,BPTT と競合する RNN における摂動学習に対する新たなアプローチを提案する。 この目的のために、最近導入されたアクティビティベースノード摂動法(ANP)を時間領域で運用するように拡張し、より効率的な学習と一般化を実現した。 その後、我々はアプローチを検証するために様々な実験を行った。 その結果,BPTTと同等の性能,収束時間,拡張性を示し,標準ノード摂動法や重み摂動法よりも優れていた。 これらの結果から,摂動に基づく学習手法は,RNNを訓練するための勾配に基づく学習法に代わる汎用的な方法である可能性が示唆された。

Recurrent neural networks (RNNs) hold immense potential for computations due to their Turing completeness and sequential processing capabilities, yet existing methods for their training encounter efficiency challenges. Backpropagation through time (BPTT), the prevailing method, extends the backpropagation (BP) algorithm by unrolling the RNN over time. However, this approach suffers from significant drawbacks, including the need to interleave forward and backward phases and store exact gradient information. Furthermore, BPTT has been shown to struggle with propagating gradient information for long sequences, leading to vanishing gradients. An alternative strategy to using gradient-based methods like BPTT involves stochastically approximating gradients through perturbation-based methods. This learning approach is exceptionally simple, necessitating only forward passes in the network and a global reinforcement signal as feedback. Despite its simplicity, the random nature of its updates typically leads to inefficient optimization, limiting its effectiveness in training neural networks. In this study, we present a new approach to perturbation-based learning in RNNs whose performance is competitive with BPTT, while maintaining the inherent advantages over gradient-based learning. To this end, we extend the recently introduced activity-based node perturbation (ANP) method to operate in the time domain, leading to more efficient learning and generalization. Subsequently, we conduct a range of experiments to validate our approach. Our results show similar performance, convergence time and scalability when compared to BPTT, strongly outperforming standard node perturbation and weight perturbation methods. These findings suggest that perturbation-based learning methods offer a versatile alternative to gradient-based methods for training RNNs.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 潜伏潜伏実験による運動不自由者に対するハンドジェスチャのウェアラブルセンサベースFew-Shot連続学習

Wearable Sensor-Based Few-Shot Continual Learning on Hand Gestures for Motor-Impaired Individuals via Latent Embedding Exploitation ( http://arxiv.org/abs/2405.08969v1 )

ライセンス: Link先を確認
Riyad Bin Rafiq, Weishi Shi, Mark V. Albert, (参考訳) ハンドジェスチャは、人間とコンピュータのインタラクションの自然な手段を提供し、会話ができない人でも効率的にコミュニケーションできる。 既存のジェスチャー認識法は、事前に定義されたジェスチャーに大きく依存するが、運動障害のある個人は、各個人のジェスチャー動作やスタイルに合わせて、新しいジェスチャーを必要とする。 異なる人物から採取したジェスチャーサンプルは、健康状態、障害の重症度、腕の動きパターンなどによって分布の変化がある。 本稿では,リプレイベースFew-Shot Continual Learning (FSCL) フレームワークにおけるLatent Embedding Exploitation (LEE) 機構を紹介する。 本手法は,2つの追加埋め込みから派生した<textit{intra-gesture divergence}とともに,<textit{gesture pre knowledge} として知られる保存された潜伏埋め込みを活用することにより,多様化した潜伏特徴空間を生成する。 このように、モデルは、限られたサンプルで高度に可変なジェスチャーで潜時統計構造をキャプチャすることができる。 我々はSmartWatch GestureとMotion Gestureデータセットを用いて実験評価を行う。 提案手法は,6種類のジェスチャーに対して,1,3,5サンプルを用いて,57.0\%,64.6\%,69.3\%の平均試験精度を示す。 本手法は、運動障害者がウェアラブルデバイスを活用するのに役立ち、そのユニークな動作様式を学習し、人間とコンピュータのインタラクションやソーシャルコミュニケーションに適用することができる。

Hand gestures can provide a natural means of human-computer interaction and enable people who cannot speak to communicate efficiently. Existing hand gesture recognition methods heavily depend on pre-defined gestures, however, motor-impaired individuals require new gestures tailored to each individual's gesture motion and style. Gesture samples collected from different persons have distribution shifts due to their health conditions, the severity of the disability, motion patterns of the arms, etc. In this paper, we introduce the Latent Embedding Exploitation (LEE) mechanism in our replay-based Few-Shot Continual Learning (FSCL) framework that significantly improves the performance of fine-tuning a model for out-of-distribution data. Our method produces a diversified latent feature space by leveraging a preserved latent embedding known as \textit{gesture prior knowledge}, along with \textit{intra-gesture divergence} derived from two additional embeddings. Thus, the model can capture latent statistical structure in highly variable gestures with limited samples. We conduct an experimental evaluation using the SmartWatch Gesture and the Motion Gesture datasets. The proposed method results in an average test accuracy of 57.0\%, 64.6\%, and 69.3\% by using one, three, and five samples for six different gestures. Our method helps motor-impaired persons leverage wearable devices, and their unique styles of movement can be learned and applied in human-computer interaction and social communication.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 計算を考慮したカルマンフィルタと平滑化

Computation-Aware Kalman Filtering and Smoothing ( http://arxiv.org/abs/2405.08971v1 )

ライセンス: Link先を確認
Marvin Pförtner, Jonathan Wenger, Jon Cockayne, Philipp Hennig, (参考訳) カルマンフィルタリングと滑らか化はガウス・マルコフモデルにおける効率的な推論の基礎的なメカニズムである。 しかし、その時間とメモリの複雑さは、状態空間のサイズと違法にスケールする。 これは空間観測の回数とともに状態次元がスケールする時空間回帰問題において特に問題となる。 既存の近似フレームワークは共分散行列の低ランク近似を利用する。 計算近似によって導入された誤差をモデル化しないので、予測的不確実性推定は過度に楽観的である。 本研究では,これらのスケーリング問題を緩和する高次元ガウス・マルコフモデルにおいて,確率論的数値計算法を提案する。 行列フリー反復アルゴリズムはGPUアクセラレーションを活用し,計算コストと予測の不確実性との間の調整可能なトレードオフを可能にする。 最後に,大規模気候データセット上での手法のスケーラビリティについて述べる。

Kalman filtering and smoothing are the foundational mechanisms for efficient inference in Gauss-Markov models. However, their time and memory complexities scale prohibitively with the size of the state space. This is particularly problematic in spatiotemporal regression problems, where the state dimension scales with the number of spatial observations. Existing approximate frameworks leverage low-rank approximations of the covariance matrix. Since they do not model the error introduced by the computational approximation, their predictive uncertainty estimates can be overly optimistic. In this work, we propose a probabilistic numerical method for inference in high-dimensional Gauss-Markov models which mitigates these scaling issues. Our matrix-free iterative algorithm leverages GPU acceleration and crucially enables a tunable trade-off between computational cost and predictive uncertainty. Finally, we demonstrate the scalability of our method on a large-scale climate dataset.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# スイッチングコストを考慮したベイズ最適化への適応的アプローチ

An adaptive approach to Bayesian Optimization with switching costs ( http://arxiv.org/abs/2405.08973v1 )

ライセンス: Link先を確認
Stefan Pricopie, Richard Allmendinger, Manuel Lopez-Ibanez, Clyde Fare, Matt Benatan, Joshua Knowles, (参考訳) 本研究では,探索空間の特定の設計変数の変更が切り替えコストを発生させるような連続的な実験設計の資源制約付き設定に対するベイズ最適化の修正について検討する。 これは、同じセットアップを維持しながら、より多くの評価を行うためのトレードオフがあるシナリオをモデル化します。 この逐次的問題定式化にプロセス制約付きバッチアルゴリズムを2つ適用し,コスト認識とコスト非依存の2つの新しい手法を提案する。 異なる次元の 7 つのスケーラブルなテスト関数セットと、30 個の構成のスイッチングコスト設定を用いて、アルゴリズムを検証、比較する。 提案したコスト認識ハイパーパラメータフリーアルゴリズムは、考慮したすべての設定において、調整されたプロセス制約付きアルゴリズムに匹敵する結果をもたらし、ランドスケープの特徴やコストトレードオフに対するある程度の堅牢性を示す。 この方法は、スイッチングコストを増大させ、他のアルゴリズムよりも優れ始めます。 我々の研究は、バッチ設定のみを考慮するリソース制約のある設定における最近のベイズ最適化研究から、さらに広範囲に及んでいる。 本研究の貢献は資源制約問題全般に関係するが,特に資源可用性の変化への適応性が重要である問題に関係している。

We investigate modifications to Bayesian Optimization for a resource-constrained setting of sequential experimental design where changes to certain design variables of the search space incur a switching cost. This models the scenario where there is a trade-off between evaluating more while maintaining the same setup, or switching and restricting the number of possible evaluations due to the incurred cost. We adapt two process-constrained batch algorithms to this sequential problem formulation, and propose two new methods: one cost-aware and one cost-ignorant. We validate and compare the algorithms using a set of 7 scalable test functions in different dimensionalities and switching-cost settings for 30 total configurations. Our proposed cost-aware hyperparameter-free algorithm yields comparable results to tuned process-constrained algorithms in all settings we considered, suggesting some degree of robustness to varying landscape features and cost trade-offs. This method starts to outperform the other algorithms with increasing switching-cost. Our work broadens out from other recent Bayesian Optimization studies in resource-constrained settings that consider a batch setting only. While the contributions of this work are relevant to the general class of resource-constrained problems, they are particularly relevant to problems where adaptability to varying resource availability is of high importance
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 有界確率変数有限標本に対する分布自由有効p値

A distribution-free valid p-value for finite samples of bounded random variables ( http://arxiv.org/abs/2405.08975v1 )

ライセンス: Link先を確認
Joaquin Alvarez, (参考訳) Plekis, Ramon, Wang が導入した有界確率変数の濃度不等式に基づく有効な p-値を構築する。 この研究の背後にある動機は、分布のない環境で予測アルゴリズムの校正である。 超一様p-値は、特定の領域におけるホーフディングやベンツクスの代替よりも厳密である。 機械学習の文脈におけるキャリブレーションの設定によって動機付けられても、この研究で提示されたアイデアは古典的な統計的推論にも関係している。 さらに,従来の文献で示された有界損失に対する有効なp-値の収集力を比較する。

We build a valid p-value based on a concentration inequality for bounded random variables introduced by Pelekis, Ramon and Wang. The motivation behind this work is the calibration of predictive algorithms in a distribution-free setting. The super-uniform p-value is tighter than Hoeffding and Bentkus alternatives in certain regions. Even though we are motivated by a calibration setting in a machine learning context, the ideas presented in this work are also relevant in classical statistical inference. Furthermore, we compare the power of a collection of valid p- values for bounded losses, which are presented in previous literature.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# drGAT:ドラッグセルジェネレーションによる薬物応答の注意誘導遺伝子評価

drGAT: Attention-Guided Gene Assessment of Drug Response Utilizing a Drug-Cell-Gene Heterogeneous Network ( http://arxiv.org/abs/2405.08979v1 )

ライセンス: Link先を確認
Yoshitaka Inoue, Hunmin Lee, Tianfan Fu, Augustin Luna, (参考訳) 薬物開発は、高い失敗率の長いプロセスである。 ますます、薬物開発プロセスを促進するために機械学習が利用されている。 これらのモデルは、生物学的な文脈での活動を含む、薬物特性の理解を高めることを目的としている。 しかし、薬物反応(DR)予測における大きな課題は、発見の検証に役立つモデル解釈可能性である。 これは生物医学において重要であり、タンパク質との薬物相互作用に関する確立した知識と比較してモデルを理解する必要がある。 グラフ深層学習モデルであるDrGATは、タンパク質、細胞株、薬物間の関係からなる異種グラフを活用する。 drGATは2値感度予測としてのDR予測と、注意係数からの薬物機構の解明の2つの目的で設計されている。 drGATは既存のモデルよりも優れた性能を示しており、NCI60薬物応答データセットの269のDNA損傷化合物に対して78 %の精度(および精度)と76 %のF1スコアを達成している。 本モデルの解釈可能性を評価するため,各薬剤の注目係数が最も高い上位5遺伝子と比較して,シャープド・抽象における薬物遺伝子共起の検証を行った。 また, トポイソメラーゼ関連薬物の近傍を検査し, モデルに既知関係が保持されているかを検討した。 例えば、本モデルではTOP1をイリノテカンおよびトポテカンの高重み付き予測機能として保持し、薬物の調節因子となる可能性のある他の遺伝子も保持した。 本手法は薬剤感受性を正確に予測するために有用であり,がん患者の治療に関するバイオマーカーの同定に有用である。

Drug development is a lengthy process with a high failure rate. Increasingly, machine learning is utilized to facilitate the drug development processes. These models aim to enhance our understanding of drug characteristics, including their activity in biological contexts. However, a major challenge in drug response (DR) prediction is model interpretability as it aids in the validation of findings. This is important in biomedicine, where models need to be understandable in comparison with established knowledge of drug interactions with proteins. drGAT, a graph deep learning model, leverages a heterogeneous graph composed of relationships between proteins, cell lines, and drugs. drGAT is designed with two objectives: DR prediction as a binary sensitivity prediction and elucidation of drug mechanism from attention coefficients. drGAT has demonstrated superior performance over existing models, achieving 78\% accuracy (and precision), and 76\% F1 score for 269 DNA-damaging compounds of the NCI60 drug response dataset. To assess the model's interpretability, we conducted a review of drug-gene co-occurrences in Pubmed abstracts in comparison to the top 5 genes with the highest attention coefficients for each drug. We also examined whether known relationships were retained in the model by inspecting the neighborhoods of topoisomerase-related drugs. For example, our model retained TOP1 as a highly weighted predictive feature for irinotecan and topotecan, in addition to other genes that could potentially be regulators of the drugs. Our method can be used to accurately predict sensitivity to drugs and may be useful in the identification of biomarkers relating to the treatment of cancer patients.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 走査パスモデリングにおける設計決定の影響

Impact of Design Decisions in Scanpath Modeling ( http://arxiv.org/abs/2405.08981v1 )

ライセンス: Link先を確認
Parvin Emami, Yue Jiang, Zixin Guo, Luis A. Leiva, (参考訳) グラフィカル・ユーザ・インタフェース(GUI)におけるビジュアル・サリエンシのモデリングは、人々がGUI設計をどのように認識し、どの要素が注意を引き付けるかを理解するのに役立つ。 しばしば見落とされがちな側面の1つは、計算モデルは決定が簡単ではない一連の設計パラメータに依存しているという事実である。 設計パラメータの違いがスキャンパス評価指標に与える影響を,最先端の計算モデル(DeepGaze++)を用いて系統的に解析する。 特に,入力画像サイズ,反射減衰抑制,マスキング半径の3つの設計パラメータに着目した。 これらのパラメータの小さなバリエーションでさえ、DTWやアイアナリシスのような標準評価指標に顕著な影響を与えていることを示す。 これらの効果は、UMSSやScanGANのような他のスキャンパスモデルや、MASSVISのような他のデータセットにも発生する。 この結果から,GUIにおけるユーザの視聴行動予測における設計判断の影響が示唆された。

Modeling visual saliency in graphical user interfaces (GUIs) allows to understand how people perceive GUI designs and what elements attract their attention. One aspect that is often overlooked is the fact that computational models depend on a series of design parameters that are not straightforward to decide. We systematically analyze how different design parameters affect scanpath evaluation metrics using a state-of-the-art computational model (DeepGaze++). We particularly focus on three design parameters: input image size, inhibition-of-return decay, and masking radius. We show that even small variations of these design parameters have a noticeable impact on standard evaluation metrics such as DTW or Eyenalysis. These effects also occur in other scanpath models, such as UMSS and ScanGAN, and in other datasets such as MASSVIS. Taken together, our results put forward the impact of design decisions for predicting users' viewing behavior on GUIs.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 高速かつ高忠実なクオリット読み出しによる漏れ低減

Enabling Leakage Reduction via Fast and High-Fidelity Qutrit Readout ( http://arxiv.org/abs/2405.08982v1 )

ライセンス: Link先を確認
Chaithanya Naik Mude, Satvik Maurya, Benjamin Lienhard, Swamit Tannu, (参考訳) 量子エラー補正(Quantum Error Correction, QEC)は、量子プロセッサを実用規模で効果的に動作させる鍵である。 QECは、基本的なビルディングブロックとして、キュービットのような2レベルシステムで構成されるシステムのために設計されている。 残念なことに、量子ビットは第3位以上のエネルギーレベルに漏れる可能性があるため、これらのリークは検出と緩和を困難にしている。 迅速に対処しなければ、これらのリークエラーはQECを増殖させ、弱体化させ、重大な計算不正確性をもたらす。 本稿では,FPGAなどの専用ハードウェア上で実装が容易な高忠実度3レベル量子ビット読み出しプロトコルを提案する。 本設計により,従来のqubit-stateディスクリミネータを用いたアプローチによる高速かつ高忠実な漏洩検出が可能となる。

Quantum Error Correction (QEC) is key to operating quantum processors effectively at practical scales. QECs are designed for systems comprising two-level systems, such as qubits, as their fundamental building block. Unfortunately, qubits can leak to third and higher energy levels, making these leaks challenging to detect and mitigate. If not addressed promptly, these leakage errors can proliferate and undermine QEC, leading to significant computational inaccuracies. Here, we present a high-fidelity three-level qubit readout protocol that is simple to implement on dedicated hardware such as FPGAs. Our design enables faster and higher-fidelity leakage detection over approaches using conventional qubit-state discriminators.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 一般化された量子マスター方程式は、多重時間相関関数の半古典的予測の精度を向上させることができる

Generalized quantum master equations can improve the accuracy of semiclassical predictions of multitime correlation functions ( http://arxiv.org/abs/2405.08983v1 )

ライセンス: Link先を確認
Thomas Sayer, Andrés Montoya-Castillo, (参考訳) マルチタイム量子相関関数は物理科学における中心的な対象であり、実験的な可観測物と基礎となるモデルの力学との直接的なリンクを提供する。 2次元分光法や量子制御のような実験はそのような量を測定することができるが、そのような反応の正確なシミュレーションは計算に高価であり、システムの複雑さによっては不可能である。 一般的な量子マスター方程式(GQME)は、参照力学を比較的簡単なコストで拡張することで計算の節約を提供する。 しかしながら、半古典的な階層にあるような原子論的な分解を伴う化学系に対処できる動的手法は、しばしば精度の低下に悩まされ、結果として得られる信条が制限される。 半古典的メモリカーネルの精度向上に関する研究と、近年のマルチタイムGQMEに関する研究を組み合わせることで、マルチタイムの半古典的GQMEを利用して、粗い平均場のエレンフェストダイナミクスの精度を劇的に改善し、等級効率向上の順序を得られることを示す。

Multitime quantum correlation functions are central objects in physical science, offering a direct link between experimental observables and the dynamics of an underlying model. While experiments such as 2D spectroscopy and quantum control can now measure such quantities, the accurate simulation of such responses remains computationally expensive and sometimes impossible, depending on the system's complexity. A natural tool to employ is the generalized quantum master equation (GQME), which can offer computational savings by extending reference dynamics at a comparatively trivial cost. However, dynamical methods that can tackle chemical systems with atomistic resolution, such as those in the semiclassical hierarchy, often suffer from poor accuracy, limiting the credence one might lend to their results. By combining work on the accuracy-boosting formulation of semiclassical memory kernels with recent work on the multitime GQME, here we show for the first time that one can exploit a multitime semiclassical GQME to dramatically improve both the accuracy of coarse mean-field Ehrenfest dynamics and obtain orders of magnitude efficiency gains.
翻訳日:2024-05-16 14:55:25 公開日:2024-05-14
# 機械学習モデルが機能を持つのは何か?

What is it for a Machine Learning Model to Have a Capability? ( http://arxiv.org/abs/2405.08989v1 )

ライセンス: Link先を確認
Jacqueline Harding, Nathaniel Sharadin, (参考訳) 現代の機械学習(ML)モデルに何ができるのか? 社会におけるMLモデルの普及を考えると、この問題に答えることは、パブリックとプライベートの両方において、さまざまな利害関係者に重要である。 モデルの性能評価は、規制の注意と政府の助成金に支えられて、現代のMLの重要なサブフィールドとして急速に発展しつつある。 それにもかかわらず、能力を持つMLモデルの概念は疑問視されていない。 そして、この疑問にどんな証拠が当てはまるのか? 本稿では,大規模言語モデル(LLM)を実例として,これらの疑問に答えることを目的とする。 本研究は,MLモデルの能力に関する哲学文献をもとに,モデル評価の新たな科学に有効に適用可能な,MLモデルの能力について考察する。 私たちの中核的な提案は、モデル能力の条件付き分析(CAMA: Conditional analysis of model abilities)です。 本論文の主な貢献は、この提案をMLの文脈で正確にすることであり、その結果、LCMに適用可能なCAMAの運用が可能となった。 そこで我々はCAMAを実践し、MLモデル評価実践の様々な特徴を理解するのに役立つことを示し、公正なモデル間比較を行うための手順を提案する。

What can contemporary machine learning (ML) models do? Given the proliferation of ML models in society, answering this question matters to a variety of stakeholders, both public and private. The evaluation of models' capabilities is rapidly emerging as a key subfield of modern ML, buoyed by regulatory attention and government grants. Despite this, the notion of an ML model possessing a capability has not been interrogated: what are we saying when we say that a model is able to do something? And what sorts of evidence bear upon this question? In this paper, we aim to answer these questions, using the capabilities of large language models (LLMs) as a running example. Drawing on the large philosophical literature on abilities, we develop an account of ML models' capabilities which can be usefully applied to the nascent science of model evaluation. Our core proposal is a conditional analysis of model abilities (CAMA): crudely, a machine learning model has a capability to X just when it would reliably succeed at doing X if it 'tried'. The main contribution of the paper is making this proposal precise in the context of ML, resulting in an operationalisation of CAMA applicable to LLMs. We then put CAMA to work, showing that it can help make sense of various features of ML model evaluation practice, as well as suggest procedures for performing fair inter-model comparisons.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-14
# 期待最大化に基づくマルチモデル3次元レジストレーションの理論解析

Theoretical Analysis for Expectation-Maximization-Based Multi-Model 3D Registration ( http://arxiv.org/abs/2405.08991v1 )

ライセンス: Link先を確認
David Jin, Harry Zhang, Kai Chang, (参考訳) 我々は,最近提案された予測最大化に基づくアルゴリズムの詳細な理論的解析を行い,多モデル3D登録という3次元登録問題のバリエーションを解決する。 優れた経験結果を示したにもかかわらず、EMアプローチが基底真理に収束する条件を理論的には正当化しなかった。 本稿では,このような条件を定め,このギャップを埋めることを目的としている。 特に、解析は、コース全体を通して様々なインスタンスで開発され、適用される確率的尾境界の使用を中心に展開される。 このプロジェクトで研究された問題は、テールバウンドが確率論的方法でアルゴリズムの理解を促進するのに役立つコースとは異なる別の例である。 3Dレジストレーションに関する自己完結型背景資料を提供する

We perform detailed theoretical analysis of an expectation-maximization-based algorithm recently proposed in for solving a variation of the 3D registration problem, named multi-model 3D registration. Despite having shown superior empirical results, did not theoretically justify the conditions under which the EM approach converges to the ground truth. In this project, we aim to close this gap by establishing such conditions. In particular, the analysis revolves around the usage of probabilistic tail bounds that are developed and applied in various instances throughout the course. The problem studied in this project stands as another example, different from those seen in the course, in which tail-bounds help advance our algorithmic understanding in a probabilistic way. We provide self-contained background materials on 3D Registration
翻訳日:2024-05-16 14:45:30 公開日:2024-05-14
# 大規模視覚言語モデルを用いた文脈感情認識

Contextual Emotion Recognition using Large Vision Language Models ( http://arxiv.org/abs/2405.08992v1 )

ライセンス: Link先を確認
Yasaman Etesam, Özge Nilay Yalçın, Chuxuan Zhang, Angelica Lim, (参考訳) 「バウンディングボックスの人はどんな感じですか?」 現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。 身体的ポーズ、文脈的知識、常識的推論は全て、人間の心的タスクの感情的理論の実行に寄与する。 本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて考察する。 1)画像キャプションに言語のみのLLMが続き、 2)視覚言語モデル、ゼロショットと微調整のセットアップ。 EMOTIC(Emotions in Context)データセットの手法を評価し、小さなデータセットでも微調整された視覚言語モデルが従来のベースラインを大幅に上回ることを示す。 この研究の結果は、ロボットやエージェントが将来感情に敏感な意思決定とインタラクションを行うのを助けることを目的としている。

"How does the person in the bounding box feel?" Achieving human-level recognition of the apparent emotion of a person in real world situations remains an unsolved task in computer vision. Facial expressions are not enough: body pose, contextual knowledge, and commonsense reasoning all contribute to how humans perform this emotional theory of mind task. In this paper, we examine two major approaches enabled by recent large vision language models: 1) image captioning followed by a language-only LLM, and 2) vision language models, under zero-shot and fine-tuned setups. We evaluate the methods on the Emotions in Context (EMOTIC) dataset and demonstrate that a vision language model, fine-tuned even on a small dataset, can significantly outperform traditional baselines. The results of this work aim to help robots and agents perform emotionally sensitive decision-making and interaction in the future.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-14
# 変形可能な物体に対する学習対応

Learning Correspondence for Deformable Objects ( http://arxiv.org/abs/2405.08996v1 )

ライセンス: Link先を確認
Priya Sundaresan, Aditya Ganapathi, Harry Zhang, Shivin Devgon, (参考訳) 本稿では,古典的手法と学習的手法を比較し,変形可能なオブジェクト,すなわち布とロープの画素対応の問題について検討する。 布とロープは、伝統的に大きな構成空間で解析的にモデル化する最も難しい変形可能なオブジェクトであり、布の折り畳み、ロープ結び付け、Tシャツの折り畳み、カーテンの閉じなどといったロボット作業の文脈において意味がある。 対応問題はロボット工学において大きく動機付けられており、セマンティックな把握、オブジェクト追跡、および対応の上に構築された操作ポリシーを含む広範囲の応用がある。 本稿では,SIFT,SURF,ORBなどの特徴マッチングによる対応手法と,TimeCycle や Dense Object Nets などの学習に基づく2つの手法を網羅的に検討する。 我々は,(1) 変形可能なオブジェクトの合成画像のシミュレーションとレンダリングを行うフレームワーク,(2) 擬似ドメインと実ドメイン間の移動を示す定性的な結果,(2) デンスオブジェクトネットを拡張する新しい学習ベース対応手法,(3) 最先端の対応方法間の標準化された比較,の3つの主な貢献を行う。 提案手法は,非剛性(および剛性)物体に対する時間的および空間的連続的な対応を学習するための柔軟で汎用的な定式化を提供する。 Dense Object Netsは,すべてのメソッドに対して平均2乗誤差統計を報告し,ベースラインの古典的手法よりも高い性能を示し,提案したDense Object Netsの拡張も同様に機能する。

We investigate the problem of pixelwise correspondence for deformable objects, namely cloth and rope, by comparing both classical and learning-based methods. We choose cloth and rope because they are traditionally some of the most difficult deformable objects to analytically model with their large configuration space, and they are meaningful in the context of robotic tasks like cloth folding, rope knot-tying, T-shirt folding, curtain closing, etc. The correspondence problem is heavily motivated in robotics, with wide-ranging applications including semantic grasping, object tracking, and manipulation policies built on top of correspondences. We present an exhaustive survey of existing classical methods for doing correspondence via feature-matching, including SIFT, SURF, and ORB, and two recently published learning-based methods including TimeCycle and Dense Object Nets. We make three main contributions: (1) a framework for simulating and rendering synthetic images of deformable objects, with qualitative results demonstrating transfer between our simulated and real domains (2) a new learning-based correspondence method extending Dense Object Nets, and (3) a standardized comparison across state-of-the-art correspondence methods. Our proposed method provides a flexible, general formulation for learning temporally and spatially continuous correspondences for nonrigid (and rigid) objects. We report root mean squared error statistics for all methods and find that Dense Object Nets outperforms baseline classical methods for correspondence, and our proposed extension of Dense Object Nets performs similarly.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-14
# LLMを用いた低・非ソース言語のためのルールベース機械翻訳

LLM-Assisted Rule Based Machine Translation for Low/No-Resource Languages ( http://arxiv.org/abs/2405.08997v1 )

ライセンス: Link先を確認
Jared Coleman, Bhaskar Krishnamachari, Khalil Iskarous, Ruben Rosales, (参考訳) 本稿では,非オープンソース言語に特に有用である機械翻訳のための新しいパラダイムを提案する。 オウエンズ・バレー・パイユート(Owens Valley Paiute, OVP)のための最初の言語教育/再生指向機械翻訳装置を設計する。 本稿では,ルールベース文ビルダー,英語翻訳者へのOVP,英語翻訳者へのOVP翻訳について詳細な評価を行う。 また、このパラダイムの可能性、その限界、そしてそれが開放する将来の研究への多くの道について論じる。

We propose a new paradigm for machine translation that is particularly useful for no-resource languages (those without any publicly available bilingual or monolingual corpora): \acronym (LLM-Assisted Rule Based Machine Translation). Using the \acronym paradigm, we design the first language education/revitalization-oriented machine translator for Owens Valley Paiute (OVP), a critically endangered Indigenous American language for which there is virtually no publicly available data. We present a detailed evaluation of the translator's components: a rule-based sentence builder, an OVP to English translator, and an English to OVP translator. We also discuss the potential of the paradigm, its limitations, and the many avenues for future research that it opens up.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-14
# 確率勾配バーカーダイナミクスによるロバスト近似サンプリング

Robust Approximate Sampling via Stochastic Gradient Barker Dynamics ( http://arxiv.org/abs/2405.08999v1 )

ライセンス: Link先を確認
Lorenzo Mauri, Giacomo Zanella, (参考訳) Stochastic Gradient (SG) Markov Chain Monte Carlo Algorithm (MCMC) は、大規模なデータセットの存在下でベイズサンプリングの一般的なアルゴリズムである。 しかし、理論上の保証はほとんどなく、経験的なパフォーマンスを評価することは簡単ではない。 このような文脈では、過度パラメータの選択に頑健なアルゴリズムと不均一性勾配を開発することが重要である。 本研究では,最近開発されたLangevinベースのサンプリングアルゴリズムの頑健な代替であるBarker MCMCスキームを確率勾配フレームワークに拡張した確率勾配バーカー力学(SGBD)アルゴリズムを紹介する。 確率勾配がバーカー遷移機構に与える影響を特徴付けるとともに、適切な仮定の下で、提案手法の勾配雑音による誤差を除去するバイアス補正版を開発する。 本稿では,SGBD が高パラメータチューニングや目標勾配の不規則な挙動に対して,確率勾配ランゲヴィン力学アルゴリズムよりも頑健であることを示す。

Stochastic Gradient (SG) Markov Chain Monte Carlo algorithms (MCMC) are popular algorithms for Bayesian sampling in the presence of large datasets. However, they come with little theoretical guarantees and assessing their empirical performances is non-trivial. In such context, it is crucial to develop algorithms that are robust to the choice of hyperparameters and to gradients heterogeneity since, in practice, both the choice of step-size and behaviour of target gradients induce hard-to-control biases in the invariant distribution. In this work we introduce the stochastic gradient Barker dynamics (SGBD) algorithm, extending the recently developed Barker MCMC scheme, a robust alternative to Langevin-based sampling algorithms, to the stochastic gradient framework. We characterize the impact of stochastic gradients on the Barker transition mechanism and develop a bias-corrected version that, under suitable assumptions, eliminates the error due to the gradient noise in the proposal. We illustrate the performance on a number of high-dimensional examples, showing that SGBD is more robust to hyperparameter tuning and to irregular behavior of the target gradients compared to the popular stochastic gradient Langevin dynamics algorithm.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-14
# 異常発見のための木に基づくアンサンブルの有効性:洞察、バッチ、ストリーミングアクティブラーニング

Effectiveness of Tree-based Ensembles for Anomaly Discovery: Insights, Batch and Streaming Active Learning ( http://arxiv.org/abs/1901.08930v3 )

ライセンス: Link先を確認
Shubhomoy Das, Md Rakibul Islam, Nitthilan Kannappan Jayakodi, Janardhan Rao Doppa, (参考訳) コンピュータセキュリティや不正防止を含む現実のADアプリケーションでは、偽陽性の労力を最小限に抑えるために、人間のアナリストによって異常検出装置を設定できなければならない。 検出器を構成する重要な方法の1つは、いくつかのインスタンスに対して真のラベル(nominalまたはanomaly)を提供することである。 アクティブな異常発見に関する最近の研究は、トップスコーリングのインスタンスを優雅にクエリし、ラベルフィードバックに基づいてアンサンブル検出器の重みを調整することで、真の異常を迅速に発見できることを示した。 本論文は,木に基づくアンサンブルを用いた異常発見の最先端化に大きく貢献する。 まず、教師なしのツリーベースのアンサンブルと、欲求クエリ選択戦略に基づくアクティブラーニングの実践的成功を説明する重要な洞察を提供する。 また、実世界のデータに経験的な結果を提示し、私たちの洞察と理論分析をサポートし、活発な学習を支援する。 第2に,発見異常を記述するためのコンパクト記述という形式主義に基づいて,発見異常の多様性を向上させるためのバッチ能動的学習アルゴリズムを開発した。 第3に、ストリーミングデータ設定を処理するための新しいアクティブな学習アルゴリズムを開発する。 本稿では, ドリフトを頑健に検出するだけでなく, 異常検出を原理的に適応するための補正行動を行えるデータドリフト検出アルゴリズムを提案する。 第4に、我々の洞察と木に基づくアクティブな異常発見アルゴリズムを、バッチおよびストリーミングデータ設定の両方で評価するための広範な実験を提示する。 その結果、アクティブな学習により、最先端の教師なしベースラインよりもはるかに多くの異常を発見でき、バッチなアクティブな学習アルゴリズムは多様な異常を発見し、ストリーミングデータ設定下のアルゴリズムはバッチ設定と競合することがわかった。

In many real-world AD applications including computer security and fraud prevention, the anomaly detector must be configurable by the human analyst to minimize the effort on false positives. One important way to configure the detector is by providing true labels (nominal or anomaly) for a few instances. Recent work on active anomaly discovery has shown that greedily querying the top-scoring instance and tuning the weights of ensemble detectors based on label feedback allows us to quickly discover true anomalies. This paper makes four main contributions to improve the state-of-the-art in anomaly discovery using tree-based ensembles. First, we provide an important insight that explains the practical successes of unsupervised tree-based ensembles and active learning based on greedy query selection strategy. We also present empirical results on real-world data to support our insights and theoretical analysis to support active learning. Second, we develop a novel batch active learning algorithm to improve the diversity of discovered anomalies based on a formalism called compact description to describe the discovered anomalies. Third, we develop a novel active learning algorithm to handle streaming data setting. We present a data drift detection algorithm that not only detects the drift robustly, but also allows us to take corrective actions to adapt the anomaly detector in a principled manner. Fourth, we present extensive experiments to evaluate our insights and our tree-based active anomaly discovery algorithms in both batch and streaming data settings. Our results show that active learning allows us to discover significantly more anomalies than state-of-the-art unsupervised baselines, our batch active learning algorithm discovers diverse anomalies, and our algorithms under the streaming-data setup are competitive with the batch setup.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-14
# FDive:パターンに基づく類似度尺度を用いた関連モデルの学習

FDive: Learning Relevance Models using Pattern-based Similarity Measures ( http://arxiv.org/abs/1907.12489v4 )

ライセンス: Link先を確認
Frederik L. Dennig, Tom Polk, Zudi Lin, Tobias Schreck, Hanspeter Pfister, Michael Behrisch, (参考訳) 大規模な高次元データセットにおける興味深いパターンの検出は、その次元性やパターンの複雑さのために困難である。 したがって、アナリストは関連するパターンの抽出を自動でサポートする必要がある。 本稿では、パターンに基づく類似性学習を支援する、視覚的に探索可能な関連モデルの作成を支援する視覚活動学習システムFDiveを提案する。 特徴記述子と距離関数の組み合わせからなる類似度尺度を、関係のないデータと区別する能力によってランク付けするために、ユーザ提供ラベルの小さなセットを用いる。 最適な類似度尺度に基づいて、クラスタのアフィリエイトに応じてデータを分類する、インタラクティブな自己組織化マップベースの関連モデルを算出する。 また、その正確性を改善するために、さらに関連性フィードバックを自動で促す。 未確定領域、特に決定境界付近は強調表示され、ユーザによって洗練される。 我々は、最先端の特徴選択技術との比較によるアプローチの評価を行い、脳細胞の電子顕微鏡像の分類によるアプローチの有用性を実証した。 その結果、FDiveは関連モデルの品質と理解を向上し、脳研究に新たな洞察をもたらす可能性が示唆された。

The detection of interesting patterns in large high-dimensional datasets is difficult because of their dimensionality and pattern complexity. Therefore, analysts require automated support for the extraction of relevant patterns. In this paper, we present FDive, a visual active learning system that helps to create visually explorable relevance models, assisted by learning a pattern-based similarity. We use a small set of user-provided labels to rank similarity measures, consisting of feature descriptor and distance function combinations, by their ability to distinguish relevant from irrelevant data. Based on the best-ranked similarity measure, the system calculates an interactive Self-Organizing Map-based relevance model, which classifies data according to the cluster affiliation. It also automatically prompts further relevance feedback to improve its accuracy. Uncertain areas, especially near the decision boundaries, are highlighted and can be refined by the user. We evaluate our approach by comparison to state-of-the-art feature selection techniques and demonstrate the usefulness of our approach by a case study classifying electron microscopy images of brain cells. The results show that FDive enhances both the quality and understanding of relevance models and can thus lead to new insights for brain research.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-14
# 限られた結果データを用いた治療効果の効率的な評価におけるサロゲートの役割について

On the role of surrogates in the efficient estimation of treatment effects with limited outcome data ( http://arxiv.org/abs/2003.12408v3 )

ライセンス: Link先を確認
Nathan Kallus, Xiaojie Mao, (参考訳) 多くの実験や観察研究において、関心の結果を観察することはしばしば困難またはコストがかかり、平均治療効果(ATE)を推定する有効なサンプルサイズが減少する。 一次利害関係にない結果のみを代理する単位にデータを組み込むことは、ATE推定の精度を高めることができる。 我々は、厳格な代理条件を課すことを控え、サロゲートを目標とする結果の完全な代替として許容する。 代わりに、ランダムな割り当てや欠落、それに対応する重複条件以上の仮定を伴わずに、対象とする結果(それ自体がATEを識別している)の可利用かつ限定的な観察を、サロゲート結果の豊富な観察で補う。 ポテンシャルゲインを定量化するために、圧倒的な単位数と同等数の単位が欠落した場合に、ATE推定と代理無しの効率境界の差を導出する。 我々は,これらの効率向上を実現するために,ロバストなATE推定と推論手法を開発した。 職種訓練の長期学習効果を実証的に検証した。

In many experiments and observational studies, the outcome of interest is often difficult or expensive to observe, reducing effective sample sizes for estimating average treatment effects (ATEs) even when identifiable. We study how incorporating data on units for which only surrogate outcomes not of primary interest are observed can increase the precision of ATE estimation. We refrain from imposing stringent surrogacy conditions, which permit surrogates as perfect replacements for the target outcome. Instead, we supplement the available, albeit limited, observations of the target outcome (which by themselves identify the ATE) with abundant observations of surrogate outcomes, without any assumptions beyond random assignment and missingness and corresponding overlap conditions. To quantify the potential gains, we derive the difference in efficiency bounds on ATE estimation with and without surrogates, both when an overwhelming or comparable number of units have missing outcomes. We develop robust ATE estimation and inference methods that realize these efficiency gains. We empirically demonstrate the gains by studying the long-term-earning effects of job training.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-14
# サム・オブ・ノームズ・クラスタリングは近傍の球を分離しない

Sum-of-norms clustering does not separate nearby balls ( http://arxiv.org/abs/2104.13753v3 )

ライセンス: Link先を確認
Alexander Dunlap, Jean-Christophe Mourrat, (参考訳) Sum-of-normsクラスタリングは、$K$-meansクラスタリングの一般的な凸化である。 このデータセットが、単位半径の2つの非結合球の結合に関する均一測度に従って分布する多数の独立確率変数で構成されている場合、ボールが互いに十分に近接している場合、サム・オブ・ノームのクラスタリングは通常、データセットの2つのクラスタへの分解を回復することができない。 次元が無限大になる傾向にあるので、2つの球の中心間の距離が2\sqrt{2}$であるとしても、これは成り立つ。 これを示すために、データセットを一般的な尺度に置き換えた、Sum-of-normsクラスタリングの継続的バージョンを紹介し、分析する。 特に、離散データポイントの場合においても、新しいと思われるクラスタリングの局所的・言語的特徴を記述し、証明する。

Sum-of-norms clustering is a popular convexification of $K$-means clustering. We show that, if the dataset is made of a large number of independent random variables distributed according to the uniform measure on the union of two disjoint balls of unit radius, and if the balls are sufficiently close to one another, then sum-of-norms clustering will typically fail to recover the decomposition of the dataset into two clusters. As the dimension tends to infinity, this happens even when the distance between the centers of the two balls is taken to be as large as $2\sqrt{2}$. In order to show this, we introduce and analyze a continuous version of sum-of-norms clustering, where the dataset is replaced by a general measure. In particular, we state and prove a local-global characterization of the clustering that seems to be new even in the case of discrete datapoints.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-14
# サンプル観察効果:列挙、ランダム化、一般化

Sample Observed Effects: Enumeration, Randomization and Generalization ( http://arxiv.org/abs/2108.04376v5 )

ライセンス: Link先を確認
Andre F. Ribeiro, (参考訳) 因果効果の「非現実的」定義は、偏見と正確さから導出され、一般化可能ではない。 介入効果の外部妥当性(EV)に関するコンビニアル定義を提案する。 まず、効果観察の「背景」の概念を定義する。 次に、その(観測および観測されていない)背景の集合に基づいて効果一般化の条件を定式化する。 これは効果一般化の2つの限界を明らかにしている:(1) 効果がすべての可算背景の下で観測された場合、または(2) 背景が十分にランダム化されたとき。 結果の組合せ的枠組みを用いて, 既定の正当性, 多重効果の同時推定, バイアス分散トレードオフ, 統計的パワー, 現行の予測・説明技術への接続などの問題を再検討する。 方法論的には,非実験試料の組合せ列挙およびランダム化問題により,逆実数定義に追従するパラメトリック推定問題を置き換えることができる。 我々は、この非パラメトリックなフレームワークを用いて、一般的な教師付き、説明、因果効果推定器のパフォーマンスにおけるトレードオフ(外部妥当性、無知性、精度)を実証する。 また、この手法が非I.D.サンプルにおける教師付きおよび説明方法の使用を可能にする方法についても説明する。 新型コロナウイルスのパンデミックは、いくつかの不完全なサンプルで予測を提供するための学習ソリューションの必要性を強調した。 このプレス問題に応用例を示す。

The widely used 'Counterfactual' definition of Causal Effects was derived for unbiasedness and accuracy - and not generalizability. We propose a Combinatorial definition for the External Validity (EV) of intervention effects. We first define the concept of an effect observation 'background'. We then formulate conditions for effect generalization based on their sets of (observed and unobserved) backgrounds. This reveals two limits for effect generalization: (1) when effects are observed under all their enumerable backgrounds, or, (2) when backgrounds have become sufficiently randomized. We use the resulting combinatorial framework to re-examine several issues in the original counterfactual formulation: out-of-sample validity, concurrent estimation of multiple effects, bias-variance tradeoffs, statistical power, and connections to current predictive and explaining techniques. Methodologically, the definitions also allow us to replace the parametric estimation problems that followed the counterfactual definition by combinatorial enumeration and randomization problems in non-experimental samples. We use this non-parametric framework to demonstrate (External Validity, Unconfoundness and Precision) tradeoffs in the performance of popular supervised, explaining, and causal-effect estimators. We also illustrate how the approach allows for the use of supervised and explaining methods in non-i.i.d. samples. The COVID19 pandemic highlighted the need for learning solutions to provide predictions in severally incomplete samples. We demonstrate applications in this pressing problem.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-14
# データ結合による持続的コンバウンダリングによる長期因果推論

Long-term Causal Inference Under Persistent Confounding via Data Combination ( http://arxiv.org/abs/2202.07234v4 )

ライセンス: Link先を確認
Guido Imbens, Nathan Kallus, Xiaojie Mao, Yuhao Wang, (参考訳) 実験データと観測データの両方が利用可能である場合の長期治療効果の同定と推定について検討した。 長期の成果は長時間の遅延後にのみ観測されるため、実験データでは測定されず、観測データでのみ記録される。 しかし、どちらのデータも短期的な結果の観察を含んでいる。 本稿では, 持続的未測定共同設立者, すなわち, 治療, 短期的成果, 長期的成果に同時に影響を及ぼす未測定共同設立者に対して, 過去の文献における識別戦略の無効化を指摘し, 課題に対処する。 この課題に対処するために、複数の短期的結果の逐次的構造を利用し、平均的長期的治療効果に対する3つの新しい識別戦略を開発する。 さらに、3つの対応する推定器を提案し、その漸近的一貫性と漸近的正規性を証明する。 半合成データを用いて,職業訓練プログラムが長期雇用に与える影響を推定するために,最終的に本手法を適用した。 我々の提案は、永続的な共同設立者を扱うのに失敗する既存の手法よりも優れていることを数値的に示す。

We study the identification and estimation of long-term treatment effects when both experimental and observational data are available. Since the long-term outcome is observed only after a long delay, it is not measured in the experimental data, but only recorded in the observational data. However, both types of data include observations of some short-term outcomes. In this paper, we uniquely tackle the challenge of persistent unmeasured confounders, i.e., some unmeasured confounders that can simultaneously affect the treatment, short-term outcomes and the long-term outcome, noting that they invalidate identification strategies in previous literature. To address this challenge, we exploit the sequential structure of multiple short-term outcomes, and develop three novel identification strategies for the average long-term treatment effect. We further propose three corresponding estimators and prove their asymptotic consistency and asymptotic normality. We finally apply our methods to estimate the effect of a job training program on long-term employment using semi-synthetic data. We numerically show that our proposals outperform existing methods that fail to handle persistent confounders.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 周期的に駆動されたキタエフ鎖におけるエッジモードのマーカーとしての非連結絡み合いエントロピー

Disconnected entanglement entropy as a marker of edge modes in a periodically driven Kitaev chain ( http://arxiv.org/abs/2203.16353v3 )

ライセンス: Link先を確認
Saikat Mondal, Diptiman Sen, Amit Dutta, (参考訳) 本研究では,フロッケ理論の枠組みの中で化学ポテンシャルを周期的に$\delta$-function パルスで変調した北エフ鎖の非連結絡み合いエントロピー(DEE)について検討する。 この駆動プロトコルでは、開境界条件を持つ十分に大きな系のDEEは整数量子化され、整数は周期駆動によって生成されるチェーンの各エッジに局在するマヨラナエッジモードの数に等しいことが判明し、このDESをフロケマヨラナエッジモードを検出するマーカーとして確立する。 DEEを解析したところ、これらのMajoranaエッジモードは、弱い空間障害や時間雑音に対して堅牢であることがわかった。 興味深いことに、これらのモードは位相的意義がなく、空間的障害に対して堅牢ではないにもかかわらず、最も近いホッピングの周期的な駆動によって生じる異常なエッジモードを検出する場合もある。 また, 蹴り出したイジング鎖に対するDEEの挙動を, 実験的に実現された可積分性破壊相互作用の存在下で調べる。

We study the disconnected entanglement entropy (DEE) of a Kitaev chain in which the chemical potential is periodically modulated with $\delta$-function pulses within the framework of Floquet theory. For this driving protocol, the DEE of a sufficiently large system with open boundary conditions turns out to be integer-quantized, with the integer being equal to the number of Majorana edge modes localized at each edge of the chain generated by the periodic driving, thereby establishing the DEE as a marker for detecting Floquet Majorana edge modes. Analysing the DEE, we further show that these Majorana edge modes are robust against weak spatial disorder and temporal noise. Interestingly, we find that the DEE may, in some cases, also detect the anomalous edge modes which can be generated by periodic driving of the nearest-neighbor hopping, even though such modes have no topological significance and not robust against spatial disorder. We also probe the behaviour of the DEE for a kicked Ising chain in the presence of an integrability breaking interaction which has been experimentally realized.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# Token Spammers, Rug Pulls, SniperBots:EthereumにおけるTokensのエコシステムとBinance Smart Chain(BNB)の解析

Token Spammers, Rug Pulls, and SniperBots: An Analysis of the Ecosystem of Tokens in Ethereum and the Binance Smart Chain (BNB) ( http://arxiv.org/abs/2206.08202v2 )

ライセンス: Link先を確認
Federico Cernera, Massimo La Morgia, Alessandro Mei, Francesco Sassi, (参考訳) 本研究では,BNB Smart ChainとEthereumブロックチェーンを2022年3月までに経時的に分析する。 トークンと流動性のプールのエコシステムを調査し、両方のブロックチェーン間の類似点と相違点を強調します。 トークンの寿命を見積もると、約60%のトークンが1日以内でアクティブであることが分かりました。 さらに、アドレスの1%が異常な数のトークンを生成する(20%から25%の間)。 我々は、出口詐欺の詐欺を提示し、両方のブロックチェーン上でその頻度を定量化する。 トークンスパマーは短寿命トークンを使い捨てトークンとして使用し、これらの不正を連続的に実行している。 最後に,これらの活動に関わる新たな種類のトレーダーボットを提案し,その存在を検出し,出口詐欺活動における活動の定量化を行う。

In this work, we perform a longitudinal analysis of the BNB Smart Chain and Ethereum blockchain from their inception to March 2022. We study the ecosystem of the tokens and liquidity pools, highlighting analogies and differences between the two blockchains. We estimate the lifetime of the tokens, discovering that about 60% of them are active for less than one day. Moreover, we find that 1% of addresses create an anomalous number of tokens (between 20% and 25%). We present an exit scam fraud and quantify its prevalence on both blockchains. We find that token spammers use short lifetime tokens as disposable tokens to perpetrate these frauds serially. Finally, we present a new kind of trader bot involved in these activities, and we detect their presence and quantify their activity in the exit scam operations.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 自然乾燥型システムにおける確率計算の信頼性の検証

Checking Trustworthiness of Probabilistic Computations in a Typed Natural Deduction System ( http://arxiv.org/abs/2206.12934v3 )

ライセンス: Link先を確認
Fabio Aurelio D'Asaro, Francesco Genco, Giuseppe Primiero, (参考訳) 本稿では,確率型型自然導出計算TPTNDについて述べる。これは,確率型計算プロセスの信頼性特性の推論と導出を目的としている。 TPTNDの導出性は、与えられたカテゴリー分布から特定の周波数の複雑な出力の$n$サンプルを抽出する過程として解釈される。 我々はそのような出力に対する信頼を、そのような周波数と意図する確率の間の距離に関する仮説テストの一形態として定式化する。 この計算の主な利点は、そのような信頼性の概念を検証可能にすることである。 本稿では,TPTND の論理演算子とトラスト演算子を導入・除去規則により定義した用語の計算意味論について述べる。 構造的・メタセオレティックな性質を概説し、特に「進化」と「論理的規則」をどの用語で表すかを確立する能力に焦点をあてる。

In this paper we present the probabilistic typed natural deduction calculus TPTND, designed to reason about and derive trustworthiness properties of probabilistic computational processes, like those underlying current AI applications. Derivability in TPTND is interpreted as the process of extracting $n$ samples of possibly complex outputs with a certain frequency from a given categorical distribution. We formalize trust for such outputs as a form of hypothesis testing on the distance between such frequency and the intended probability. The main advantage of the calculus is to render such notion of trustworthiness checkable. We present a computational semantics for the terms over which we reason and then the semantics of TPTND, where logical operators as well as a Trust operator are defined through introduction and elimination rules. We illustrate structural and metatheoretical properties, with particular focus on the ability to establish under which term evolutions and logical rules applications the notion of trustworhtiness can be preserved.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 正則積基底上のカークウッド・ディラック準確率の非実値からの一般量子相関

General quantum correlation from nonreal values of Kirkwood-Dirac quasiprobability over orthonormal product bases ( http://arxiv.org/abs/2208.03442v2 )

ライセンス: Link先を確認
Agung Budiyono, Bobby E. Gunara, Bagus E. B. Nurhandoko, Hermawan K. Dipojono, (参考訳) 本稿では,Kirkwood-Dirac (KD) 準確率の非古典的値の観点から,分離可能な混合二部晶状態でも示される一般量子相関の特性と定量化を提案する。 絡み合いが部分集合であるこのような一般的な量子相関は、基本的な観点からも興味深いだけでなく、量子情報処理や量子技術の様々なスキームにおける資源として認識されている。 一対の正則積基底上で定義されたKD準確率の虚部に基づく量と、そのような基底のすべての対に対する最適化手順を構築する。 一般量子相関の量子化器で期待される要求を満たすことを示す。 積(局所)基底のすべての元の量子標準偏差の総和に下界を与え、そのような基底を最小化する。 これは、すべての可能な局所von-Neumann射影測度における不確実性の最小真の量子シェアとして解釈を示唆している。 さらに、純粋な二部類国家の絡み合いと測定による非局所性の忠実な証人である。 次に、その推定のための変分スキームについて議論し、これに基づいて、一般的な量子相関に関する情報理論的意味を提供する。 この結果から、一般量子相関とKD準確率の非古典的値と関連する奇弱値との深い関係が示唆された。

We propose a characterization and a quantification of general quantum correlation which is exhibited even by a separable (unentangled) mixed bipartite state in terms of the nonclassical values of the associated Kirkwood-Dirac (KD) quasiprobability. Such a general quantum correlation, wherein entanglement is a subset, is not only intriguing from a fundamental point of view, but it has also been recognized as a resource in a variety of schemes of quantum information processing and quantum technology. Given a bipartite state, we construct a quantity based on the imaginary part the associated KD quasiprobability defined over a pair of orthonormal product bases and an optimization procedure over all pairs of such bases. We show that it satisfies certain requirements expected for a quantifier of general quantum correlations. It gives a lower bound to the total sum of the quantum standard deviation of all the elements of the product (local) basis, minimized over all such bases. It suggests an interpretation as the minimum genuine quantum share of uncertainty in all possible local von-Neumann projective measurement. Moreover, it is a faithful witness for entanglement and measurement-induced nonlocality of pure bipartite states. We then discuss a variational scheme for its estimation, and based on this, we offer information theoretical meanings of the general quantum correlation. Our results suggest a deep connection between the general quantum correlation and the nonclassical values of the KD quasiprobability and the associated strange weak values.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 再構成可能なアーキテクチャ上での誤り(RLWE)後量子暗号による分割リング学習の閾値計算

Near Threshold Computation of Partitioned Ring Learning With Error (RLWE) Post Quantum Cryptography on Reconfigurable Architecture ( http://arxiv.org/abs/2208.08093v2 )

ライセンス: Link先を確認
Paresh Baidya, Swagata Mondal, Rourab Paul, (参考訳) Ring Learning With Error (RLWE)アルゴリズムは、ポスト量子暗号(PQC)とホモモルフィック暗号(HE)アルゴリズムで使用される。 既存の古典暗号アルゴリズムは量子コンピュータで破られることがある。 敵はすべての暗号化されたデータを格納できる。 量子コンピュータは利用可能だが、これらの暗号化されたデータは量子コンピュータによって露呈することができる。 したがって、PQCアルゴリズムは近年の応用において必須の解である。 一方HEは、秘密のプレーンテキストを公開せずに、サードパーティからサービスを取得するのに適した暗号化データの操作を可能にする。 RLWEのようなFPGAベースのPQCとHEハードウェアアクセラレータは、プロセッサベースのプラットフォームやアプリケーション固有集積回路(ASIC)よりもはるかに費用対効果が高い。 FPGAベースのハードウェアアクセラレータはASICベースの設計と比較して電力を消費する。 Near Threshold Computation (NTC) はFPGAベースのRLWE実装に便利なソリューションである。 本稿では,14個のサブコンポーネントを持つRLWEハードウェアアクセラレータを実装した。 本稿では,14個のサブコンポーネントの臨界経路に基づいてクラスタを作成する。 各クラスタは、同じバイアス電圧$V_{ccint}$のFPGAパーティションで実装される。 高いクリティカルパスを持つクラスタは、タイミング障害を避けるために、より高いVccintを使用する。 クラスターは低い臨界経路を持ち、低いバイアス電圧Vccintを使用する。 この電圧スケール、分割されたRLWEは、それぞれVivadoとVTRプラットフォームで 6% と ~11% の電力を節約できる。 実装されたRLWEハードウェアアクセラレータのリソース使用量とスループットは、既存の文献よりも比較的優れている。

Ring Learning With Error (RLWE) algorithm is used in Post Quantum Cryptography (PQC) and Homomorphic Encryption (HE) algorithm. The existing classical crypto algorithms may be broken in quantum computers. The adversaries can store all encrypted data. While the quantum computer will be available, these encrypted data can be exposed by the quantum computer. Therefore, the PQC algorithms are an essential solution in recent applications. On the other hand, the HE allows operations on encrypted data which is appropriate for getting services from third parties without revealing confidential plain-texts. The FPGA based PQC and HE hardware accelerators like RLWE is much cost-effective than processor based platform and Application Specific Integrated Circuit (ASIC). FPGA based hardware accelerators still consume more power compare to ASIC based design. Near Threshold Computation (NTC) may be a convenient solution for FPGA based RLWE implementation. In this paper, we have implemented RLWE hardware accelerator which has 14 subcomponents. This paper creates clusters based on the critical path of all 14 subcomponents. Each cluster is implemented in an FPGA partition which has the same biasing voltage $V_{ccint}$. The clusters that have higher critical paths use higher Vccint to avoid timing failure. The clusters have lower critical paths use lower biasing voltage Vccint. This voltage scaled, partitioned RLWE can save ~6% and ~11% power in Vivado and VTR platform respectively. The resource usage and throughput of the implemented RLWE hardware accelerator is comparatively better than existing literature.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 任意状態のためのハイゼンベルク画像における量子情報の局所性について

On Locality of Quantum Information in the Heisenberg Picture for Arbitrary States ( http://arxiv.org/abs/2209.02695v3 )

ライセンス: Link先を確認
Otto C. W. Kong, (参考訳) 量子力学の局所性問題は、量子物理学などに対する適切な理解の鍵となる問題である。 一般に量子非局所性(quantum nonlocality)として強調されているものは、量子情報のハイゼンベルク図(Heisenberg picture of quantum information)の概念を通じて、刺激的な検査を受けている。 DeutschとHaydenは量子ビット系の量子情報フローの設定において量子情報の局所的な記述を確立した。 可観測体のDeutsch-Hayden行列値のわずかに修正されたバージョンを導入し、より基本的な観点から最近導入された非可換値の並列的な概念と合わせて、一般合成系の任意の任意の任意の任意の任意の状態において局所可観測者が持つ量子情報のような値に基づくすべての局所性問題を明らかにする。 観測可能な値の「量子」値」としての量子情報は、すべての概念を透過的に表現する。 射影測定のための空間的局所性についても論じる。 押し付けられた疑問は、新しい実験的な思考でのみ対処できる局所的なプロセスを通じて、絡み合ったシステムに対するそのような情報が取り出すことができるかどうかである。

The locality issue of quantum mechanics is a key issue to a proper understanding of quantum physics and beyond. What has been commonly emphasized as quantum nonlocality has received an inspiring examination through the notion of Heisenberg picture of quantum information. Deutsch and Hayden established a local description of quantum information in a setting of quantum information flow in a system of qubits. With the introduction of a slightly modified version of what we call the Deutsch-Hayden matrix values of observables, together with our recently introduced parallel notion of the noncommutative values from a more fundamental perspective, we clarify all the locality issues based on such values as quantum information carried by local observables in any given arbitrary state of a generic composite system. Quantum information as the {\em `quantum' values} of observables gives a transparent conceptual picture of all the. Spatial locality for a projective measurement is also discussed. The pressing question is if and how such information for an entangled system can be retrieved through local processes which can only be addressed with new experimental thinking.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# Stackelberg Congestion Gamesのための微分可能なバイレベルプログラミング

Differentiable Bilevel Programming for Stackelberg Congestion Games ( http://arxiv.org/abs/2209.07618v4 )

ライセンス: Link先を確認
Jiayang Li, Jing Yu, Qianni Wang, Boyi Liu, Zhaoran Wang, Yu Marco Nie, (参考訳) Stackelberg Congestion Game (SCG) において、リーダーは、群集が集まる平衡状態を予測し、操作することで、自身の利益を最大化することを目的としている。 しばしば二段階プログラムとして定式化され、大規模SCGはその難易度と複雑さでよく知られている。 本稿では,従来の手法と機械学習における最新の微分可能プログラミング技術を組み合わせることで,この計算課題に挑戦する。 中心となる考え方は、低レベルの平衡問題を模倣ロジットダイナミクス (ILD) によって定義された滑らかな進化軌道に置き換えることであり、これは緩やかな条件下での渋滞ゲームの平衡に収束することを証明している。 この理論基盤を基礎として,SCGのための局所探索アルゴリズムを2つ提案する。 1つ目は、微分可能プログラミングを用いてILDをアンロールすることで微分を求める勾配降下アルゴリズムである。 ILDの滑らかさのおかげで、アルゴリズムは効率性とスケーラビリティの両方を約束する。 第2のアルゴリズムは、フォロワーの進化軌道を短くすることでヒューリスティックなツイストを加える。 行動的には、これは、フォロワーの均衡における最良の反応を予想する代わりに、リーダーは限られたステップだけを前にして、その反応を近似しようとすることを意味する。 本研究は,おもちゃのベンチマークから大規模実世界の実例まで,古典的SCGアプリケーションの様々な事例を対象とした数値実験を行った。 その結果,提案アルゴリズムは信頼性が高くスケーラブルな局所解法であり,本研究に含まれる多くの既存手法と比較して,高い正則性と計算労力の少ない高品質な解が得られることがわかった。

In a Stackelberg congestion game (SCG), a leader aims to maximize their own gain by anticipating and manipulating the equilibrium state at which the followers settle by playing a congestion game. Often formulated as bilevel programs, large-scale SCGs are well known for their intractability and complexity. Here, we attempt to tackle this computational challenge by marrying traditional methodologies with the latest differentiable programming techniques in machine learning. The core idea centers on replacing the lower-level equilibrium problem with a smooth evolution trajectory defined by the imitative logit dynamic (ILD), which we prove converges to the equilibrium of the congestion game under mild conditions. Building upon this theoretical foundation, we propose two new local search algorithms for SCGs. The first is a gradient descent algorithm that obtains the derivatives by unrolling ILD via differentiable programming. Thanks to the smoothness of ILD, the algorithm promises both efficiency and scalability. The second algorithm adds a heuristic twist by cutting short the followers' evolution trajectory. Behaviorally, this means that, instead of anticipating the followers' best response at equilibrium, the leader seeks to approximate that response by only looking ahead a limited number of steps. Our numerical experiments are carried out over various instances of classic SCG applications, ranging from toy benchmarks to large-scale real-world examples. The results show the proposed algorithms are reliable and scalable local solvers that deliver high-quality solutions with greater regularity and significantly less computational effort compared to the many incumbents included in our study.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 逆強化学習のための環境設計

Environment Design for Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.14972v3 )

ライセンス: Link先を確認
Thomas Kleine Buening, Victor Villin, Christos Dimitrakakis, (参考訳) デモンストレーションから報酬関数を学ぶことは、サンプル効率の低下に悩まされる。 豊富なデータであっても、単一の環境からの学習に焦点を当てた現在の逆強化学習手法は、環境ダイナミクスのわずかな変化に対処できない可能性がある。 適応環境設計を通じてこれらの課題に取り組む。 本フレームワークでは,学習者が専門家と繰り返し対話し,その環境における専門家のデモンストレーションから,報酬関数をできるだけ早く識別するために,前者の選択環境と対話する。 その結果,サンプル効率とロバスト性の両方の改善が得られた。

Learning a reward function from demonstrations suffers from low sample-efficiency. Even with abundant data, current inverse reinforcement learning methods that focus on learning from a single environment can fail to handle slight changes in the environment dynamics. We tackle these challenges through adaptive environment design. In our framework, the learner repeatedly interacts with the expert, with the former selecting environments to identify the reward function as quickly as possible from the expert's demonstrations in said environments. This results in improvements in both sample-efficiency and robustness, as we show experimentally, for both exact and approximate inference.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 時間方向の実験的重ね合わせ

Experimental superposition of time directions ( http://arxiv.org/abs/2211.01283v3 )

ライセンス: Link先を確認
Teodor Strömberg, Peter Schiansky, Marco Túlio Quintino, Michael Antesberger, Lee Rozema, Iris Agresti, Časlav Brukner, Philip Walther, (参考訳) マクロの世界では、時間は本質的に非対称であり、過去から未来まで特定の方向に流れている。 しかし、ある量子過程が時間反転の下で有効な量子進化を生成するため、量子系には必ずしも同じことが当てはまるとは限らない。 このような過程が時間方向の両方で探索可能であることを仮定して、前方と後方の時間方向のコヒーレントな重ね合わせで探索される量子過程を考えることもできる。 これは、不明確な因果順序を持つものを含む、これまでの文献で考慮されたものよりも幅広い量子過程のクラスをもたらす。 この研究では、この新しいクラスに属する演算、量子時間反転(quantum time flip)を初めて実演する。 この演算のフォトニック化を用いて、2組の演算子間の識別タスクとして定式化されたゲームに適用する。 このゲームは不定時間方向の証人として機能するだけでなく、不定時間方向や不定因数順序の者でも戦略よりも計算上の優位性を持つ。

In the macroscopic world, time is intrinsically asymmetric, flowing in a specific direction, from past to future. However, the same is not necessarily true for quantum systems, as some quantum processes produce valid quantum evolutions under time reversal. Supposing that such processes can be probed in both time directions, we can also consider quantum processes probed in a coherent superposition of forwards and backwards time directions. This yields a broader class of quantum processes than the ones considered so far in the literature, including those with indefinite causal order. In this work, we demonstrate for the first time an operation belonging to this new class: the quantum time flip. Using a photonic realisation of this operation, we apply it to a game formulated as a discrimination task between two sets of operators. This game not only serves as a witness of an indefinite time direction, but also allows for a computational advantage over strategies using a fixed time direction, and even those with an indefinite causal order.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 分散DP-Helmet: 単一層におけるスケーラブルな微分プライベート非アクティブ平均化

Distributed DP-Helmet: Scalable Differentially Private Non-interactive Averaging of Single Layers ( http://arxiv.org/abs/2211.02003v2 )

ライセンス: Link先を確認
Moritz Kirschte, Sebastian Meiser, Saman Ardalan, Esfandiar Mohammadi, (参考訳) 本研究では,分散DP-Helmetというフレームワークを用いて,差分プライベートな非対話型分散学習アルゴリズムを提案する。 それぞれのユーザがローカルに学習し、モデルにノイズを発生させ、すべてのユーザがセキュアな要約プロトコルを通じてモデルの平均を共同で計算します。 我々は、SVMとSoftmax-Layer(Softmax-SLP)のブラインド平均化が、CIFAR-10で$0.4と1,000のユーザに対して86%、CIFAR-100で$1.2と100のユーザに対して44%、および$\varepsilonで$0.4と3400のユーザに対してフェデレートEMNISTで$39%、SimCLRベースの事前トレーニング後に、強力なユーティリティプライバシトレードオフを持つことができる、という実験的な証拠を提供する。 アブレーションとして、強い非IIDセッティングに対する我々のアプローチのレジリエンスについて研究する。 理論的には、視覚的平均化は、目的関数が滑らかでSVMのような強い凸である場合、差分プライバシーを保っていることを示す。 固定モデルサイズの場合、プライバシ境界$\varepsilon$ of Softmax-SLPはクラス数に依存しない。 これは、SVMに対するSoftmax-SLPのユーティリティとプライバシにおいて、大きな利点となる。 さらに、ヒンジロスSVMのブラインド平均化は、集中学習されたSVMに収束する。 後者の結果は代表者定理に基づいており、Softmax-SLPのような他の経験的リスク最小化器(ERM)の収束を見つけるための青写真と見なすことができる。

In this work, we propose two differentially private, non-interactive, distributed learning algorithms in a framework called Distributed DP-Helmet. Our framework is based on what we coin blind averaging: each user locally learns and noises a model and all users then jointly compute the mean of their models via a secure summation protocol. We provide experimental evidence that blind averaging for SVMs and single Softmax-layer (Softmax-SLP) can have a strong utility-privacy tradeoff: we reach an accuracy of 86% on CIFAR-10 for $\varepsilon$ = 0.4 and 1,000 users, of 44% on CIFAR-100 for $\varepsilon$ = 1.2 and 100 users, and of 39% on federated EMNIST for $\varepsilon$ = 0.4 and 3,400 users, all after a SimCLR-based pretraining. As an ablation, we study the resilience of our approach to a strongly non-IID setting. On the theoretical side, we show that blind averaging preserves differential privacy if the objective function is smooth, Lipschitz, and strongly convex like SVMs. We show that these properties also hold for Softmax-SLP which is often used for last-layer fine-tuning such that for a fixed model size the privacy bound $\varepsilon$ of Softmax-SLP no longer depends on the number of classes. This marks a significant advantage in utility and privacy of Softmax-SLP over SVMs. Furthermore, in the limit blind averaging of hinge-loss SVMs convergences to a centralized learned SVM. The latter result is based on the representer theorem and can be seen as a blueprint for finding convergence for other empirical risk minimizers (ERM) like Softmax-SLP.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# マヨラナ表面符号の新しいツイスト:フォールトトレラント量子計算におけるボソニックおよびフェルミオン欠陥

A new twist on the Majorana surface code: Bosonic and fermionic defects for fault-tolerant quantum computation ( http://arxiv.org/abs/2211.11777v3 )

ライセンス: Link先を確認
Campbell McLauchlan, Benjamin Béri, (参考訳) マヨラナゼロモード(MZM)は、トポロジカルに保護された量子コンピューティングハードウェアの候補として期待されているが、大規模な使用は量子エラーの修正を必要とする可能性が高い。 マヨラナ表面符号(MSC)は、これを実現するために提案されている。 しかし、多くのMSC特性は未解明のままである。 我々は,MSC の "twist defects" $\unicode{x2013}$ anyon-like objects に対する統一的なフレームワークを提案する。 我々は,MSCのツイスト欠陥が,量子ビットベースの符号や他のMSC符号化方式のように,位相的に保護された情報の2倍の量を符号化できることを示した。 これは、論理量子ビットと「論理的MZM」の両方をコードするツイストが原因であり、後者は保護顕微鏡のMZMが提供できるように拡張する。 論理量子ビットと論理的MZMを用いて普遍計算を行う方法を説明する。 すべてのクリフォードゲートは、ツイスト欠陥をブレイディングすることによって論理キュービットに実装することができる。 我々は,論理的MZMと論理的量子ビットを用いた格子サージェリーに基づく計算手法を導入し,時間オーバーヘッドゼロのクリフォードゲートの効果を実現する。 また,MZMsの空間的オーバーヘッドが改善し,準粒子中毒の発生率が十分に低下することが示唆された。 最後に、マイクロMZMをブレイディングすることで、小さな符号でクリフォードゲートを符号化するトランスバーサルゲートのMSCアナログを導入する。 これにより、MSCツイスト欠陥は、フォールトトレラント量子計算への新たな道を開く。

Majorana zero modes (MZMs) are promising candidates for topologically-protected quantum computing hardware, however their large-scale use will likely require quantum error correction. Majorana surface codes (MSCs) have been proposed to achieve this. However, many MSC properties remain unexplored. We present a unified framework for MSC "twist defects" $\unicode{x2013}$ anyon-like objects encoding quantum information. We show that twist defects in MSCs can encode twice the amount of topologically protected information as in qubit-based codes or other MSC encoding schemes. This is due to twists encoding both logical qubits and "logical MZMs," with the latter enhancing the protection microscopic MZMs can offer. We explain how to perform universal computation with logical qubits and logical MZMs while potentially using far fewer resources than in other MSC schemes. All Clifford gates can be implemented on logical qubits by braiding twist defects. We introduce lattice-surgery-based techniques for computing with logical MZMs and logical qubits, achieving the effect of Clifford gates with zero time overhead. We also show that logical MZMs may result in improved spatial overheads for sufficiently low rates of quasi-particle poisoning. Finally, we introduce a novel MSC analogue of transversal gates that achieves encoded Clifford gates in small codes by braiding microscopic MZMs. MSC twist defects thus open new paths towards fault-tolerant quantum computation.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 凝縮グラディエントブースティング

Condensed Gradient Boosting ( http://arxiv.org/abs/2211.14599v2 )

ライセンス: Link先を確認
Seyedsaman Emami, Gonzalo Martínez-Muñoz, (参考訳) 本稿では,多クラス分類と多出力回帰タスクのための勾配ブースティングの計算効率の良い変種を提案する。 標準勾配強化は2つ以上のクラスを持つタスクの分類に1-vs-all戦略を使用する。 この戦略は、クラス毎に1つのツリーを変換し、イテレーションをトレーニングする必要があります。 本研究では,マルチクラス問題を単一タスクとして扱うためのベースモデルとしてマルチ出力回帰器を提案する。 さらに、提案した修正により、モデルがマルチ出力回帰問題を学習できるようになる。 一般化と計算効率の観点から,他のマルチオプタットベース勾配促進法との比較を行った。 提案手法は、一般化能力とトレーニングと予測速度の最良のトレードオフを示す。

This paper presents a computationally efficient variant of gradient boosting for multi-class classification and multi-output regression tasks. Standard gradient boosting uses a 1-vs-all strategy for classifications tasks with more than two classes. This strategy translates in that one tree per class and iteration has to be trained. In this work, we propose the use of multi-output regressors as base models to handle the multi-class problem as a single task. In addition, the proposed modification allows the model to learn multi-output regression problems. An extensive comparison with other multi-ouptut based gradient boosting methods is carried out in terms of generalization and computational efficiency. The proposed method showed the best trade-off between generalization ability and training and predictions speeds.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-14
# 分散非凸-ストロングリ-コンケーブ最小値最適化のための効率的な確率的アルゴリズム

An Efficient Stochastic Algorithm for Decentralized Nonconvex-Strongly-Concave Minimax Optimization ( http://arxiv.org/abs/2212.02387v4 )

ライセンス: Link先を確認
Lesi Chen, Haishan Ye, Luo Luo, (参考訳) 本稿では,マルチエージェントネットワーク上での確率的非凸-強対流最小値最適化について検討する。 本稿では,DREAM(Decentralized Recursive gradient descEnt Ascent Method)と呼ばれる効率的なアルゴリズムを提案する。 具体的には、$\mathcal{O}(\min (\kappa^3\epsilon^{-3},\kappa^2 \sqrt{N} \epsilon^{-2} )$ stochastic first-order oracle (SFO) コールと$\tilde{\mathcal{O}}(\kappa^2 \epsilon^{-2})$通信ラウンドが必要である。 我々の数値実験は、従来の手法よりもDREAMの方が優れていることも検証した。

This paper studies the stochastic nonconvex-strongly-concave minimax optimization over a multi-agent network. We propose an efficient algorithm, called Decentralized Recursive gradient descEnt Ascent Method (DREAM), which achieves the best-known theoretical guarantee for finding the $\epsilon$-stationary points. Concretely, it requires $\mathcal{O}(\min (\kappa^3\epsilon^{-3},\kappa^2 \sqrt{N} \epsilon^{-2} ))$ stochastic first-order oracle (SFO) calls and $\tilde{\mathcal{O}}(\kappa^2 \epsilon^{-2})$ communication rounds, where $\kappa$ is the condition number and $N$ is the total number of individual functions. Our numerical experiments also validate the superiority of DREAM over previous methods.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 脳波を用いた感情評価における一般化のための機械学習戦略 : 体系的レビュー

Machine Learning Strategies to Improve Generalization in EEG-based Emotion Assessment: a Systematic Review ( http://arxiv.org/abs/2212.08744v2 )

ライセンス: Link先を確認
Andrea Apicella, Pasquale Arpaia, Giovanni D'Errico, Davide Marocco, Giovanna Mastrati, Nicola Moccaldi, Roberto Prevete, (参考訳) 感情分類に基づく汎用性(クロスオブジェクトとクロスセッション)脳波(EEG)向上のための機械学習戦略の体系的検討を行った。 この文脈では、EEG信号の非定常性は重要な問題であり、データセットシフト問題につながる可能性がある。 この問題を解決するためにいくつかのアーキテクチャや手法が提案されている。 418の論文が,脳波に基づく感情評価の一般化を目的とした最新の機械学習技術に着目した検索クエリを通じて,スコパス,IEEE Xplore,PubMedデータベースから検索された。 これらの論文のうち75件は、その問題に対する関連性に基づいて検索された。 特定のクロスオブジェクトおよびクロスセッション検証戦略が欠如し、他のバイオシグナーを支援として活用する研究は除外された。 選択された論文の分析に基づいて,機械学習(ML)手法を用いた研究の分類法が提案され,関連するMLアプローチに関する簡単な議論が行われた。 平均分類精度で最高の結果を得た研究は, 伝達学習法が他の手法よりも優れていたことを裏付けるものである。 影響に関する議論がある i)感情理論モデルと感情理論モデル (II) 分類器の性能に関する実験試料の心理的スクリーニング。

A systematic review on machine-learning strategies for improving generalizability (cross-subjects and cross-sessions) electroencephalography (EEG) based in emotion classification was realized. In this context, the non-stationarity of EEG signals is a critical issue and can lead to the Dataset Shift problem. Several architectures and methods have been proposed to address this issue, mainly based on transfer learning methods. 418 papers were retrieved from the Scopus, IEEE Xplore and PubMed databases through a search query focusing on modern machine learning techniques for generalization in EEG-based emotion assessment. Among these papers, 75 were found eligible based on their relevance to the problem. Studies lacking a specific cross-subject and cross-session validation strategy and making use of other biosignals as support were excluded. On the basis of the selected papers' analysis, a taxonomy of the studies employing Machine Learning (ML) methods was proposed, together with a brief discussion on the different ML approaches involved. The studies with the best results in terms of average classification accuracy were identified, supporting that transfer learning methods seem to perform better than other approaches. A discussion is proposed on the impact of (i) the emotion theoretical models and (ii) psychological screening of the experimental sample on the classifier performances.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 塑性変形結晶の構造検出のための教師なし学習

Unsupervised learning for structure detection in plastically deformed crystals ( http://arxiv.org/abs/2212.14813v2 )

ライセンス: Link先を確認
Armand Barbot, Riccardo Gatti, (参考訳) 塑性変形した結晶材料中の粒子スケールで構造を検出することで、発生した現象をよりよく理解することができる。 従来の手法は, 異なる局所パラメータに対する手振り基準の適用に大きく依存していたが, これらの手法は既知構造のみを検出することができ, 塑性変形下で結晶内の構造を自動的に検出する教師なし学習アルゴリズムを導入している。 このアプローチは、コロイド材料の構造検出のために開発された研究に基づいている。 このアルゴリズムは計算が高速で実装が容易であるという利点がある。 結合角分布に基づく局所パラメータを用いて,従来の手作り基準よりも高い精度で,より多くの構造を検出できることを示す。

Detecting structures at the particle scale within plastically deformed crystalline materials allows a better understanding of the occurring phenomena. While previous approaches mostly relied on applying hand-chosen criteria on different local parameters, these approaches could only detect already known structures.We introduce an unsupervised learning algorithm to automatically detect structures within a crystal under plastic deformation. This approach is based on a study developed for structural detection on colloidal materials. This algorithm has the advantage of being computationally fast and easy to implement. We show that by using local parameters based on bond-angle distributions, we are able to detect more structures and with a higher degree of precision than traditional hand-made criteria.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 双レベル最適化における極小超勾配探索について:硬度結果と改善された解析

On Finding Small Hyper-Gradients in Bilevel Optimization: Hardness Results and Improved Analysis ( http://arxiv.org/abs/2301.00712v5 )

ライセンス: Link先を確認
Lesi Chen, Jing Xu, Jingzhao Zhang, (参考訳) 双レベル最適化は、ハイパーパラメータチューニング、ニューラルアーキテクチャサーチ、メタラーニングなど、他の斜め最適化問題の内部構造を明らかにする。 双レベル最適化における共通のゴールは、低レベル関数の解集合に暗黙的に依存する超対象を最小化することである。 この超対象的アプローチは広く用いられているが、下層関数が強い凸性を持たない場合、その理論的性質は十分には研究されていない。 本研究ではまず,非凸凸二値最適化における超対象の定常点を求めるという目的が,ゼロ参照アルゴリズムにおいて難解であることを示す。 次に、低次関数がpolyak-{\L}ojasiewicz (PL) 条件を満たすとき、トラクタブルな非凸非凸二値問題の研究を行う。 簡単な一階述語アルゴリズムは、決定論的、部分的に確率的、完全に確率的設定で、$\tilde{\mathcal{O}}(\epsilon^{-2})$, $\tilde{\mathcal{O}}(\epsilon^{-4})$と$\tilde{\mathcal{O}}(\epsilon^{-6})$のより複雑な境界を達成できることを示す。

Bilevel optimization reveals the inner structure of otherwise oblique optimization problems, such as hyperparameter tuning, neural architecture search, and meta-learning. A common goal in bilevel optimization is to minimize a hyper-objective that implicitly depends on the solution set of the lower-level function. Although this hyper-objective approach is widely used, its theoretical properties have not been thoroughly investigated in cases where the lower-level functions lack strong convexity. In this work, we first provide hardness results to show that the goal of finding stationary points of the hyper-objective for nonconvex-convex bilevel optimization can be intractable for zero-respecting algorithms. Then we study a class of tractable nonconvex-nonconvex bilevel problems when the lower-level function satisfies the Polyak-{\L}ojasiewicz (PL) condition. We show a simple first-order algorithm can achieve better complexity bounds of $\tilde{\mathcal{O}}(\epsilon^{-2})$, $\tilde{\mathcal{O}}(\epsilon^{-4})$ and $\tilde{\mathcal{O}}(\epsilon^{-6})$ in the deterministic, partially stochastic, and fully stochastic setting respectively.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 非滑らかな非凸確率最適化のための高速勾配自由アルゴリズム

Faster Gradient-Free Algorithms for Nonsmooth Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2301.06428v3 )

ライセンス: Link先を確認
Lesi Chen, Jing Xu, Luo Luo, (参考訳) 我々は、$\min_{x \in \mathbb{R}^d} f(x) \triangleq \mathbb{E}_{\xi} [F(x; \xi)]$という形の最適化問題を考える。 最近提案された勾配自由法は、最大で $\mathcal{O}( L^4 d^{3/2} \epsilon^{-4} + \Delta L^3 d^{3/2} \delta^{-1} \epsilon^{-4})$ 確率的ゼロ階次オラクル複雑性を求め、目的関数の $(\delta,\epsilon)$-Goldstein 定常点を求める。 本稿では, 確率的再帰勾配推定器を用いたより効率的なアルゴリズムを提案し, 複雑性を$\mathcal{O}(L^3 d^{3/2} \epsilon^{-3}+ \Delta L^2 d^{3/2} \delta^{-1} \epsilon^{-3})$に改善する。

We consider the optimization problem of the form $\min_{x \in \mathbb{R}^d} f(x) \triangleq \mathbb{E}_{\xi} [F(x; \xi)]$, where the component $F(x;\xi)$ is $L$-mean-squared Lipschitz but possibly nonconvex and nonsmooth. The recently proposed gradient-free method requires at most $\mathcal{O}( L^4 d^{3/2} \epsilon^{-4} + \Delta L^3 d^{3/2} \delta^{-1} \epsilon^{-4})$ stochastic zeroth-order oracle complexity to find a $(\delta,\epsilon)$-Goldstein stationary point of objective function, where $\Delta = f(x_0) - \inf_{x \in \mathbb{R}^d} f(x)$ and $x_0$ is the initial point of the algorithm. This paper proposes a more efficient algorithm using stochastic recursive gradient estimators, which improves the complexity to $\mathcal{O}(L^3 d^{3/2} \epsilon^{-3}+ \Delta L^2 d^{3/2} \delta^{-1} \epsilon^{-3})$.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 限定RF環境下でのUAV識別のための境界ダイバージェンス付きワンショット生成データ拡張

One-shot Generative Data Augmentation with Bounded Divergence for UAV Identification in Limited RF Environments ( http://arxiv.org/abs/2301.08403v3 )

ライセンス: Link先を確認
Amir Kazemi, Salar Basiri, Volodymyr Kindratenko, Srinivasa Salapaka, (参考訳) この研究は、無人航空機(UAV)におけるサイバーセキュリティの必要性に対処し、特に制約のある環境で高周波指紋認証を用いてUAVを識別することの課題に焦点を当てる。 RF信号の複雑さと可変性は、環境干渉やハードウェアの不完全性の影響を受け、従来のRFベースの識別手法を効果的にしないことが多い。 これらの合併症に対処するために、変換RF信号の増強にワンショット生成法の厳密な利用を導入し、UAV識別を著しく改善した。 このアプローチは、条件付き生成逆数ネットワーク(GAN)や変分オートエンコーダ(VAE)といった、より深い生成手法よりも優れた、低データレジームにおいて有望であることを示す。 本論文は,限定的なデータ拡張におけるワンショット生成モデルの有効性を理論的に保証し,その応用の先例を限定的なRF環境で設定する。 この研究は、UAVのサイバーセキュリティに貢献するだけでなく、画像やビデオ以外の非典型的な複雑なシーケンスを含むデータ制約シナリオにおける機械学習技術の範囲を厳格に拡大する。

This work addresses the pressing need for cybersecurity in Unmanned Aerial Vehicles (UAVs), particularly focusing on the challenges of identifying UAVs using radiofrequency (RF) fingerprinting in constrained environments. The complexity and variability of RF signals, influenced by environmental interference and hardware imperfections, often render traditional RF-based identification methods ineffective. To address these complications, the study introduces the rigorous use of one-shot generative methods for augmenting transformed RF signals, offering a significant improvement in UAV identification. This approach shows promise in low-data regimes, outperforming deep generative methods like conditional generative adversarial networks (GANs) and variational autoencoders (VAEs). The paper provides a theoretical guarantee for the effectiveness of one-shot generative models in augmenting limited data, setting a precedent for their application in limited RF environments. This research not only contributes to the cybersecurity of UAVs but also rigorously broadens the scope of machine learning techniques in data-constrained scenarios, which may include atypical complex sequences beyond images and videos.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 雑音量子コンピュータにおける誤差推定

Error estimation in current noisy quantum computers ( http://arxiv.org/abs/2302.06870v3 )

ライセンス: Link先を確認
Unai Aseguinolaza, Nahual Sobrino, Gabriel Sobrino, Joaquim Jornet-Somoza, Juan Borge, (参考訳) ノイズの多い中間スケール量子(NISQ)時代の重要な特徴の1つは、誤りの正しい評価と考慮である。 本稿では、現在の(IBM)量子コンピュータにおけるエラーの主な原因を分析し、任意の量子回路で期待される総エラー確率を容易にするために有用なツール(TED-qc)を提案する。 我々は、この総誤差確率を、古典的な計算と比較する必要性を回避し、NISQ時代の忠実性の低い境界を推定する最良の方法として提案する。 ツールの頑健さを対照的にするために、3つの異なる量子モデルで起こりうる総誤差確率を計算する。 1)Isingモデル。 2)量子位相推定(QPE)と 3)Groverのアルゴリズム。 各モデルについて、代表的かつ統計的に有意なサンプルサイズに対する誤差確率の関数として、参照シミュレータの結果に対して主要な関心度を計算し、ベンチマークする。 この分析は99.5%以上のケースで十分である。 また, 測定時に発生するノイズを除去する手法についても検討した。 これらの結果はIBMの量子コンピュータで計算されているが、ツールも解析も他の量子コンピュータにも容易に拡張できる。

One of the main important features of the noisy intermediate-scale quantum (NISQ) era is the correct evaluation and consideration of errors. In this paper, we analyze the main sources of errors in current (IBM) quantum computers and we present a useful tool (TED-qc) designed to facilitate the total error probability expected for any quantum circuit. We propose this total error probability as the best way to estimate a lower bound for the fidelity in the NISQ era, avoiding the necessity of comparing the quantum calculations with any classical one. In order to contrast the robustness of our tool we compute the total error probability that may occur in three different quantum models: 1) the Ising model, 2) the Quantum-Phase Estimation (QPE), and 3) the Grover's algorithm. For each model, the main quantities of interest are computed and benchmarked against the reference simulator's results as a function of the error probability for a representative and statistically significant sample size. The analysis is satisfactory in more than the $99\%$ of the cases. In addition, we study how error mitigation techniques are able to eliminate the noise induced during the measurement. These results have been calculated for the IBM quantum computers, but both the tool and the analysis can be easily extended to any other quantum computer.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 動的グラフ表現学習のための深い確率的時空間フレームワークと脳障害同定への応用

A Deep Probabilistic Spatiotemporal Framework for Dynamic Graph Representation Learning with Application to Brain Disorder Identification ( http://arxiv.org/abs/2302.07243v3 )

ライセンス: Link先を確認
Sin-Yee Yap, Junn Yong Loo, Chee-Ming Ting, Fuad Noman, Raphael C. -W. Phan, Adeel Razi, David L. Dowe, (参考訳) 機能的接続(FC)を用いた脳コネクトーム分類におけるパターン認識手法の最近の応用は、時間をかけて非ユークリッドトポロジーと脳コネクトームの因果ダイナミクスの認識へとシフトしている。 本稿では,人体における自閉症スペクトラム障害(ASD)を特定するために,動的FCネットワークにおける時間変化トポロジ構造を学習するために,深部時空間変動ベイズ(DSVB)フレームワークを提案する。 このフレームワークは、動的FCネットワークにまたがる豊富な時空間パターンを捉えるために、注意に基づくメッセージパッシングスキームを備えた空間認識リカレントニューラルネットワークを組み込んでいる。 限られたトレーニングデータセットに対するモデル過適合を克服するため、未知の脳ネットワークにうまく一般化するグラフ埋め込みモデルを学ぶために、敵対的なトレーニング戦略が導入された。 ABIDE安静時機能的磁気共鳴画像データセットの評価から,本研究の枠組みはASD患者の診断における最先端の手法を大幅に上回っていることが明らかとなった。 DSVBを用いた動的FC解析では、ASDと脳ネットワーク接続パターンの正常な制御と脳状態のスイッチングダイナミックスとの群差が明らかである。

Recent applications of pattern recognition techniques on brain connectome classification using functional connectivity (FC) are shifting towards acknowledging the non-Euclidean topology and causal dynamics of brain connectivity across time. In this paper, a deep spatiotemporal variational Bayes (DSVB) framework is proposed to learn time-varying topological structures in dynamic FC networks for identifying autism spectrum disorder (ASD) in human participants. The framework incorporates a spatial-aware recurrent neural network with an attention-based message passing scheme to capture rich spatiotemporal patterns across dynamic FC networks. To overcome model overfitting on limited training datasets, an adversarial training strategy is introduced to learn graph embedding models that generalize well to unseen brain networks. Evaluation on the ABIDE resting-state functional magnetic resonance imaging dataset shows that our proposed framework substantially outperforms state-of-the-art methods in identifying patients with ASD. Dynamic FC analyses with DSVB-learned embeddings reveal apparent group differences between ASD and healthy controls in brain network connectivity patterns and switching dynamics of brain states.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# フォトニックニューラルネットワーク:コンパクトなレビュー

Photonic Neural Networks: A Compact Review ( http://arxiv.org/abs/2302.08390v2 )

ライセンス: Link先を確認
Mohammad Ahmadi, Hamidreza Bolhasani, (参考訳) フォトニック・サイエンス、特にフォトニック・コミュニケーションが技術や製造のスピードを高めることは、長年にわたって知られていた。 近年、フォトニクス科学は行列乗算などの低精度線形演算を高速かつ効果的に実装する能力にも関心を寄せている。 ほとんどの科学者は長い間、電子工学は科学の終わりであると教えていたが、長年と35年ほど前には、電子工学は単独で答えず、新しい科学を持つべきだと理解されていた。 今日では、多くの崩壊に比例して、できるだけ早くタスクを行うための現代的な方法や手段に直面しています。 科学の進歩の速度は非常に速い。 科学分野の進歩は、新しい手法に関する現代の知識に依存している。 本研究では,フォトニックニューラルネットワークの概念を概観する。 この研究は、2015年から2022年までの30記事のうち18記事が主要記事に選ばれている。 これらの論文では, 1-実験的概念, 2-理論的概念, そして最後に3つの数学的概念の3つの原則に気付きました。 数学は我々のトピックにおいて非常に重要で建設的な役割を持っているので、この研究には注意する必要がある。 非常に有効で新しいトピックの1つはシミュレーションです。 私たちは以前、この研究の一部でシミュレーションをしていました。 まず、フォトニクスとニューラルネットワークの導入から始めます。 第2に、科学の世界と産業と技術の両方の組み合わせの利点とデメリットを説明します。 また、私たちは薄い近代科学の成果についても話している。 第3に、ニューラルネットワークにおいて重要かつ有効なパラメータを導入しようと試みる。 この方法では、この記事ではいくつかの部分で多くの数学的ツールを使用します。

It has long been known that photonic science and especially photonic communications can raise the speed of technologies and producing manufacturing. More recently, photonic science has also been interested in its capabilities to implement low-precision linear operations, such as matrix multiplications, fast and effciently. For a long time most scientists taught that Electronics is the end of science but after many years and about 35 years ago had been understood that electronics do not answer alone and should have a new science. Today we face modern ways and instruments for doing tasks as soon as possible in proportion to many decays before. The velocity of progress in science is very fast. All our progress in science area is dependent on modern knowledge about new methods. In this research, we want to review the concept of a photonic neural network. For this research was selected 18 main articles were among the main 30 articles on this subject from 2015 to the 2022 year. These articles noticed three principles: 1- Experimental concepts, 2- Theoretical concepts, and, finally 3- Mathematic concepts. We should be careful with this research because mathematics has a very important and constructive role in our topics! One of the topics that are very valid and also new, is simulation. We used to work with simulation in some parts of this research. First, briefly, we start by introducing photonics and neural networks. In the second we explain the advantages and disadvantages of a combination of both in the science world and industries and technologies about them. Also, we are talking about the achievements of a thin modern science. Third, we try to introduce some important and valid parameters in neural networks. In this manner, we use many mathematic tools in some portions of this article.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# オープン量子系における電流ゆらぎ--量子連続測定とフルカウント統計とのギャップを埋める

Current fluctuations in open quantum systems: Bridging the gap between quantum continuous measurements and full counting statistics ( http://arxiv.org/abs/2303.04270v4 )

ライセンス: Link先を確認
Gabriel T. Landi, Michael J. Kewming, Mark T. Mitchison, Patrick P. Potts, (参考訳) 連続的に測定された量子系は、基礎となる量子系に関する重要な情報を伝達する確率的および相関的な時系列の形で出力電流によって特徴づけられる。 量子光学者は確率的マスター方程式を使うことが多く、凝縮物質物理学における一般的なアプローチは完全な数え上げ統計によって提供される。 しかし、これらは単に同じ硬貨の異なる側面である。 このチュートリアルの目的は、現在の変動を記述するための統一されたツールボックスを提供することです。 これは、物理学の異なる分野をまとめることによって、新しい洞察を提供するだけでなく、興味のある量の計算を行うための様々な分析的および数値的なツールも提供する。 本研究の結果は, 様々な教育的な例で説明し, 待ち時間統計学, 量子気象学, 熱力学的不確実性関係, 量子点接触, マクスウェルの悪魔などの研究分野と結びつけた。

Continuously measured quantum systems are characterized by an output current, in the form of a stochastic and correlated time series which conveys crucial information about the underlying quantum system. The many tools used to describe current fluctuations are scattered across different communities: quantum opticians often use stochastic master equations, while a prevalent approach in condensed matter physics is provided by full counting statistics. These, however, are simply different sides of the same coin. Our goal with this tutorial is to provide a unified toolbox for describing current fluctuations. This not only provides novel insights, by bringing together different fields in physics, but also yields various analytical and numerical tools for computing quantities of interest. We illustrate our results with various pedagogical examples, and connect them with topical fields of research, such as waiting-time statistics, quantum metrology, thermodynamic uncertainty relations, quantum point contacts and Maxwell's demons.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# リモートセンシング画像生成のためのGANの特性と非現実的説明

Intriguing Property and Counterfactual Explanation of GAN for Remote Sensing Image Generation ( http://arxiv.org/abs/2303.05240v3 )

ライセンス: Link先を確認
Xingzhe Su, Wenwen Qiang, Jie Hu, Fengge Wu, Changwen Zheng, Fuchun Sun, (参考訳) GAN(Generative Adversarial Network)は、自然画像の分野で顕著な進歩を遂げている。 しかしながら、リモートセンシング(RS)画像生成タスクにGANを適用する場合、GANモデルは自然画像生成よりもRS画像生成のためのトレーニングデータのサイズに敏感である、という異常な現象が観察される。 言い換えれば、RS画像の生成品質は、トレーニングカテゴリ数やカテゴリごとのサンプル数によって大きく変化する。 本稿では,この現象を2種類の玩具実験から解析し,GANモデルに含まれる特徴情報の量は,トレーニングデータを減らすことで減少することを示す。 次に、データ生成プロセスの構造因果モデル(SCM)を構築し、生成したデータを逆ファクトとして解釈する。 このSCMに基づいて、生成した画像の品質が特徴情報の量と正の相関関係があることを理論的に証明する。 これにより、トレーニング中にGANモデルによって学習された特徴情報を豊かにするための洞察が得られる。 その結果,一様正則化 (UR) とエントロピー正則化 (ER) という2つの革新的な調整手法が提案され,GANモデルで得られた情報を分布レベルとサンプルレベルでそれぞれ増加させる。 提案手法の有効性と汎用性を理論的,実証的に実証した。 3つのRSデータセットと2つの自然データセットに対する大規模な実験により、我々の手法は、RS画像生成タスクにおいて確立されたモデルよりも優れていることが示された。 ソースコードはhttps://github.com/rootSue/Causal-RSGANで入手できる。

Generative adversarial networks (GANs) have achieved remarkable progress in the natural image field. However, when applying GANs in the remote sensing (RS) image generation task, an extraordinary phenomenon is observed: the GAN model is more sensitive to the size of training data for RS image generation than for natural image generation. In other words, the generation quality of RS images will change significantly with the number of training categories or samples per category. In this paper, we first analyze this phenomenon from two kinds of toy experiments and conclude that the amount of feature information contained in the GAN model decreases with reduced training data. Then we establish a structural causal model (SCM) of the data generation process and interpret the generated data as the counterfactuals. Based on this SCM, we theoretically prove that the quality of generated images is positively correlated with the amount of feature information. This provides insights for enriching the feature information learned by the GAN model during training. Consequently, we propose two innovative adjustment schemes, namely Uniformity Regularization (UR) and Entropy Regularization (ER), to increase the information learned by the GAN model at the distributional and sample levels, respectively. We theoretically and empirically demonstrate the effectiveness and versatility of our methods. Extensive experiments on three RS datasets and two natural datasets show that our methods outperform the well-established models on RS image generation tasks. The source code is available at https://github.com/rootSue/Causal-RSGAN.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# オープンワールドインスタンスセグメンテーション - ボトムアップスーパービジョンによるトップダウン学習

Open-world Instance Segmentation: Top-down Learning with Bottom-up Supervision ( http://arxiv.org/abs/2303.05503v2 )

ライセンス: Link先を確認
Tarun Kalluri, Weiyao Wang, Heng Wang, Manmohan Chandraker, Lorenzo Torresani, Du Tran, (参考訳) 例えば、多くのトップダウンアーキテクチャは、事前に定義されたクローズドワールド分類を訓練し、テストすることで、大きな成功を収める。 しかし、オープンな世界に展開すると、目に見えるクラスに対する顕著な偏見を示し、パフォーマンスの低下に悩まされる。 本研究では,従来のボトムアップセグメンテーションアルゴリズムをトップダウン学習フレームワークに組み込んだボトムアップおよびトップダウンオープンワールドセグメンテーション(UDOS)という,オープンワールドインスタンスセグメンテーションの新しいアプローチを提案する。 UDOSはまず、ボトムアップセグメンテーションから弱い監督で訓練されたトップダウンネットワークを使用して、オブジェクトの一部を予測する。 ボトムアップのセグメンテーションはクラス非依存であり、特定の分類体系に過度に適合しない。 パートマスクは、堅牢なインスタンスレベルのセグメンテーションを予測するために、アフィニティベースのグルーピングおよびリファインメントモジュールに入力される。 UDOSは、トップダウンアーキテクチャのスピードと効率と、ボトムアップの監督からカテゴリを見落とせる一般化能力の両方を享受している。 MS-COCO, LVIS, ADE20k, UVO, OpenImages を含む5つの課題データセットから, 複数カテゴリ間での UDOS の強み, およびデータセット間の転送タスクを検証する。 私たちのコードとモデルはプロジェクトのページで公開されています。

Many top-down architectures for instance segmentation achieve significant success when trained and tested on pre-defined closed-world taxonomy. However, when deployed in the open world, they exhibit notable bias towards seen classes and suffer from significant performance drop. In this work, we propose a novel approach for open world instance segmentation called bottom-Up and top-Down Open-world Segmentation (UDOS) that combines classical bottom-up segmentation algorithms within a top-down learning framework. UDOS first predicts parts of objects using a top-down network trained with weak supervision from bottom-up segmentations. The bottom-up segmentations are class-agnostic and do not overfit to specific taxonomies. The part-masks are then fed into affinity-based grouping and refinement modules to predict robust instance-level segmentations. UDOS enjoys both the speed and efficiency from the top-down architectures and the generalization ability to unseen categories from bottom-up supervision. We validate the strengths of UDOS on multiple cross-category as well as cross-dataset transfer tasks from 5 challenging datasets including MS-COCO, LVIS, ADE20k, UVO and OpenImages, achieving significant improvements over state-of-the-art across the board. Our code and models are available on our project page.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# モデルはインドの法律データフェアで訓練されているか?

Are Models Trained on Indian Legal Data Fair? ( http://arxiv.org/abs/2303.07247v3 )

ライセンス: Link先を確認
Sahil Girhepuje, Anmol Goel, Gokul S Krishnan, Shreya Goyal, Satyendra Pandey, Ponnurangam Kumaraguru, Balaraman Ravindran, (参考訳) 言語技術と人工知能の最近の進歩と応用は、法律、医療、精神保健といった複数の領域で大きな成功を収めている。 AIベースの言語モデル、例えば判断予測は、最近法分野に提案されている。 しかし、これらのモデルは、トレーニングデータから取り出された社会的バイアスが符号化されている。 偏見と公平性はNLP全体で研究されているが、ほとんどの研究は主に西洋の文脈にある。 本研究は,インド法域における公正性に関する最初の調査である。 我々は,ヒンディー語法文書で訓練されたモデルに対する保留予測タスクにおける学習アルゴリズムバイアスの伝播に注目した。 本研究は, 人口統計値を用いたフェアネスギャップの評価を行い, 保釈予測タスクで訓練された決定木モデルが, ヒンドゥー教とムスリムの入力特徴間の全体的なフェアネスギャップが0.237であることを示す。 さらに、我々は、インドの文脈に特化して、法律分野にAIを適用する際に、公正さ/バイアスの道でさらなる研究と研究の必要性を強調します。

Recent advances and applications of language technology and artificial intelligence have enabled much success across multiple domains like law, medical and mental health. AI-based Language Models, like Judgement Prediction, have recently been proposed for the legal sector. However, these models are strife with encoded social biases picked up from the training data. While bias and fairness have been studied across NLP, most studies primarily locate themselves within a Western context. In this work, we present an initial investigation of fairness from the Indian perspective in the legal domain. We highlight the propagation of learnt algorithmic biases in the bail prediction task for models trained on Hindi legal documents. We evaluate the fairness gap using demographic parity and show that a decision tree model trained for the bail prediction task has an overall fairness disparity of 0.237 between input features associated with Hindus and Muslims. Additionally, we highlight the need for further research and studies in the avenues of fairness/bias in applying AI in the legal sector with a specific focus on the Indian context.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# ディープニューラルネットワークアーキテクチャとハイパーパラメータの最適化のためのアルゴリズムフレームワーク

An algorithmic framework for the optimization of deep neural networks architectures and hyperparameters ( http://arxiv.org/abs/2303.12797v2 )

ライセンス: Link先を確認
Julie Keisler, El-Ghazali Talbi, Sandra Claudel, Gilles Cabriel, (参考訳) 本稿では,効率的なディープニューラルネットワークを自動生成し,関連するハイパーパラメータを最適化するアルゴリズムフレームワークを提案する。 このフレームワークは、進化する有向非巡回グラフ(DAG)に基づいており、文献の既存のグラフよりも柔軟な検索空間を定義する。 畳み込み(convolutions)、再帰(recurrentence)、密集層( dense layer)といった古典的な操作の混合を可能にするだけでなく、自己注意(self-attention)のようなより新しい操作も可能である。 この探索空間に基づいて、ネットワークのアーキテクチャとハイパーパラメータの両方を最適化するために、近隣と進化の探索演算子を提案する。 これらの探索演算子は、混合探索空間を扱えるメタヒューリスティックで使用することができる。 時系列予測ベンチマークにおいて,進化的アルゴリズムを用いてアルゴリズムの枠組みを検証した。 その結果,本フレームワークは,多数のデータセット上で確立されたベースラインよりも優れたモデルを見出すことができた。

In this paper, we propose an algorithmic framework to automatically generate efficient deep neural networks and optimize their associated hyperparameters. The framework is based on evolving directed acyclic graphs (DAGs), defining a more flexible search space than the existing ones in the literature. It allows mixtures of different classical operations: convolutions, recurrences and dense layers, but also more newfangled operations such as self-attention. Based on this search space we propose neighbourhood and evolution search operators to optimize both the architecture and hyper-parameters of our networks. These search operators can be used with any metaheuristic capable of handling mixed search spaces. We tested our algorithmic framework with an evolutionary algorithm on a time series prediction benchmark. The results demonstrate that our framework was able to find models outperforming the established baseline on numerous datasets.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-14
# 未知評価モデルに基づくスポンサー付き検索広告の帯域:eコマース広告のケーススタディ

Bandits for Sponsored Search Auctions under Unknown Valuation Model: Case Study in E-Commerce Advertising ( http://arxiv.org/abs/2304.00999v2 )

ライセンス: Link先を確認
Danil Provodin, Jérémie Joudioux, Eduard Duryev, (参考訳) 本稿では,未知のバリュエーションモデルに基づいて,スポンサー付き検索オークションの入札システムを提案する。 この定式化は、入札者の値は未知であり、任意に進化し、オークションに勝ったときにのみ観察されると仮定する。 従来の研究とは異なり、フィードバックの性質に仮定を課すことはなく、スポンサー付き検索オークションにおける入札の問題について、その完全な一般性について検討する。 提案システムは,ブラックボックスのオークション構造に耐性があり,遅延フィードバックとバッチフィードバックが可能である。 提案手法を検証するため,ファッションeコマースの大手企業であるZalandoでケーススタディを行った。 本稿では,スポンサー付き検索オークションにおける収益性向上に向けたバンディット方式の開発プロセスの概要と今後の成果について述べる。 実施期間中に克服された技術的課題を詳細に議論し、収益性の向上につながるメカニズムを浮き彫りにした。

This paper presents a bidding system for sponsored search auctions under an unknown valuation model. This formulation assumes that the bidder's value is unknown, evolving arbitrarily, and observed only upon winning an auction. Unlike previous studies, we do not impose any assumptions on the nature of feedback and consider the problem of bidding in sponsored search auctions in its full generality. Our system is based on a bandit framework that is resilient to the black-box auction structure and delayed and batched feedback. To validate our proposed solution, we conducted a case study at Zalando, a leading fashion e-commerce company. We outline the development process and describe the promising outcomes of our bandits-based approach to increase profitability in sponsored search auctions. We discuss in detail the technical challenges that were overcome during the implementation, shedding light on the mechanisms that led to increased profitability.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# 非分離型大規模ブラックボックス最適化のための協調的共進化:収束解析と分散加速

Cooperative Coevolution for Non-Separable Large-Scale Black-Box Optimization: Convergence Analyses and Distributed Accelerations ( http://arxiv.org/abs/2304.05020v3 )

ライセンス: Link先を確認
Qiqi Duan, Chang Shao, Guochen Zhou, Haobin Yang, Qi Zhao, Yuhui Shi, (参考訳) 本稿では,実世界の非分離性最適化問題の多様さを考慮し,非分離性関数上での分割型ブラックボックス最適化フレームワークである,よく知られた協調的共進化(CC)の大規模バージョンを解析・拡張する。 まず,多くのCC論文で指摘されていないような,非分離不能な大規模問題に対して,分解法が好まれるかどうかを実証的に明らかにする。 そして,CCを単純化して連続ゲームモデルにフォーマル化するが,その本質を損なうことはない。 CCの従来の進化ゲーム理論とは異なり、我々の新しいモデルは、純粋なナッシュ均衡の概念が必須であり、より一般的なフィットネスランドスケープを明示的に考慮できるため、その収束を分析するのに非常に単純だが有用な視点を提供する。 収束解析に基づいて、より一般化された階層的な分解戦略を提案し、任意の分解に対して、最適以下のナッシュ平衡に閉じ込められるリスクがある。 最後に,CMA-ESの分散特性と分解による微調整能力を組み合わせた,最近の多層学習フレームワークの下での分散コンピューティングの高速化について述べる。 一連の高次元テスト関数の実験は、400コアのクラスタリングコンピューティングプラットフォーム上での検索性能とスケーラビリティ(CPUコア)の両方を検証する。

Given the ubiquity of non-separable optimization problems in real worlds, in this paper we analyze and extend the large-scale version of the well-known cooperative coevolution (CC), a divide-and-conquer black-box optimization framework, on non-separable functions. First, we reveal empirical reasons of when decomposition-based methods are preferred or not in practice on some non-separable large-scale problems, which have not been clearly pointed out in many previous CC papers. Then, we formalize CC to a continuous-game model via simplification, but without losing its essential property. Different from previous evolutionary game theory for CC, our new model provides a much simpler but useful viewpoint to analyze its convergence, since only the pure Nash equilibrium concept is needed and more general fitness landscapes can be explicitly considered. Based on convergence analyses, we propose a hierarchical decomposition strategy for better generalization, as for any decomposition, there is a risk of getting trapped into a suboptimal Nash equilibrium. Finally, we use powerful distributed computing to accelerate it under the recent multi-level learning framework, which combines the fine-tuning ability from decomposition with the invariance property of CMA-ES. Experiments on a set of high-dimensional test functions validate both its search performance and scalability (w.r.t. CPU cores) on a clustering computing platform with 400 CPU cores.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# リモートセンシング画像のための数十億ドル規模の基礎モデル

A Billion-scale Foundation Model for Remote Sensing Images ( http://arxiv.org/abs/2304.05215v3 )

ライセンス: Link先を確認
Keumgang Cha, Junghoon Seo, Taekyung Lee, (参考訳) 視覚タスクにおける基礎モデルの可能性に大きな注目を集めているため、下流タスクの前にこれらのモデルを事前訓練することが重要なステップとなっている。 基礎モデルの事前学習における3つの重要な要素は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。 近年,リモートセンシング分野の研究は,モデルパラメータの数に限定して,事前学習手法とデータセットのサイズに重点を置いている。 本稿では, オブジェクトの回転検出やセマンティックセグメンテーションといった下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響を検討することで, このギャップを解消する。 86M, 605.26M, 1.3B, 2.4Bなど,様々なパラメータを持つ基礎モデルを事前学習し, パラメータの増加に伴う下流タスクの性能向上を検証した。 我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。 さらに,リモートセンシング分野における視覚変換器のスケールアップと微調整に有効な手法を提案する。 下流タスクにおける一般的な性能を評価するために、回転物体検出のためのDOTA v2.0とDIOR-Rベンチマークデータセット、意味的セグメンテーションのためのPotsdamとLoveDAデータセットを用いた。 実験の結果、すべてのベンチマークデータセットとダウンストリームタスクにおいて、基礎モデルの性能とデータ効率が改善し、パラメータの数が増加した。 さらに,本モデルでは,DIOR-R,Postdam,LoveDAなど,いくつかのデータセットで最先端のパフォーマンスを実現している。

As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# Farm3D:2D拡散による人工3D動物の学習

Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion ( http://arxiv.org/abs/2304.10535v3 )

ライセンス: Link先を確認
Tomas Jakab, Ruining Li, Shangzhe Wu, Christian Rupprecht, Andrea Vedaldi, (参考訳) 本稿では,事前に訓練された2次元拡散画像生成装置からの「自由」な仮想監督のみに頼って,カテゴリー別3次元再構成器を学習するFarm3Dを提案する。 最近のアプローチでは、オブジェクトカテゴリの単一ビューイメージの集合から、オブジェクトの発生の3次元形状、アルベド、照明、視点を予測する単眼ネットワークを学習することができる。 しかし、これらのアプローチは手作業によるクリーンなトレーニングデータに大きく依存している。 本稿では, 安定拡散などの画像生成装置を用いて, 十分にクリーンで手作業によるキュレーションを必要としない合成トレーニングデータを生成するフレームワークを提案する。 さらに,拡散モデルをスコアとして組み込んで学習プロセスを強化する。 このアイデアは、視点や照明などの再構成の特定の側面をランダム化し、再構成された3Dオブジェクトの仮想ビューを生成し、2Dネットワークが結果の画像の品質を評価できるようにし、再構成者にフィードバックを提供する。 テキストプロンプトごとに単一の3Dアセットを生成する蒸留法とは異なり、本手法では、任意の画像から制御可能な3Dアセットを出力できる単分子再構成ネットワークを、1つのフォワードパスで数秒で生成する。 我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。

We present Farm3D, a method for learning category-specific 3D reconstructors for articulated objects, relying solely on "free" virtual supervision from a pre-trained 2D diffusion-based image generator. Recent approaches can learn a monocular network that predicts the 3D shape, albedo, illumination, and viewpoint of any object occurrence, given a collection of single-view images of an object category. However, these approaches heavily rely on manually curated clean training data, which are expensive to obtain. We propose a framework that uses an image generator, such as Stable Diffusion, to generate synthetic training data that are sufficiently clean and do not require further manual curation, enabling the learning of such a reconstruction network from scratch. Additionally, we incorporate the diffusion model as a score to enhance the learning process. The idea involves randomizing certain aspects of the reconstruction, such as viewpoint and illumination, generating virtual views of the reconstructed 3D object, and allowing the 2D network to assess the quality of the resulting image, thus providing feedback to the reconstructor. Unlike work based on distillation, which produces a single 3D asset for each textual prompt, our approach yields a monocular reconstruction network capable of outputting a controllable 3D asset from any given image, whether real or generated, in a single forward pass in a matter of seconds. Our network can be used for analysis, including monocular reconstruction, or for synthesis, generating articulated assets for real-time applications such as video games.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# 量子スキームによる古典的相関の生成

The Generations of Classical Correlations via Quantum Schemes ( http://arxiv.org/abs/2304.12690v2 )

ライセンス: Link先を確認
Zhenyu Chen, Lijinzhi Lin, Xiaodie Lin, Zhaohui Wei, Penghui Yao, (参考訳) Alice と Bob の2つの分離パーティは、二部量子状態または古典的相関(英語版)(英語版)「emph{seed}」)を共有し、それらはシード上で局所的な量子的あるいは古典的操作を行うことにより、標的となる古典的相関(英語版)を生成する。 アリスとボブは、対象とする古典的相関を生成するために、与えられた種を使うことができるかどうかという、この設定の基本的な問題を考える。 この問題にはリッチな数学的構造があることが示される。 第一に、たとえ種が純粋な二分項状態であっても、上記の決定問題は既にNPハードであり、同様に、種子が古典的相関関係である場合にも、同様の結論が導出できることを証明し、この問題は一般には解決が難しいことを示唆する。 さらに、種が純粋量子状態である場合、この問題を解くことは、対象の古典的相関がシード純状態に一致する正の半定値分解の対角形を持つかどうかを確かめることと等価であり、現在の問題と最適化理論の間の興味深い関係が明らかになる。 この観測および他の知見に基づいて、ターゲットの古典的相関を生成するために、シード純状態が満たさなければならないいくつかの必要条件を与え、これらの条件は、シードが混合量子状態である場合にも一般化できることを示した。 最後に, 正の半定値分解の対角形式がこの問題の解決に重要な役割を果たすため, 任意の古典的相関を計算できるアルゴリズムを開発した。

Suppose two separated parties, Alice and Bob, share a bipartite quantum state or a classical correlation called a \emph{seed}, and they try to generate a target classical correlation by performing local quantum or classical operations on the seed, i.e., any communications are not allowed. We consider the following fundamental problem about this setting: whether Alice and Bob can use a given seed to generate a target classical correlation. We show that this problem has rich mathematical structures. Firstly, we prove that even if the seed is a pure bipartite state, the above decision problem is already NP-hard and a similar conclusion can also be drawn when the seed is also a classical correlation, implying that this problem is hard to solve generally. Furthermore, we prove that when the seed is a pure quantum state, solving the problem is equivalent to finding out whether the target classical correlation has some diagonal form of positive semi-definite factorizations that matches the seed pure state, revealing an interesting connection between the current problem and optimization theory. Based on this observation and other insights, we give several necessary conditions where the seed pure state has to satisfy to generate the target classical correlation, and it turns out that these conditions can also be generalized to the case that the seed is a mixed quantum state. Lastly, since diagonal forms of positive semi-definite factorizations play a crucial role in solving the problem, we develop an algorithm that can compute them for an arbitrary classical correlation, which has decent performance on the cases we test.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# 数千のGPUに並列トレーニングをスケールする4Dハイブリッドアルゴリズム

A 4D Hybrid Algorithm to Scale Parallel Training to Thousands of GPUs ( http://arxiv.org/abs/2305.13525v3 )

ライセンス: Link先を確認
Siddharth Singh, Prajwal Singhania, Aditya K. Ranjan, Zack Sating, Abhinav Bhatele, (参考訳) 重通信、特に集合的操作は、数十億のパラメータニューラルネットワークのトレーニングを大規模並列システムにスケールアップする上で、重要なパフォーマンスボトルネックとなる可能性がある。 本稿では,並列訓練における通信を最適化するための4次元(4次元)アプローチを提案する。 この4Dアプローチは3Dテンソルとデータ並列性のハイブリッドであり、AxoNNフレームワークで実装されている。 さらに,通信オーバーヘッドを最小化するための2つの重要な戦略も採用している。 まず,高コストな集合演算(reduce-scatter,all-gather,all-reduce)と計算処理を積極的にオーバーラップする。 第二に、我々は、我々の4Dアルゴリズムで定義される大規模検索空間内での高性能な構成を特定するための分析モデルを構築した。 このモデルは、特定のトレーニングワークロードのチューニングプロセスをシンプルにすることで、実践者に力を与えます。 Perlmutterの1024 GPU上で80ビリオンパラメータのGPTをトレーニングする場合、AxoNNは最先端のフレームワークであるMegatron-LMを26%上回った。 さらに、理論的なピークFLOP/sの57%、または合計182 PFLOP/sを実現している。

Heavy communication, in particular, collective operations, can become a critical performance bottleneck in scaling the training of billion-parameter neural networks to large-scale parallel systems. This paper introduces a four-dimensional (4D) approach to optimize communication in parallel training. This 4D approach is a hybrid of 3D tensor and data parallelism, and is implemented in the AxoNN framework. In addition, we employ two key strategies to further minimize communication overheads. First, we aggressively overlap expensive collective operations (reduce-scatter, all-gather, and all-reduce) with computation. Second, we develop an analytical model to identify high-performing configurations within the large search space defined by our 4D algorithm. This model empowers practitioners by simplifying the tuning process for their specific training workloads. When training an 80-billion parameter GPT on 1024 GPUs of Perlmutter, AxoNN surpasses Megatron-LM, a state-of-the-art framework, by a significant 26%. Additionally, it achieves a significantly high 57% of the theoretical peak FLOP/s or 182 PFLOP/s in total.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# 配電用フェアネステスト生成装置

Distribution-aware Fairness Test Generation ( http://arxiv.org/abs/2305.13935v5 )

ライセンス: Link先を確認
Sai Sathiesh Rajan, Ezekiel Soremekun, Yves Le Traon, Sudipta Chattopadhyay, (参考訳) オブジェクトのすべてのクラスが同等の精度で検出されることを保証することは、AIシステムにおいて不可欠である。 例えば、ある種類の物体を特定できないことは、自律運転システムに致命的な結果をもたらす可能性がある。 したがって、画像認識システムの信頼性を確保することが重要である。 本研究は,画像認識ソフトウェアにおけるグループフェアネスの検証方法について述べる。 画像分類器におけるクラスレベルのフェアネス違反を,アウト・オブ・ディストリビューション(OOD)テストとセマンティック保存画像の相乗的組み合わせにより体系的に公開する分布認識フェアネステスト手法(DistroFair)を提案する。 DistroFairは、画像の集合内のオブジェクトの分布(例:番号/向き)を自動的に学習する。 次に、オブジェクトの削除、オブジェクト挿入、オブジェクト回転という3つの意味保存された画像の突然変異を使用して、画像内のオブジェクトを体系的にOODに変形する。 2つのよく知られたデータセット(CityScapesとMS-COCO)と3つの主要な商用画像認識ソフトウェア(Amazon Rekognition、Google Cloud Vision、Azure Computer Vision)を使用してDistroFairを評価する。 その結果、DistroFairが生成した画像の約21%は、基底真理または変成オラクルを用いてクラスレベルのフェアネス違反を明らかにしている。 DistroFairは2つのベースライン、すなわち2つのベースラインよりも2.3倍有効である。 (a)分布(ID)内でのみ画像を生成することに焦点を当てたアプローチ (b)元の画像データセットのみを用いた公平性分析。 さらに、DistroFairは効率的で、平均して1時間に460枚の画像を生成する。 最後に,DistroFair が生成した実画像 30 と実画像 30 を用いて,81 人の被験者によるユーザスタディを通じて,提案手法のセマンティックな妥当性を評価する。 その結果、DistroFairが生成した画像は現実世界の画像の80%がリアルであることが判明した。

Ensuring that all classes of objects are detected with equal accuracy is essential in AI systems. For instance, being unable to identify any one class of objects could have fatal consequences in autonomous driving systems. Hence, ensuring the reliability of image recognition systems is crucial. This work addresses how to validate group fairness in image recognition software. We propose a distribution-aware fairness testing approach (called DistroFair) that systematically exposes class-level fairness violations in image classifiers via a synergistic combination of out-of-distribution (OOD) testing and semantic-preserving image mutation. DistroFair automatically learns the distribution (e.g., number/orientation) of objects in a set of images. Then it systematically mutates objects in the images to become OOD using three semantic-preserving image mutations - object deletion, object insertion and object rotation. We evaluate DistroFair using two well-known datasets (CityScapes and MS-COCO) and three major, commercial image recognition software (namely, Amazon Rekognition, Google Cloud Vision and Azure Computer Vision). Results show that about 21% of images generated by DistroFair reveal class-level fairness violations using either ground truth or metamorphic oracles. DistroFair is up to 2.3x more effective than two main baselines, i.e., (a) an approach which focuses on generating images only within the distribution (ID) and (b) fairness analysis using only the original image dataset. We further observed that DistroFair is efficient, it generates 460 images per hour, on average. Finally, we evaluate the semantic validity of our approach via a user study with 81 participants, using 30 real images and 30 corresponding mutated images generated by DistroFair. We found that images generated by DistroFair are 80% as realistic as real-world images.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# tドープ安定化状態の学習

Learning t-doped stabilizer states ( http://arxiv.org/abs/2305.15398v5 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F. E. Oliviero, Alioscia Hamma, (参考訳) 本稿では,有限個の$t$ of$T$-gateをドープしたクリフォード回路を用いて,計算基底状態から得られる学習状態を対象とした学習アルゴリズムを提案する。 このアルゴリズムは、パウリ観測可能量の観点から、$t$ドープ安定化状態の正確なトモグラフィ記述を学習する。 このような状態は可算であり、離散集合を形成するからである。 この問題に対処するために、$t$ドープ安定化状態のための新しい代数的フレームワークを導入し、これは$T$ゲートを超えて拡張され、任意の種類の局所的非クリフォードゲートによるドーピングを含む。 このアルゴリズムは、複雑さのリソースである$\text{poly}(n,2^t)$を必要とし、指数的に小さな失敗の確率を示す。

In this paper, we present a learning algorithm aimed at learning states obtained from computational basis states by Clifford circuits doped with a finite number $t$ of $T$-gates. The algorithm learns an exact tomographic description of $t$-doped stabilizer states in terms of Pauli observables. This is possible because such states are countable and form a discrete set. To tackle the problem, we introduce a novel algebraic framework for $t$-doped stabilizer states, which extends beyond $T$-gates and includes doping with any kind of local non-Clifford gate. The algorithm requires resources of complexity $\text{poly}(n,2^t)$ and exhibits an exponentially small probability of failure.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# HPCコーダ:大規模言語モデルを用いた並列プログラムのモデル化

HPC-Coder: Modeling Parallel Programs using Large Language Models ( http://arxiv.org/abs/2306.17281v2 )

ライセンス: Link先を確認
Daniel Nichols, Aniruddha Marathe, Harshitha Menon, Todd Gamblin, Abhinav Bhatele, (参考訳) ハイパフォーマンスコンピューティング(HPC)における並列プログラムは、エクサスケール時代の複雑さとスケールの増大を続けている。 ハードウェアと並列プログラミングモデルの多様性は、開発者にとってさらに負担のかかる並列ソフトウェアの開発、最適化、メンテナンスを可能にします。 これらの負担を軽減する方法の1つは、自動開発と分析ツールです。 このようなツールは、生産性を高め、エラーの可能性を減少させる開発者のために、複雑で/または改善的なタスクを実行することができる。 最近まで、コード開発とパフォーマンス分析のためのそのようなツールは、実行可能なタスク、特に並列プログラムの複雑さに制限されていた。 しかし、近年の言語モデリングの進歩と大量のオープンソースコード関連データの利用により、これらのツールは予測言語モデルを利用してより複雑なタスクを自動化するようになった。 本稿では,大規模言語モデル(LLM)が,ハイパフォーマンスおよび科学的コードに特有のタスクにどのように適用できるかを示す。 我々は、HPCと科学コードの新しいデータセットを導入し、それをいくつかの事前訓練されたモデルを微調整するために使用します。 我々は、HPC関連タスクにおける事前学習LLMを比較し、並列コードで微調整された新しいモデル、HPC-Coderを導入する。 実験では,汎用モデルでは不可能なHPC関数を自動補完し,OpenMPプラグマでループをデコレートし,科学アプリケーションリポジトリやプログラミングコンペティションソリューションの性能変化をモデル化できることを示した。

Parallel programs in high performance computing (HPC) continue to grow in complexity and scale in the exascale era. The diversity in hardware and parallel programming models make developing, optimizing, and maintaining parallel software even more burdensome for developers. One way to alleviate some of these burdens is with automated development and analysis tools. Such tools can perform complex and/or remedial tasks for developers that increase their productivity and decrease the chance for error. Until recently, such tools for code development and performance analysis have been limited in the complexity of tasks they can perform, especially for parallel programs. However, with recent advancements in language modeling, and the availability of large amounts of open-source code related data, these tools have started to utilize predictive language models to automate more complex tasks. In this paper, we show how large language models (LLMs) can be applied to tasks specific to high performance and scientific codes. We introduce a new dataset of HPC and scientific codes and use it to fine-tune several pre-trained models. We compare several pre-trained LLMs on HPC-related tasks and introduce a new model, HPC-Coder, fine-tuned on parallel codes. In our experiments, we show that this model can auto-complete HPC functions where generic models cannot, decorate for loops with OpenMP pragmas, and model performance changes in scientific application repositories as well as programming competition solutions.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# CheXmask:マルチセンター胸部X線画像のための解剖学的セグメンテーションマスクの大規模データセット

CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images ( http://arxiv.org/abs/2307.03293v4 )

ライセンス: Link先を確認
Nicolás Gaggion, Candelaria Mosquera, Lucas Mansilla, Julia Mariel Saidman, Martina Aineseder, Diego H. Milone, Enzo Ferrante, (参考訳) 胸部X線分析のための人工知能モデルの開発は、高品質なアノテーションを持つ大規模で多様なデータセットに依存している。 胸部X線画像のデータベースがいくつか公開されているが、そのほとんどは疾患診断ラベルを含んでいるが、詳細なピクセルレベルの解剖学的分類ラベルがない。 このギャップに対処するため,ChestX-ray8,Chexpert,MIMIC-CXR-JPG,Padchest,VinDr-CXRの5つの公開データベースから得られる画像に対して,均一かつ微細な解剖学的アノテーションを付加した胸部X線多中心セグメンテーションデータセットを導入し,その結果,657,566個のセグメンテーションマスクが得られた。 提案手法はHybridGNetモデルを用いて,全データセットの一貫性と高品質なセグメンテーションを保証する。 熟練した医師の評価と自動品質管理を含む厳密な検証を行い、その結果のマスクを検証した。 さらに、マスク毎の品質指標とデータセット毎の全体的な品質評価も提供する。 このデータセットは、胸部X線分析における革新的な方法論の開発と評価を合理化して、より広い科学コミュニティにとって貴重な資源となっている。 CheXmaskデータセットは、https://physionet.org/content/chexmask-cxr-segmentation-data/で公開されている。

The development of successful artificial intelligence models for chest X-ray analysis relies on large, diverse datasets with high-quality annotations. While several databases of chest X-ray images have been released, most include disease diagnosis labels but lack detailed pixel-level anatomical segmentation labels. To address this gap, we introduce an extensive chest X-ray multi-center segmentation dataset with uniform and fine-grain anatomical annotations for images coming from five well-known publicly available databases: ChestX-ray8, Chexpert, MIMIC-CXR-JPG, Padchest, and VinDr-CXR, resulting in 657,566 segmentation masks. Our methodology utilizes the HybridGNet model to ensure consistent and high-quality segmentations across all datasets. Rigorous validation, including expert physician evaluation and automatic quality control, was conducted to validate the resulting masks. Additionally, we provide individualized quality indices per mask and an overall quality estimation per dataset. This dataset serves as a valuable resource for the broader scientific community, streamlining the development and assessment of innovative methodologies in chest X-ray analysis. The CheXmask dataset is publicly available at: https://physionet.org/content/chexmask-cxr-segmentation-data/
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# Tests4Py: システムテストのベンチマーク

Tests4Py: A Benchmark for System Testing ( http://arxiv.org/abs/2307.05147v2 )

ライセンス: Link先を確認
Marius Smytzek, Martin Eberlein, Batuhan Serce, Lars Grunske, Andreas Zeller, (参考訳) ベンチマークは、ソフトウェア工学研究の進歩の主要な要因の一つである。 しかし、現在のベンチマークの多くは、不適切なシステムオーラクルとスパース単体テストによって制限されている。 当社のTests4Pyベンチマークは、BugsInPyベンチマークから派生したもので、これらの制限に対処しています。 現実世界の7つのPythonアプリケーションから73のバグと、サンプルプログラムから6のバグが含まれている。 Tests4Pyの各科目は機能的正当性を検証するためのオラクルを備えており、システムおよび単体テスト生成をサポートする。 これにより、包括的な質的研究と広範な評価が可能になり、Tests4Pyはテスト生成、デバッグ、自動プログラム修復の研究のための最先端のベンチマークとなる。

Benchmarks are among the main drivers of progress in software engineering research. However, many current benchmarks are limited by inadequate system oracles and sparse unit tests. Our Tests4Py benchmark, derived from the BugsInPy benchmark, addresses these limitations. It includes 73 bugs from seven real-world Python applications and six bugs from example programs. Each subject in Tests4Py is equipped with an oracle for verifying functional correctness and supports both system and unit test generation. This allows for comprehensive qualitative studies and extensive evaluations, making Tests4Py a cutting-edge benchmark for research in test generation, debugging, and automatic program repair.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# 地域適応型フェデレーションラーニング

Locally Adaptive Federated Learning ( http://arxiv.org/abs/2307.06306v2 )

ライセンス: Link先を確認
Sohom Mukherjee, Nicolas Loizou, Sebastian U. Stich, (参考訳) フェデレートラーニング(Federated Learning)は、分散機械学習のパラダイムのひとつで、複数のクライアントがトレーニングデータを共有することなく、中央サーバとコーディネートしてモデルを学習する。 Federated Averaging (FedAvg)のような標準的なフェデレーション最適化手法は、すべてのクライアントのローカル更新に同じステップサイズを使用することで、クライアント間のバランスを確保する。 しかし、これは全てのクライアントが函数のグローバルな幾何学を尊重し、緩やかな収束をもたらす必要があることを意味する。 本研究では,各クライアント関数の局所的幾何情報を利用する局所適応型フェデレーション学習アルゴリズムを提案する。 これらの局所的適応手法は,全クライアントにまたがるステップサイズを調整していない場合,特に補間(過度なパラメータ化)設定において効率が良く,凸や凸の強い設定に対して不均一なデータが存在する場合の収束を解析できることを示す。 我々は,I.d.非i.d.事例の双方に対して,イラストレーション実験を行うことで,理論的主張を検証する。 提案アルゴリズムは,非凸実験におけるFedAvgの最適化性能や,非凸実験におけるFedAMSのような最先端適応型フェデレーションアルゴリズムよりも優れ,より優れた一般化性能が得られる。

Federated learning is a paradigm of distributed machine learning in which multiple clients coordinate with a central server to learn a model, without sharing their own training data. Standard federated optimization methods such as Federated Averaging (FedAvg) ensure balance among the clients by using the same stepsize for local updates on all clients. However, this means that all clients need to respect the global geometry of the function which could yield slow convergence. In this work, we propose locally adaptive federated learning algorithms, that leverage the local geometric information for each client function. We show that such locally adaptive methods with uncoordinated stepsizes across all clients can be particularly efficient in interpolated (overparameterized) settings, and analyze their convergence in the presence of heterogeneous data for convex and strongly convex settings. We validate our theoretical claims by performing illustrative experiments for both i.i.d. non-i.i.d. cases. Our proposed algorithms match the optimization performance of tuned FedAvg in the convex setting, outperform FedAvg as well as state-of-the-art adaptive federated algorithms like FedAMS for non-convex experiments, and come with superior generalization performance.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# 重力が測定時に量子実体として働くかどうかをテストする

Testing whether gravity acts as a quantum entity when measured ( http://arxiv.org/abs/2307.08133v3 )

ライセンス: Link先を確認
Farhan Hanif, Debarshi Das, Jonathan Halliwell, Dipankar Home, Anupam Mazumdar, Hendrik Ulbricht, Sougato Bose, (参考訳) 古典システムの決定的なシグネチャは、外乱のない「原理的可測性(in principle measurability)」であり、量子システムによって明らかに違反される特徴である。 本稿では,空間的重畳磁場の非古典性を明らかにするためのマルチインターフェロメーター実験装置について述べる。 1つの干渉計が磁場を発生させる間、他の干渉計は重ね合わせによって生じる重力場を測定するために使用される。 これは、非古典的な重力の特定の形式や、任意の段階における関連する自由度の間の絡み合いの発生を必要としないため、これまで提案された実験と区別できる。 このテストは、近年の絡み合いウィットネスに基づく提案に加えられたとき、重力でテストされている量子公準の領域を拡大する。 さらに、提案試験では、有限個のデコヒーレンス率に対して量子測定誘導障害の符号が得られ、デバイス独立である。

A defining signature of classical systems is "in principle measurability" without disturbance: a feature manifestly violated by quantum systems. We describe a multi-interferometer experimental setup that can, in principle, reveal the nonclassicality of a spatial superposition-sourced gravitational field if an irreducible disturbance is caused by a measurement of gravity. While one interferometer sources the field, the others are used to measure the gravitational field created by the superposition. This requires neither any specific form of nonclassical gravity, nor the generation of entanglement between any relevant degrees of freedom at any stage, thus distinguishing it from the experiments proposed so far. This test, when added to the recent entanglement-witness based proposals, enlarges the domain of quantum postulates being tested for gravity. Moreover, the proposed test yields a signature of quantum measurement induced disturbance for any finite rate of decoherence, and is device independent.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# 非滑らかな非凸最適化における大域的安定性を保証したSGD型手法

SGD-type Methods with Guaranteed Global Stability in Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2307.10053v3 )

ライセンス: Link先を確認
Nachuan Xiao, Xiaoyin Hu, Kim-Chuan Toh, (参考訳) 本稿では,非滑らかな非凸関数を最小化するために,確率的下降降下法(SGD)の変種に対する収束保証を提供することに焦点をあてる。 まず、一般確率的下次法に対する大域的安定性を確立するための一般的な枠組みを開発し、対応する微分包含は、強制的リャプノフ関数を許容する。 十分小さなステップサイズと制御された雑音により、繰り返しは対応する微分包摂の安定な集合の周りに漸近的に安定化することを示す。 そこで本研究では,初期変数の更新方向を正規化したSGD型手法の開発手法を提案する。 開発した枠組みに基づいて,提案手法の温和な条件下でのグローバルな安定性を実証する。 さらに,本手法は,非平滑ニューラルネットワークのトレーニングにおける収束性を保証するSGD型手法の変種を導出することを示す。 特に,更新方向を正規化するためにサインマップを用いることで,SRSGD法 (Sign-map Regularized SGD method) と呼ばれる新しい段階的手法を提案する。 予備的な数値実験は、深層ニューラルネットワークのトレーニングにおけるSRSGDの高効率性を示す。

In this paper, we focus on providing convergence guarantees for variants of the stochastic subgradient descent (SGD) method in minimizing nonsmooth nonconvex functions. We first develop a general framework to establish global stability for general stochastic subgradient methods, where the corresponding differential inclusion admits a coercive Lyapunov function. We prove that, with sufficiently small stepsizes and controlled noises, the iterates asymptotically stabilize around the stable set of its corresponding differential inclusion. Then we introduce a scheme for developing SGD-type methods with regularized update directions for the primal variables. Based on our developed framework, we prove the global stability of our proposed scheme under mild conditions. We further illustrate that our scheme yields variants of SGD-type methods, which enjoy guaranteed convergence in training nonsmooth neural networks. In particular, by employing the sign map to regularize the update directions, we propose a novel subgradient method named the Sign-map Regularized SGD method (SRSGD). Preliminary numerical experiments exhibit the high efficiency of SRSGD in training deep neural networks.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-14
# El Niño Southern Oscillation (ENSO) の低周波変動に対する多様性の寄与

Contributions of El Niño Southern Oscillation (ENSO) Diversity to Low-Frequency Changes in ENSO Variance ( http://arxiv.org/abs/2307.11552v2 )

ライセンス: Link先を確認
Jakob Schlör, Felix Strnad, Antonietta Capotondi, Bedartha Goswami, (参考訳) El Ni\~no Southern Oscillation (ENSO) の多様性は、中央太平洋(CP)イベントが東太平洋(EP)イベントよりも弱いため、最大海面温度異常(SSTA)と熱帯太平洋の振幅の長手位置に基づいて特徴づけられる。 SSTAパターンと強度は低周波変調を行い、ENSO予測スキルとリモートインパクトに影響を及ぼす。 しかし,これらの経年変化と長期変動傾向にどのように寄与するかはいまだ不明である。 ここでは、ENSO変異の低周波変化を、ENSO多様性カテゴリからの寄与に分解する。 本稿では,非バイナリイベントカテゴリメンバシップを実現するために,月次SSTAのファジィクラスタリングを提案する。 提案手法は2つのLa Ni\~naと3つのEl Ni\~noを同定し,1970年代中ごろのENSO分散の変動は,強いLa Ni\~naと極端El Ni\~noの確率の増加と関連していることを示す。

El Ni\~no Southern Oscillation (ENSO) diversity is characterized based on the longitudinal location of maximum sea surface temperature anomalies (SSTA) and amplitude in the tropical Pacific, as Central Pacific (CP) events are typically weaker than Eastern Pacific (EP) events. SSTA pattern and intensity undergo low-frequency modulations, affecting ENSO prediction skill and remote impacts. Yet, how different ENSO types contribute to these decadal variations and long-term variance trends remain uncertain. Here, we decompose the low-frequency changes of ENSO variance into contributions from ENSO diversity categories. We propose a fuzzy clustering of monthly SSTA to allow for non-binary event category memberships. Our approach identifies two La Ni\~na and three El Ni\~no categories and shows that the shift of ENSO variance in the mid-1970s is associated with an increasing likelihood of strong La Ni\~na and extreme El Ni\~no events.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# 双方向対話認識のための2ストリームマルチレベル動的点変換器

Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition ( http://arxiv.org/abs/2307.11973v2 )

ライセンス: Link先を確認
Yao Liu, Gangfeng Cui, Jiahui Luo, Xiaojun Chang, Lina Yao, (参考訳) 人間生活の基本的な側面として、2人のインタラクションには、人々の活動、関係、社会的設定に関する意味のある情報が含まれる。 人間の行動認識は多くのスマートアプリケーションの基盤として機能し、個人のプライバシーに重点を置いている。 しかし, 対人関係の認識は, 単対人行動に比べ, 身体閉塞や重なり合いの増加により, より多くの課題が生じる。 本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。 本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。 これを実現するために,IFS (Interval Frame Sampling) というフレーム選択方式を導入し,ビデオからフレームを効率的にサンプリングし,比較的短時間でより識別性の高い情報を収集する。 その後、フレームの特徴付けモジュールと、2ストリームのマルチレベル特徴集約モジュールは、サンプルフレームからグローバルかつ部分的な特徴を抽出し、その相互作用に関連する局所空間情報、外観情報、動き情報を効果的に表現する。 最後に、最終分類のための学習した特徴に対して自己アテンションを行うための変換器を適用する。 NTU RGB+D 60とNTU RGB+D 120の相互作用サブセットである。 その結果、我々のネットワークは、ほとんどの標準評価設定において最先端のアプローチよりも優れていることがわかった。

As a fundamental aspect of human life, two-person interactions contain meaningful information about people's activities, relationships, and social settings. Human action recognition serves as the foundation for many smart applications, with a strong focus on personal privacy. However, recognizing two-person interactions poses more challenges due to increased body occlusion and overlap compared to single-person actions. In this paper, we propose a point cloud-based network named Two-stream Multi-level Dynamic Point Transformer for two-person interaction recognition. Our model addresses the challenge of recognizing two-person interactions by incorporating local-region spatial information, appearance information, and motion information. To achieve this, we introduce a designed frame selection method named Interval Frame Sampling (IFS), which efficiently samples frames from videos, capturing more discriminative information in a relatively short processing time. Subsequently, a frame features learning module and a two-stream multi-level feature aggregation module extract global and partial features from the sampled frames, effectively representing the local-region spatial information, appearance information, and motion information related to the interactions. Finally, we apply a transformer to perform self-attention on the learned features for the final classification. Extensive experiments are conducted on two large-scale datasets, the interaction subsets of NTU RGB+D 60 and NTU RGB+D 120. The results show that our network outperforms state-of-the-art approaches in most standard evaluation settings.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# 量子ハイパーグラフ状態のマジック

Magic of quantum hypergraph states ( http://arxiv.org/abs/2308.01886v2 )

ライセンス: Link先を確認
Junjie Chen, Yuxuan Yan, You Zhou, (参考訳) マジック(英: Magic、または非安定化器性)は、安定状態の集合から量子状態の偏りを特徴づけ、量子状態の複雑性から普遍的フォールトトレラント量子コンピューティングへの根本的な役割を担っている。 しかし、マジックの分析的あるいは数値的な特徴付けは、特に適度な量子ビット数であっても、マルチキュービットシステムにおいて非常に困難である。 ここでは,超グラフで符号化されたマルチキュービット制御相ゲートによって生成可能な,古小数式多部量子状態(量子ハイパーグラフ状態)の魔法資源を体系的かつ解析的に検討する。 まず、一般的な量子ハイパーグラフ状態に対する安定化器 R$\mathrm{\acute{e}}$nyi-$\alpha$ entropies の項でマジック公式を与え、対応するハイパーグラフの平均次数が一定であれば、マジックが最大値に到達できないことを証明する。 次に、ランダムなハイパーグラフ状態の統計的挙動を調査し、通常、ランダムなハイパーグラフ状態が最大魔法に到達できる濃度結果を証明する。 これはまた、ランダムな対角回路で最大マジック状態を生成する効率的な方法も示唆している。 最後に、置換対称性を持つ高対称性なハイパーグラフ状態(例えば、関連するハイパーグラフが3$完全であるもの、すなわち、任意の3つの頂点がハイパーエッジで接続されているものなど)について研究する。 反対に、そのような状態は$\alpha\geq 2$に対して定数または指数的に小さな魔法しか持たない。 我々の研究は、多部量子魔法の理解を深め、量子コンピューティングや量子多体物理学の応用に繋がる可能性がある。

Magic, or nonstabilizerness, characterizes the deviation of a quantum state from the set of stabilizer states and plays a fundamental role from quantum state complexity to universal fault-tolerant quantum computing. However, analytical or even numerical characterizations of magic are very challenging, especially in the multi-qubit system, even with a moderate qubit number. Here we systemically and analytically investigate the magic resource of archetypal multipartite quantum states -- quantum hypergraph states, which can be generated by multi-qubit Controlled-phase gates encoded by hypergraphs. We first give the magic formula in terms of the stabilizer R$\mathrm{\acute{e}}$nyi-$\alpha$ entropies for general quantum hypergraph states and prove the magic can not reach the maximal value, if the average degree of the corresponding hypergraph is constant. Then we investigate the statistical behaviors of random hypergraph states and prove the concentration result that typically random hypergraph states can reach the maximal magic. This also suggests an efficient way to generate maximal magic states with random diagonal circuits. Finally, we study some highly symmetric hypergraph states with permutation-symmetry, such as the one whose associated hypergraph is $3$-complete, i.e., any three vertices are connected by a hyperedge. Counterintuitively, such states can only possess constant or even exponentially small magic for $\alpha\geq 2$. Our study advances the understanding of multipartite quantum magic and could lead to applications in quantum computing and quantum many-body physics.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# 擬レーニエントロピーのサム則

Sum rule for the pseudo-Rényi entropy ( http://arxiv.org/abs/2308.05261v2 )

ライセンス: Link先を確認
Wu-zhong Guo, Jiaju Zhang, (参考訳) 密度行列を $|\phi\rangle$ と $|\psi\rangle$ と表される2つの状態間の遷移行列に一般化することにより、絡み合いのエントロピーに類似した擬エントロピーを定義することができる。 本稿では, 遷移行列の減少と, $|\phi\rangle$ および $|\psi\rangle$ の重ね合わせ状態に対応する密度行列の減少に関連する演算子和則を確立する。 演算子の対角外要素は重ね合わせ状態の期待値と相関できることを示した。 さらに、擬-R'enyiエントロピーと重ね合わせ状態のR'enyiエントロピーの関係を説明する。 演算子和則の証明を行い、有限次元系と場の量子論の両方においてその妥当性を検証する。 さらに、遷移行列、擬エントロピーおよびそれらの重力双対の物理的含意についての洞察を得る上で、これらの和規則の重要性を実証する。

By generalizing the density matrix to a transition matrix between two states, represented as $|\phi\rangle$ and $|\psi\rangle$, one can define the pseudoentropy analogous to the entanglement entropy. In this paper, we establish an operator sum rule that pertains to the reduced transition matrix and reduced density matrices corresponding to the superposition states of $|\phi\rangle$ and $|\psi\rangle$. It is demonstrated that the off-diagonal elements of operators can be correlated with the expectation value in the superposition state. Furthermore, we illustrate the connection between the pseudo-R\'enyi entropy and the R\'enyi entropy of the superposition states. We provide proof of the operator sum rule and verify its validity in both finite-dimensional systems and quantum field theory. We additionally demonstrate the significance of these sum rules in gaining insights into the physical implications of transition matrices, pseudoentropy, and their gravity dual.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# ブラックボックス設定時のグラディエント様説明について:ブラックボックス説明がホワイトボックスと同じくらい良い時

On Gradient-like Explanation under a Black-box Setting: When Black-box Explanations Become as Good as White-box ( http://arxiv.org/abs/2308.09381v3 )

ライセンス: Link先を確認
Yi Cai, Gerhard Wunder, (参考訳) 属性手法は、説明すべき意思決定において最も影響力のある特徴を明らかにすることによって、ディープラーニングモデルのようなデータ駆動型アプローチの説明可能性に光を当てた。 勾配による特徴属性の決定は有望な結果をもたらすが、勾配の取得に必要な内部アクセスは、安全上の懸念の下では非現実的であり、勾配に基づくアプローチの適用性を制限することができる。 このような柔軟性の制限に対応するために,クエリレベルのアクセスのみを通じて勾配のような説明を生成するアプローチである<methodAbr~(段階的推定に基づく説明)を提案する。 提案手法は, 数学的に厳密に証明された帰属法の基本特性の集合を持ち, その説明の質を保証している。 画像データに焦点をあてた理論的解析に加えて,提案手法が最先端のブラックボックス法よりも優れていることを示す実験結果が得られた。

Attribution methods shed light on the explainability of data-driven approaches such as deep learning models by uncovering the most influential features in a to-be-explained decision. While determining feature attributions via gradients delivers promising results, the internal access required for acquiring gradients can be impractical under safety concerns, thus limiting the applicability of gradient-based approaches. In response to such limited flexibility, this paper presents \methodAbr~(gradient-estimation-based explanation), an approach that produces gradient-like explanations through only query-level access. The proposed approach holds a set of fundamental properties for attribution methods, which are mathematically rigorously proved, ensuring the quality of its explanations. In addition to the theoretical analysis, with a focus on image data, the experimental results empirically demonstrate the superiority of the proposed method over state-of-the-art black-box methods and its competitive performance compared to methods with full access.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# 拡張畳み込みニューラルネットワークによる極大質量比吸気の検出

Dilated convolutional neural network for detecting extreme-mass-ratio inspirals ( http://arxiv.org/abs/2308.16422v3 )

ライセンス: Link先を確認
Tianyu Zhao, Yue Zhou, Ruijun Shi, Zhoujian Cao, Zhixiang Ren, (参考訳) EMRI(Extreme Mass Ratio Inspirals)の検出は、複雑な波形、持続時間、SNR(low signal-to-noise ratio)によって複雑化しており、コンパクトなバイナリコリゾネッセンスと比較して識別がより困難である。 マッチングフィルタリングに基づく手法は計算要求で知られているが、既存のディープラーニングベースの手法は主に時間領域のデータを扱うものであり、データ持続時間やSNRによって制約されることが多い。 さらに、既存のほとんどの研究は時間遅延干渉法(TDI)を無視し、検出器応答計算に長波長近似を適用し、レーザー周波数ノイズの処理能力を制限している。 本研究では,周波数領域におけるシーケンスモデリングによるEMRI信号検出に着目したエンドツーエンドモデルDECODEを提案する。 拡張された因果畳み込みニューラルネットワークを中心に、TDI-1.5検出応答を考慮した合成データに基づいてトレーニングされたDECODEは、約50のSNRで1年分のマルチチャネルTDIデータを効率的に処理することができる。 我々は,SNRを50~120に蓄積した1年間のデータを評価し,真正の96.3%を偽正の1%で達成し,推定時間は0.01秒以下とした。 解釈可能性と一般化のための3つのEMRI信号の可視化により、DECODEは将来の宇宙ベースの重力波データ解析に強い可能性を示す。

The detection of Extreme Mass Ratio Inspirals (EMRIs) is intricate due to their complex waveforms, extended duration, and low signal-to-noise ratio (SNR), making them more challenging to be identified compared to compact binary coalescences. While matched filtering-based techniques are known for their computational demands, existing deep learning-based methods primarily handle time-domain data and are often constrained by data duration and SNR. In addition, most existing work ignores time-delay interferometry (TDI) and applies the long-wavelength approximation in detector response calculations, thus limiting their ability to handle laser frequency noise. In this study, we introduce DECODE, an end-to-end model focusing on EMRI signal detection by sequence modeling in the frequency domain. Centered around a dilated causal convolutional neural network, trained on synthetic data considering TDI-1.5 detector response, DECODE can efficiently process a year's worth of multichannel TDI data with an SNR of around 50. We evaluate our model on 1-year data with accumulated SNR ranging from 50 to 120 and achieve a true positive rate of 96.3% at a false positive rate of 1%, keeping an inference time of less than 0.01 seconds. With the visualization of three showcased EMRI signals for interpretability and generalization, DECODE exhibits strong potential for future space-based gravitational wave data analyses.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# Hilbert-Pólya Conjecture に対するハミルトニアン

Hamiltonian for the Hilbert-Pólya Conjecture ( http://arxiv.org/abs/2309.00405v5 )

ライセンス: Link先を確認
Enderalp Yakaboylu, (参考訳) ヒルベルト・ピオリア予想に対処するためにハミルトニアンを導入する。 導入されたハミルトニアンの固有函数は、正の半直線上のディリクレ境界条件の下で、リーマンゼータ函数の非自明な零点によって原点から消える。 その結果、固有値はこれらの非自明リーマン零点によって決定される。 リーマン予想(RH)が真であれば、固有値は実数となり、非自明な零点の虚部を表す。 逆に、ハミルトニアンが自己随伴であり、あるいはより一般的には、真の固有値しか持たないなら、RH は従う。 後者を証明しようとすると、リーマンゼータ函数の消滅によって固有函数によって満たされる適切な境界条件によって指定された領域上で自己随伴する導入されたハミルトニアンの類似性変換の存在を確立する。 我々の結果は、零点が臨界線上にあるより広い種類の函数に拡張することができる。

We introduce a Hamiltonian to address the Hilbert-P\'olya conjecture. The eigenfunctions of the introduced Hamiltonian, subject to the Dirichlet boundary conditions on the positive half-line, vanish at the origin by the nontrivial zeros of the Riemann zeta function. Consequently, the eigenvalues are determined by these nontrivial Riemann zeros. If the Riemann hypothesis (RH) is true, the eigenvalues become real and represent the imaginary parts of the nontrivial zeros. Conversely, if the Hamiltonian is self-adjoint, or more generally, admits only real eigenvalues, then the RH follows. In our attempt to demonstrate the latter, we establish the existence of a similarity transformation of the introduced Hamiltonian that is self-adjoint on the domain specified by an appropriate boundary condition, which is satisfied by the eigenfunctions through the vanishing of the Riemann zeta function. Our result can be extended to a broader class of functions whose zeros lie on the critical line.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# セグメンテーションに基づく伝達関数設計のための自己監督型視覚変換器の活用

Leveraging Self-Supervised Vision Transformers for Segmentation-based Transfer Function Design ( http://arxiv.org/abs/2309.01408v2 )

ライセンス: Link先を確認
Dominik Engel, Leon Sick, Timo Ropinski, (参考訳) ボリュームレンダリングでは、転送関数は興味のある構造を分類し、色や不透明度などの光学特性を割り当てる。 これらは一般的に、これらの光学特性に単純な特徴をマッピングする 1D あるいは 2D 関数として定義される。 伝達関数を設計するプロセスは、通常退屈で直観的ではないため、対話的な仕様のためにいくつかのアプローチが提案されている。 本稿では,自己教師付き事前学習型視覚変換器の特徴抽出機能を活用することで,ボリュームレンダリングのための転送関数を定義する手法を提案する。 転送関数を設計するために,スライスビューアの関心構造をユーザが簡単に選択し,ニューラルネットワークが抽出した高次特徴に基づいて,類似した構造を自動的に選択する。 従来の学習に基づく伝達関数アプローチとは対照的に,本手法ではモデルのトレーニングを必要とせず,高速な推論が可能であり,ボリュームデータの対話的な探索が可能であった。 提案手法は,ユーザに対して現在の分類について対話的に通知することで,必要なアノテーションの量を削減する。 実際には、ユーザーは数分ではなく数秒で転送機能を設計できる。 本手法は,アノテーションや計算時間の観点から既存の学習手法と比較し,セグメンテーションの精度について比較する。 本稿では,本手法の対話性と有効性を示すビデオを紹介する。

In volume rendering, transfer functions are used to classify structures of interest, and to assign optical properties such as color and opacity. They are commonly defined as 1D or 2D functions that map simple features to these optical properties. As the process of designing a transfer function is typically tedious and unintuitive, several approaches have been proposed for their interactive specification. In this paper, we present a novel method to define transfer functions for volume rendering by leveraging the feature extraction capabilities of self-supervised pre-trained vision transformers. To design a transfer function, users simply select the structures of interest in a slice viewer, and our method automatically selects similar structures based on the high-level features extracted by the neural network. Contrary to previous learning-based transfer function approaches, our method does not require training of models and allows for quick inference, enabling an interactive exploration of the volume data. Our approach reduces the amount of necessary annotations by interactively informing the user about the current classification, so they can focus on annotating the structures of interest that still require annotation. In practice, this allows users to design transfer functions within seconds, instead of minutes. We compare our method to existing learning-based approaches in terms of annotation and compute time, as well as with respect to segmentation accuracy. Our accompanying video showcases the interactivity and effectiveness of our method.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# シームレス不定形集合組織合成のためのパッチベースGANの局所パディング

Local Padding in Patch-Based GANs for Seamless Infinite-Sized Texture Synthesis ( http://arxiv.org/abs/2309.02340v4 )

ライセンス: Link先を確認
Alhasan Abdellatif, Ahmed H. Elsheikh, Hannah Menke, (参考訳) GAN(Generative Adversarial Networks)に基づくテクスチャモデルはゼロパディングを用いて画像特徴の位置情報を暗黙的にエンコードする。 しかし、空間入力を拡大して大きな画像を生成すると、画像の中心にある不正確な位置情報によって画質が劣化し、生成画像内の多様性が制限されることがしばしばある。 本稿では,パッチ・バイ・パッチ生成に基づくGANモデルを用いて,任意の大きさの確率的テクスチャ画像を生成する手法を提案する。 モデルはゼロパディングの代わりに、生成したパッチ間のバウンダリ特徴を共有するジェネレータで \textit{local padding} を使用し、位置コンテキストを提供し、バウンダリにおける一貫性を確保する。 提案したモデルは、単一のテクスチャイメージ上でトレーニング可能であり、出力画像サイズに関して一定のGPUスケーラビリティを有するため、無限の大きさの画像を生成することができる。 実験の結果,提案手法は既存のテクスチャモデルよりも,生成したテクスチャの品質と多様性の観点から大きく進歩していることがわかった。 さらに、最先端の超解像モデルにおける局所パディングの実装は、大規模超解像を可能にするタイリングアーティファクトを効果的に排除する。 私たちのコードは、 \url{https://github.com/ai4netzero/Infinite_Texture_GANsで利用可能です。

Texture models based on Generative Adversarial Networks (GANs) use zero-padding to implicitly encode positional information of the image features. However, when extending the spatial input to generate images at large sizes, zero-padding can often lead to degradation of quality due to the incorrect positional information at the center of the image and limit the diversity within the generated images. In this paper, we propose a novel approach for generating stochastic texture images at large arbitrary sizes using GANs model that is based on patch-by-patch generation. Instead of zero-padding, the model uses \textit{local padding} in the generator that shares border features between the generated patches; providing positional context and ensuring consistency at the boundaries. The proposed models are trainable on a single texture image and have a constant GPU scalability with respect to the output image size, and hence can generate images of infinite sizes. We show in the experiments that our method has a significant advancement beyond existing texture models in terms of the quality and diversity of the generated textures. Furthermore, the implementation of local padding in the state-of-the-art super-resolution models effectively eliminates tiling artifacts enabling large-scale super-resolution. Our code is available at \url{https://github.com/ai4netzero/Infinite_Texture_GANs
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# ハイゼンベルク画像における量子力学の等価原理

Equivalence Principle for Quantum Mechanics in the Heisenberg Picture ( http://arxiv.org/abs/2309.03095v2 )

ライセンス: Link先を確認
Otto C. W. Kong, (参考訳) 我々は「相対論的」量子粒子に対する弱同値原理の正確な量子可観測アナログを示す。 量子測地方程式は、完全に共変の古典的ハミルトンの進化図の正確な類似としてハイゼンベルク方程式から得られ、標準運動量変数を$p^\mu$ではなく$p_\mu$として適切に同定する。 時空の非可換幾何学図の1つとして解曲線を持つ方程式や、量子座標変換(quantum coordinate transformation)の概念を含む物理量としての量子可観測物(quantum observables)の理論として、量子重力(quantum gravity)に対する妥当なアプローチについて論じる。

We present an exact quantum observable analog of the weak equivalence principle for a `relativistic' quantum particle. The quantum geodesic equations are obtained from Heisenberg equations of motion as an exact analog of a fully covariant classical Hamiltonian evolution picture, with the proper identification of the canonical momentum variables as $p_\mu$, rather than $p^\mu$. We discuss the meaning of the equations in relation to projective measurements as well as equations with solution curves as ones in the noncommutative geometric picture of spacetime, and a plausible approach to quantum gravity as a theory about quantum observables as physical quantities including the notion of quantum coordinate transformation.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# 視覚言語モデルのためのブラックボックス最適化器としての言語モデル

Language Models as Black-Box Optimizers for Vision-Language Models ( http://arxiv.org/abs/2309.05950v5 )

ライセンス: Link先を確認
Shihong Liu, Zhiqiu Lin, Samuel Yu, Ryan Lee, Tiffany Ling, Deepak Pathak, Deva Ramanan, (参考訳) Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。 しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。 そこで我々は,自然言語のプロンプトを通じてVLMを最適化するブラックボックスアプローチを開発し,モデルパラメータや機能埋め込み,さらには出力ロジットへのアクセスを回避することを目的とする。 本稿では,VLM に最適なテキストプロンプトを探すために,チャットベースの LLM を提案する。 具体的には,現在のプロンプトの性能を評価し,LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで,効果的なプロンプトに収束する自動ヒルクライミング手法を採用する。 難易度の高い1ショット画像分類設定では、ImageNetを含む11データセットの平均1.5%のホワイトボックス連続プロンプト法(CoOp)を克服する。 また,本手法は,人間工学的プロンプトとLLM的プロンプトの両方に優れる。 我々は,肯定と否定の両方のプロンプトを組み込んだ会話フィードバックの利点を強調し,LLMがテキストフィードバックにおける暗黙の勾配方向をより効率的な検索に活用できることを示唆した。 さらに、我々の戦略によって生成されたテキストプロンプトは、より解釈可能であるだけでなく、ブラックボックス方式で異なるVLMアーキテクチャ間でうまく転送可能であることを発見した。 最後に,現状のブラックボックスVLM(DALL-E3)をテキスト・ツー・イメージ生成,インバージョン,パーソナライズに最適化するために,我々のフレームワークを適用した。

Vision-language models (VLMs) pre-trained on web-scale datasets have demonstrated remarkable capabilities on downstream tasks when fine-tuned with minimal data. However, many VLMs rely on proprietary data and are not open-source, which restricts the use of white-box approaches for fine-tuning. As such, we aim to develop a black-box approach to optimize VLMs through natural language prompts, thereby avoiding the need to access model parameters, feature embeddings, or even output logits. We propose employing chat-based LLMs to search for the best text prompt for VLMs. Specifically, we adopt an automatic hill-climbing procedure that converges to an effective prompt by evaluating the performance of current prompts and asking LLMs to refine them based on textual feedback, all within a conversational process without human-in-the-loop. In a challenging 1-shot image classification setup, our simple approach surpasses the white-box continuous prompting method (CoOp) by an average of 1.5% across 11 datasets including ImageNet. Our approach also outperforms both human-engineered and LLM-generated prompts. We highlight the advantage of conversational feedback that incorporates both positive and negative prompts, suggesting that LLMs can utilize the implicit gradient direction in textual feedback for a more efficient search. In addition, we find that the text prompts generated through our strategy are not only more interpretable but also transfer well across different VLM architectures in a black-box manner. Lastly, we apply our framework to optimize the state-of-the-art black-box VLM (DALL-E 3) for text-to-image generation, prompt inversion, and personalization.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# Can Neural Quantum States Learn Volume-Law Ground States?

Comment on "Can Neural Quantum States Learn Volume-Law Ground States?" ( http://arxiv.org/abs/2309.11534v2 )

ライセンス: Link先を確認
Zakari Denis, Alessandro Sinibaldi, Giuseppe Carleo, (参考訳) Passetti et al [Physical Review Letters 131, 036502 (2023)] は、最近、量子量子状態 (NQS) の量子量子状態(英語版)の可能性を評価した。 彼らはフィードフォワードニューラルネットワークを用いてNQSに焦点を当て、特にフェルミオンの複雑なSYKハミルトニアンに適用した。 これらの数値結果は,SYK基底状態における絡み合いの増大と相関して,システムサイズが大きくなるにつれて,必要な変動パラメータが指数関数的に増加することを示唆している。 このことは、非常に絡み合った波動関数に対するNQSの汎用性に挑戦し、確立された解析的および数値的な結果とは対照的である。 実験の結果, スピン問題とフェルミオン問題の両方において, NQS は体積法に絡み合った基底状態を学習できることがわかった。 上述の文字に用いた設定は、絡み合いの内容と学習性硬度との一般的な関係ではなく、非フェルミオンNQSがフェルミオン状態の学習に不効率であることを明らかにする。

Passetti et al. [Physical Review Letters 131, 036502 (2023)] recently assessed the potential of neural quantum states (NQS) in learning ground-state wave functions with volume-law entanglement scaling. They focused on NQS using feedforward neural networks, specifically applied to the complex SYK Hamiltonian for fermions. Their numerical results hint at an exponential increase in the required variational parameters as the system size grows, apparently tied to the entanglement growth within the SYK ground state. This challenges the general utility of NQS for highly entangled wavefunctions, contrasting with established analytical and numerical findings. Based on our experiments, we show that suitably chosen NQS can learn ground states with volume-law entanglement both for spin and fermionic problems. We argue that the setup utilized in the aforementioned letter reveals the inefficiency of non-fermionic NQS to learn fermionic states, rather than a general connection between entanglement content and learnability hardness.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# RealFill: 認証画像補完のための参照駆動生成

RealFill: Reference-Driven Generation for Authentic Image Completion ( http://arxiv.org/abs/2309.16668v2 )

ライセンス: Link先を確認
Luming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein, (参考訳) 生成画像の最近の進歩は、未知の領域で高品質で可視な画像コンテンツを生成できる、塗装や塗装のモデルを生み出している。 しかし、これらのモデルが幻覚する内容は必ずしも正体を知らないため、必ずしも非正体ではない。 本研究では,画像の欠落領域を埋める新たな画像補完手法であるRealFillを提案する。 RealFillは、シーンの参照画像のみを使用してパーソナライズされた生成的インペイントモデルである。 これらの参照画像は、対象画像と整列する必要がなく、大きく異なる視点、照明条件、カメラ開口部、画像スタイルで撮影することができる。 パーソナライズされたRealFillは、元のシーンに忠実な視覚的に魅力的なコンテンツで、ターゲット画像を完成させる。 我々はRealFillを,多様かつ困難なシナリオの集合をカバーする新しい画像補完ベンチマークで評価し,既存のアプローチよりも大きなマージンで優れていることを発見した。 プロジェクトページ: https://realfill.github.io

Recent advances in generative imagery have brought forth outpainting and inpainting models that can produce high-quality, plausible image content in unknown regions. However, the content these models hallucinate is necessarily inauthentic, since they are unaware of the true scene. In this work, we propose RealFill, a novel generative approach for image completion that fills in missing regions of an image with the content that should have been there. RealFill is a generative inpainting model that is personalized using only a few reference images of a scene. These reference images do not have to be aligned with the target image, and can be taken with drastically varying viewpoints, lighting conditions, camera apertures, or image styles. Once personalized, RealFill is able to complete a target image with visually compelling contents that are faithful to the original scene. We evaluate RealFill on a new image completion benchmark that covers a set of diverse and challenging scenarios, and find that it outperforms existing approaches by a large margin. Project page: https://realfill.github.io
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# DiffPoseTalk: 拡散モデルによる音声駆動型3次元顔アニメーションと頭部電位生成

DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models ( http://arxiv.org/abs/2310.00434v2 )

ライセンス: Link先を確認
Zhiyao Sun, Tian Lv, Sheng Ye, Matthieu Lin, Jenny Sheng, Yu-Hui Wen, Minjing Yu, Yong-Jin Liu, (参考訳) 音声によって駆動されるスタイリスティックな3次元顔アニメーションの生成は、音声、スタイル、およびそれに対応する自然な顔の動きの多対多マッピングを学習する必要があるため、大きな課題となる。 しかし,既存の手法では,音声と動きのマッピングに決定論的モデルを用いるか,ワンホット符号化方式を用いてそのスタイルを符号化する。 特に、ワンホット符号化アプローチは、スタイルの複雑さを捉えず、一般化能力を制限している。 本稿では,拡散モデルに基づく生成フレームワークであるDiffPoseTalkと,短い参照ビデオからスタイル埋め込みを抽出するスタイルエンコーダを提案する。 推論中、音声とスタイルに基づいて生成過程を案内するために分類器なし指導を用いる。 特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。 さらに,高品質な映像データセットから再構成された3DMMパラメータをモデルにトレーニングすることで,3D音声データ不足に対処する。 大規模な実験とユーザスタディにより、我々のアプローチは最先端の手法よりも優れていることが示された。 コードとデータセットはhttps://diffposetalk.github.io にある。

The generation of stylistic 3D facial animations driven by speech presents a significant challenge as it requires learning a many-to-many mapping between speech, style, and the corresponding natural facial motion. However, existing methods either employ a deterministic model for speech-to-motion mapping or encode the style using a one-hot encoding scheme. Notably, the one-hot encoding approach fails to capture the complexity of the style and thus limits generalization ability. In this paper, we propose DiffPoseTalk, a generative framework based on the diffusion model combined with a style encoder that extracts style embeddings from short reference videos. During inference, we employ classifier-free guidance to guide the generation process based on the speech and style. In particular, our style includes the generation of head poses, thereby enhancing user perception. Additionally, we address the shortage of scanned 3D talking face data by training our model on reconstructed 3DMM parameters from a high-quality, in-the-wild audio-visual dataset. Extensive experiments and user study demonstrate that our approach outperforms state-of-the-art methods. The code and dataset are at https://diffposetalk.github.io .
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# 未知分散を持つガウス平均に対する任意の有価t検定と信頼系列

Anytime-valid t-tests and confidence sequences for Gaussian means with unknown variance ( http://arxiv.org/abs/2310.03722v4 )

ライセンス: Link先を確認
Hongjian Wang, Aaditya Ramdas, (参考訳) 1976年、レイは未知の分散$\sigma^2$を持つガウス分布の平均$\mu$に対して非自明な自信列を構築した。 奇妙なことに、彼は$\sigma$以上の不適切な(右ハール)混合物と$\mu$以上の不適切な(フラット)混合物の両方を使っていた。 ここでは、一般化された非可積分なマルティンガレと拡張されたヴィルの不等式を用いる彼の構成の詳細について詳しく述べる。 これはシーケンシャルなt検定をもたらすが、「e過程」は生じない(これはマルティンゲールの不積分性による)。 本稿では,2つの新しいE-プロセスと信頼性シーケンスを同一設定で開発する。一方は,縮小フィルタにおけるテストマーチンゲールであり,他方は標準データフィルタリングにおけるE-プロセスである。 これらはそれぞれ、ライの平らな混合物をガウス混合に置き換え、右ハール混合物を$\sigma$ に置き換えることによって得られる。 また、誤差確率 $\alpha$ に好奇な多項式依存を持つ結果の信頼シーケンスの幅を分析することで、避けられないだけでなく、古典的な固定サンプル t-テストよりも(普遍推論のために)優れていることを証明できる。 数値実験は、近年のいくつかの準最適手法を含む様々なアプローチを比較し、対比する過程で提供される。

In 1976, Lai constructed a nontrivial confidence sequence for the mean $\mu$ of a Gaussian distribution with unknown variance $\sigma^2$. Curiously, he employed both an improper (right Haar) mixture over $\sigma$ and an improper (flat) mixture over $\mu$. Here, we elaborate carefully on the details of his construction, which use generalized nonintegrable martingales and an extended Ville's inequality. While this does yield a sequential t-test, it does not yield an "e-process" (due to the nonintegrability of his martingale). In this paper, we develop two new e-processes and confidence sequences for the same setting: one is a test martingale in a reduced filtration, while the other is an e-process in the canonical data filtration. These are respectively obtained by swapping Lai's flat mixture for a Gaussian mixture, and swapping the right Haar mixture over $\sigma$ with the maximum likelihood estimate under the null, as done in universal inference. We also analyze the width of resulting confidence sequences, which have a curious polynomial dependence on the error probability $\alpha$ that we prove to be not only unavoidable, but (for universal inference) even better than the classical fixed-sample t-test. Numerical experiments are provided along the way to compare and contrast the various approaches, including some recent suboptimal ones.
翻訳日:2024-05-15 19:50:31 公開日:2024-05-14
# 視覚変換器の階層的サイドチューニング

Hierarchical Side-Tuning for Vision Transformers ( http://arxiv.org/abs/2310.05393v3 )

ライセンス: Link先を確認
Weifeng Lin, Ziheng Wu, Wentao Yang, Mingxin Huang, Lianwen Jin, (参考訳) 微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。 しかし、各タスクの個別化および包括的微調整プロセスの需要は、かなりの計算コストとメモリコストを伴い、かなりの課題を生んでいる。 近年のPETL(パラメータ効率変換学習)の進歩は,完全微調整に比べてパラメータ更新が少なく,高性能化の可能性が示唆されている。 しかし、それらの効果は画像分類のような単純なタスクで主に観察される一方、より複雑な視覚的タスク(密集した予測など)では課題に直面している。 このギャップに対処するために,より広い範囲の視覚的タスクに対応する効果的なチューニング手法を提案する。 本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。 特定の入力空間やモジュール内の微調整パラメータのみにフォーカスする既存のメソッドとは違い、HSTは軽量な階層側ネットワーク(HSN)を採用している。 このネットワークは、ViTバックボーンからの中間アクティベーションを利用して、マルチスケール機能をモデル化し、予測能力を向上する。 HSTを評価するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,様々な視覚的タスクを対象とした総合的な実験を行った。 注目すべきことに、HSTはVTAB-1Kベンチマークの19タスク中13タスクで最先端のパフォーマンスを達成し、Top-1の精度は76.1%であり、わずか0.78Mのパラメータを微調整した。 COCO と ADE20K testdev ベンチマークのオブジェクト検出やセマンティックセグメンテーションタスクに適用すると、HST は既存の PETL メソッドよりも優れ、完全な微調整さえ超えた。

Fine-tuning pre-trained Vision Transformers (ViTs) has showcased significant promise in enhancing visual recognition tasks. Yet, the demand for individualized and comprehensive fine-tuning processes for each task entails substantial computational and memory costs, posing a considerable challenge. Recent advancements in Parameter-Efficient Transfer Learning (PETL) have shown potential for achieving high performance with fewer parameter updates compared to full fine-tuning. However, their effectiveness is primarily observed in simple tasks like image classification, while they encounter challenges with more complex vision tasks like dense prediction. To address this gap, this study aims to identify an effective tuning method that caters to a wider range of visual tasks. In this paper, we introduce Hierarchical Side-Tuning (HST), an innovative PETL method facilitating the transfer of ViT models to diverse downstream tasks. Diverging from existing methods that focus solely on fine-tuning parameters within specific input spaces or modules, HST employs a lightweight Hierarchical Side Network (HSN). This network leverages intermediate activations from the ViT backbone to model multi-scale features, enhancing prediction capabilities. To evaluate HST, we conducted comprehensive experiments across a range of visual tasks, including classification, object detection, instance segmentation, and semantic segmentation. Remarkably, HST achieved state-of-the-art performance in 13 out of the 19 tasks on the VTAB-1K benchmark, with the highest average Top-1 accuracy of 76.1%, while fine-tuning a mere 0.78M parameters. When applied to object detection and semantic segmentation tasks on the COCO and ADE20K testdev benchmarks, HST outperformed existing PETL methods and even surpassed full fine-tuning.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# ワーナー状態の新規部分微量不等式と蒸留性

New Partial Trace Inequalities and Distillability of Werner States ( http://arxiv.org/abs/2310.05726v3 )

ライセンス: Link先を確認
Pablo Costa Rico, (参考訳) 量子情報理論における最も古い問題の1つは、任意の不蒸留状態が正部分転位(PPT)を持つかどうかを研究することである。 この問題は30年近く開かれてきたが、まだ完全な答えが得られていない。 この研究は、ヴェルナー状態の蒸留性条件を部分的トレース不等式に変換することで、この問題を解決するための新しい戦略を示す。 主な2つの結果と2-蒸留性に対する新しい境界, $\alpha \geq -\frac{1}{4}$ を示す。 さらに、この研究を通して多くの部分的トレース不等式を示し、行列の多くの族に有効である。

One of the oldest problems in quantum information theory is to study whether any undistillable state has a positive partial transpose (PPT). This problem has been open for almost 30 years, and still no one has been able to give a complete answer to it. This work presents a new strategy to try to solve this problem by translating the distillability condition on the family of Werner states into a problem of partial trace inequalities. We present our two main results and a new bound for the 2-distillability, $\alpha \geq -\frac{1}{4}$. Moreover, we present throughout this work numerous partial trace inequalities, which are valid for many families of matrices.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# 固有基底マッチングによるグラフ蒸留

Graph Distillation with Eigenbasis Matching ( http://arxiv.org/abs/2310.09202v2 )

ライセンス: Link先を確認
Yang Liu, Deyu Bo, Chuan Shi, (参考訳) グラフデータの増加は、グラフニューラルネットワーク(GNN)の効率的なトレーニングの要件を定めている。 新たなグラフ蒸留(GD)は、実際の大きなグラフを置き換えるために小さな合成グラフを蒸留し、実際のグラフと合成グラフで訓練されたGNNが同等の性能を示すことを保証することによって、この課題に対処する。 しかし、既存の手法では2つの制限がある勾配、表現、軌跡を含むGNN関連情報を監督に頼っている。 まず、GNNは実グラフのスペクトル(すなわち固有値)に影響を与え、合成グラフのスペクトルバイアスを引き起こす。 第2に、GNNアーキテクチャの多様性により、異なる合成グラフが作成され、最適性能を得るためにはトラバーサルが必要である。 これらの問題に対処するために、実グラフと合成グラフの固有ベイジとノードの特徴を整合させるグラフ蒸留と固有ベイジマッチング(GDEM)を提案する。 一方、実際のグラフのスペクトルを直接複製することで、GNNの影響を防止できる。 さらに,GDEMの有効性と一般化のバランスをとるために,識別制約を設計する。 理論的には、GDEMによって蒸留された合成グラフは実グラフのスペクトル近似に制限される。 大規模な実験により、GDEMは強力なクロスアーキテクチャ一般化能力と蒸留効率で最先端のGD法より優れていることが示された。 私たちのコードはhttps://github.com/liuyang-tian/GDEMで公開されています。

The increasing amount of graph data places requirements on the efficient training of graph neural networks (GNNs). The emerging graph distillation (GD) tackles this challenge by distilling a small synthetic graph to replace the real large graph, ensuring GNNs trained on real and synthetic graphs exhibit comparable performance. However, existing methods rely on GNN-related information as supervision, including gradients, representations, and trajectories, which have two limitations. First, GNNs can affect the spectrum (i.e., eigenvalues) of the real graph, causing spectrum bias in the synthetic graph. Second, the variety of GNN architectures leads to the creation of different synthetic graphs, requiring traversal to obtain optimal performance. To tackle these issues, we propose Graph Distillation with Eigenbasis Matching (GDEM), which aligns the eigenbasis and node features of real and synthetic graphs. Meanwhile, it directly replicates the spectrum of the real graph and thus prevents the influence of GNNs. Moreover, we design a discrimination constraint to balance the effectiveness and generalization of GDEM. Theoretically, the synthetic graphs distilled by GDEM are restricted spectral approximations of the real graphs. Extensive experiments demonstrate that GDEM outperforms state-of-the-art GD methods with powerful cross-architecture generalization ability and significant distillation efficiency. Our code is available at https://github.com/liuyang-tian/GDEM.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# ChatGPTのプライマリー効果

Primacy Effect of ChatGPT ( http://arxiv.org/abs/2310.13206v2 )

ライセンス: Link先を確認
Yiwei Wang, Yujun Cai, Muhao Chen, Yuxuan Liang, Bryan Hooi, (参考訳) ChatGPTのような命令調整型大規模言語モデル(LLM)は、差別的自然言語理解(NLU)タスクにおいてゼロショット性能を約束している。 これは、質問を含むプロンプトと、選択すべき候補ラベルを使用してLLMに問い合わせることを含む。 ChatGPTの質問応答能力は、大量の人文テキストの事前学習と、その後の人間の嗜好の微調整から生まれる。 本稿では,ChatGPTの優越効果について考察する。 主な発見は2つあります。 一 チャットGPTの決定は、その旨のラベルの順序に敏感である。 二 チャットGPTは、より早い位置のラベルを解答として選択する機会が明らかに高いこと。 実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。 ソースコードはhttps://github.com/wangywUST/PrimacyEffectGPTで公開しています。

Instruction-tuned large language models (LLMs), such as ChatGPT, have led to promising zero-shot performance in discriminative natural language understanding (NLU) tasks. This involves querying the LLM using a prompt containing the question, and the candidate labels to choose from. The question-answering capabilities of ChatGPT arise from its pre-training on large amounts of human-written text, as well as its subsequent fine-tuning on human preferences, which motivates us to ask: Does ChatGPT also inherits humans' cognitive biases? In this paper, we study the primacy effect of ChatGPT: the tendency of selecting the labels at earlier positions as the answer. We have two main findings: i) ChatGPT's decision is sensitive to the order of labels in the prompt; ii) ChatGPT has a clearly higher chance to select the labels at earlier positions as the answer. We hope that our experiments and analyses provide additional insights into building more reliable ChatGPT-based solutions. We release the source code at https://github.com/wangywUST/PrimacyEffectGPT.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# 特徴学習のためのスペクトル条件

A Spectral Condition for Feature Learning ( http://arxiv.org/abs/2310.17813v2 )

ライセンス: Link先を確認
Greg Yang, James B. Simon, Jeremy Bernstein, (参考訳) より大規模なニューラルネットワークをトレーニングしようとする動きは、ネットワーク幅の広い初期化とトレーニングの研究を動機付けている。 重要な課題は、ネットワークの内部表現があらゆる幅で非自明に進化するように、トレーニングをスケールさせることである。 ここでは,重み行列のスペクトルノルムと,それに対する$\sqrt{\textt{fan-out}/\texttt{fan-in}}$のような更新を,Frobeniusノルムとエントリサイズに基づいて,広く使用されているがヒューリスティックなスケーリングと対照的に,特徴学習が達成されることを示す。 また,スペクトルスケーリング解析により,emph{maximal update parametrization} の初等微分が導かれる。 全体として、ニューラルネットワークにおける特徴学習について、読者にしっかりとした概念的理解を提供することを目指している。

The push to train ever larger neural networks has motivated the study of initialization and training at large network width. A key challenge is to scale training so that a network's internal representations evolve nontrivially at all widths, a process known as feature learning. Here, we show that feature learning is achieved by scaling the spectral norm of weight matrices and their updates like $\sqrt{\texttt{fan-out}/\texttt{fan-in}}$, in contrast to widely used but heuristic scalings based on Frobenius norm and entry size. Our spectral scaling analysis also leads to an elementary derivation of \emph{maximal update parametrization}. All in all, we aim to provide the reader with a solid conceptual understanding of feature learning in neural networks.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# 多様体上のロボット学習のための非パラメトリック回帰

Non-parametric regression for robot learning on manifolds ( http://arxiv.org/abs/2310.19561v2 )

ライセンス: Link先を確認
P. C. Lopez-Custodio, K. Bharath, A. Kucukyilmaz, S. P. Preston, (参考訳) ロボット学習のためのツールの多くはユークリッドのデータのために設計された。 しかし、ロボット工学における多くの応用には、多様体値のデータが含まれる。 一般的な例は向き付けであり、これは3-by-3回転行列あるいは四元数として表すことができ、その空間は非ユークリッド多様体である。 ロボット学習において、多様体値のデータはしばしば、多様体を適切なユークリッド空間に関連付け、多様体を埋め込むか、1つまたは複数の接空間にデータを投影することによって処理される。 これらのアプローチは予測精度が悪く、アルゴリズムが複雑になる可能性がある。 本稿では,多様体内に直接作用する回帰に対する「内在的」アプローチを提案する。 多様体上の適切な確率分布を取り、そのパラメータを時間などの予測変数の関数とし、カーネルを包含する「局所確率」法による非パラメトリックな関数を推定する。 我々はこの手法をカーネル化された推定法と名付けた。 アプローチは概念的には単純であり、一般に異なる多様体に適用できる。 ロボット工学の応用で一般的に見られる3種類の多様体値データを用いて実装する。 これらの実験の結果はプロジェクションベースアルゴリズムよりも予測精度がよい。

Many of the tools available for robot learning were designed for Euclidean data. However, many applications in robotics involve manifold-valued data. A common example is orientation; this can be represented as a 3-by-3 rotation matrix or a quaternion, the spaces of which are non-Euclidean manifolds. In robot learning, manifold-valued data are often handled by relating the manifold to a suitable Euclidean space, either by embedding the manifold or by projecting the data onto one or several tangent spaces. These approaches can result in poor predictive accuracy, and convoluted algorithms. In this paper, we propose an "intrinsic" approach to regression that works directly within the manifold. It involves taking a suitable probability distribution on the manifold, letting its parameter be a function of a predictor variable, such as time, then estimating that function non-parametrically via a "local likelihood" method that incorporates a kernel. We name the method kernelised likelihood estimation. The approach is conceptually simple, and generally applicable to different manifolds. We implement it with three different types of manifold-valued data that commonly appear in robotics applications. The results of these experiments show better predictive accuracy than projection-based algorithms.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# ベイズニューラルネットワークを用いた材料特性予測のための多変量回帰の不確かさの定量化

Uncertainty Quantification in Multivariable Regression for Material Property Prediction with Bayesian Neural Networks ( http://arxiv.org/abs/2311.02495v4 )

ライセンス: Link先を確認
Longze Li, Jiang Chang, Aleksandar Vakanski, Yachun Wang, Tiankai Yao, Min Xian, (参考訳) 物質科学におけるデータ駆動アプローチと機械学習に基づく手法の利用の増加により、情報決定のための予測変数の信頼性のある不確実性定量化(UQ)の重要性は過大評価されない。 材料特性予測におけるUQは、先進的な材料のマルチスケールおよびマルチフィジカルな性質、多数の要因間の複雑な相互作用、モデルトレーニングのための大規模キュレートデータセットの限定的利用など、ユニークな課題を提起する。 近年、ベイジアンニューラルネットワーク(BNN)がUQの有望なアプローチとして登場し、ニューラルネットワーク内の不確実性を捉えるための確率的フレームワークを提供している。 そこで本研究では,物質モデリングにおける規制法則から知識を統合し,モデルを物理的に一貫した予測へと導く,物理インフォームドBNNにおけるUQのアプローチを提案する。 本手法の有効性を評価するために, 鋼のクリープ破断寿命を予測するケーススタディを提案する。 クリープ試験から収集した3つのデータセットによる実験的検証は、従来のガウス過程回帰法の性能を上回り、競争力のある正確な点と不確実性の推定値を生成するBNNの能力を実証している。 同様に、アクティブラーニングアプリケーションにおけるBNNのUQに対する適合性を評価し、競合性能を報告した。 最も有望なクリープ寿命予測フレームワークはマルコフ・チェイン・モンテ・カルロによるネットワークパラメータの後方分布の近似に基づくBNNである。 コードは、https://github.com/avakanski/Creep-uncertainty-quantification.comで入手できる。

With the increased use of data-driven approaches and machine learning-based methods in material science, the importance of reliable uncertainty quantification (UQ) of the predicted variables for informed decision-making cannot be overstated. UQ in material property prediction poses unique challenges, including the multi-scale and multi-physics nature of advanced materials, intricate interactions between numerous factors, limited availability of large curated datasets for model training, etc. Recently, Bayesian Neural Networks (BNNs) have emerged as a promising approach for UQ, offering a probabilistic framework for capturing uncertainties within neural networks. In this work, we introduce an approach for UQ within physics-informed BNNs, which integrates knowledge from governing laws in material modeling to guide the models toward physically consistent predictions. To evaluate the effectiveness of this approach, we present case studies for predicting the creep rupture life of steel alloys. Experimental validation with three datasets of collected measurements from creep tests demonstrates the ability of BNNs to produce accurate point and uncertainty estimates that are competitive or exceed the performance of the conventional method of Gaussian Process Regression. Similarly, we evaluated the suitability of BNNs for UQ in an active learning application and reported competitive performance. The most promising framework for creep life prediction is BNNs based on Markov Chain Monte Carlo approximation of the posterior distribution of network parameters, as it provided more reliable results in comparison to BNNs based on variational inference approximation or related NNs with probabilistic outputs. The codes are available at: https://github.com/avakanski/Creep-uncertainty-quantification.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# Biased Policy Gradient Algorithmの2次収束について

On the Second-Order Convergence of Biased Policy Gradient Algorithms ( http://arxiv.org/abs/2311.02546v4 )

ライセンス: Link先を確認
Siqiao Mu, Diego Klabjan, (参考訳) 強化学習問題の目的関数は典型的には非凸であるため、最も一般的なアルゴリズムであるポリシー勾配は、サドル点から逃れ、二階定常点に到達することが望ましい。 既存の結果は、偏りのない勾配推定器を用いたバニラポリシー勾配アルゴリズムのみを考慮したものであるが、無限水平割引報酬設定に基づく実践的な実装は、有限水平サンプリングによる偏りがある。 さらに,2次収束が確立されていないアクター批判法も,値関数の批判的近似によりバイアスを受ける。 本稿では,モンテカルロの軌道のサンプリングから算出したバニラ勾配推定器や,2ループアクター・クリティックアルゴリズムを含む,バイアス付き政策勾配法の新しい2次解析を行い,その内部ループでは,TD(0)学習による値関数の近似を改善する。 また、初期状態分布に関係なく、マルコフ連鎖上のTD(0)の収束も確立する。

Since the objective functions of reinforcement learning problems are typically highly nonconvex, it is desirable that policy gradient, the most popular algorithm, escapes saddle points and arrives at second-order stationary points. Existing results only consider vanilla policy gradient algorithms with unbiased gradient estimators, but practical implementations under the infinite-horizon discounted reward setting are biased due to finite-horizon sampling. Moreover, actor-critic methods, whose second-order convergence has not yet been established, are also biased due to the critic approximation of the value function. We provide a novel second-order analysis of biased policy gradient methods, including the vanilla gradient estimator computed from Monte-Carlo sampling of trajectories as well as the double-loop actor-critic algorithm, where in the inner loop the critic improves the approximation of the value function via TD(0) learning. Separately, we also establish the convergence of TD(0) on Markov chains irrespective of initial state distribution.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# 非エルミートダイヤモンド鎖におけるフラットバンドに基づく非局在化-局在化遷移

Flat band based delocalized-to-localized transitions in a non-Hermitian diamond chain ( http://arxiv.org/abs/2311.03166v2 )

ライセンス: Link先を確認
Hui Liu, Zhanpeng Lu, Xu Xia, Zhihao Xu, (参考訳) 本稿では, 平面バンドを有する人工磁束$\theta$の1次元非エルミタンダイヤモンド格子に対する準周期摂動の影響について検討する。 本研究は,これらの摂動の対称性と磁束$\theta$が,系の局在特性を形成する上で重要な役割を担っていることを示す。 $\theta=0$ のとき、非エルミート格子は結晶の場合において単一の平坦なバンドを示し、対称と非対称摂動は正確なモビリティエッジを誘導することができる。 対照的に、$\theta=\pi$ のとき、クリーンダイヤモンド格子は非エルミートパラメータに関係なく、"all-band-flat" (ABF) と呼ばれる3つの分散のないバンドを示す。 ABF構造は、すべての状態が任意の有限対称摂動に対して局所的であるため、非局在状態から局所状態への遷移を制限する。 数値計算により,非対称な摂動を受けるABF系は多フラクタル-局所的なエッジを示すことが明らかとなった。 マルチフラクタル状態は、主にスペクトルの内部領域に集中している。 さらに、$\theta$ が $(0, \pi)$ の範囲内にある場合を調べ、様々な複雑な局所化機能を明らかにする。

In this paper, we investigate the influence of quasiperiodic perturbations on one-dimensional non-Hermitian diamond lattices with an artificial magnetic flux $\theta$ that possess flat bands. Our study shows that the symmetry of these perturbations and the magnetic flux $\theta$ play a pivotal role in shaping the localization properties of the system. When $\theta=0$, the non-Hermitian lattice exhibits a single flat band in the crystalline case, and symmetric as well as antisymmetric perturbations can induce accurate mobility edges. In contrast, when $\theta=\pi$, the clean diamond lattice manifests three dispersionless bands referred to as an "all-band-flat" (ABF) structure, irrespective of the non-Hermitian parameter. The ABF structure restricts the transition from delocalized to localized states, as all states remain localized for any finite symmetric perturbation. Our numerical calculations further unveil that the ABF system subjected to antisymmetric perturbations exhibits multifractal-to-localized edges. Multifractal states are predominantly concentrated in the internal region of the spectrum. Additionally, we explore the case where $\theta$ lies within the range of $(0, \pi)$, revealing a diverse array of complex localization features.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# フィルタ付き部分微分方程式:物理インフォームドディープラーニングフレームワークにおける頑健な代理制約

Filtered Partial Differential Equations: a robust surrogate constraint in physics-informed deep learning framework ( http://arxiv.org/abs/2311.03776v2 )

ライセンス: Link先を確認
Dashan Zhang, Yuntian Chen, Shiyi Chen, (参考訳) ニューラルネットワーク(NN)トレーニングに物理的な知識を組み込むことは、ホットなトピックだ。 しかし、複雑な現実世界に直面している場合、既存の手法の多くは観測データの量と品質に強く依存している。 さらに、ニューラルネットワークは、実方程式の解が非常に複雑であるときに収束するのに苦労することが多い。 計算流体力学における大規模渦シミュレーションに着想を得て,フィルタリングに基づく改良手法を提案する。 物理情報処理の困難さの原因を機械学習で解析し,ノイズやスパース観測データの影響を低減するために,元の物理方程式の代用制約(フィルタPDE,FPDE,略)を提案した。 ノイズ・スパシティ実験では、提案したFPDEモデル(FPDE制約によって最適化されている)は従来のPDEモデルよりもロバスト性が高い。 実験により、FPDEモデルは、100%高いノイズと12%のベースラインの観測データで、同じ品質の解が得られることが示された。 さらに,実例におけるFPDE改善を示すために,実測データの2つのグループを用いる。 最終結果は、FPDEが不完全方程式問題と非常にスパースで高雑音条件に直面するとき、より物理的に妥当な解を与えることを示している。 実世界の実験データを物理インフォームドトレーニングに組み合わせることで、提案したFPDE制約は、血管内の血流速度のモデル化と、スクラッチ内の細胞移動の2つの実世界の実験で有効に機能する。

Embedding physical knowledge into neural network (NN) training has been a hot topic. However, when facing the complex real-world, most of the existing methods still strongly rely on the quantity and quality of observation data. Furthermore, the neural networks often struggle to converge when the solution to the real equation is very complex. Inspired by large eddy simulation in computational fluid dynamics, we propose an improved method based on filtering. We analyzed the causes of the difficulties in physics informed machine learning, and proposed a surrogate constraint (filtered PDE, FPDE in short) of the original physical equations to reduce the influence of noisy and sparse observation data. In the noise and sparsity experiment, the proposed FPDE models (which are optimized by FPDE constraints) have better robustness than the conventional PDE models. Experiments demonstrate that the FPDE model can obtain the same quality solution with 100% higher noise and 12% quantity of observation data of the baseline. Besides, two groups of real measurement data are used to show the FPDE improvements in real cases. The final results show that FPDE still gives more physically reasonable solutions when facing the incomplete equation problem and the extremely sparse and high-noise conditions. For combining real-world experiment data into physics-informed training, the proposed FPDE constraint is useful and performs well in two real-world experiments: modeling the blood velocity in vessels and cell migration in scratches.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-14
# グラフモデルの一般化事前学習に向けて

Towards Generalised Pre-Training of Graph Models ( http://arxiv.org/abs/2311.03976v3 )

ライセンス: Link先を確認
Alex O. Davies, Riku W. Green, Nirav S. Ajmeri, Telmo M. Silva Filho, (参考訳) 教師なし表現学習の主な利点は、訓練済みのモデルをデータやラベルが不足している場所で微調整できることである。 グラフ表現学習の既存のアプローチはドメイン固有であり、事前トレーニングとターゲットデータセットをまたいだ一貫したノードとエッジ機能を維持している。 これは複数のドメインへの転送を妨げている。 本研究では,ノードとエッジの特徴排除に基づくグラフ事前学習手法であるトポロジーのみの事前学習を提案する。 グラフ学習をトポロジと特徴の2段階に分けて、コントラスト学習を用いて、複数のドメインにまたがるモデルの事前学習を行う。 これらのモデルでは、事前学習データに存在しない領域を含む複数の領域から評価データセットを肯定的に転送する。 75%の実験では、ToPモデルは教師付きベースラインよりも大幅にパフォーマンスが良い(P \leq 0.01$)。 これらの結果は、ノードとエッジが評価に使用される場合を含み、単一ドメインや非事前訓練モデルと比較して85.7%のタスクでパフォーマンスが大幅に向上する。 さらに、ドメイン外のトポロジは、ドメイン内よりもより有用な事前トレーニングを実現できることを示す。 分子ベンチマークの79%において,分子前訓練よりも分子前訓練が優れていることを示す。

The principal benefit of unsupervised representation learning is that a pre-trained model can be fine-tuned where data or labels are scarce. Existing approaches for graph representation learning are domain specific, maintaining consistent node and edge features across the pre-training and target datasets. This has precluded transfer to multiple domains. In this work we present Topology Only Pre-Training, a graph pre-training method based on node and edge feature exclusion. Separating graph learning into two stages, topology and features, we use contrastive learning to pre-train models over multiple domains. These models show positive transfer on evaluation datasets from multiple domains, including domains not present in pre-training data. On 75% of experiments, ToP models perform significantly ($P \leq 0.01$) better than a supervised baseline. These results include when node and edge features are used in evaluation, where performance is significantly better on 85.7% of tasks compared to single-domain or non-pre-trained models. We further show that out-of-domain topologies can produce more useful pre-training than in-domain. We show better transfer from non-molecule pre-training, compared to molecule pre-training, on 79% of molecular benchmarks.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# 超低温フェルミガスのフェルミ加速に対する安定化と局在化による超拡散

Stabilizing an ultracold Fermi gas against Fermi acceleration to superdiffusion through localization ( http://arxiv.org/abs/2311.08224v3 )

ライセンス: Link先を確認
Sian Barbosa, Maximilian Kiefer-Emmanouilidis, Felix Lang, Jennifer Koch, Artur Widera, (参考訳) アンダーソン局在、すなわち多重散乱経路の破壊的量子干渉は輸送を完全に停止する。 対照的に、時間依存のランダムな力はフェルミ加速による輸送を高速化し、高エネルギー宇宙線のためのメカニズムとして提案された。 彼らの競争は興味深いダイナミクスを生み出すが、実験的な観察はほとんどない。 ここでは, 時間依存性障害における超低温フェルミガスの膨張を実験的に検討し, サブ拡散から超拡散への相違を観察する。 必然的に、量子干渉は強い障害の加速に反する。 本システムは,量子輸送系におけるフェルミ加速の研究を可能にする。

Anderson localization, i.e., destructive quantum interference of multiple-scattering paths, halts transport entirely. Contrarily, time-dependent random forces expedite transport via Fermi acceleration, proposed as a mechanism for high-energy cosmic rays. Their competition creates interesting dynamics, but experimental observations are scarce. Here, we experimentally study the expansion of an ultracold Fermi gas inside time-dependent disorder and observe distinct regimes from sub- to superdiffusion. Unexpectedly, quantum interference counteracts acceleration in strong disorder. Our system enables the investigation of Fermi acceleration in the quantum-transport regime.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# SD-NAE : 安定拡散による自然逆転例の生成

SD-NAE: Generating Natural Adversarial Examples with Stable Diffusion ( http://arxiv.org/abs/2311.12981v3 )

ライセンス: Link先を確認
Yueqian Lin, Jingyang Zhang, Yiran Chen, Hai Li, (参考訳) 自然敵例(NAEs)は、環境から自然に発生し、分類器を判断できるイメージであり、訓練されたモデルの脆弱性を堅牢に評価し識別するのに役立つ。 本研究では,実画像からNAEを受動的に収集する従来の研究とは異なり,現状の安定拡散を用いてNAEを積極的に合成することを提案する。 具体的には、制御された最適化プロセスを定式化し、特定のクラスに対応するトークン埋め込みを摂動させてNAEを生成する。 この生成プロセスは、ターゲット分類器からの損失の勾配によって導かれ、生成した画像が基底構造クラスを忠実に模倣するが、分類器を騙す。 SD-NAE (Stable Diffusion for Natural Adversarial Examples) と呼ばれるこの手法は, 有効かつ有用なNAEの生成に有効である。 コードはhttps://github.com/linyueqian/SD-NAEで入手できる。

Natural Adversarial Examples (NAEs), images arising naturally from the environment and capable of deceiving classifiers, are instrumental in robustly evaluating and identifying vulnerabilities in trained models. In this work, unlike prior works that passively collect NAEs from real images, we propose to actively synthesize NAEs using the state-of-the-art Stable Diffusion. Specifically, our method formulates a controlled optimization process, where we perturb the token embedding that corresponds to a specified class to generate NAEs. This generation process is guided by the gradient of loss from the target classifier, ensuring that the created image closely mimics the ground-truth class yet fools the classifier. Named SD-NAE (Stable Diffusion for Natural Adversarial Examples), our innovative method is effective in producing valid and useful NAEs, which is demonstrated through a meticulously designed experiment. Code is available at https://github.com/linyueqian/SD-NAE.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# 単一光子強結合状態における空洞光学における非古典力学状態

Nonclassical mechanical states in cavity optomechanics in the single-photon strong-coupling regime ( http://arxiv.org/abs/2311.14572v2 )

ライセンス: Link先を確認
Jonathan L. Wise, Clément Dutreix, Fabio Pistolesi, (参考訳) 機械系の非古典的な状態を生成することは、量子力学の基礎をテストし、量子技術を開発する上での課題である。 キャビティ・オプテメカルシステムの定常挙動において、そのような状態を探索するための重要な努力がなされている。 代わりに、過渡的なダイナミクスに注目します。 強い結合状態においては、光学駆動の存在は、初期機械的コヒーレント状態が非古典状態へと発展し、強い負のウィグナー関数が現れる。 弱い駆動に対する解析的処理により、これらの状態がコヒーレントな状態の量子重ね合わせであることが分かる。 数値シミュレーションにより、ウィグナー負性率の存在は弱い散逸に対して堅牢であることが示された。

Generating nonclassical states of mechanical systems is a challenge relevant for testing the foundations of quantum mechanics and developing quantum technologies. Significant effort has been made to search for such states in the stationary behaviour of cavity optomechanical systems. We focus instead on the transient dynamics. We find that in the strong coupling regime the presence of an optical drive causes an initial mechanical coherent state to evolve to a nonclassical state, with strongly negative Wigner function. An analytical treatment for weak drive reveals that these states are quantum superpositions of coherent states. Numerical simulation shows that the presence of Wigner negativity is robust against weak dissipation.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# 非相対論的フェルミ気体の絡み合いハミルトニアン

Entanglement Hamiltonian of a nonrelativistic Fermi gas ( http://arxiv.org/abs/2311.16348v2 )

ライセンス: Link先を確認
Viktor Eisler, (参考訳) 任意の次元における非相対論的自由フェルミオン気体の基底状態における球状領域に対するハミルトニアンの絡み合いについて検討する。 各セクターにおける絡み合いスペクトルは線形ポテンシャルにおけるホッピング鎖のスペクトルと同一であり、角運動量がサブシステム境界の役割を担っていることを示す。 さらに、固有函数は共形場理論によって予測される形式を正確に持つ可換微分作用素から従う。 ラジアルフェルミ速度によって再スケールされ、この作用素は、類似の勾配鎖のエッジ状態に属する大きな角モータを除いて、エンタングルメントハミルトンの完全近似を与える。 したがって、共形体論の結果は1次元でのみ漸近的に完全であることが分かる。

We study the entanglement Hamiltonian for a spherical domain in the ground state of a nonrelativistic free-fermion gas in arbitrary dimensions. Decomposed into a set of radial entanglement Hamiltonians, we show that the entanglement spectrum in each sector is identical to that of a hopping chain in a linear potential, with the angular momentum playing the role of the subsystem boundary. Furthermore, the eigenfunctions follow from a commuting differential operator that has exactly the form predicted by conformal field theory. Rescaled by the radial Fermi velocity, this operator gives a perfect approximation of the entanglement Hamiltonian, except for large angular momenta that belong to the edge regime in the analogous gradient chain. One thus finds that the conformal field theory result becomes asymptotically exact only in one dimension.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# トップダウン推論に向けて:視覚的質問応答に対する説明可能なマルチエージェントアプローチ

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering ( http://arxiv.org/abs/2311.17331v2 )

ライセンス: Link先を確認
Zeqing Wang, Wentao Wan, Qiqing Lao, Runmeng Chen, Minjie Lang, Keze Wang, Liang Lin, (参考訳) 近年,視覚質問応答(VQA)の簡易化のために,知識ベースからの外部知識や質問分解からの視覚的手がかりを取り入れた視覚言語モデル(VLM)の拡張手法が提案されている。 有望な結果を得たにもかかわらず、これらの手法はVLMが本質的に組み込まれた知識を理解できず、最適な答えを得られないという課題に苦しむ。 対照的に、人間の認知はトップダウンの推論プロセスを通じて視覚的な質問に関わり、包括的答えを得るための関連する問題を体系的に探求する。 これは正確な答えを促進するだけでなく、意思決定の道筋に透明な根拠を与える。 この認知メカニズムに動機付け,大規模言語モデル(LLM)の拡張的知識を活用することで,人間のようなトップダウン推論を模倣する,説明可能な新しいマルチエージェント協調フレームワークを導入する。 我々のフレームワークは、Responder、Seeker、Integratorの3つのエージェントで構成され、それぞれがトップダウン推論プロセスに一意に寄与する。 VLMベースのResponderは、質問に対する回答候補を生成し、他の問題に応答する。 シーカーは、主にLLMに基づいて、応答器に通知する質問に関連する問題を特定し、LLMの理解能力を活用して、与えられた視覚シーンのための多視点知識ベース(MVKB)を構築する。 インテグレータエージェントは、SeekerとResponderからの情報を組み合わせて、最終的なVQA応答を生成する。 この協調機構を通じて,本フレームワークは,特定の視覚シーンのためのMVKBを明示的に構築し,トップダウン推論プロセスにおける回答の理由付けを行う。 多様なVQAデータセットとVLMの包括的な評価は、既存の比較手法よりもフレームワークの適用性と解釈性が優れていることを示している。

Recently, several methods have been proposed to augment large Vision Language Models (VLMs) for Visual Question Answering (VQA) simplicity by incorporating external knowledge from knowledge bases or visual clues derived from question decomposition. Although having achieved promising results, these methods still suffer from the challenge that VLMs cannot inherently understand the incorporated knowledge and might fail to generate the optimal answers. Contrarily, human cognition engages visual questions through a top-down reasoning process, systematically exploring relevant issues to derive a comprehensive answer. This not only facilitates an accurate answer but also provides a transparent rationale for the decision-making pathway. Motivated by this cognitive mechanism, we introduce a novel, explainable multi-agent collaboration framework designed to imitate human-like top-down reasoning by leveraging the expansive knowledge of Large Language Models (LLMs). Our framework comprises three agents, i.e., Responder, Seeker, and Integrator, each contributing uniquely to the top-down reasoning process. The VLM-based Responder generates the answer candidates for the question and gives responses to other issues. The Seeker, primarily based on LLM, identifies relevant issues related to the question to inform the Responder and constructs a Multi-View Knowledge Base (MVKB) for the given visual scene by leveraging the understanding capabilities of LLM. The Integrator agent combines information from the Seeker and the Responder to produce the final VQA answer. Through this collaboration mechanism, our framework explicitly constructs an MVKB for a specific visual scene and reasons answers in a top-down reasoning process. Extensive and comprehensive evaluations on diverse VQA datasets and VLMs demonstrate the superior applicability and interpretability of our framework over the existing compared methods.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# 情報修正K-Nearest Neighbor

Information Modified K-Nearest Neighbor ( http://arxiv.org/abs/2312.01991v2 )

ライセンス: Link先を確認
Mohammad Ali Vahedifar, Azim Akhtarshenas, Maryam Sabbaghian, Mohammad Mohammadi Rafatpanah, Ramin Toosi, (参考訳) K-Nearest Neighbors(KNN)の根底にある基本的な概念は、最も近い隣人を通して、多数派に基づくサンプルの分類である。 距離と隣人のラベルはKNNでは重要であるが、伝統的なKNNは全てのサンプルを平等に扱う。 しかしながら、いくつかのKNN変種は、それぞれの隣人の距離とラベルを考慮して、特定の規則に基づいて隣人の体重が異なる。 多くのKNN手法は、従来のKNNを著しく上回らない複雑なアルゴリズムを導入し、しばしば満足度の低い結果をもたらす。 真の重みを正確に予測するための情報を確実に抽出するギャップは、まだオープンな研究課題である。 提案手法では,情報修正KNN (IMKNN) を用いて,そのギャップを埋める手法を提案する。 そこで本研究では,KNNアルゴリズムの性能向上のための分類手法を提案する。 相互情報(MI)を活用し、Shapleyの値からアイデアを取り入れることで、従来のKNNのパフォーマンスを精度、精度、リコールで改善し、より洗練され効果的なソリューションを提供する。 本手法の有効性を評価するため,8種類のKNNと比較した。 従来のKNNと比較して,11.05\%,12.42\%,12.07\%の精度,精度,リコール性能を達成している。 さらに、IMKNNと従来のKNNを4つの大規模データセットで比較し、モノトニック性、ノイズ、密度、サブクラスタ、スキュード分布の影響におけるIMKNNの明確な利点を強調した。 我々の研究は、IMKNNが多様なデータセットの他の手法を一貫して上回っていることを示唆している。

The fundamental concept underlying K-Nearest Neighbors (KNN) is the classification of samples based on the majority through their nearest neighbors. Although distance and neighbors' labels are critical in KNN, traditional KNN treats all samples equally. However, some KNN variants weigh neighbors differently based on a specific rule, considering each neighbor's distance and label. Many KNN methodologies introduce complex algorithms that do not significantly outperform the traditional KNN, often leading to less satisfactory outcomes. The gap in reliably extracting information for accurately predicting true weights remains an open research challenge. In our proposed method, information-modified KNN (IMKNN), we bridge the gap by presenting a straightforward algorithm that achieves effective results. To this end, we introduce a classification method to improve the performance of the KNN algorithm. By exploiting mutual information (MI) and incorporating ideas from Shapley's values, we improve the traditional KNN performance in accuracy, precision, and recall, offering a more refined and effective solution. To evaluate the effectiveness of our method, it is compared with eight variants of KNN. We conduct experiments on 12 widely-used datasets, achieving 11.05\%, 12.42\%, and 12.07\% in accuracy, precision, and recall performance, respectively, compared to traditional KNN. Additionally, we compared IMKNN with traditional KNN across four large-scale datasets to highlight the distinct advantages of IMKNN in the impact of monotonicity, noise, density, subclusters, and skewed distributions. Our research indicates that IMKNN consistently surpasses other methods in diverse datasets.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# 材料中の電荷密度予測のための高次同変ニューラルネットワーク

Higher-Order Equivariant Neural Networks for Charge Density Prediction in Materials ( http://arxiv.org/abs/2312.05388v2 )

ライセンス: Link先を確認
Teddy Koker, Keegan Quigley, Eric Taw, Kevin Tibbetts, Lin Li, (参考訳) 密度汎関数理論(DFT)を用いた電子密度分布の計算は、その量子的およびマクロスケール特性の研究の中心であるが、正確かつ効率的な計算は長年にわたる課題である。 本稿では,原子系の電子密度を予測するためのE(3)同変グラフニューラルネットワークChargE3Netを紹介する。 ChargE3Netは高次同変関数の学習を可能にし、高い予測精度とモデル表現性を実現する。 本稿では,ChargE3Netが分子や材料に対する先行研究よりも優れていることを示す。 Materials Projectデータベースにある100K以上の素材の膨大なデータセットをトレーニングすると、我々のモデルはデータの複雑さと変動を捉えることができ、未確認の材料上でDFT計算を初期化する際には、自己一貫性の反復が26.7%減少する。 さらに, 予測電荷密度を用いた非自己整合DFT計算は, 計算コストのごく一部で, 電子的および熱力学的特性予測においてほぼDFT性能が得られることを示す。 さらなる分析は、高い角度変化を持つシステムのモデリングを改善するために、予測精度がより高くなることを特徴としている。 これらの結果は、材料発見のための機械学習によって加速されたab initio計算への道筋を照らす。

The calculation of electron density distribution using density functional theory (DFT) in materials and molecules is central to the study of their quantum and macro-scale properties, yet accurate and efficient calculation remains a long-standing challenge. We introduce ChargE3Net, an E(3)-equivariant graph neural network for predicting electron density in atomic systems. ChargE3Net enables the learning of higher-order equivariant feature to achieve high predictive accuracy and model expressivity. We show that ChargE3Net exceeds the performance of prior work on diverse sets of molecules and materials. When trained on the massive dataset of over 100K materials in the Materials Project database, our model is able to capture the complexity and variability in the data, leading to a significant 26.7% reduction in self-consistent iterations when used to initialize DFT calculations on unseen materials. Furthermore, we show that non-self-consistent DFT calculations using our predicted charge densities yield near-DFT performance on electronic and thermodynamic property prediction at a fraction of the computational cost. Further analysis attributes the greater predictive accuracy to improved modeling of systems with high angular variations. These results illuminate a pathway towards a machine learning-accelerated ab initio calculations for materials discovery.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# 磁気トンネル接合アレイの計測駆動型ニューラルネットワークトレーニング

Measurement-driven neural-network training for integrated magnetic tunnel junction arrays ( http://arxiv.org/abs/2312.06446v2 )

ライセンス: Link先を確認
William A. Borders, Advait Madhavan, Matthew W. Daniels, Vasileia Georgiou, Martin Lueker-Boden, Tiffany S. Santos, Patrick M. Braganca, Mark D. Stiles, Jabez J. McClelland, Brian D. Hoskins, (参考訳) より複雑なアプリケーションをサポートするために必要なニューラルネットワークの規模の増加は、面積とエネルギー効率のハードウェアに対する要求の増大につながった。 これらの用途の予算を満たすための1つの方法は、フォン・ノイマンのボトルネックを回避し、メモリ内または周辺で計算を行うことである。 ニューラルネットワークをハードウェアに転送することの必然性は、デバイスからデバイスへのバリエーションやデバイスへの悪影響など、非イデアル性によってパフォーマンスが低下することである。 ネットワークトレーニングにおいて, 基板非イデオロギーを取り入れたハードウェア・アウェア・トレーニングのような手法は, 解法一般コストで性能を回復する一つの方法である。 本研究では,2万個の磁気トンネル接合配列からなるハードウェアニューラルネットワークを,市場対応のスピン移動型磁気抵抗型ランダムアクセスメモリ技術によく似た相補的金属酸化物半導体チップ上に集積したハードウェア・ニューラルネットワークを実演する。 物理マップされたネットワークにおける少数の欠陥でさえ、欠陥のないトレーニングネットワークの性能を著しく低下させ、一般的なコストで、各ダイに特定の欠陥を考慮に入れたハードウェア・アウェア・トレーニングが理想的なネットワークと同等の性能を回復できることを示す。 次に,ハードウェア・アウェア・トレーニングを統計的アウェア・トレーニングに拡張し,ネットワーク重みを発生させる堅牢なトレーニング手法を示す。 36の物理ダイに対して評価すると、統計的に訓練されたソリューションは、ソフトウェアベースラインと異なるMNISTデータセットの平均的な誤分類誤差をわずか2%で達成できる。 この統計対応トレーニング手法は、業界対応のアプリケーションに適したハードウェアにマッピングされた多くの層を持つネットワークに一般化することができる。

The increasing scale of neural networks needed to support more complex applications has led to an increasing requirement for area- and energy-efficient hardware. One route to meeting the budget for these applications is to circumvent the von Neumann bottleneck by performing computation in or near memory. An inevitability of transferring neural networks onto hardware is that non-idealities such as device-to-device variations or poor device yield impact performance. Methods such as hardware-aware training, where substrate non-idealities are incorporated during network training, are one way to recover performance at the cost of solution generality. In this work, we demonstrate inference on hardware neural networks consisting of 20,000 magnetic tunnel junction arrays integrated on a complementary metal-oxide-semiconductor chips that closely resembles market-ready spin transfer-torque magnetoresistive random access memory technology. Using 36 dies, each containing a crossbar array with its own non-idealities, we show that even a small number of defects in physically mapped networks significantly degrades the performance of networks trained without defects and show that, at the cost of generality, hardware-aware training accounting for specific defects on each die can recover to comparable performance with ideal networks. We then demonstrate a robust training method that extends hardware-aware training to statistics-aware training, producing network weights that perform well on most defective dies regardless of their specific defect locations. When evaluated on the 36 physical dies, statistics-aware trained solutions can achieve a mean misclassification error on the MNIST dataset that differs from the software-baseline by only 2 %. This statistics-aware training method could be generalized to networks with many layers that are mapped to hardware suited for industry-ready applications.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# ビジネスコンテキストのための大規模言語モデルのカスタマイズ:フレームワークと実験

Customizing Large Language Models for Business Context: Framework and Experiments ( http://arxiv.org/abs/2312.10225v2 )

ライセンス: Link先を確認
Wen Wang, Zhenyue Zhao, Tianshu Sun, (参考訳) 大規模言語モデル(LLM)の出現は、情報システムにおけるデザイン科学の新しい時代を後押しし、LLMの設計をビジネスコンテキストに合わせるためのパラダイムシフトを要求している。 1)会話パターンの整合化,(2)ドメイン内知識の統合,(3)理論駆動型ソフトスキルとコア原則の具現化という,3つの基本的な目標を同時に達成することを目的とした,一般的なビジネスコンテキストのためのLCMをカスタマイズするための新しいフレームワークを提案し,テストする。 ドメイン固有理論とスーパービジョンファインチューニング(SFT)を組み合わせてこれらの目的を同時に達成する手法を設計する。 医療相談の文脈で提案する枠組みをインスタンス化する。 具体的には,複数の専門データベースから実際の医師の診察記録と医療知識を大量に作成する。 さらに, 医療理論に基づいて, 専門性, 説明可能性, 情緒的支援の3つのソフトスキルと基本原理を同定し, それらの特徴をLCMに組み込む設計アプローチを提案する。 実際に数千人の患者によるオンライン実験と、ドメインの専門家や消費者による評価を用いて、我々のフレームワークの有効性を実証する。 実験結果から, LLMモデルは, 医療分野の未調整ベースモデル, 消費者満足度, 信頼性の面ではかなり優れており, 未調整LLMと人的医師とのギャップを著しく減らし, LLMを人間専門家のレベルまで高めることが示唆された。 さらに,テキスト相談記録の特徴を掘り下げ,解釈可能な機械学習技術を用いて,パフォーマンス向上の要因を特定する。 最後に, 実験室実験において, ヒトの医師を支援するための意思決定支援システムを用いて, モデルの有効性を実証する。

The advent of Large Language Models (LLMs) has ushered in a new era for design science in Information Systems, demanding a paradigm shift in tailoring LLMs design for business contexts. We propose and test a novel framework to customize LLMs for general business contexts that aims to achieve three fundamental objectives simultaneously: (1) aligning conversational patterns, (2) integrating in-depth domain knowledge, and (3) embodying theory-driven soft skills and core principles. We design methodologies that combine domain-specific theory with Supervised Fine Tuning (SFT) to achieve these objectives simultaneously. We instantiate our proposed framework in the context of medical consultation. Specifically, we carefully construct a large volume of real doctors' consultation records and medical knowledge from multiple professional databases. Additionally, drawing on medical theory, we identify three soft skills and core principles of human doctors: professionalism, explainability, and emotional support, and design approaches to integrate these traits into LLMs. We demonstrate the feasibility of our framework using online experiments with thousands of real patients as well as evaluation by domain experts and consumers. Experimental results show that the customized LLM model substantially outperforms untuned base model in medical expertise as well as consumer satisfaction and trustworthiness, and it substantially reduces the gap between untuned LLMs and human doctors, elevating LLMs to the level of human experts. Additionally, we delve into the characteristics of textual consultation records and adopt interpretable machine learning techniques to identify what drives the performance gain. Finally, we showcase the practical value of our model through a decision support system designed to assist human doctors in a lab experiment.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-14
# 反復的局所展開による効率的かつスケーラブルなグラフ生成

Efficient and Scalable Graph Generation through Iterative Local Expansion ( http://arxiv.org/abs/2312.11529v4 )

ライセンス: Link先を確認
Andreas Bergmeister, Karolis Martinkus, Nathanaël Perraudin, Roger Wattenhofer, (参考訳) グラフ生成モデルの領域では、広範な研究がなされている。 しかし、既存のほとんどの手法は、全てのノード対にまたがる結合分布全体を表現し、グローバルグラフとローカルグラフの両方を同時にキャプチャする複雑さのために、大きなグラフに苦しむ。 これらの問題を克服するために,単一ノードを対象グラフに段階的に拡張してグラフを生成する手法を提案する。 各ステップにおいて、ノードとエッジは拡散を減らし、まずグローバル構造を構築し、次に局所的な詳細を精査することで局所的に追加される。 局所生成は、全てのノード対に対する結合分布全体のモデリングを回避し、マルチスケール生成による高い表現性を維持しながら、ノード数に対するサブクワッドラティックランタイムによる実質的な計算的節約を達成する。 実験により,我々のモデルは,5,000ノード以上のグラフへのスケーリングを成功裏に,確立されたベンチマークデータセット上での最先端のパフォーマンスを実現することを示す。 また,本手法はトレーニング分布外のグラフへの外挿に成功し,既存の手法よりもはるかに優れた一般化能力を示す。

In the realm of generative models for graphs, extensive research has been conducted. However, most existing methods struggle with large graphs due to the complexity of representing the entire joint distribution across all node pairs and capturing both global and local graph structures simultaneously. To overcome these issues, we introduce a method that generates a graph by progressively expanding a single node to a target graph. In each step, nodes and edges are added in a localized manner through denoising diffusion, building first the global structure, and then refining the local details. The local generation avoids modeling the entire joint distribution over all node pairs, achieving substantial computational savings with subquadratic runtime relative to node count while maintaining high expressivity through multiscale generation. Our experiments show that our model achieves state-of-the-art performance on well-established benchmark datasets while successfully scaling to graphs with at least 5000 nodes. Our method is also the first to successfully extrapolate to graphs outside of the training distribution, showcasing a much better generalization capability over existing methods.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# 複合SYKモデルの熱力学と力学

Thermodynamics and dynamics of coupled complex SYK models ( http://arxiv.org/abs/2312.14644v3 )

ライセンス: Link先を確認
Jan C. Louw, Linda M. van Manen, Rishabh Jha, (参考訳) 大きな$qの複素SYKモデルはファン・デル・ワールス(平均体)と同じ普遍性クラスに該当し、様々なブラックホールで共有されるマルダセナ-シェンカー-スタンフォード境界を飽和させることが知られている。 これにより、SYKモデルは量子カオスとホログラフィック双対性の基本的な性質を探索するのに有用なツールとなる。 この研究は、この共有普遍性クラスとSYK様モデルに対するカオス的性質の堅牢性を確立し、異なる順序の大きいq$複素SYKモデルのシステムに拡張する。 本稿では, 熱力学的特性, 特に観測相転移の臨界指数, 特にリャプノフ指数の動的特性を, 時間外相関計算により詳細に導出する。 解析の結果, 相互作用強度比による追加スケーリングパラメータの導入にもかかわらず, 単一SYKモデルと同様, 低温で連続的な位相遷移を行うことがわかった。 臨界指数は、ファンデルワールスガスや様々なAdSブラックホールと共有されるランダウ・ギンツブルク(平均場)普遍性クラスと一致している。 さらに、結合したSYK系は、Maldacena-Shenker-Stanford境界に固執して、低温における大きな$q$制限において最大カオスのままであることを示した。 これらの発見は、複雑な量子系における普遍性とカオスに関するより広い探求のための堅牢性とオープンな道を確立する。 我々は,ホログラフィック双対ブラックホールで観測されたホーキング・ページ相転移との関係を議論する「非常に」低温状態を考慮することで,今後の研究の詳細な展望を提供する。 予備計算を行い、接続を堅牢にするために取るべき可能性のあるフォローアップについて論じる。

It has been known that the large-$q$ complex SYK model falls under the same universality class as that of van der Waals (mean-field) and saturates the Maldacena-Shenker-Stanford bound, both features shared by various black holes. This makes the SYK model a useful tool in probing the fundamental nature of quantum chaos and holographic duality. This work establishes the robustness of this shared universality class and chaotic properties for SYK-like models by extending to a system of coupled large-$q$ complex SYK models of different orders. We provide a detailed derivation of thermodynamic properties, specifically the critical exponents for an observed phase transition, as well as dynamical properties, in particular the Lyapunov exponent, via the out-of-time correlator calculations. Our analysis reveals that, despite the introduction of an additional scaling parameter through interaction strength ratios, the system undergoes a continuous phase transition at low temperatures, similar to that of the single SYK model. The critical exponents align with the Landau-Ginzburg (mean-field) universality class, shared with van der Waals gases and various AdS black holes. Furthermore, we demonstrate that the coupled SYK system remains maximally chaotic in the large-$q$ limit at low temperatures, adhering to the Maldacena-Shenker-Stanford bound, a feature consistent with the single SYK model. These findings establish robustness and open avenues for broader inquiries into the universality and chaos in complex quantum systems. We provide a detailed outlook for future work by considering the ``very" low-temperature regime, where we discuss relations with the Hawking-Page phase transition observed in the holographic dual black holes. We present preliminary calculations and discuss the possible follow-ups that might be be taken to make the connection robust.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# I2V-Adapter:拡散モデルのための一般画像から映像への適応器

I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models ( http://arxiv.org/abs/2312.16693v3 )

ライセンス: Link先を確認
Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Pengfei Wan, Di Zhang, Yufan Liu, Weiming Hu, Zhengjun Zha, Haibin Huang, Chongyang Ma, (参考訳) テキスト誘導画像合成(I2V)は、入力画像の同一性を保ち、入力プロンプトと意味的に整合するコヒーレントなビデオを生成することを目的としている。 既存の方法では、トレーニング済みのテキスト・トゥ・ビデオ(T2V)モデルを拡張して、モデルに入力される前に、画像とノイズ付きビデオフレームをチャンネルワイズに結合するか、あるいは、トレーニング済みの画像エンコーダによって生成された画像埋め込みを、クロスアテンションモジュールに注入する。 しかしながら、前者のアプローチでは、事前訓練されたT2Vモデルの基本的な重みを変える必要がしばしばあり、これにより、オープンソースコミュニティ内でのモデルの互換性が制限され、モデルの事前の知識が破壊される。 一方、後者は通常、入力画像のアイデンティティを保持するのに失敗する。 このような制限を克服するために、I2V-Adapterを提案する。 I2V-Adapterは、予め訓練されたT2Vモデルを変更することなく、入力画像の同一性を保ちながら、後続のノイズ付きフレームに適応的に伝播する。 特に、I2V-Adapterはトレーニング可能なパラメータをいくつか導入するだけで、トレーニングコストを大幅に軽減し、既存のコミュニティ主導のパーソナライズされたモデルとコントロールツールとの互換性を確保する。 さらに,2つの調整可能な制御係数による動画の動作振幅と安定性のバランスをとるために,新しいフレーム類似性を提案する。 実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。 このパフォーマンスと、その俊敏性と適応性は、特にパーソナライズされ、制御可能なアプリケーションにおいて、I2V分野の大幅な進歩を示している。

Text-guided image-to-video (I2V) generation aims to generate a coherent video that preserves the identity of the input image and semantically aligns with the input prompt. Existing methods typically augment pretrained text-to-video (T2V) models by either concatenating the image with noised video frames channel-wise before being fed into the model or injecting the image embedding produced by pretrained image encoders in cross-attention modules. However, the former approach often necessitates altering the fundamental weights of pretrained T2V models, thus restricting the model's compatibility within the open-source communities and disrupting the model's prior knowledge. Meanwhile, the latter typically fails to preserve the identity of the input image. We present I2V-Adapter to overcome such limitations. I2V-Adapter adeptly propagates the unnoised input image to subsequent noised frames through a cross-frame attention mechanism, maintaining the identity of the input image without any changes to the pretrained T2V model. Notably, I2V-Adapter only introduces a few trainable parameters, significantly alleviating the training cost and also ensures compatibility with existing community-driven personalized models and control tools. Moreover, we propose a novel Frame Similarity Prior to balance the motion amplitude and the stability of generated videos through two adjustable control coefficients. Our experimental results demonstrate that I2V-Adapter is capable of producing high-quality videos. This performance, coupled with its agility and adaptability, represents a substantial advancement in the field of I2V, particularly for personalized and controllable applications.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# 連続時間深部ニューラルネットワークの状態導出正規化

State Derivative Normalization for Continuous-Time Deep Neural Networks ( http://arxiv.org/abs/2401.02902v2 )

ライセンス: Link先を確認
Jonas Weigand, Gerben I. Beintema, Jonas Ulmen, Daniel Görges, Roland Tóth, Maarten Schoukens, Martin Ruskowski, (参考訳) ディープニューラルネットワークにおける適切なデータ正規化の重要性はよく知られている。 しかし, 連続時間状態空間モデル推定では, モデル推定の隠蔽状態あるいは隠蔽状態微分の不適切な正規化, あるいは時間間隔であっても, 深層学習に基づく手法による数値的, 最適化的課題が生じることが観察されている。 これにより、モデルの品質が低下する。 本稿では,これら3つの正規化タスクが本質的に結合していることを示す。 この結合が存在するため、状態微分レベルで正規化定数を導入することにより、3つの正規化問題に対する解を提案する。 正規化定数の適切な選択は、To-be-identifiedシステムの力学と関係があることを示し、有効な正規化定数を得るための複数の手法を導出する。 ケースドタンクシステムからの実験データをもとに,ベンチマーク問題における正規化戦略をすべて比較検討し,本手法と他の同定文献との比較を行った。

The importance of proper data normalization for deep neural networks is well known. However, in continuous-time state-space model estimation, it has been observed that improper normalization of either the hidden state or hidden state derivative of the model estimate, or even of the time interval can lead to numerical and optimization challenges with deep learning based methods. This results in a reduced model quality. In this contribution, we show that these three normalization tasks are inherently coupled. Due to the existence of this coupling, we propose a solution to all three normalization challenges by introducing a normalization constant at the state derivative level. We show that the appropriate choice of the normalization constant is related to the dynamics of the to-be-identified system and we derive multiple methods of obtaining an effective normalization constant. We compare and discuss all the normalization strategies on a benchmark problem based on experimental data from a cascaded tanks system and compare our results with other methods of the identification literature.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# 標準モデル格子型SNARKの量子増幅LWEサンプリングとセキュリティ

Quantum Oblivious LWE Sampling and Insecurity of Standard Model Lattice-Based SNARKs ( http://arxiv.org/abs/2401.03807v2 )

ライセンス: Link先を確認
Thomas Debris-Alazard, Pouria Fallahpour, Damien Stehlé, (参考訳) Learning With Errors$\mathsf{LWE}$) 問題は $(\mathbf{A}, \mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}) \in (\mathbb{Z}/q\mathbb{Z})^{m \times n} \times (\mathbb{Z}/q\mathbb{Z})^{m}$ という形の入力から$\mathbf{s}$ を求める。 この作業では、$\mathsf{LWE}$の解決ではなく、インスタンスをサンプリングするタスクに焦点を当てます。 これらは極端にスパースであるから、先に$\mathbf{s}$と$\mathbf{e}$を生成し、次に$\mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}$をセットするしか方法がないと思える。 特に、そのような例のサンプルは解を知っている。 これにより、真に$(\mathbf{A}, \mathbf{A}\mathbf{s}+\mathbf{e})$をサンプリングできるかどうかという疑問が持ち上がる。 難解な$\mathsf{LWE}$サンプリングが難しいという仮定の変種が、Succinct Non Interactive Arguments of Knowledge (SNARKs) の候補構成のセキュリティを分析する一連の研究で使われてきた。 この仮定は$\mathsf{LWE}$と関係しているため、これらのSNARKは量子敵の存在下では安全であると推測されている。 我々の主な結果は、よく分散された$\mathsf{LWE}$インスタンスをサンプリングする量子多項式時間アルゴリズムであり、$\mathsf{LWE}$は難しいという仮定の下で、確実に解を知らない。 さらに、このアプローチは、上記のSNARKで使用されるものを含む、幅広い$\mathsf{LWE}$パラメトリゼーションに対して有効である。 これにより、セキュリティ分析で使用される仮定は無効になるが、構造自体に対する攻撃は発生しない。

The Learning With Errors ($\mathsf{LWE}$) problem asks to find $\mathbf{s}$ from an input of the form $(\mathbf{A}, \mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}) \in (\mathbb{Z}/q\mathbb{Z})^{m \times n} \times (\mathbb{Z}/q\mathbb{Z})^{m}$, for a vector $\mathbf{e}$ that has small-magnitude entries. In this work, we do not focus on solving $\mathsf{LWE}$ but on the task of sampling instances. As these are extremely sparse in their range, it may seem plausible that the only way to proceed is to first create $\mathbf{s}$ and $\mathbf{e}$ and then set $\mathbf{b} = \mathbf{A}\mathbf{s}+\mathbf{e}$. In particular, such an instance sampler knows the solution. This raises the question whether it is possible to obliviously sample $(\mathbf{A}, \mathbf{A}\mathbf{s}+\mathbf{e})$, namely, without knowing the underlying $\mathbf{s}$. A variant of the assumption that oblivious $\mathsf{LWE}$ sampling is hard has been used in a series of works to analyze the security of candidate constructions of Succinct Non interactive Arguments of Knowledge (SNARKs). As the assumption is related to $\mathsf{LWE}$, these SNARKs have been conjectured to be secure in the presence of quantum adversaries. Our main result is a quantum polynomial-time algorithm that samples well-distributed $\mathsf{LWE}$ instances while provably not knowing the solution, under the assumption that $\mathsf{LWE}$ is hard. Moreover, the approach works for a vast range of $\mathsf{LWE}$ parametrizations, including those used in the above-mentioned SNARKs. This invalidates the assumptions used in their security analyses, although it does not yield attacks against the constructions themselves.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# TAnet:短時間決定窓を用いた脳波を用いた聴覚空間注意デコードのための新しい時間的注意ネットワーク

TAnet: A New Temporal Attention Network for EEG-based Auditory Spatial Attention Decoding with a Short Decision Window ( http://arxiv.org/abs/2401.05819v2 )

ライセンス: Link先を確認
Yuting Ding, Fei Chen, (参考訳) 聴覚空間注意検出(ASAD)は、脳波(EEG)信号を解析することにより、聴取者の話者に対する注意方向を決定するために用いられる。 本研究は,従来の研究では1秒から5秒の長い判定窓ではなく,短い判定窓(すなわち<1 s)でASADの性能をさらに向上することを目的とした。 本研究では、終端から終端までの時間的注意ネットワーク(TAnet)が導入された。 TAnetはマルチヘッドアテンション(MHA)機構を採用しており、収集されたEEG信号の時間ステップ間の相互作用をより効果的に捉え、対応する重みをこれらのEEG時間ステップに効率的に割り当てることができる。 CNN法や最近のASAD法と比較して、TAnetは92.4% (決定窓0.1 s)、94.9% (0.25 s)、95.1% (0.3 s)、95.4% (0.4 s)、95.5% (0.5 s)の短い決定窓(すなわち <1 s)で、KULデータセットの復号性能を改善した。 短時間の意思決定窓を持つ新しいASADモデルとして、TAnetは脳波制御型インテリジェント補聴器と音声認識システムの設計を促進する可能性がある。

Auditory spatial attention detection (ASAD) is used to determine the direction of a listener's attention to a speaker by analyzing her/his electroencephalographic (EEG) signals. This study aimed to further improve the performance of ASAD with a short decision window (i.e., <1 s) rather than with long decision windows ranging from 1 to 5 seconds in previous studies. An end-to-end temporal attention network (i.e., TAnet) was introduced in this work. TAnet employs a multi-head attention (MHA) mechanism, which can more effectively capture the interactions among time steps in collected EEG signals and efficiently assign corresponding weights to those EEG time steps. Experiments demonstrated that, compared with the CNN-based method and recent ASAD methods, TAnet provided improved decoding performance in the KUL dataset, with decoding accuracies of 92.4% (decision window 0.1 s), 94.9% (0.25 s), 95.1% (0.3 s), 95.4% (0.4 s), and 95.5% (0.5 s) with short decision windows (i.e., <1 s). As a new ASAD model with a short decision window, TAnet can potentially facilitate the design of EEG-controlled intelligent hearing aids and sound recognition systems.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# lpNTK: 学習中のサンプルインタラクションによる少ないデータによるより良い一般化

lpNTK: Better Generalisation with Less Data via Sample Interaction During Learning ( http://arxiv.org/abs/2401.08808v2 )

ライセンス: Link先を確認
Shangmin Guo, Yi Ren, Stefano V. Albrecht, Kenny Smith, (参考訳) 人工知能ニューラルネットワーク(ANN)の一般化を改善するために、新しいモデルや損失関数を提案する研究が数多く行われているが、トレーニングデータが一般化に与える影響についてはあまり注目されていない。 この研究では、サンプル間の相互作用、すなわち、あるサンプルの学習が、他のサンプルに対するモデルの予測をどう修正するかを近似することから始めます。 教師付き学習における重み更新に関する用語を分析することで、ラベルがサンプル間の相互作用に影響を与えることがわかった。 そこで我々は,サンプル間の相互作用を測定する際に,ラベル情報を考慮に入れたラベル付き擬似ニューラルタンジェントカーネル (lpNTK) を提案する。 まず、ある仮定の下でフロベニウスノルムの観点から、lpNTK が漸近的に経験的ニューラル接核に収束することを証明した。 第2に,lpNTKが過去の研究で特定された学習現象,特にサンプルの学習困難や学習中の出来事を忘れることの理解にどのように役立つかを説明する。 また,lpNTKを用いた中毒トレーニングサンプルの同定と除去は,ANNの一般化性能を損なうものではないことを示した。

Although much research has been done on proposing new models or loss functions to improve the generalisation of artificial neural networks (ANNs), less attention has been directed to the impact of the training data on generalisation. In this work, we start from approximating the interaction between samples, i.e. how learning one sample would modify the model's prediction on other samples. Through analysing the terms involved in weight updates in supervised learning, we find that labels influence the interaction between samples. Therefore, we propose the labelled pseudo Neural Tangent Kernel (lpNTK) which takes label information into consideration when measuring the interactions between samples. We first prove that lpNTK asymptotically converges to the empirical neural tangent kernel in terms of the Frobenius norm under certain assumptions. Secondly, we illustrate how lpNTK helps to understand learning phenomena identified in previous work, specifically the learning difficulty of samples and forgetting events during learning. Moreover, we also show that using lpNTK to identify and remove poisoning training samples does not hurt the generalisation performance of ANNs.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# リフティング非コンテクスト性不等式

Lifting noncontextuality inequalities ( http://arxiv.org/abs/2401.12349v2 )

ライセンス: Link先を確認
Raman Choudhary, Rui Soares Barbosa, Adán Cabello, (参考訳) Kochen-Speckerの文脈性は量子力学の基本的特徴であり、量子計算の優位性と通信複雑性の低減のための重要な資源である。 その存在は、経験的なデータの中で、非文脈的不平等の違反によって確認されている。 しかし、非コンテキストポリトープのファセットに対応するすべての既知の非コンテキスト不等式はベル不等式か、巡回的または状態非独立な文脈不等式である。 より単純なサブシナリオの既知のファセットから、より複雑なシナリオに対して、非コンテクスト的ポリトープのファセットを導出する、非コンテクスト的不等式を持ち上げる一般的な方法を提案する。 具体的には、任意のシナリオから始めると、新しい測定や新しい結果の追加は、いかなる非文脈的不等式もファセット定義の性質を保っている。 これはベル非局所性シナリオから文脈性シナリオへのピロニオ [J. Math. Phys. 46, 062112 (2005)] の結果を拡張し、ベルのリフトと非文脈性の不等式を統一する。 本手法は, 文脈相関を持つすべてのシナリオにおいて, ファセット定義の非コンテクスチュアリティ不等式を生成し, 例が知られていないシナリオに対して, ファセット定義の非コンテクスチュアリティ不等式を例に示す。 その結果、非コンテクスト性ポリトープの構造と、異なるシナリオにおけるポリトープ間の関係に光を当てた。

Kochen-Specker contextuality is a fundamental feature of quantum mechanics and a crucial resource for quantum computational advantage and reduction of communication complexity. Its presence is witnessed in empirical data by the violation of noncontextuality inequalities. However, all known noncontextuality inequalities corresponding to facets of noncontextual polytopes are either Bell inequalities or refer to cyclic or state-independent contextuality scenarios. We introduce a general method for lifting noncontextuality inequalities, deriving facets of noncontextual polytopes for more complex scenarios from known facets of simpler subscenarios. Concretely, starting from an arbitrary scenario, the addition of a new measurement or a new outcome preserves the facet-defining nature of any noncontextuality inequality. This extends the results of Pironio [J. Math. Phys. 46, 062112 (2005)] from Bell nonlocality scenarios to contextuality scenarios, unifying liftings of Bell and noncontextuality inequalities. Our method produces facet-defining noncontextuality inequalities in all scenarios with contextual correlations, and we present examples of facet-defining noncontextuality inequalities for scenarios where no examples were known. Our results shed light on the structure of noncontextuality polytopes and the relationship between such polytopes across different scenarios.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# ノイズ・アウェア・フォールディング法を用いた量子ゲート誤差低減のためのゼロノイズ外挿法の改善

Improving Zero-noise Extrapolation for Quantum-gate Error Mitigation using a Noise-aware Folding Method ( http://arxiv.org/abs/2401.12495v2 )

ライセンス: Link先を確認
Leanghok Hour, Myeongseong Go, Youngsun Han, (参考訳) 最近の1000量子ビットプロセッサは、ハードウェアの大幅な進歩を示すが、現在の制限は、量子コンピュータによる結果の忠実性を高めるために、量子エラー軽減(QEM)に依存する、効果的な量子エラー補正(QEC)を妨げている。 本稿では、ターゲット量子ハードウェアのノイズ特性を利用して、ZNE(Zero-Noise Extrapolation)を強化し、より効率的に回路を折り畳むノイズ対応折り畳み技術を提案する。 従来のZNE手法とは異なり、ハードウェアノイズモデルに基づく校正データを用いてノイズを再分配する。 提案する折り畳み機構と組み合わせた雑音適応型コンパイル手法を用いることで,超伝導量子コンピュータを用いた量子ゲート型計算のZNE精度を向上させる。 本稿では,本手法の特異性を強調し,ノイズ蓄積を要約し,スケーリングアルゴリズムを示し,線形補間モデルを用いて既存のモデルと比較する。 実験の結果,既存の折り畳み法と比較して,量子計算機シミュレータでは35%,実量子コンピュータでは31%の改善が達成され,提案手法の有効性が示された。

Recent thousand-qubit processors represent a significant hardware advancement, but current limitations prevent effective quantum error correction (QEC), necessitating reliance on quantum error mitigation (QEM) to enhance result fidelity from quantum computers. Our paper introduces a noise-aware folding technique that enhances Zero-Noise Extrapolation (ZNE) by leveraging the noise characteristics of target quantum hardware to fold circuits more efficiently. Unlike traditional ZNE approaches assuming uniform error distribution, our method redistributes noise using calibration data based on hardware noise models. By employing a noise-adaptive compilation method combined with our proposed folding mechanism, we enhance the ZNE accuracy of quantum gate-based computing using superconducting quantum computers. This paper highlights the uniqueness of our method, summarizes noise accumulation, presents the scaling algorithm, and compares the reliability of our method with those of existing models using linear extrapolation model. Experimental results show that compared to existing folding methods, our approach achieved a 35% improvement on quantum computer simulators and a 31% improvement on real quantum computers, demonstrating the effectiveness of our proposed approach.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# 大規模言語モデルは並列コードを書くことができるか?

Can Large Language Models Write Parallel Code? ( http://arxiv.org/abs/2401.12554v3 )

ライセンス: Link先を確認
Daniel Nichols, Joshua H. Davis, Zhaojun Xie, Arjun Rajaram, Abhinav Bhatele, (参考訳) 大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。 ソースコードをモデル化し生成する能力は、コード補完、要約、翻訳、ルックアップなど、さまざまな状況で実証されている。 しかし、複雑なプログラムのためのコードを生成するのに苦労することが多い。 本稿では,最先端言語モデルによる並列コード生成能力について検討する。 言語モデルを評価するために、科学および並列コンピューティングに関連する420の異なるコーディングタスクを表すプロンプトからなるベンチマークParEvalを作成する。 我々はParEvalを用いて、これらのタスクにおけるいくつかの最先端のオープンソースおよびクローズドソース言語モデルの有効性を評価する。 生成したコードの性能を評価するための新しいメトリクスを導入し,12種類の計算問題モデルと6種類の並列プログラミングモデルに対して,それぞれの大規模言語モデルがどのように機能するかを検討する。

Large language models are increasingly becoming a popular tool for software development. Their ability to model and generate source code has been demonstrated in a variety of contexts, including code completion, summarization, translation, and lookup. However, they often struggle to generate code for complex programs. In this paper, we study the capabilities of state-of-the-art language models to generate parallel code. In order to evaluate language models, we create a benchmark, ParEval, consisting of prompts that represent 420 different coding tasks related to scientific and parallel computing. We use ParEval to evaluate the effectiveness of several state-of-the-art open- and closed-source language models on these tasks. We introduce novel metrics for evaluating the performance of generated code, and use them to explore how well each large language model performs for 12 different computational problem types and six different parallel programming models.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# プライバシー保護型ウェアラブルストレス検出のための合成健康センサデータの生成

Generating Synthetic Health Sensor Data for Privacy-Preserving Wearable Stress Detection ( http://arxiv.org/abs/2401.13327v2 )

ライセンス: Link先を確認
Lucas Lange, Nils Wenzlitschke, Erhard Rahm, (参考訳) スマートウォッチの健康センサーデータは、ストレス検出など、スマートヘルスアプリケーションや患者のモニタリングにますます活用されている。 しかし、そのような医療データは機密性の高い個人情報で構成され、研究目的の取得に資源集約的であることが多い。 この課題に対して,GAN (Generative Adversarial Networks) とDP (differial Privacy) のセーフガードを用いて,ストレスの瞬間に関連するマルチセンサスマートウォッチのヘルスリーダーのプライバシを意識した合成を導入する。 本手法は患者情報を保護するだけでなく,データ利用率の向上にも寄与する。 その有用性を確保するため、複数のGANから合成データをテストし、実際のストレス検出タスクに異なるデータ強化戦略を適用した。 我々のGANベースの強化手法は、F1スコアの11.90-15.48%の増加をプライベートDPトレーニングシナリオで観察し、非プライベートトレーニングシナリオでは0.45%の上昇を示した。 これらの結果から,ユーティリティプライバシトレードオフを最適化する上で,差分プライベートな合成データの可能性,特に実際のトレーニングサンプルの有効利用が限定されていることが示唆された。 厳密な品質評価を通じて、我々の合成データの完全性と妥当性を確認する。

Smartwatch health sensor data are increasingly utilized in smart health applications and patient monitoring, including stress detection. However, such medical data often comprise sensitive personal information and are resource-intensive to acquire for research purposes. In response to this challenge, we introduce the privacy-aware synthetization of multi-sensor smartwatch health readings related to moments of stress, employing Generative Adversarial Networks (GANs) and Differential Privacy (DP) safeguards. Our method not only protects patient information but also enhances data availability for research. To ensure its usefulness, we test synthetic data from multiple GANs and employ different data enhancement strategies on an actual stress detection task. Our GAN-based augmentation methods demonstrate significant improvements in model performance, with private DP training scenarios observing an 11.90-15.48% increase in F1-score, while non-private training scenarios still see a 0.45% boost. These results underline the potential of differentially private synthetic data in optimizing utility-privacy trade-offs, especially with the limited availability of real training samples. Through rigorous quality assessments, we confirm the integrity and plausibility of our synthetic data, which, however, are significantly impacted when increasing privacy requirements.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# 開量子系力学における非マルコフ-マルコフ遷移のエンタングルメント支援プローブ

Entanglement assisted probe of the non-Markovian to Markovian transition in open quantum system dynamics ( http://arxiv.org/abs/2401.13735v2 )

ライセンス: Link先を確認
Chandrashekhar Gaikwad, Daria Kowsari, Carson Brame, Xingrui Song, Haimeng Zhang, Martina Esposito, Arpit Ranadive, Giulio Cappelli, Nicolas Roch, Eli M. Levenson-Falk, Kater W. Murch, (参考訳) 超伝導量子ビットプロセッサを用いて、絡み合った量子ビット対の非マルコフ力学を実験的に探究する。 2つの量子ビット間の絡み合い状態を作成し、量子ビットの1つが、そのリードアウトキャビティに結合された補助トランモン量子ビットからなる小さな量子環境と相互作用するので、時間とともに絡み合いの進化を監視する。 本研究では,環境における量子メモリ効果のサインとして,絡み合いの崩壊と回復を観察する。 次に、その可読性キャビティに熱光子を投入して、非マルコフ力学からマルコフ力学への遷移を示し、量子ゼノ効果が量子ビット間の絡み合いを効果的に安定化する非コヒーレンスな部分空間を生成する状態に到達させることにより、環境の非マルコフ性を構築する。

We utilize a superconducting qubit processor to experimentally probe non-Markovian dynamics of an entangled qubit pair. We prepare an entangled state between two qubits and monitor the evolution of entanglement over time as one of the qubits interacts with a small quantum environment consisting of an auxiliary transmon qubit coupled to its readout cavity. We observe the collapse and revival of the entanglement as a signature of quantum memory effects in the environment. We then engineer the non-Markovianity of the environment by populating its readout cavity with thermal photons to show a transition from non-Markovian to Markovian dynamics, ultimately reaching a regime where the quantum Zeno effect creates a decoherence-free subspace that effectively stabilizes the entanglement between the qubits.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# 交差部分群間のモデル性能評価のための構造化回帰手法

A structured regression approach for evaluating model performance across intersectional subgroups ( http://arxiv.org/abs/2401.14893v2 )

ライセンス: Link先を確認
Christine Herlihy, Kimberly Truong, Alexandra Chouldechova, Miroslav Dudik, (参考訳) 分散評価は、AIフェアネスアセスメントにおける中心的なタスクであり、人口統計学やその他の機密属性の組み合わせによって定義された異なるサブグループ間でAIシステムのパフォーマンスを測定することを目的としている。 標準的なアプローチは、サブグループにまたがって評価データを階層化し、グループ毎に個別にパフォーマンスメトリクスを計算することである。 しかし、中程度の評価データセットであっても、交叉部分群を考えるとサンプルサイズは急速に小さくなり、分析において交叉群が包含される範囲は大幅に制限される。 本稿では,非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す,非凝集評価のための構造化回帰手法を提案する。 我々は信頼区間を構築するための対応する推論戦略を提案し、適切なテストが、交叉群が経験した公正関連害の構造についての洞察をいかに得るかを探る。 我々は2つの公開データセットといくつかの半合成データの変種についてアプローチを評価した。 その結果,本手法は,特に小規模なサブグループにおいて,従来の手法よりもかなり正確であることが示され,適合性試験が性能の違いを導く重要な要因の同定にいかに役立つかが示された。

Disaggregated evaluation is a central task in AI fairness assessment, where the goal is to measure an AI system's performance across different subgroups defined by combinations of demographic or other sensitive attributes. The standard approach is to stratify the evaluation data across subgroups and compute performance metrics separately for each group. However, even for moderately-sized evaluation datasets, sample sizes quickly get small once considering intersectional subgroups, which greatly limits the extent to which intersectional groups are included in analysis. In this work, we introduce a structured regression approach to disaggregated evaluation that we demonstrate can yield reliable system performance estimates even for very small subgroups. We provide corresponding inference strategies for constructing confidence intervals and explore how goodness-of-fit testing can yield insight into the structure of fairness-related harms experienced by intersectional groups. We evaluate our approach on two publicly available datasets, and several variants of semi-synthetic data. The results show that our method is considerably more accurate than the standard approach, especially for small subgroups, and demonstrate how goodness-of-fit testing helps identify the key factors that drive differences in performance.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-14
# Comuniqa : 話し方を改善するための大規模言語モデルの検討

Comuniqa : Exploring Large Language Models for improving speaking skills ( http://arxiv.org/abs/2401.15595v3 )

ライセンス: Link先を確認
Manas Mhasakar, Shikhar Sharma, Apurv Mehra, Utkarsh Venaik, Ujjwal Singhal, Dhruv Kumar, Kashish Mittal, (参考訳) 本稿では,Large Language Models (LLMs) の英語能力向上の可能性について検討する。 これは特に、英語が学術的、専門的、個人的コミュニケーションに不可欠であるが、多くの人にとっては非ネイティブ言語であるインドのような国に関係している。 従来の話し方のスキル向上方法は、スケーラビリティ、アクセシビリティ、手頃な価格の点で制限されるような、人間の専門家に頼っていることが多い。 人工知能(AI)の最近の進歩は、これらの制限を克服する有望なソリューションを提供する。 我々は,英語のスキル向上を目的とした,新しいLLMベースのシステムであるComuniqaを提案する。 我々は、Comuniqaと人間の専門家のフィードバックと指示を比較して、人間中心の評価アプローチを採用する。 本評価では,3つのグループに分けて,LLMをベースとした発話能力向上のためのシステム,同じ課題のために人間専門家が指導するシステム,LLMをベースとしたシステムと人間専門家の両方を利用するシステム,の3つを分けた。 調査,インタビュー,および実際の研究セッションを用いて,異なる学習モダリティの有効性について,より詳細な視点を提供する。 予備的な知見は, LLMに基づくシステムでは, 精度と共感の両面において, 人間のレベルの認知能力が欠如していることを示唆している。 それにもかかわらず、Comuniqaは持続可能な開発目標の達成に向けて重要な一歩を踏み出した。

In this paper, we investigate the potential of Large Language Models (LLMs) to improve English speaking skills. This is particularly relevant in countries like India, where English is crucial for academic, professional, and personal communication but remains a non-native language for many. Traditional methods for enhancing speaking skills often rely on human experts, which can be limited in terms of scalability, accessibility, and affordability. Recent advancements in Artificial Intelligence (AI) offer promising solutions to overcome these limitations. We propose Comuniqa, a novel LLM-based system designed to enhance English speaking skills. We adopt a human-centric evaluation approach, comparing Comuniqa with the feedback and instructions provided by human experts. In our evaluation, we divide the participants in three groups: those who use LLM-based system for improving speaking skills, those guided by human experts for the same task and those who utilize both the LLM-based system as well as the human experts. Using surveys, interviews, and actual study sessions, we provide a detailed perspective on the effectiveness of different learning modalities. Our preliminary findings suggest that while LLM-based systems have commendable accuracy, they lack human-level cognitive capabilities, both in terms of accuracy and empathy. Nevertheless, Comuniqa represents a significant step towards achieving Sustainable Development Goal 4: Quality Education by providing a valuable learning tool for individuals who may not have access to human experts for improving their speaking skills.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# グラフ構造化量子データのためのハイブリッド量子古典ニューラルネットワークの学習可能性

Learnability of a hybrid quantum-classical neural network for graph-structured quantum data ( http://arxiv.org/abs/2401.15665v2 )

ライセンス: Link先を確認
Yan-Ying Liang, Si-Le Tang, Zhe-Hao Yi, Hao-Zhen Si-Tu, Zhu-Jun Zheng, (参考訳) グラフ構造を持つ古典的なデータは、実世界の多くの問題を扱う際には常に存在する。 グラフ構造を持つ量子データについても,常に共通の量子データソースによって生成されるため検討する必要がある。この記事では,グラフ構造を持つ量子データを用いた深層学習(Res-HQCNN)を備えたハイブリッド量子古典ニューラルネットワークを構築する。 具体的には、この特殊なグラフ構造化量子データに基づいて、まずRes-HQCNNモデルにおいて、グラフを用いた半教師付き量子データ学習に適したコスト関数を求める。 次に,グラフ構造化学習データを対象としたRes-HQCNNのトレーニングアルゴリズムを提案する。 次に、Res-HQCNNの学習能力を示すために、量子データにおけるグラフ構造に関する情報の利用により、最先端のモデルと比較して学習効率が向上することを示した。 同時に、残差ブロック構造を用いることで、より深い量子ニューラルネットワークがグラフ構造化量子データをより高速に学習するのに役立つと説明するために、比較実験も設計する。

Classical data with graph structure always exists when dealing with many real-world problems. In parallel, quantum data with graph structure also need to be investigated since they are always produced by common quantum data sources.In this paper, we build a hybrid quantum-classical neural network with deep residual learning (Res-HQCNN) with graph-structured quantum data. Specifically, based on this special graph-structured quantum data, we first find suitable cost functions for Res-HQCNN model to learn semisupervised quantum data with graphs. Then, we present the training algorithm of Res-HQCNN for graph-structured training data in detail. Next, in order to show the learning ability of Res-HQCNN,we perform extensive experiments to show that the using of information about graph structures in quantum data can lead to better learning efficiency compared with the state-of-the-art model. At the same time, we also design comparable experiments to explain that the using of residual block structure can help deeper quantum neural networks learn graph-structured quantum data faster and better.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# 超伝導量子回路を用いた3レベル量子熱エンジンの定常動力学実験

Experimental demonstration of steady-state dynamics of three-level quantum heat engine using superconducting quantum circuits ( http://arxiv.org/abs/2401.15833v2 )

ライセンス: Link先を確認
Gao-xiang Deng, Haoqiang Ai, Wei Shao, Yu Liu, Zheng Cui, (参考訳) 3レベルシステムは、量子熱エンジンで自律的なサイクリングが可能な最小の量子システムである。 本研究では,超伝導量子回路の設計と実装により,三段量子熱エンジンの定常力学をシミュレートする手法を提案する。 この研究で設計された量子回路モデルの結果は、実際の量子デバイス上で実行された場合、理論的予測と密接に一致し、回路モデルの有効性を検証する。 本研究は,3段階の量子熱機関の研究に新たなアプローチを提供し,実験手順の複雑さとコストを低減しつつ,理論的研究結果の検証を可能にする。

The three-level system represents the smallest quantum system capable of autonomous cycling in quantum heat engines. This study proposes a method to simulate the steady-state dynamics of a three-level quantum heat engine by designing and implementing superconducting quantum circuits. Following error mitigation, the outcomes from the quantum circuit model designed in this study, when executed on a real quantum device, closely align with theoretical predictions, thereby validating the effectiveness of the circuit model. This study offers a novel approach for investigating three-level quantum heat engines, enabling the verification of theoretical research findings while also reducing the complexity and cost of experimental procedures.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# 空間行動単位キューによる表情認識の誘導

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues ( http://arxiv.org/abs/2402.00281v5 )

ライセンス: Link先を確認
Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger, (参考訳) 表情認識のための最先端の分類器(FER)は高い精度を達成できるが、エンドユーザーにとって重要な特徴である解釈性に欠ける。 専門家は通常、コードブックから表情の視覚的解釈のための顔領域への空間的行動単位(\aus)を関連付ける。 本稿では、同様の専門家の手順を踏襲する。 新しい学習戦略が提案され, \au cues を分類器訓練に明示的に組み込むことで, 深い解釈可能なモデルを訓練することができる。 トレーニング中は、入力された画像表現ラベルと顔ランドマークとともに、このauコードブックを使用して、表情が興味のある最も識別性の高い画像領域を示す \auヒートマップを構築する。 この価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。 これは、分類器の空間層の特徴を \au ヒートマップと相関させることによって達成される。 合成損失を用いて、分類器は、専門家決定過程をシミュレートし、 \au マップと相関した解釈可能な視覚層対応の注意を与えながら、画像を正しく分類するように訓練される。 我々の戦略は、手作業のアノテーションを伴わずに、イメージクラスの表現のみを監督に頼っている。 我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。 2つの公開ベンチマークである \rafdb と \affectnet のデータセットを広範囲に評価した結果,提案手法は分類性能を劣化させることなく階層的解釈性を向上させることができることがわかった。 さらに,クラスアクティベーションマッピング(CAM)手法に依存する共通タイプの解釈可能な分類器について検討し,そのアプローチがCAMの解釈可能性を向上させることを示す。

Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (\aus) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate \au cues into classifier training, allowing to train deep interpretable models. During training, this \au codebook is used, along with the input image expression label, and facial landmarks, to construct a \au heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \au heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with \au maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks \rafdb, and \affectnet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# グラフの1つの畳み込み:効率的なグレイスケール画像分類

A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification ( http://arxiv.org/abs/2402.00564v2 )

ライセンス: Link先を確認
Jacob Fein-Ashley, Tian Ye, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, (参考訳) 画像分類器は、そのタスクに畳み込みニューラルネットワーク(CNN)を頼りにしており、これは本質的にマルチ層パーセプトロン(MLP)よりも重く、リアルタイムアプリケーションでは問題となる可能性がある。 さらに、多くの画像分類モデルはRGBとグレースケールの両方のデータセットで動作する。 グレースケールの画像のみを扱う分類器は、あまり一般的ではない。 グレースケール画像分類には様々な応用があり、医療画像分類や合成開口レーダ(SAR)自動目標認識(ATR)に限らない。 そこで本稿では,画像のベクトル化ビューを用いた新しいグレースケール(単一チャネル)画像分類手法を提案する。 我々は、画像をベクトルとして見ることで、MLPの軽量性を活用し、グレースケール画像分類設定に問題設定を還元する。 単一グラフ畳み込み層を用いることで精度が向上し,モデルの性能のばらつきが軽減されることがわかった。 さらに,FPGA モデルに最適化したアクセラレータを開発し,性能向上のための最適化を行った。 ベンチマークグレースケール画像データセットを用いた実験結果から,提案モデルの有効性を実証し,各領域固有のグレースケール画像分類データセットの他の最先端画像分類モデルと比較して,レイテンシが大幅に低く(最大16$\times以下),競合的,あるいは先行的な性能を実現した。

Image classifiers often rely on convolutional neural networks (CNN) for their tasks, which are inherently more heavyweight than multilayer perceptrons (MLPs), which can be problematic in real-time applications. Additionally, many image classification models work on both RGB and grayscale datasets. Classifiers that operate solely on grayscale images are much less common. Grayscale image classification has diverse applications, including but not limited to medical image classification and synthetic aperture radar (SAR) automatic target recognition (ATR). Thus, we present a novel grayscale (single channel) image classification approach using a vectorized view of images. We exploit the lightweightness of MLPs by viewing images as a vector and reducing our problem setting to the grayscale image classification setting. We find that using a single graph convolutional layer batch-wise increases accuracy and reduces variance in the performance of our model. Moreover, we develop a customized accelerator on FPGA for the proposed model with several optimizations to improve its performance. Our experimental results on benchmark grayscale image datasets demonstrate the effectiveness of the proposed model, achieving vastly lower latency (up to 16$\times$ less) and competitive or leading performance compared to other state-of-the-art image classification models on various domain-specific grayscale image classification datasets.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# 音は系統再建の音か?

Are Sounds Sound for Phylogenetic Reconstruction? ( http://arxiv.org/abs/2402.02807v3 )

ライセンス: Link先を確認
Luise Häuser, Gerhard Jäger, Taraka Rama, Johann-Mattis List, Alexandros Stamatakis, (参考訳) 言語進化に関する伝統的な研究において、学者はしばしば、言語系統樹の系統的推論における音法則と音対応の重要性を強調している。 しかし、これまでは、計算的なアプローチは、この可能性を考慮に入れていなかった。 ほとんどの計算研究は、言語学における系統的再構築のための主要なデータ源として語彙コニャートに依存しているが、著者が音列のレベルで単語を比較する利点を賞賛する研究はいくつかある。 建物 (a)異なる言語族に属する10種類の多様なデータセット、 b)コグネート自動・音響対応検出の最先端手法として,音を用いた対コグネートによる系統再建手法の性能を初めて検証した。 以上の結果から,レキシカルコニャートから復元された系統は,平均して約3分の1ほど位相的に近づき,音の対応から復元された系統よりも金標準系統に近づいたことが示唆された。

In traditional studies on language evolution, scholars often emphasize the importance of sound laws and sound correspondences for phylogenetic inference of language family trees. However, to date, computational approaches have typically not taken this potential into account. Most computational studies still rely on lexical cognates as major data source for phylogenetic reconstruction in linguistics, although there do exist a few studies in which authors praise the benefits of comparing words at the level of sound sequences. Building on (a) ten diverse datasets from different language families, and (b) state-of-the-art methods for automated cognate and sound correspondence detection, we test, for the first time, the performance of sound-based versus cognate-based approaches to phylogenetic reconstruction. Our results show that phylogenies reconstructed from lexical cognates are topologically closer, by approximately one third with respect to the generalized quartet distance on average, to the gold standard phylogenies than phylogenies reconstructed from sound correspondences.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# MOMENT: オープン時系列ファウンデーションモデルのファミリー

MOMENT: A Family of Open Time-series Foundation Models ( http://arxiv.org/abs/2402.03885v2 )

ライセンス: Link先を確認
Mononito Goswami, Konrad Szafer, Arjun Choudhry, Yifu Cai, Shuo Li, Artur Dubrawski, (参考訳) 汎用時系列解析のためのオープンソース基盤モデルのファミリであるMOMENTを紹介する。 時系列データの事前学習は,(1)大規模かつ密集した公開時系列リポジトリが存在しないこと,(2)マルチデータセットのトレーニングを煩雑なものにする多様な時系列特性のため,困難である。 さらに、これらのモデルを評価するための実験的なベンチマーク、特に限られたリソース、時間、監督のシナリオは、まだ初期段階にある。 これらの課題に対処するために、タイムシリーズパイルと呼ばれる、多種多様な公開時系列コレクションをコンパイルし、大規模なマルチデータセット事前トレーニングをアンロックするための時系列固有の課題に体系的に取り組む。 最後に、様々なタスクやデータセットの時系列基礎モデルを限られた監督設定で評価するためのベンチマークを設計するための最近の作業に基づいて構築する。 このベンチマーク実験は、最小限のデータとタスク固有の微調整による事前学習モデルの有効性を示す。 最後に,大容量の事前学習時系列モデルについて興味深い経験的観察を行った。 事前訓練されたモデル(AutonLab/MOMENT-1-large)と時系列コンパイル(AutonLab/Timeseries-PILE)はHuggingfaceで利用可能である。

We introduce MOMENT, a family of open-source foundation models for general-purpose time series analysis. Pre-training large models on time series data is challenging due to (1) the absence of a large and cohesive public time series repository, and (2) diverse time series characteristics which make multi-dataset training onerous. Additionally, (3) experimental benchmarks to evaluate these models, especially in scenarios with limited resources, time, and supervision, are still in their nascent stages. To address these challenges, we compile a large and diverse collection of public time series, called the Time series Pile, and systematically tackle time series-specific challenges to unlock large-scale multi-dataset pre-training. Finally, we build on recent work to design a benchmark to evaluate time series foundation models on diverse tasks and datasets in limited supervision settings. Experiments on this benchmark demonstrate the effectiveness of our pre-trained models with minimal data and task-specific fine-tuning. Finally, we present several interesting empirical observations about large pre-trained time series models. Pre-trained models (AutonLab/MOMENT-1-large) and Time Series Pile (AutonLab/Timeseries-PILE) are available on Huggingface.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# 絡み合った量子サブシステムを生成するための頂点最小普遍グラフ

Vertex-minor universal graphs for generating entangled quantum subsystems ( http://arxiv.org/abs/2402.06260v3 )

ライセンス: Link先を確認
Maxime Cautrès, Nathan Claudet, Mehdi Mhalla, Simon Perdrix, Valentin Savin, Stéphan Thomassé, (参考訳) 我々は、局所的な演算と古典的な通信のみを用いることで、任意の$k$量子ビット上の安定化状態が誘導されるように、$k$-安定化器の普遍量子状態、すなわち$n$-qubit量子状態の概念を研究する。 これらの状態は Bravyi らによって導入された $k$-pairable state の概念を一般化し、グラフ状態と $k$-vertex-minor Universal graph を用いて組合せの観点から研究することができる。 まず、$n=\Theta(k^2)$ qubits で最適な $k$-stabilizer Universal graph 状態の存在を実証する。 また、$\Theta(k^2)$ qubits 上のランダムグラフ状態が、高い確率で $k$-stabilizer Universal となるパラメータも提供する。 第2のコントリビューションは、$n = O(k^4)$ qubits 上の$k$-stabilizer普遍グラフ状態の明示的な2つの構成からなる。 どちらも有限体 $\mathbb{F}_q$ 上の射影平面の入射グラフに依存する。 これは、以前にも知られていた$k$-pairableグラフ状態の$n = O(2^{3k})$の明示的な構成よりも大幅に改善され、新しい、潜在的に強力な多部量子リソースの族が生まれる。

We study the notion of $k$-stabilizer universal quantum state, that is, an $n$-qubit quantum state, such that it is possible to induce any stabilizer state on any $k$ qubits, by using only local operations and classical communications. These states generalize the notion of $k$-pairable states introduced by Bravyi et al., and can be studied from a combinatorial perspective using graph states and $k$-vertex-minor universal graphs. First, we demonstrate the existence of $k$-stabilizer universal graph states that are optimal in size with $n=\Theta(k^2)$ qubits. We also provide parameters for which a random graph state on $\Theta(k^2)$ qubits is $k$-stabilizer universal with high probability. Our second contribution consists of two explicit constructions of $k$-stabilizer universal graph states on $n = O(k^4)$ qubits. Both rely upon the incidence graph of the projective plane over a finite field $\mathbb{F}_q$. This provides a major improvement over the previously known explicit construction of $k$-pairable graph states with $n = O(2^{3k})$, bringing forth a new and potentially powerful family of multipartite quantum resources.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# シャドーインバージョンによる量子トモグラフィーの最適化

Optimising quantum tomography via shadow inversion ( http://arxiv.org/abs/2402.06727v3 )

ライセンス: Link先を確認
Andrea Caprotti, Joshua Morris, Borivoje Dakić, (参考訳) 量子情報理論において、観測可能量の正確な推定は、量子情報処理において重要であり、計算および通信プロトコルにおいて重要な役割を果たす。 本研究は、従来の影の逆写像における未利用資源を利用して、余分なオーバーヘッドを伴わずに観測対象物の推定コストを大幅に改善する、そのようなオブジェクトを推定する新しい手法を導入する。 シャドウ反転の同次空間における計算と追加自由度を最適化するための一般化された枠組みは、様々な短期問題に適応する可能性がある。 局所測定戦略の特別の場合では、サンプル複雑性と標準アプローチの指数的な分離につながる実現可能な最適化を示し、例外的に、局所測定に最適化された後処理の非自明な例を与え、グローバルなクリフォードの影と同じ効率を達成する。

In quantum information theory, the accurate estimation of observables is pivotal for quantum information processing, playing a crucial role in compute and communication protocols. This work introduces a novel technique for estimating such objects, leveraging an underutilised resource in the inversion map of classical shadows that greatly refines the estimation cost of target observables without incurring any additional overhead. A generalised framework for computing and optimising additional degrees of freedom in the homogeneous space of the shadow inversion is given that may be adapted to a variety of near-term problems. In the special case of local measurement strategies we show feasible optimisation leading to an exponential separation in sample complexity versus the standard approach and in an exceptional case we give non-trivial examples of optimised post-processing for local measurements, achieving the same efficiency as the global Cliffords shadows.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# VistaScenario: 交通自動化のためのインテリジェントシステムと車両のインタラクションシナリオエンジニアリング

VistaScenario: Interaction Scenario Engineering for Vehicles with Intelligent Systems for Transport Automation ( http://arxiv.org/abs/2402.07720v2 )

ライセンス: Link先を確認
Cheng Chang, Jiawei Zhang, Jingwei Ge, Zuo Zhang, Junqing Wei, Li Li, Fei-Yue Wang, (参考訳) インテリジェントな車両と自律運転システムは、インテリジェンスとインデックス(I&I)、キャリブレーションと認証(C&C)、検証と検証(V&V)のためのシナリオエンジニアリングに依存している。 シナリオを抽出し、インデックス化するために、様々な車両の相互作用は、多くの注意に値するものであり、洗練された記述とラベルに値する。 しかし,既存の手法では,シナリオ分類や車間相互作用のラベル付けといった問題に対処できない。 本稿では,交通自動化のためのインテリジェントシステムを備えた車両のインタラクションシナリオエンジニアリングを実現するためのVistaScenarioフレームワークを提案する。 車両間の相互作用の要約に基づいて、時空間シナリオ進化木を用いて、シナリオデータストリームを一連のセグメントに分割する。 また、グラフ計算木と動的時間ワープに基づくシナリオメトリクスグラフDTWを提案し、洗練されたシナリオ比較とラベル付けを行う。 極端な相互作用シナリオとコーナーケースを効率的にフィルタリングして抽出することができる。 さらに、自然主義的なシナリオデータセットを用いて、軌道予測モデル上でのテスト例は、我々のフレームワークの有効性と利点を実証する。 VistaScenarioは、シナリオデータの使用とインデックス化の確固たるサポートを提供し、インテリジェントな車両の開発とトランスポート自動化をさらに促進することができる。

Intelligent vehicles and autonomous driving systems rely on scenario engineering for intelligence and index (I&I), calibration and certification (C&C), and verification and validation (V&V). To extract and index scenarios, various vehicle interactions are worthy of much attention, and deserve refined descriptions and labels. However, existing methods cannot cope well with the problem of scenario classification and labeling with vehicle interactions as the core. In this paper, we propose VistaScenario framework to conduct interaction scenario engineering for vehicles with intelligent systems for transport automation. Based on the summarized basic types of vehicle interactions, we slice scenario data stream into a series of segments via spatiotemporal scenario evolution tree. We also propose the scenario metric Graph-DTW based on Graph Computation Tree and Dynamic Time Warping to conduct refined scenario comparison and labeling. The extreme interaction scenarios and corner cases can be efficiently filtered and extracted. Moreover, with naturalistic scenario datasets, testing examples on trajectory prediction model demonstrate the effectiveness and advantages of our framework. VistaScenario can provide solid support for the usage and indexing of scenario data, further promote the development of intelligent vehicles and transport automation.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# AtlassianにおけるCIビルドの失敗予測の実践者による課題と認識

Practitioners' Challenges and Perceptions of CI Build Failure Predictions at Atlassian ( http://arxiv.org/abs/2402.09651v2 )

ライセンス: Link先を確認
Yang Hong, Chakkrit Tantithamthavorn, Jirat Pasuksmit, Patanamon Thongtanunam, Arik Friedman, Xing Zhao, Anton Krasikov, (参考訳) 継続的インテグレーション(CI)ビルドの失敗は、新機能のリリースの遅れや開発者の生産性の低下など、ソフトウェア開発プロセスやチームに大きな影響を与える可能性がある。 本稿では,Atlassianの製品開発全体にわたってCIビルドの失敗を調査する実証的研究について報告する。 私たちの定量的分析では、リポジトリの寸法がCIビルドの失敗に影響を及ぼす重要な要因であることが分かりました。 さらに、当社の質的な調査によると、Atlassianの開発者は、CIビルドの失敗を実践上の課題として認識している。 さらに、CIビルドの予測は、CIビルドの失敗に対する積極的な洞察を提供するだけでなく、チームの意思決定を促進することができることもわかりました。 当社の研究では、CIビルド予測ツールをBitbucket環境に統合する上での課題と期待について光を当て、CIプロセスの強化に有用な洞察を提供しています。

Continuous Integration (CI) build failures could significantly impact the software development process and teams, such as delaying the release of new features and reducing developers' productivity. In this work, we report on an empirical study that investigates CI build failures throughout product development at Atlassian. Our quantitative analysis found that the repository dimension is the key factor influencing CI build failures. In addition, our qualitative survey revealed that Atlassian developers perceive CI build failures as challenging issues in practice. Furthermore, we found that the CI build prediction can not only provide proactive insight into CI build failures but also facilitate the team's decision-making. Our study sheds light on the challenges and expectations involved in integrating CI build prediction tools into the Bitbucket environment, providing valuable insights for enhancing CI processes.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# 臨界崩壊と損失分布制御

Criterion Collapse and Loss Distribution Control ( http://arxiv.org/abs/2402.09802v2 )

ライセンス: Link先を確認
Matthew J. Holland, (参考訳) 本研究では,DRO と OCE リスク (CVaR, 傾倒ERM) から,最近の文献(Flooding, SoftAD) で探索された漸近的アルゴリズム(Flooding, SoftAD) の根底にある非単調な基準まで,多岐にわたる学習基準下での誤り確率最小化条件に着目し,ある指標の最適化が他の指標の最適性を示唆する「基準崩壊」の概念を考察する。 我々は,ベルヌーイ分布による損失の文脈における崩壊が,CVaR や DRO の既存の結果よりもはるかに大きいことを示す。

In this work, we consider the notion of "criterion collapse," in which optimization of one metric implies optimality in another, with a particular focus on conditions for collapse into error probability minimizers under a wide variety of learning criteria, ranging from DRO and OCE risks (CVaR, tilted ERM) to non-monotonic criteria underlying recent ascent-descent algorithms explored in the literature (Flooding, SoftAD). We show how collapse in the context of losses with a Bernoulli distribution goes far beyond existing results for CVaR and DRO, then expand our scope to include surrogate losses, showing conditions where monotonic criteria such as tilted ERM cannot avoid collapse, whereas non-monotonic alternatives can.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# 独立サンプリングを用いた異種無線ネットワークにおける適応的フェデレーション学習

Adaptive Federated Learning in Heterogeneous Wireless Networks with Independent Sampling ( http://arxiv.org/abs/2402.10097v3 )

ライセンス: Link先を確認
Jiaxiang Geng, Yanzhao Hou, Xiaofeng Tao, Juncheng Wang, Bing Luo, (参考訳) フェデレートラーニング(FL)アルゴリズムは、トラグラー問題に対処し、通信効率を向上させるために、通常、クライアントのランダムなサブセットをサンプリングする。 最近の研究では、様々なクライアントサンプリング手法が提案されているが、実際の異種無線ネットワークと一致しない、ジョイントシステムとデータ均一性設計に制限がある。 本研究では,FLのウォールクロック学習時間を最小限に抑えるために,データ不均一性とシステム不均一性を考慮した新たなクライアントサンプリング手法を提案する。 まず、独立クライアントサンプリングによる非凸損失関数に対する新しい収束を導出し、適応帯域幅割り当て方式を提案する。 さらに,データとシステムの不均一性の両方を考慮して,FLのウォールクロック時間を最小限に抑えるために,収束ラウンドの上限とラウンド単位のトレーニング時間に基づく効率的な独立クライアントサンプリングアルゴリズムを提案する。 実世界のプロトタイプを用いた実用的な無線ネットワーク環境下での実験結果から,提案手法は,様々なトレーニングモデルやデータセットにおいて,現在最高のサンプリング方式よりもかなり優れていることが示された。

Federated Learning (FL) algorithms commonly sample a random subset of clients to address the straggler issue and improve communication efficiency. While recent works have proposed various client sampling methods, they have limitations in joint system and data heterogeneity design, which may not align with practical heterogeneous wireless networks. In this work, we advocate a new independent client sampling strategy to minimize the wall-clock training time of FL, while considering data heterogeneity and system heterogeneity in both communication and computation. We first derive a new convergence bound for non-convex loss functions with independent client sampling and then propose an adaptive bandwidth allocation scheme. Furthermore, we propose an efficient independent client sampling algorithm based on the upper bounds on the convergence rounds and the expected per-round training time, to minimize the wall-clock time of FL, while considering both the data and system heterogeneity. Experimental results under practical wireless network settings with real-world prototype demonstrate that the proposed independent sampling scheme substantially outperforms the current best sampling schemes under various training models and datasets.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-14
# Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing ( http://arxiv.org/abs/2402.15151v2 )

ライセンス: Link先を確認
Jeong Hun Yeo, Seunghee Han, Minsu Kim, Yong Man Ro, (参考訳) 視覚音声処理における文脈モデリング能力は、唇運動のあいまいさに起因する最も重要な要件の1つである。 例えば、同一の唇の動きを共有し、異なる音を出す単語であるホモフェーンは、文脈を考慮して区別することができる。 本稿では,LLMを組み込んだビジュアル音声処理(VSP-LLM)を提案する。 具体的には、VSP-LLMは、与えられた指示がタスクのタイプを制御する視覚音声認識と翻訳のマルチタスクを実行するように設計されている。 自己教師型視覚音声モデルを用いて、入力映像をLSMの入力潜時空間にマッピングする。 入力フレームに冗長な情報が存在することに着目し、視覚音声ユニットを用いることで、組込みの視覚的特徴を低減できる新しい復号法を提案する。 提案した復号化とローランク適応(LoRA)により、VSP-LLMを計算的に効率的に訓練することができる。 翻訳データセットであるMuAViCベンチマークでは、わずか30時間のラベル付きデータに基づいてトレーニングされたVSP-LLMが、433時間のデータでトレーニングされた最近のモデルと比較して、唇の動きをより効果的に翻訳できることを示した。

In visual speech processing, context modeling capability is one of the most important requirements due to the ambiguous nature of lip movements. For example, homophenes, words that share identical lip movements but produce different sounds, can be distinguished by considering the context. In this paper, we propose a novel framework, namely Visual Speech Processing incorporated with LLMs (VSP-LLM), to maximize the context modeling ability by bringing the overwhelming power of LLMs. Specifically, VSP-LLM is designed to perform multi-tasks of visual speech recognition and translation, where the given instructions control the type of task. The input video is mapped to the input latent space of an LLM by employing a self-supervised visual speech model. Focused on the fact that there is redundant information in input frames, we propose a novel deduplication method that reduces the embedded visual features by employing visual speech units. Through the proposed deduplication and Low Rank Adaptation (LoRA), VSP-LLM can be trained in a computationally efficient manner. In the translation dataset, the MuAViC benchmark, we demonstrate that VSP-LLM trained on just 30 hours of labeled data can more effectively translate lip movements compared to the recent model trained with 433 hours of data.
翻訳日:2024-05-15 19:01:49 公開日:2024-05-14
# PiShield: 必要なものを学ぶためのPyTorchパッケージ

PiShield: A PyTorch Package for Learning with Requirements ( http://arxiv.org/abs/2402.18285v2 )

ライセンス: Link先を確認
Mihaela Cătălina Stoian, Alex Tatomir, Thomas Lukasiewicz, Eleonora Giunchiglia, (参考訳) ディープラーニングモデルは様々なアプリケーション領域でその強みを示しているが、アウトプットの安全性要件を満たすのに苦労することが多い。 本稿では,ニューラルネットワークのトポロジへの要求の統合を可能にする最初のパッケージであるPiShieldを紹介する。 PiShieldは、入力に関係なく、これらの要件に準拠することを保証します。 さらに、実践者のニーズに応じて、推論時と/またはトレーニング時の両方の要件を統合することもできる。 ディープラーニングの広範な適用を考えると、さまざまなドメインにまたがる要件の統合を可能にするフレームワークの必要性が高まっている。 ここでは,機能ゲノミクス,自律運転,表データ生成という,3つのアプリケーションシナリオについて検討する。

Deep learning models have shown their strengths in various application domains, however, they often struggle to meet safety requirements for their outputs. In this paper, we introduce PiShield, the first package ever allowing for the integration of the requirements into the neural networks' topology. PiShield guarantees compliance with these requirements, regardless of input. Additionally, it allows for integrating requirements both at inference and/or training time, depending on the practitioners' needs. Given the widespread application of deep learning, there is a growing need for frameworks allowing for the integration of the requirements across various domains. Here, we explore three application scenarios: functional genomics, autonomous driving, and tabular data generation.
翻訳日:2024-05-15 19:01:49 公開日:2024-05-14
# ParallelPARC: 自然言語アナロジーを生成するためのスケーラブルなパイプライン

ParallelPARC: A Scalable Pipeline for Generating Natural-Language Analogies ( http://arxiv.org/abs/2403.01139v4 )

ライセンス: Link先を確認
Oren Sultan, Yonatan Bitton, Ron Yosef, Dafna Shahaf, (参考訳) アナロジー作成は人間の認知の中心であり、新しい状況に適応することができる。 現在、ほとんどのアナロジーデータセットは単純なアナロジー(例:単語のアナロジー)に焦点を当てている。 これは計算類似の進歩を後押ししていると我々は信じている。 本研究では,現在最先端のLarge Language Models (LLM) を利用したデータ生成パイプラインであるParallelPARC (Parallel Paragraph Creator) を設計し,複雑な段落をベースとしたアナロジーと,複雑で難易度の高いイントラクタを作成する。 当社のパイプラインを実演し、科学的プロセス間のアナロジーのデータセットであるProPara-Logyを作成します。 我々は人によって検証された金のセットと銀のセットを自動生成する。 我々は、LLMと人間のアナロジー認識を二分選択および複数選択設定でテストし、光監督後、人間が最良のモデル(〜13%のギャップ)より優れていることを示した。 私たちは、銀のセットがトレーニングモデルに役立つことを実証します。 最後に、難解な気晴らし者がLSMを混乱させるが、人間ではないことを示す。 私たちのパイプラインは、この新興分野の研究を促進することを願っています。

Analogy-making is central to human cognition, allowing us to adapt to novel situations -- an ability that current AI systems still lack. Most analogy datasets today focus on simple analogies (e.g., word analogies); datasets including complex types of analogies are typically manually curated and very small. We believe that this holds back progress in computational analogy. In this work, we design a data generation pipeline, ParallelPARC (Parallel Paragraph Creator) leveraging state-of-the-art Large Language Models (LLMs) to create complex, paragraph-based analogies, as well as distractors, both simple and challenging. We demonstrate our pipeline and create ProPara-Logy, a dataset of analogies between scientific processes. We publish a gold-set, validated by humans, and a silver-set, generated automatically. We test LLMs' and humans' analogy recognition in binary and multiple-choice settings, and found that humans outperform the best models (~13% gap) after a light supervision. We demonstrate that our silver-set is useful for training models. Lastly, we show challenging distractors confuse LLMs, but not humans. We hope our pipeline will encourage research in this emerging field.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 医療用大規模言語モデルの構築に向けて

Towards Safe Large Language Models for Medicine ( http://arxiv.org/abs/2403.03744v3 )

ライセンス: Link先を確認
Tessa Han, Aounon Kumar, Chirag Agarwal, Himabindu Lakkaraju, (参考訳) 大規模言語モデル(LLM)は、常に改善され、現実世界の環境で適用されるため、安全性を理解することが重要である。 一般知識 LLM の安全性を評価するための最初の段階が取られたが、医療 LLM の安全性は、個人の健康と安全、公衆衛生と安全、患者の権利、人権に対するリスクが高いにもかかわらず十分に評価されていない。 このギャップに対処するため、我々は、医療用LDMの安全性を評価し改善するための、その種の最初の研究を行う。 私たちはそれを見つける。 1)現在の医療用LSMは、有害な要求に容易に従うため、一般または医療安全の基準を満たしていない。 2) 安全実証における微調整医療LLMは安全性を著しく向上させ, 有害な要求に応じる傾向を低下させる。 さらに, LLM の医療安全の定義と, LLM の医療安全を評価するためのベンチマークデータセットの開発について述べる。 機械学習の安全性と医療機械学習の研究が交わる中で、この研究は医療用LLMの安全性の現状に光を当て、この分野での今後の研究を動機付け、医学におけるLLMの害のリスクを軽減する。

As large language models (LLMs) develop ever-improving capabilities and are applied in real-world settings, it is important to understand their safety. While initial steps have been taken to evaluate the safety of general-knowledge LLMs, exposing some weaknesses, the safety of medical LLMs has not been sufficiently evaluated despite their high risks to personal health and safety, public health and safety, patient rights, and human rights. To address this gap, we conduct, to our knowledge, the first study of its kind to evaluate and improve the safety of medical LLMs. We find that 1) current medical LLMs do not meet standards of general or medical safety, as they readily comply with harmful requests and that 2) fine-tuning medical LLMs on safety demonstrations significantly improves their safety, reducing their tendency to comply with harmful requests. In addition, we present a definition of medical safety for LLMs and develop a benchmark dataset to evaluate and train for medical safety in LLMs. Poised at the intersection of research on machine learning safety and medical machine learning, this work casts light on the status quo of the safety of medical LLMs and motivates future work in this area, mitigating the risks of harm of LLMs in medicine.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 一般化多核融合弦-ネットモデルの弱ホップ対称性と管代数

Weak Hopf symmetry and tube algebra of the generalized multifusion string-net model ( http://arxiv.org/abs/2403.04446v2 )

ライセンス: Link先を確認
Zhian Jia, Sheng Tan, Dagomir Kaszlikowski, (参考訳) 弦-ネット基底状態と格子ハミルトン状態の多重融合一般化について検討し、関連する弱いホップ対称性について検討する。 マルチフュージョン弦ネットに対して、ゲージ対称性は一般的な弱ホップ代数として現れ、還元可能な真空弦ラベルへとつながり、ゲージ対称性の量子二重として機能する電荷対称性は連結弱ホップ代数を構成する。 これは、関連する位相位相がユニタリモジュラーテンソル圏(UMTC)によって特徴づけられることを示唆している。 バルク電荷対称性は弱いホップ管代数によっても捉えることができる。 弱いホップ管代数の構造を明示的に構築し、その性質を徹底的に議論する。 ギャップ付き境界モデルとドメインウォールモデルについては、ユニタリ・マルチフュージョン・カテゴリ(UMFC)を特徴とする1ドルのフェーズが広く議論されている。 我々は、これらの1d$相のゲージと電荷対称性、および境界と磁壁管代数の構成を掘り下げる。 さらに、領域壁管代数は2つの境界管代数の交叉積とみなすことができる。 本モデルの適用例として,欠陥文字列ネットを制限付きマルチフュージョン文字列ネットとして解釈する方法を解明する。

We investigate the multifusion generalization of string-net ground states and lattice Hamiltonians, delving into its associated weak Hopf symmetry. For the multifusion string-net, the gauge symmetry manifests as a general weak Hopf algebra, leading to a reducible vacuum string label; the charge symmetry, serving as a quantum double of gauge symmetry, constitutes a connected weak Hopf algebra. This implies that the associated topological phase retains its characterization by a unitary modular tensor category (UMTC). The bulk charge symmetry can also be captured by a weak Hopf tube algebra. We offer an explicit construction of the weak Hopf tube algebra structure and thoroughly discuss its properties. The gapped boundary and domain wall models are extensively discussed, with these $1d$ phases characterized by unitary multifusion categories (UMFCs). We delve into the gauge and charge symmetries of these $1d$ phases, as well as the construction of the boundary and domain wall tube algebras. Additionally, we illustrate that the domain wall tube algebra can be regarded as a cross product of two boundary tube algebras. As an application of our model, we elucidate how to interpret the defective string-net as a restricted multifusion string-net.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# Tell, Don't Show!: 画像とビデオのドメイン間で言語指導が伝達される

Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos ( http://arxiv.org/abs/2403.05535v2 )

ライセンス: Link先を確認
Tarun Kalluri, Bodhisattwa Prasad Majumder, Manmohan Chandraker, (参考訳) ラベル付きソースからラベル付きターゲットデータへの識別的知識の堅牢な転送をドメインシフトで導くために,手軽に入手可能あるいは容易に取得可能なテキスト記述を利用する新しいフレームワークであるLaGTranを紹介する。 この問題を解決するために教師なし適応法が確立されているが、ピクセル空間内での排他的操作のため、ドメインシフトに挑戦する際の制限を示す。 意味的にリッチなテキストのモダリティがより好ましい転送特性を持つという私たちの観察に触発された我々は、ソース学習されたテキスト分類器を使用して、対象のテキスト記述の予測を生成し、これらの予測を対応する画像の監督として利用するトランスファー機構を考案した。 言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する従来のアプローチよりもはるかに優れています。 画像以外の研究範囲をさらに拡大するため,ビデオのエゴ・エクソ・トランスファーを調査するための新しいベンチマークを導入し,言語支援のLaGTranが,この高度に困難な非自明なトランスファー設定において大きな利益をもたらすことを発見した。 コード、モデル、提案されたデータセットはhttps://tarun005.github.io/lagtran/.comで公開されている。

We introduce LaGTran, a novel framework that utilizes readily available or easily acquired text descriptions to guide robust transfer of discriminative knowledge from labeled source to unlabeled target data with domain shifts. While unsupervised adaptation methods have been established to address this problem, they show limitations in handling challenging domain shifts due to their exclusive operation within the pixel-space. Motivated by our observation that semantically richer text modality has more favorable transfer properties, we devise a transfer mechanism to use a source-trained text-classifier to generate predictions on the target text descriptions, and utilize these predictions as supervision for the corresponding images. Our approach driven by language guidance is surprisingly easy and simple, yet significantly outperforms all prior approaches on challenging datasets like GeoNet and DomainNet, validating its extreme effectiveness. To further extend the scope of our study beyond images, we introduce a new benchmark to study ego-exo transfer in videos and find that our language-aided LaGTran yields significant gains in this highly challenging and non-trivial transfer setting. Code, models, and proposed datasets are publicly available at https://tarun005.github.io/lagtran/.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# VidProM: テキストとビデオの拡散モデルのための数百万スケールのリアルプロンプトギャラリーデータセット

VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models ( http://arxiv.org/abs/2403.06098v3 )

ライセンス: Link先を確認
Wenhao Wang, Yi Yang, (参考訳) Soraの登場は、テキストからビデオへの拡散モデルの新しい時代であり、ビデオ生成と潜在的な応用に大きな進歩をもたらした。 しかし、他のテキスト・ビデオ拡散モデルと同様に、Soraはプロンプトに非常に依存しており、テキスト・ビデオ・プロンプトの研究を特徴とするデータセットは公開されていない。 本稿では,実ユーザからの167万のユニークなテキスト・ビデオ・プロンプトからなる,最初の大規模データセットであるVidProMを紹介する。 さらに、このデータセットには、関連するデータとともに、4つの最先端拡散モデルによって生成された669万のビデオが含まれている。 まず、この大規模データセットのキュレーションについて論じます。 その後、VidProMが、画像生成のための大規模なプロンプトガリーデータセットであるDiffusionDBとどのように異なるかを示すことによって、テキスト・ビデオ生成用に特別に設計された新しいプロンプトデータセットの必要性を強調した。 私たちの広範囲で多様なデータセットは、多くのエキサイティングな新しい研究領域も開きます。 例えば、拡散モデルのためのテキスト・ツー・ビデオ・プロンプト・エンジニアリング、効率的なビデオ生成、ビデオコピー検出について検討し、より良く、より効率的に、より安全なモデルを開発することを提案する。 このプロジェクトは、CC-BY-NC 4.0ライセンスの下でhttps://vidprom.github.ioで公開されている。

The arrival of Sora marks a new era for text-to-video diffusion models, bringing significant advancements in video generation and potential applications. However, Sora, along with other text-to-video diffusion models, is highly reliant on prompts, and there is no publicly available dataset that features a study of text-to-video prompts. In this paper, we introduce VidProM, the first large-scale dataset comprising 1.67 Million unique text-to-Video Prompts from real users. Additionally, this dataset includes 6.69 million videos generated by four state-of-the-art diffusion models, alongside some related data. We initially discuss the curation of this large-scale dataset, a process that is both time-consuming and costly. Subsequently, we underscore the need for a new prompt dataset specifically designed for text-to-video generation by illustrating how VidProM differs from DiffusionDB, a large-scale prompt-gallery dataset for image generation. Our extensive and diverse dataset also opens up many exciting new research areas. For instance, we suggest exploring text-to-video prompt engineering, efficient video generation, and video copy detection for diffusion models to develop better, more efficient, and safer models. The project (including the collected dataset VidProM and related code) is publicly available at https://vidprom.github.io under the CC-BY-NC 4.0 License.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 不確実性下におけるクレディブルニューラルネットワークサロゲートモデルの戦略的発見のための枠組み

A Framework for Strategic Discovery of Credible Neural Network Surrogate Models under Uncertainty ( http://arxiv.org/abs/2403.08901v3 )

ライセンス: Link先を確認
Pratyush Kumar Singh, Kathryn A. Farrell-Maupin, Danial Faghihi, (参考訳) 複雑な物理システムの高忠実度シミュレーションのためのデータ駆動サロゲートモデル開発におけるディープニューラルネットワークの広範な統合は、堅牢な不確実性定量化技術と信頼性評価手法にとって重要な必要性を強調し、連続的な意思決定におけるサロゲートモデルの信頼性を保証する。 本研究では,様々なニューラルネットワーククラスやアーキテクチャやハイパーパラメータの選択など,ポテンシャルモデルの空間内で予測型ニューラルネットワークに基づくサロゲートモデルを探索するための体系的枠組みを提供する。 このフレームワークは階層的ベイズ推定に基づいており、不確実性下での代理モデルの信頼性と予測信頼性を評価するためにモデル検証テストを採用している。 これらの原則を活用して、OPAL-サロゲートは、モデルの複雑さ、正確性、予測の不確実性の間のトレードオフのバランスをとるための、体系的で効率的な戦略を導入します。 ハイブリッドロケットモータにおける固体燃料のアブレーションのための断熱材および乱流燃焼流の多孔質材料の変形を含む2つのモデリング問題を通じて,OPALサロゲートの有効性を実証した。

The widespread integration of deep neural networks in developing data-driven surrogate models for high-fidelity simulations of complex physical systems highlights the critical necessity for robust uncertainty quantification techniques and credibility assessment methodologies, ensuring the reliable deployment of surrogate models in consequential decision-making. This study presents the Occam Plausibility Algorithm for surrogate models (OPAL-surrogate), providing a systematic framework to uncover predictive neural network-based surrogate models within the large space of potential models, including various neural network classes and choices of architecture and hyperparameters. The framework is grounded in hierarchical Bayesian inferences and employs model validation tests to evaluate the credibility and prediction reliability of the surrogate models under uncertainty. Leveraging these principles, OPAL-surrogate introduces a systematic and efficient strategy for balancing the trade-off between model complexity, accuracy, and prediction uncertainty. The effectiveness of OPAL-surrogate is demonstrated through two modeling problems, including the deformation of porous materials for building insulation and turbulent combustion flow for the ablation of solid fuels within hybrid rocket motors.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 機械学習における重要度重み付けに関する短い調査

A Short Survey on Importance Weighting for Machine Learning ( http://arxiv.org/abs/2403.10175v2 )

ライセンス: Link先を確認
Masanari Kimura, Hideitsu Hino, (参考訳) 重要性重み付けは、ある意味でのインスタンスの重要性に基づいて目的関数や確率分布を重み付けする統計学と機械学習の基本的な手順である。 このアイデアの単純さと有用性は、重要度重み付けの多くの応用に繋がった。 例えば、分布シフトと呼ばれる、トレーニングとテストの分布の違いに関する仮定に基づく教師あり学習は、その密度比による重み付けによって統計的に望ましい特性を保証できることが知られている。 この調査は、機械学習と関連する研究における重み付けの幅広い応用について要約する。

Importance weighting is a fundamental procedure in statistics and machine learning that weights the objective function or probability distribution based on the importance of the instance in some sense. The simplicity and usefulness of the idea has led to many applications of importance weighting. For example, it is known that supervised learning under an assumption about the difference between the training and test distributions, called distribution shift, can guarantee statistically desirable properties through importance weighting by their density ratio. This survey summarizes the broad applications of importance weighting in machine learning and related research.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 適応的推定融合を用いた大規模言語モデルの効率的なプルーニング

Efficient Pruning of Large Language Model with Adaptive Estimation Fusion ( http://arxiv.org/abs/2403.10799v2 )

ライセンス: Link先を確認
Jun Liu, Chao Wu, Changdi Yang, Hao Tang, Haoye Dong, Zhenglun Kong, Geng Yuan, Wei Niu, Dong Huang, Yanzhi Wang, (参考訳) 大規模言語モデル(LLM)は、多くの生成的な下流タスクにおいて重要なものとなり、リソースに制約のあるデバイスに効率的にデプロイする上で、避けられない傾向と重大な課題に繋がった。 構造化プルーニング(Structured pruning)は、この課題に対処するために広く使われている手法である。 しかし、複数のデコーダ層の複雑な構造を扱う場合、一般的な手法ではプルーニングに一般的な推定手法を用いることが多い。 これらのアプローチは、特定の下流タスクの精度を低下させる。 本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。 一方、複雑な構造と多層構造から得られた結果に基づいて、粗粒度と微粒度の推定を適応的に融合させることができる。 設計のすべての側面は、エンドツーエンドのプルーニングフレームワークにシームレスに統合されます。 その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。

Large language models (LLMs) have become crucial for many generative downstream tasks, leading to an inevitable trend and significant challenge to deploy them efficiently on resource-constrained devices. Structured pruning is a widely used method to address this challenge. However, when dealing with the complex structure of the multiple decoder layers, general methods often employ common estimation approaches for pruning. These approaches lead to a decline in accuracy for specific downstream tasks. In this paper, we introduce a simple yet efficient method that adaptively models the importance of each substructure. Meanwhile, it can adaptively fuse coarse-grained and finegrained estimations based on the results from complex and multilayer structures. All aspects of our design seamlessly integrate into the endto-end pruning framework. Our experimental results, compared with state-of-the-art methods on mainstream datasets, demonstrate average accuracy improvements of 1.1%, 1.02%, 2.0%, and 1.2% for LLaMa-7B,Vicuna-7B, Baichuan-7B, and Bloom-7b1, respectively.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 移動UAVにおけるホログラフィマッチングを用いたビュー中心多物体追跡

View-Centric Multi-Object Tracking with Homographic Matching in Moving UAV ( http://arxiv.org/abs/2403.10830v2 )

ライセンス: Link先を確認
Deyi Ji, Siqi Gao, Lanyun Zhu, Qi Zhu, Yiru Zhao, Peng Xu, Hongtao Lu, Feng Zhao, Jieping Ye, (参考訳) 本稿では,無人航空機(UAV)の移動における多物体追跡(MOT)の課題に対処する。これは,ホバリング,左右旋回,上下旋回といった不規則な飛行軌道が固定カメラMOTに比べてはるかに複雑である。 具体的には、シーン背景の変化は、従来のフレーム間オブジェクトIOUアソシエーションメソッドを非効率にするだけでなく、トラッキングを複雑にするオブジェクトのビューシフトも導入する。 これらの課題を克服するために,新しいユニバーサルなHomView-MOTフレームワークを提案する。このフレームワークは,移動環境におけるMOTの課題を解決するために,シーン変更に固有のHomographyを初めて活用し,Homographic MatchingとView-Centricの概念を取り入れたものだ。 本稿では,ビデオフレーム間のホログラフィ行列を高速に計算するFHEアルゴリズムを導入し,オブジェクトビュー中心ID学習(VCIL)を実現し,多視点ホログラフィを利用してクロスビューIDの特徴を学習する。 同時に、HMF(Homographic Matching Filter)は、異なるフレームからのオブジェクト境界ボックスを共通のビュープレーンにマッピングすることで、よりリアルな物理IOUアソシエーションを実現します。 大規模な実験により、これらの革新により、HomView-MOTは、著名なUAV MOTデータセットであるVisDroneとUAVDTで最先端のパフォーマンスを達成できることが証明された。

In this paper, we address the challenge of multi-object tracking (MOT) in moving Unmanned Aerial Vehicle (UAV) scenarios, where irregular flight trajectories, such as hovering, turning left/right, and moving up/down, lead to significantly greater complexity compared to fixed-camera MOT. Specifically, changes in the scene background not only render traditional frame-to-frame object IOU association methods ineffective but also introduce significant view shifts in the objects, which complicates tracking. To overcome these issues, we propose a novel universal HomView-MOT framework, which for the first time, harnesses the view Homography inherent in changing scenes to solve MOT challenges in moving environments, incorporating Homographic Matching and View-Centric concepts. We introduce a Fast Homography Estimation (FHE) algorithm for rapid computation of Homography matrices between video frames, enabling object View-Centric ID Learning (VCIL) and leveraging multi-view Homography to learn cross-view ID features. Concurrently, our Homographic Matching Filter (HMF) maps object bounding boxes from different frames onto a common view plane for a more realistic physical IOU association. Extensive experiments have proven that these innovations allow HomView-MOT to achieve state-of-the-art performance on prominent UAV MOT datasets VisDrone and UAVDT.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 弱教師付きビデオパラグラフグラウンドにおける共同アライメントと回帰を用いたシームズ学習

Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding ( http://arxiv.org/abs/2403.11463v2 )

ライセンス: Link先を確認
Chaolei Tan, Jianhuang Lai, Wei-Shi Zheng, Jian-Fang Hu, (参考訳) ビデオ・パラグラフ・グラウンディング(VPG)はビデオ言語理解における新たな課題であり、意味的関係と時間的順序を持つ複数の文を非トリミングビデオからローカライズすることを目的としている。 しかし、既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。 本稿では,WSVPG(Weakly-Supervised Video Paragraph Grounding)を導入し,時間的アノテーションの必要性を排除する。 複数段階の候補ランキングのための複数段階のインスタンス学習や再構成学習に基づく従来の弱教師付き基盤フレームワークとは違い,WSVPGの簡潔な1段階のローカライゼーションを実現するために,タイムスタンプラベルを使わずに,クロスモーダルな特徴アライメントと時間的座標回帰を共同で学習する新しいサイムズ学習フレームワークを提案する。 具体的には,2つの重み分担分枝からなるシームズグラウンドディングTRansformer(SiamGTR)を考案し,補完的な監督を学習する。 拡張ブランチは、擬似ビデオ内の完全段落の時間的境界を直接回帰するために利用され、推論ブランチは、通常のビデオ内の複数の文をローカライズするための順序付き特徴対応をキャプチャするように設計されている。 より広範な実験により、我々のパラダイムは、弱教師付きあるいは半教師付き学習を効果的に達成し、同じまたはより強い監督で訓練された最先端の手法よりも優れた実践性と柔軟性を有することを示した。

Video Paragraph Grounding (VPG) is an emerging task in video-language understanding, which aims at localizing multiple sentences with semantic relations and temporal order from an untrimmed video. However, existing VPG approaches are heavily reliant on a considerable number of temporal labels that are laborious and time-consuming to acquire. In this work, we introduce and explore Weakly-Supervised Video Paragraph Grounding (WSVPG) to eliminate the need of temporal annotations. Different from previous weakly-supervised grounding frameworks based on multiple instance learning or reconstruction learning for two-stage candidate ranking, we propose a novel siamese learning framework that jointly learns the cross-modal feature alignment and temporal coordinate regression without timestamp labels to achieve concise one-stage localization for WSVPG. Specifically, we devise a Siamese Grounding TRansformer (SiamGTR) consisting of two weight-sharing branches for learning complementary supervision. An Augmentation Branch is utilized for directly regressing the temporal boundaries of a complete paragraph within a pseudo video, and an Inference Branch is designed to capture the order-guided feature correspondence for localizing multiple sentences in a normal video. We demonstrate by extensive experiments that our paradigm has superior practicability and flexibility to achieve efficient weakly-supervised or semi-supervised learning, outperforming state-of-the-art methods trained with the same or stronger supervision.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 4つの書記体系の探索と標準化による台湾語の北海二国訳の強化

Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems ( http://arxiv.org/abs/2403.12024v2 )

ライセンス: Link先を確認
Bo-Han Lu, Yi-Hsuan Lin, En-Shiun Annie Lee, Richard Tzong-Han Tsai, (参考訳) 機械翻訳は主に高リソース言語(HRL)に重点を置いているが、台湾のホッキエンのような低リソース言語(LRL)は比較的研究が進んでいない。 本研究は,台湾のホッキエンと中国語と英語の二重翻訳モデルを開発することにより,このギャップを解消することを目的とする。 台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化したLLaMA 2-7Bモデルを事前訓練した。 本研究の総合的な実験は,台湾のホクキエンおよび台湾のホクキエンおよび他のHRL間の各種書記システム間の翻訳作業を含む。 限定的な単言語コーパスの使用により,台湾語のHokkien能力がさらに向上することが判明した。 そして、翻訳モデルを用いて、台湾のすべての法キエン文字体系を北キエン漢に標準化し、さらなる性能向上を実現した。 さらに,逆翻訳とGPT-4を併用した評価手法を導入し,LRLにおいても信頼性の高い翻訳品質評価を実現する。 この研究は台湾のホッキエンの資源ギャップを狭めることに寄与し、LLaMA 2.0に基づく事前学習と微調整の利点と限界を実証的に研究している。

Machine translation focuses mainly on high-resource languages (HRLs), while low-resource languages (LRLs) like Taiwanese Hokkien are relatively under-explored. The study aims to address this gap by developing a dual translation model between Taiwanese Hokkien and both Traditional Mandarin Chinese and English. We employ a pre-trained LLaMA 2-7B model specialized in Traditional Mandarin Chinese to leverage the orthographic similarities between Taiwanese Hokkien Han and Traditional Mandarin Chinese. Our comprehensive experiments involve translation tasks across various writing systems of Taiwanese Hokkien as well as between Taiwanese Hokkien and other HRLs. We find that the use of a limited monolingual corpus still further improves the model's Taiwanese Hokkien capabilities. We then utilize our translation model to standardize all Taiwanese Hokkien writing systems into Hokkien Han, resulting in further performance improvements. Additionally, we introduce an evaluation method incorporating back-translation and GPT-4 to ensure reliable translation quality assessment even for LRLs. The study contributes to narrowing the resource gap for Taiwanese Hokkien and empirically investigates the advantages and limitations of pre-training and fine-tuning based on LLaMA 2.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# Adversarial Nibbler: テキスト・画像生成における様々なハームの同定のためのオープンなレッドチーム化手法

Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation ( http://arxiv.org/abs/2403.12075v3 )

ライセンス: Link先を確認
Jessica Quaye, Alicia Parrish, Oana Inel, Charvi Rastogi, Hannah Rose Kirk, Minsuk Kahng, Erin van Liemt, Max Bartolo, Jess Tsang, Justin White, Nathan Clement, Rafael Mosquera, Juan Ciro, Vijay Janapa Reddi, Lora Aroyo, (参考訳) テキスト・ツー・イメージ(T2I)生成AIモデルが広範に普及するにつれて、攻撃的画像の生成を緩和するためには、非回避攻撃に対するモデルロバスト性を評価することが重要である。 単純に敵対する'プロンプトに焦点を合わせることで(不確実な理由から安全でない画像を生成するためにT2Iモデルをトリガーする)、人間の創造性が明らかにするのに適した、一連の困難な安全問題を分離する。 この目的のために、私たちは、暗黙的に敵対的なプロンプトのさまざまなセットをクラウドソーシングするための、レッドチーム方式のAdversarial Nibbler Challengeを構築しました。 我々は、最先端のT2Iモデルの集合を組み立て、害を識別し注釈するシンプルなユーザーインターフェースを採用し、様々な集団を巻き込み、標準テストで見過ごされる可能性のある長期の安全問題を捉えました。 この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。 本稿では,我々の方法論の詳細な説明,新たな攻撃戦略の体系的研究,および課題参加者が明らかにした安全障害の議論について述べる。 また、データセットからのインサイトを簡単に探索し、導出するための視覚化ツールもリリースしています。 最初のチャレンジラウンドでは、安全のためにマシンアノテーションを使用した10万以上のプロンプトイメージペアが実現した。 1.5kサンプルのサブセットには、ハーフタイプとアタックスタイルの豊富な人間のアノテーションが含まれている。 有害と思われる画像の14%は、機械によって「安全」と誤記されている。 我々は,T2Iモデルの堅牢性確保の複雑さを強調する新たな攻撃戦略を特定した。 本研究は,新たな脆弱性が出現するにつれて,継続的な監査と適応の必要性を強調した。 我々は,本研究が積極的かつ反復的な安全性評価を可能にし,T2Iモデルの責任ある開発を促進すると確信している。

With the rise of text-to-image (T2I) generative AI models reaching wide audiences, it is critical to evaluate model robustness against non-obvious attacks to mitigate the generation of offensive images. By focusing on ``implicitly adversarial'' prompts (those that trigger T2I models to generate unsafe images for non-obvious reasons), we isolate a set of difficult safety issues that human creativity is well-suited to uncover. To this end, we built the Adversarial Nibbler Challenge, a red-teaming methodology for crowdsourcing a diverse set of implicitly adversarial prompts. We have assembled a suite of state-of-the-art T2I models, employed a simple user interface to identify and annotate harms, and engaged diverse populations to capture long-tail safety issues that may be overlooked in standard testing. The challenge is run in consecutive rounds to enable a sustained discovery and analysis of safety pitfalls in T2I models. In this paper, we present an in-depth account of our methodology, a systematic study of novel attack strategies and discussion of safety failures revealed by challenge participants. We also release a companion visualization tool for easy exploration and derivation of insights from the dataset. The first challenge round resulted in over 10k prompt-image pairs with machine annotations for safety. A subset of 1.5k samples contains rich human annotations of harm types and attack styles. We find that 14% of images that humans consider harmful are mislabeled as ``safe'' by machines. We have identified new attack strategies that highlight the complexity of ensuring T2I model robustness. Our findings emphasize the necessity of continual auditing and adaptation as new vulnerabilities emerge. We are confident that this work will enable proactive, iterative safety assessments and promote responsible development of T2I models.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-14
# 2つの完全励起量子エミッタの集団非マルコフ崩壊に対する厳密解

Exact solution for the collective non-Markovian decay of two fully excited quantum emitters ( http://arxiv.org/abs/2403.13871v2 )

ライセンス: Link先を確認
Alfonso Lanuza, Dominik Schneble, (参考訳) 導波管量子電磁力学は光と物質の相互作用の現代的なパラダイムであり、強い結合、浴槽構造、伝播遅延が、量子エミッタが通常自由空間で遭遇する放射条件を破ることができる。 これらの特徴は、複雑な多光子力学を形成するために、量子エミッターと誘導放射モードの励起と相互作用する。 これまでのところ、エミッターの集合崩壊とモードによって誘導される非マルコフ効果の組み合わせは完全な解を逃れており、これらのシステムの背後にある詳細な物理は未だ分かっていない。 ここでは、1次元の単一バンド導波路に結合した2つの励起エミッタの最小系におけるこのような集合的非マルコフ崩壊を分析する。 我々は,隠れ対称性を呈し,自然崩壊の新たな形態を予測する基本関数の観点から,このシステムの正確な解を開発する。 真空カップリングとバンドの中心からのデチューニングに強く依存する集合的非マルコフ力学は、単純かつ容易に利用できる基準で特徴づけられるエキゾチックな特徴を示す。 我々の分析手法は、集合的な光-物質相互作用の複雑さに光を当て、多粒子開量子系を理解するための経路を開く。

Waveguide quantum electrodynamics constitutes a modern paradigm for the interaction of light and matter, in which strong coupling, bath structure, and propagation delays can break the radiative conditions that quantum emitters typically encounter in free space. These characteristics intertwine the excitations of quantum emitters and guided radiation modes to form complex multiphoton dynamics. So far, combining the collective decay of the emitters with the non-Markovian effects induced by the modes has escaped a full solution and the detailed physics behind these systems remains unknown. Here we analyze such a collective non-Markovian decay in a minimal system of two excited emitters coupled to a one-dimensional single-band waveguide. We develop an exact solution for this system in terms of elementary functions that unveils hidden symmetries and predicts new forms of spontaneous decay. The collective non-Markovian dynamics, which are strongly dependent on the vacuum coupling and the detuning from the center of the band, show exotic features that can be characterized with a simple and readily available criterion. Our analytic methods shed light on the complexity of collective light-matter interactions and open up a pathway for understanding multiparticle open quantum systems.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# 逆逆強化学習の再考 : 政策模倣, 転帰回復, 代数的平衡証明

Rethinking Adversarial Inverse Reinforcement Learning: Policy Imitation, Transferable Reward Recovery and Algebraic Equilibrium Proof ( http://arxiv.org/abs/2403.14593v3 )

ライセンス: Link先を確認
Yangchun Zhang, Qiang Liu, Weiming Li, Yirui Zhou, (参考訳) 逆逆強化学習(AIRL)は模倣学習における基礎的なアプローチであるが、先行研究からの批判に直面している。 本稿では,AIRLを再考し,これらの批判に答える。 批判 1 は不適切な政策模倣にある。 ポリシー更新(複数項目の要求)中に,ソフトアクタクリティカル(SAC)を組み込んだ組込みアルゴリズムが,ポリシー模倣の効率を著しく向上させることを示す。 批判2は、SAC統合にもかかわらず、転送可能なリワードリカバリにおける限定的なパフォーマンスにある。 SACは実際、政策模倣の大幅な改善を示すが、移行可能な報酬回復の欠点を生じさせる。 本研究では,SACアルゴリズム自体がAIRLトレーニングプロセス中に報酬関数を包括的に切り離すことが可能でないことを証明し,良好な伝達効果を示すためのハイブリッドフレームワーク PPO-AIRL + SAC を提案する。 批判3は、潜在的平衡の観点からの不満足な証明にある。 代数理論の観点から再解析する。

Adversarial inverse reinforcement learning (AIRL) stands as a cornerstone approach in imitation learning, yet it faces criticisms from prior studies. In this paper, we rethink AIRL and respond to these criticisms. Criticism 1 lies in Inadequate Policy Imitation. We show that substituting the built-in algorithm with soft actor-critic (SAC) during policy updating (requires multi-iterations) significantly enhances the efficiency of policy imitation. Criticism 2 lies in Limited Performance in Transferable Reward Recovery Despite SAC Integration. While we find that SAC indeed exhibits a significant improvement in policy imitation, it introduces drawbacks to transferable reward recovery. We prove that the SAC algorithm itself is not feasible to disentangle the reward function comprehensively during the AIRL training process, and propose a hybrid framework, PPO-AIRL + SAC, for a satisfactory transfer effect. Criticism 3 lies in Unsatisfactory Proof from the Perspective of Potential Equilibrium. We reanalyze it from an algebraic theory perspective.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# 文脈情報を用いた文レベルのモーフェムセグメンテーション

Using Contextual Information for Sentence-level Morpheme Segmentation ( http://arxiv.org/abs/2403.15436v2 )

ライセンス: Link先を確認
Prabin Bhandari, Abhishek Paudel, (参考訳) 最近の形態素セグメンテーションの進歩は、主に単語レベルのセグメンテーションを強調しており、しばしば文内の文脈的関連性を無視している。 本研究では,形態素分割タスクをシーケンス・ツー・シーケンス問題として再定義し,文全体を個々の単語を分離するのではなく入力として扱う。 その結果,多言語モデルの方が単言語モデルに比べて優れた性能を示した。 我々のモデルは現在の最先端言語の性能を上回りませんでしたが、低リソースの言語シナリオにおける制限を明らかにしながら、高リソースの言語に匹敵する効果を示しました。

Recent advancements in morpheme segmentation primarily emphasize word-level segmentation, often neglecting the contextual relevance within the sentence. In this study, we redefine the morpheme segmentation task as a sequence-to-sequence problem, treating the entire sentence as input rather than isolating individual words. Our findings reveal that the multilingual model consistently exhibits superior performance compared to monolingual counterparts. While our model did not surpass the performance of the current state-of-the-art, it demonstrated comparable efficacy with high-resource languages while revealing limitations in low-resource language scenarios.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# 足のロコマニピュレーションのための視覚全体制御

Visual Whole-Body Control for Legged Loco-Manipulation ( http://arxiv.org/abs/2403.16967v4 )

ライセンス: Link先を確認
Minghuan Liu, Zixuan Chen, Xuxin Cheng, Yandong Ji, Ri-Zhao Qiu, Ruihan Yang, Xiaolong Wang, (参考訳) そこで本研究では,ロボットアームを用いた移動操作の問題点について検討する。 ロボットの脚は、通常移動のために使用されるが、全身制御を行うことで操作能力を増幅する機会を提供する。 つまり、ロボットは足と腕を同時に制御し、ワークスペースを拡張する。 視覚的観察により全身制御を自律的に行うことのできる枠組みを提案する。 VBC(Visual Whole-Body Control)と呼ばれるこの手法は、あらゆる自由度を用いて、身体の速度をエンドエフェクタ位置とともに追跡する低レベルポリシーと、視覚的入力に基づいて速度とエンドエフェクタ位置を示す高レベルポリシーで構成されている。 シミュレーションにおける両レベルのポリシーをトレーニングし、実際のロボット展開のためのSim2Real転送を実行する。 さまざまな構成(高さ、位置、方向)と環境において、さまざまなオブジェクトを拾う際に、大規模な実験を行い、ベースラインよりも大幅に改善した。

We study the problem of mobile manipulation using legged robots equipped with an arm, namely legged loco-manipulation. The robot legs, while usually utilized for mobility, offer an opportunity to amplify the manipulation capabilities by conducting whole-body control. That is, the robot can control the legs and the arm at the same time to extend its workspace. We propose a framework that can conduct the whole-body control autonomously with visual observations. Our approach, namely Visual Whole-Body Control(VBC), is composed of a low-level policy using all degrees of freedom to track the body velocities along with the end-effector position, and a high-level policy proposing the velocities and end-effector position based on visual inputs. We train both levels of policies in simulation and perform Sim2Real transfer for real robot deployment. We perform extensive experiments and show significant improvements over baselines in picking up diverse objects in different configurations (heights, locations, orientations) and environments.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# GeNet: グラフニューラルネットワークによるタスク指向セマンティック通信パラダイム

GeNet: A Graph Neural Network-based Anti-noise Task-Oriented Semantic Communication Paradigm ( http://arxiv.org/abs/2403.18296v2 )

ライセンス: Link先を確認
Chunhang Zheng, Kechao Cai, (参考訳) 意味コミュニケーションタスクに対する従来のアプローチは、チャネルノイズを軽減するためにSNR(Signal-to-Noise ratio)の知識に依存していた。 さらに、これらの手法は特定のSNR条件下でのトレーニングを必要とし、かなりの時間と計算資源を必要とする。 本稿では,ノイズ対策を目的とした意味コミュニケーションのためのグラフニューラルネットワーク(GNN)に基づくパラダイムであるGeNetを提案し,タスク指向通信(TOC)を容易にする。 入力データイメージをグラフ構造に変換する新しい手法を提案する。 そして、GNNベースのエンコーダを利用して、ソースデータから意味情報を抽出する。 この抽出された意味情報はチャネルを介して送信される。 受信側の最後には、GNNベースのデコーダを使用して、TOCのソースデータから関連する意味情報を再構成する。 実験により,SNR依存性を疎結合化しながら,アンチノイズTOCにおけるGeNetの有効性を示す。 さらに,ノード数を変えてGeNetの性能を評価し,その汎用性を意味コミュニケーションの新しいパラダイムとして明らかにした。 さらに,GeNetの幾何変換に対する頑健さを,データ拡張に頼ることなく,異なる回転角度でテストすることで示す。

Traditional approaches to semantic communication tasks rely on the knowledge of the signal-to-noise ratio (SNR) to mitigate channel noise. Moreover, these methods necessitate training under specific SNR conditions, entailing considerable time and computational resources. In this paper, we propose GeNet, a Graph Neural Network (GNN)-based paradigm for semantic communication aimed at combating noise, thereby facilitating Task-Oriented Communication (TOC). We propose a novel approach where we first transform the input data image into graph structures. Then we leverage a GNN-based encoder to extract semantic information from the source data. This extracted semantic information is then transmitted through the channel. At the receiver's end, a GNN-based decoder is utilized to reconstruct the relevant semantic information from the source data for TOC. Through experimental evaluation, we show GeNet's effectiveness in anti-noise TOC while decoupling the SNR dependency. We further evaluate GeNet's performance by varying the number of nodes, revealing its versatility as a new paradigm for semantic communication. Additionally, we show GeNet's robustness to geometric transformations by testing it with different rotation angles, without resorting to data augmentation.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# 断熱シーンにおける効率的なヒートマップ誘導6次元グラフ検出

Efficient Heatmap-Guided 6-Dof Grasp Detection in Cluttered Scenes ( http://arxiv.org/abs/2403.18546v2 )

ライセンス: Link先を確認
Siang Chen, Wei Tang, Pengwei Xie, Wenming Yang, Guijin Wang, (参考訳) クラッタ内での高速で頑丈な物体の把握は、ロボット工学の重要な構成要素である。 現在の研究の多くは、グローバルセマンティクスから出土したガイダンス情報を無視して、観測点雲全体を6次元のグリップ生成に利用しているため、高品質なグリップ生成とリアルタイムのパフォーマンスが制限されている。 本研究では, 6-Dofグリップ生成の効率において, 広く用いられている熱マップが過小評価されていることを示す。 そこで本研究では,グローバル・ローカル・セマンティック・ツー・ポイント方式で推定する,効果的な局所的把握ジェネレータと,ヘアマップの把握をガイダンスとして提案する。 具体的には,局所点を把握可能な領域に集約し,グローバルな意味情報を提供するためのガイダンスとして,ガウス符号化とグリッドベース戦略を適用した。 さらに、把握精度と多様性を向上させるために、新しい一様アンカーサンプリング機構を設計する。 画像空間における高能率符号化と局所的把握可能な領域の点に着目して、我々のフレームワークは、リアルタイムに高品質な把握検出を行い、最先端の結果を得ることができる。 さらに、実際のロボット実験では、成功率94%、クラッタ完了率100%で、本手法の有効性を実証している。 私たちのコードはhttps://github.com/THU-VCLab/HGGD.comで公開されています。

Fast and robust object grasping in clutter is a crucial component of robotics. Most current works resort to the whole observed point cloud for 6-Dof grasp generation, ignoring the guidance information excavated from global semantics, thus limiting high-quality grasp generation and real-time performance. In this work, we show that the widely used heatmaps are underestimated in the efficiency of 6-Dof grasp generation. Therefore, we propose an effective local grasp generator combined with grasp heatmaps as guidance, which infers in a global-to-local semantic-to-point way. Specifically, Gaussian encoding and the grid-based strategy are applied to predict grasp heatmaps as guidance to aggregate local points into graspable regions and provide global semantic information. Further, a novel non-uniform anchor sampling mechanism is designed to improve grasp accuracy and diversity. Benefiting from the high-efficiency encoding in the image space and focusing on points in local graspable regions, our framework can perform high-quality grasp detection in real-time and achieve state-of-the-art results. In addition, real robot experiments demonstrate the effectiveness of our method with a success rate of 94% and a clutter completion rate of 100%. Our code is available at https://github.com/THU-VCLab/HGGD.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# ネットワーク成長のメカニズムの学習

Learning the mechanisms of network growth ( http://arxiv.org/abs/2404.00793v2 )

ライセンス: Link先を確認
Lourens Touwen, Doina Bucur, Remco van der Hofstad, Alessandro Garavaglia, Nelly Litvak, (参考訳) 動的ネットワークのための新しいモデル選択法を提案する。 我々のアプローチは、大量の合成ネットワークデータに基づいて分類器を訓練することである。 データは、動的ネットワークのための9つの最先端ランダムグラフモデルをシミュレートし、パラメータ範囲を選択して、ネットワークサイズを指数的に成長させることによって生成される。 我々は,特定の時間間隔で頂点群が受け取る新しいリンクをカウントする,概念的に新しいタイプの動的特徴を設計する。 提案される機能は、計算が容易で、分析的に抽出可能で、解釈可能である。 提案手法は,合成ネットワークのほぼ完全な分類を実現し,最先端のネットワークを大きなマージンで超えている。 我々の分類法を現実世界の引用ネットワークに適用することで、優先的なアタッチメント、フィットネス、老朽化したモデルが現実の引用ネットワークに最も適しているという主張に信頼性を与えるが、予測されたモデルは頂点適合を含まないこともある。

We propose a novel model-selection method for dynamic networks. Our approach involves training a classifier on a large body of synthetic network data. The data is generated by simulating nine state-of-the-art random graph models for dynamic networks, with parameter range chosen to ensure exponential growth of the network size in time. We design a conceptually novel type of dynamic features that count new links received by a group of vertices in a particular time interval. The proposed features are easy to compute, analytically tractable, and interpretable. Our approach achieves a near-perfect classification of synthetic networks, exceeding the state-of-the-art by a large margin. Applying our classification method to real-world citation networks gives credibility to the claims in the literature that models with preferential attachment, fitness and aging fit real-world citation networks best, although sometimes, the predicted model does not involve vertex fitness.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# 原子価2中性子系の高精度・高精度量子計算

Accurate and precise quantum computation of valence two-neutron systems ( http://arxiv.org/abs/2404.01694v2 )

ライセンス: Link先を確認
Sota Yoshida, Takeshi Sato, Takumi Ogata, Tomoya Naito, Masaaki Kimura, (参考訳) 量子コンピュータによる原子核多体問題の解法の開発は、核物理学コミュニティにおいて必須の追求である。 本稿では,現在利用可能なノイズ中間スケール量子デバイスを利用した原子価2中性子系の基底状態を精度よく正確に計算する量子アルゴリズムを提案する。 我々の焦点は、2つの原子核と2つの原子価中性子を持つ核で、それぞれ$ p $, $ sd $, $ pf $ shells、すなわち${}^6$He, ${}^{18}$O, ${}^{42}$Caである。 我々のアンサッツである量子回路は、システムの対称性を明示的な方法で考慮し、必要となる量子ビットの数とCNOTゲートの数を減らすことができる。 IBM Quantum Platform による実量子ハードウェアの結果、提案手法は、通常、${}^6$He と ${}^{18}$O のエネルギーにおける 0.1 \, \% $ の誤差と、${}^{42}$Ca の少なくとも 1 \, \% $ の誤差を含む基底状態エネルギーの非常に正確な結果を与えることを示した。 さらに、実際の量子デバイスを用いた実験では、回路レイアウト設計の重要な役割も示している。

Developing methods to solve nuclear many-body problems with quantum computers is an imperative pursuit within the nuclear physics community. Here, we introduce a quantum algorithm to accurately and precisely compute the ground state of valence two-neutron systems leveraging presently available Noisy Intermediate-Scale Quantum devices. Our focus lies on the nuclei having a doubly-magic core plus two valence neutrons in the $ p $, $ sd $, and $ pf $ shells, i.e. ${}^6$He, ${}^{18}$O, and ${}^{42}$Ca, respectively. Our ansatz, quantum circuit, is constructed in the pair-wise form, taking into account the symmetries of the system in an explicit manner, and enables us to reduce the number of qubits and the number of CNOT gates required. The results on a real quantum hardware by IBM Quantum Platform show that the proposed method gives very accurate results of the ground-state energies, which are typically within $ 0.1 \, \% $ error in the energy for ${}^6$He and ${}^{18}$O and at most $ 1 \, \% $ error for ${}^{42}$Ca. Furthermore, our experiments using real quantum devices also show the pivotal role of the circuit layout design, attuned to the connectivity of the qubits, in mitigating errors.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# オンライン会議における参加者のエンゲージメントの分析 : 非教師なしリモート光胸腺撮影と行動特性

Analyzing Participants' Engagement during Online Meetings Using Unsupervised Remote Photoplethysmography with Behavioral Features ( http://arxiv.org/abs/2404.04394v2 )

ライセンス: Link先を確認
Alexander Vedernikov, Zhaodong Sun, Virpi-Liisa Kykyri, Mikko Pohjola, Miriam Nokia, Xiaobai Li, (参考訳) エンゲージメント測定は、医療、教育、サービスに応用される。 生理的特徴と行動的特徴の使用は可能であるが、従来の生理的測定の不実用性は接触センサーの必要性によって生じる。 心拍変動(HRV)特徴の導出における接触センサの代替として,非教師なし遠隔光胸腺造影(rPPG)の有用性を実証し,これらを行動特徴と融合させてオンライングループミーティングにおけるエンゲージメントを測定した。 第一に、ソーシャルワーカー間のオンラインインタラクションのユニークなエンゲージメントデータセットは、仮想ミーティングのダイナミクスに関する洞察を提供する、きめ細かいエンゲージメントラベルで収集される。 第2に、ビデオ会議からのrPPG信号を教師なしで再構成するために、事前学習したrPPGモデルをカスタマイズし、HRV特徴量の計算を可能にする。 第3に,2~4分間の長い観測窓を用いた場合の顕著な拡張とともに,短い観測窓を用いたHRV特徴量からのエンゲージメント推定の可能性を示す。 第4に、生理的データと融合した場合の行動手がかりの有効性を評価し、エンゲージメント推定性能をさらに向上させる。 HRVの特徴のみを使用すると、94%の精度が達成され、接触センサーや地上の真理信号の必要がなくなる。 顔分析は正確なエンゲージメントの測定を提供し、将来の応用に有用である。

Engagement measurement finds application in healthcare, education, services. The use of physiological and behavioral features is viable, but the impracticality of traditional physiological measurement arises due to the need for contact sensors. We demonstrate the feasibility of unsupervised remote photoplethysmography (rPPG) as an alternative for contact sensors in deriving heart rate variability (HRV) features, then fusing these with behavioral features to measure engagement in online group meetings. Firstly, a unique Engagement Dataset of online interactions among social workers is collected with granular engagement labels, offering insight into virtual meeting dynamics. Secondly, a pre-trained rPPG model is customized to reconstruct rPPG signals from video meetings in an unsupervised manner, enabling the calculation of HRV features. Thirdly, the feasibility of estimating engagement from HRV features using short observation windows, with a notable enhancement when using longer observation windows of two to four minutes, is demonstrated. Fourthly, the effectiveness of behavioral cues is evaluated when fused with physiological data, which further enhances engagement estimation performance. An accuracy of 94% is achieved when only HRV features are used, eliminating the need for contact sensors or ground truth signals; use of behavioral cues raises the accuracy to 96%. Facial analysis offers precise engagement measurement, beneficial for future applications.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# フォワードフォワードアルゴリズムの軽量推論

Lightweight Inference for Forward-Forward Algorithm ( http://arxiv.org/abs/2404.05241v4 )

ライセンス: Link先を確認
Amin Aminifar, Baichuan Huang, Azra Abtahi, Amir Aminifar, (参考訳) 人間の脳は優れたエネルギー効率、すなわち約20ワットのワットでタスクを実行する。 一方、最先端のArtificial/Deep Neural Networks(ANN/DNN)は、最近大量のエネルギーを消費していることが示されている。 これらのANN/DNNのトレーニングは、ほとんど生物学的に不可能であることが知られているバックプロパゲーションアルゴリズムに基づいて行われる。 これにより、Forward-Forwardアルゴリズムを含む、新しい世代のフォワード専用技術が生まれた。 本稿では,Forward-Forwardアルゴリズムを用いてトレーニングしたDNNを対象とした,軽量な推論手法を提案する。 我々は,MNIST と CIFAR データセットを用いた軽量推論手法と,その関連性を示す2つの実世界の応用,すなわちてんかん性発作検出と,ウェアラブル技術を用いた心臓不整脈分類について検討した。

The human brain performs tasks with an outstanding energy-efficiency, i.e., with approximately 20 Watts. The state-of-the-art Artificial/Deep Neural Networks (ANN/DNN), on the other hand, have recently been shown to consume massive amounts of energy. The training of these ANNs/DNNs is done almost exclusively based on the back-propagation algorithm, which is known to be biologically implausible. This has led to a new generation of forward-only techniques, including the Forward-Forward algorithm. In this paper, we propose a lightweight inference scheme specifically designed for DNNs trained using the Forward-Forward algorithm. We have evaluated our proposed lightweight inference scheme in the case of the MNIST and CIFAR datasets, as well as two real-world applications, namely, epileptic seizure detection and cardiac arrhythmia classification using wearable technologies, where complexity overheads/energy consumption is a major constraint, and demonstrate its relevance.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# AI安全性向上のためのAIシステム評価フレームワーク:ターミノロジー、分類学、ライフサイクルマッピング

An AI System Evaluation Framework for Advancing AI Safety: Terminology, Taxonomy, Lifecycle Mapping ( http://arxiv.org/abs/2404.05388v2 )

ライセンス: Link先を確認
Boming Xia, Qinghua Lu, Liming Zhu, Zhenchang Xing, (参考訳) 高度なAIの出現は、包括的な安全評価、コミュニティ間でのコラボレーション(AI、ソフトウェアエンジニアリング、ガバナンスなど)の緊急の必要性を浮き彫りにする。 しかし、これらのコミュニティにまたがる多様な実践と用語は、AIシステムの複雑さと組み合わせて、モデルが単なる部分的かつ環境的な余裕(例えばツールへのアクセス)であるように、効果的なコミュニケーションと包括的な評価を妨げている。 本稿では,3つのコンポーネントからなるAIシステム評価フレームワークを提案する。 1)AI安全評価に関わるコミュニティ間のコミュニケーションを促進するための調和した用語 2)AIシステム評価に不可欠な要素を特定する分類 3) 説明可能なAIサプライチェーンに対するAIライフサイクル、利害関係者、必要な評価のマッピング。 このフレームワークは、モデル中心のアプローチを越えて、AIシステム評価に関するより深い議論を触媒する。

The advent of advanced AI underscores the urgent need for comprehensive safety evaluations, necessitating collaboration across communities (i.e., AI, software engineering, and governance). However, divergent practices and terminologies across these communities, combined with the complexity of AI systems-of which models are only a part-and environmental affordances (e.g., access to tools), obstruct effective communication and comprehensive evaluation. This paper proposes a framework for AI system evaluation comprising three components: 1) harmonised terminology to facilitate communication across communities involved in AI safety evaluation; 2) a taxonomy identifying essential elements for AI system evaluation; 3) a mapping between AI lifecycle, stakeholders, and requisite evaluations for accountable AI supply chain. This framework catalyses a deeper discourse on AI system evaluation beyond model-centric approaches.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# Alljoined1 -- EEGから画像へのデコードのためのデータセット

Alljoined1 -- A dataset for EEG-to-Image decoding ( http://arxiv.org/abs/2404.05553v3 )

ライセンス: Link先を確認
Jonathan Xu, Bruno Aristimunha, Max Emanuel Feucht, Emma Qian, Charles Liu, Tazik Shahjahan, Martyna Spyra, Steven Zifan Zhang, Nicholas Short, Jioh Kim, Paula Perdomo, Ricky Renfeng Mao, Yashvir Sabharwal, Michael Ahedor Moaz Shoura, Adrian Nestor, (参考訳) 我々は、EEGから画像へのデコーディングに特化したデータセットであるAlljoined1を提示する。 視覚刺激に対する神経反応の広範かつ偏りのないサンプリングが、画像再構成に不可欠であることを認識し、それぞれ1万枚の自然画像を見ている8人の被験者からデータを収集した。 現在、64チャンネルの脳波ヘッドセットで記録された46,080の脳反応を収集しています。 このデータセットは、応答に基づく刺激タイミング、ブロックとセッションの繰り返し、さまざまな画像クラスを、信号の品質向上の目標と組み合わせている。 透明性のためには、データ品質スコアも提供します。 データセットとすべてのコードはhttps://linktr.ee/alljoined1.comで公開しています。

We present Alljoined1, a dataset built specifically for EEG-to-Image decoding. Recognizing that an extensive and unbiased sampling of neural responses to visual stimuli is crucial for image reconstruction efforts, we collected data from 8 participants looking at 10,000 natural images each. We have currently gathered 46,080 epochs of brain responses recorded with a 64-channel EEG headset. The dataset combines response-based stimulus timing, repetition between blocks and sessions, and diverse image classes with the goal of improving signal quality. For transparency, we also provide data quality scores. We publicly release the dataset and all code at https://linktr.ee/alljoined1.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-14
# ConsistencyDet: 一貫性モデルのデノジングパラダイムを持つロバストオブジェクト検出器

ConsistencyDet: A Robust Object Detector with a Denoising Paradigm of Consistency Model ( http://arxiv.org/abs/2404.07773v3 )

ライセンス: Link先を確認
Lifan Jiang, Zhihui Wang, Changmiao Wang, Ming Li, Jiaxu Leng, Xindong Wu, (参考訳) オブジェクト検出は、知覚コンピューティングの領域における重要なタスクであり、生成的手法を用いて取り組むことができる。 本研究では,アノテートされたエンティティの摂動境界ボックス上で動作する,物体検出を認知拡散プロセスとして記述する新しいフレームワークを提案する。 ConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。 このモデルの目玉は自己整合性(self-consistency)機能であり、任意の時間段階から原始状態に歪んだ情報をマッピングし、それによって「一段階の認知」機構を実現する。 このような属性はモデルの運用効率を著しく高め、従来の拡散モデルとは分離する。 トレーニングフェーズ全体を通じて、ConsistencyDetは、接地トルースアノテーションから派生したノイズ注入ボックスによる拡散シーケンスを開始し、デノナイジングタスクを実行するようにモデルに条件付ける。 その後、推論段階では、正規分布からランダムにサンプリングされた境界ボックスで開始する復調サンプリング戦略を採用する。 反復的精錬により、モデルは任意に生成された箱の配置を決定的な検出に変換する。 MS-COCOやLVISといった標準ベンチマークを用いた総合的な評価は、ConsistencyDetがパフォーマンス指標で他の最先端検出器を上回っていることを裏付けている。 私たちのコードはhttps://github.com/Tankowa/ConsistencyDet.comで利用可能です。

Object detection, a quintessential task in the realm of perceptual computing, can be tackled using a generative methodology. In the present study, we introduce a novel framework designed to articulate object detection as a denoising diffusion process, which operates on the perturbed bounding boxes of annotated entities. This framework, termed ConsistencyDet, leverages an innovative denoising concept known as the Consistency Model. The hallmark of this model is its self-consistency feature, which empowers the model to map distorted information from any temporal stage back to its pristine state, thereby realizing a "one-step denoising" mechanism. Such an attribute markedly elevates the operational efficiency of the model, setting it apart from the conventional Diffusion Model. Throughout the training phase, ConsistencyDet initiates the diffusion sequence with noise-infused boxes derived from the ground-truth annotations and conditions the model to perform the denoising task. Subsequently, in the inference stage, the model employs a denoising sampling strategy that commences with bounding boxes randomly sampled from a normal distribution. Through iterative refinement, the model transforms an assortment of arbitrarily generated boxes into definitive detections. Comprehensive evaluations employing standard benchmarks, such as MS-COCO and LVIS, corroborate that ConsistencyDet surpasses other leading-edge detectors in performance metrics. Our code is available at https://github.com/Tankowa/ConsistencyDet.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# TCCT-Net:行動特徴信号を用いた高速かつ効率的なエンゲージメント推定のための2ストリームネットワークアーキテクチャ

TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals ( http://arxiv.org/abs/2404.09474v2 )

ライセンス: Link先を確認
Alexander Vedernikov, Puneet Kumar, Haoyu Chen, Tapio Seppanen, Xiaobai Li, (参考訳) エンゲージメント分析は、医療、教育、広告、サービスに様々な応用を見出す。 分析に使用されるディープニューラルネットワークは複雑なアーキテクチャを持ち、大量の入力データ、計算能力、推論時間を必要とする。 これらの制約は、リアルタイム使用のためのデバイスへの組み込みシステムに挑戦する。 これらの制約に対処するために、新しい2ストリーム機能融合である"Tensor-Convolution and Convolution-Transformer Network"(TCCT-Net)アーキテクチャを提案する。 時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。 並行して、時間周波数領域からリッチなパターンを効率的に抽出し、処理速度を向上するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する"TC"ストリームを導入する。 EngageNetデータセットに基づいて評価し、提案手法は既存のベースラインよりも優れており、ベースラインモデルで使用される98と比較して2つの挙動特徴(頭部の回転)しか利用していない。 さらに、TCCT-Netのアーキテクチャは、最先端の画像ベースリカレントニューラルネットワーク(RNN)手法と比較して、推論速度のオーダー・オブ・マグニチュード改善を提供する。 コードはhttps://github.com/vedernikovphoto/TCCT_Net.comで公開される。

Engagement analysis finds various applications in healthcare, education, advertisement, services. Deep Neural Networks, used for analysis, possess complex architecture and need large amounts of input data, computational power, inference time. These constraints challenge embedding systems into devices for real-time use. To address these limitations, we present a novel two-stream feature fusion "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) architecture. To better learn the meaningful patterns in the temporal-spatial domain, we design a "CT" stream that integrates a hybrid convolutional-transformer. In parallel, to efficiently extract rich patterns from the temporal-frequency domain and boost processing speed, we introduce a "TC" stream that uses Continuous Wavelet Transform (CWT) to represent information in a 2D tensor form. Evaluated on the EngageNet dataset, the proposed method outperforms existing baselines, utilizing only two behavioral features (head pose rotations) compared to the 98 used in baseline models. Furthermore, comparative analysis shows TCCT-Net's architecture offers an order-of-magnitude improvement in inference speed compared to state-of-the-art image-based Recurrent Neural Network (RNN) methods. The code will be released at https://github.com/vedernikovphoto/TCCT_Net.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# 分散データを用いたオンラインモデル選択における協調の必要性について

On the Necessity of Collaboration in Online Model Selection with Decentralized Data ( http://arxiv.org/abs/2404.09494v2 )

ライセンス: Link先を確認
Junfan Li, Zenglin Xu, Zheshun Wu, Irwin King, (参考訳) 我々は,100万ドル以上の分散データを用いたオンラインモデル選択について検討し,クライアント間のコラボレーションの必要性について検討する。 従来の研究ではこの問題が省略され,様々なフェデレーションアルゴリズムが提案され,計算制約の観点から包括的な回答が得られた。 我々は,フェデレートされたアルゴリズムを提案し,その後悔を表わす上と下の境界を解析する。 i) 問題に関する追加の制約がなければ,協力は不要である。 (ii)各クライアントの計算コストが$o(K)$に制限されている場合、$K$は仮説空間の候補数である。 我々は,従来のフェデレーションアルゴリズムにおける協調の不要な性質を明らかにし,分散オンラインマルチカーネル学習において,より少ない計算・通信コストでアルゴリズムの残差を改善する。 我々のアルゴリズムは、マーチンゲールに対するバーンスタインの不平等の改善、フェデレートされたオンラインミラー降下フレームワーク、モデル選択と予測の分離を含む3つの新しい手法に依存している。

We consider online model selection with decentralized data over $M$ clients, and study the necessity of collaboration among clients. Previous work omitted the problem and proposed various federated algorithms, while we provide a comprehensive answer from the perspective of computational constraints. We propose a federated algorithm and analyze the upper and lower bounds on the regret that show (i) collaboration is unnecessary in the absence of additional constraints on the problem; (ii) collaboration is necessary if the computational cost on each client is limited to $o(K)$, where $K$ is the number of candidate hypothesis spaces. We clarify the unnecessary nature of collaboration in previous federated algorithms, and improve the regret bounds of algorithms for distributed online multi-kernel learning at a smaller computational and communication cost. Our algorithm relies on three new techniques including an improved Bernstein's inequality for martingale, a federated online mirror descent framework, and decoupling model selection and predictions, which might be of independent interest.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# 教育におけるAI支援書記:生態系のリスクと緩和

AI-Assisted Writing in Education: Ecosystem Risks and Mitigations ( http://arxiv.org/abs/2404.10281v3 )

ライセンス: Link先を確認
Antonette Shibani, Simon Buckingham Shum, (参考訳) 技術進歩の能力に関する興奮が、新しいAIベースの筆記アシスタントを生み出している一方で、そのエコシステムは、教育実践においてどのように採用されるかにおいて重要な役割を担っている。 本稿では,重要な生態学的側面を考察する。 大学における9年間にわたる筆記フィードバックツールの実践と統合された広範な研究から洞察を得ており、これらが見過ごされた場合の潜在的なリスクを強調している。 実践的な影響とイノベーションのバランスをとるために、より広い文脈でより整合した教育書記支援ツールの設計を通知する。

While the excitement around the capabilities of technological advancements is giving rise to new AI-based writing assistants, the overarching ecosystem plays a crucial role in how they are adopted in educational practice. In this paper, we point to key ecological aspects for consideration. We draw insights from extensive research integrated with practice on a writing feedback tool over 9 years at a university, and we highlight potential risks when these are overlooked. It informs the design of educational writing support tools to be better aligned within broader contexts to balance innovation with practical impact.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# 車両経路問題の解法におけるクロスプロブレム学習

Cross-Problem Learning for Solving Vehicle Routing Problems ( http://arxiv.org/abs/2404.11677v2 )

ライセンス: Link先を確認
Zhuoyi Lin, Yaoxin Wu, Bangjian Zhou, Zhiguang Cao, Wen Song, Yingqian Zhang, Senthilnath Jayavelu, (参考訳) 既存のニューラルヒューリスティックは、特定の車両ルーティング問題(VRP)ごとにスクラッチから深いアーキテクチャを訓練し、異なるVRP変種間で伝達可能な知識を無視していることが多い。 本稿では,異なる下流VRP変種に対するヒューリスティックストレーニングを支援するクロスプロブレム学習を提案する。 特に、複雑なVRPのためのニューラルネットワークをモジュール化します。 1)旅行セールスマン問題(TSP)に取り組むバックボーントランスフォーマー 2) 複雑なVRPにおける問題固有の特徴を処理するための軽量モジュールの追加。 そこで,本研究では,TSP用バックボーントランスフォーマーを事前学習し,ターゲットVRP用トランスフォーマーモデルを微調整するプロセスに適用することを提案する。 一方、トレーニングされたバックボーントランスフォーマーと問題固有のモジュールを同時に完全に微調整します。 一方、我々はモジュールとともに小さなアダプタネットワークを微調整するだけで、バックボーントランスフォーマーを保ちます。 典型的なVRPの広範囲にわたる実験 1) フル微調整は、スクラッチから訓練したものよりも大幅に性能が向上し、 2)アダプタベースのファインチューニングは、パラメータ効率を顕著に保ちながら、同等のパフォーマンスを提供する。 さらに, クロスディストリビューションと汎用性の観点から, 提案手法の有効性を実証的に実証した。

Existing neural heuristics often train a deep architecture from scratch for each specific vehicle routing problem (VRP), ignoring the transferable knowledge across different VRP variants. This paper proposes the cross-problem learning to assist heuristics training for different downstream VRP variants. Particularly, we modularize neural architectures for complex VRPs into 1) the backbone Transformer for tackling the travelling salesman problem (TSP), and 2) the additional lightweight modules for processing problem-specific features in complex VRPs. Accordingly, we propose to pre-train the backbone Transformer for TSP, and then apply it in the process of fine-tuning the Transformer models for each target VRP variant. On the one hand, we fully fine-tune the trained backbone Transformer and problem-specific modules simultaneously. On the other hand, we only fine-tune small adapter networks along with the modules, keeping the backbone Transformer still. Extensive experiments on typical VRPs substantiate that 1) the full fine-tuning achieves significantly better performance than the one trained from scratch, and 2) the adapter-based fine-tuning also delivers comparable performance while being notably parameter-efficient. Furthermore, we empirically demonstrate the favorable effect of our method in terms of cross-distribution application and versatility.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# PureForest: 単種林における樹種分類のための大規模空中ライダーと空中画像データセット

PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests ( http://arxiv.org/abs/2404.12064v2 )

ライセンス: Link先を確認
Charles Gaydon, Floryne Roche, (参考訳) 樹種の分布に関する知識は、森林の管理に不可欠である。 新たな深層学習アプローチは森林マッピングの精度向上を約束し、大規模に複数の樹種をマッピングするための重要なツールになりつつある。 この分野を前進させるためには、ディープラーニング研究者は高品質なアノテーションを備えた大規模なベンチマークデータセットが必要である。 この目的のために,Aerial Lidar Scanning (ALS) 点雲とVery High Resolution (VHR) 空中画像の両方から木種分類用に設計された大規模でオープンなマルチモーダルデータセットであるPureForestデータセットを提案する。 樹種分類のための現在の一般のLidarデータセットは、ほとんどの場合、数十ヘクタールの注釈付きヘクタールの小さな領域にしか達しないため、多様性が低い。 対照的に、PureForestは18の樹木種を13のセマンティッククラスに分類し、449の異なる単種林に339 km$^2$で分布し、現在では樹木種を特定するための最大かつ最も包括的なLidarデータセットとなっている。 PureForestを一般公開することで、Lidarや空中画像から木種を識別するためのディープラーニングアプローチの開発を支援するための、挑戦的なベンチマークデータセットを提供したいと思っています。 本稿では,アノテーションのワークフロー,データセット,推奨評価手法について述べるとともに,3次元モードと2次元モードの両方からベースライン性能を確立する。

Knowledge of tree species distribution is fundamental to managing forests. New deep learning approaches promise significant accuracy gains for forest mapping, and are becoming a critical tool for mapping multiple tree species at scale. To advance the field, deep learning researchers need large benchmark datasets with high-quality annotations. To this end, we present the PureForest dataset: a large-scale, open, multimodal dataset designed for tree species classification from both Aerial Lidar Scanning (ALS) point clouds and Very High Resolution (VHR) aerial images. Most current public Lidar datasets for tree species classification have low diversity as they only span a small area of a few dozen annotated hectares at most. In contrast, PureForest has 18 tree species grouped into 13 semantic classes, and spans 339 km$^2$ across 449 distinct monospecific forests, and is to date the largest and most comprehensive Lidar dataset for the identification of tree species. By making PureForest publicly available, we hope to provide a challenging benchmark dataset to support the development of deep learning approaches for tree species identification from Lidar and/or aerial imagery. In this data paper, we describe the annotation workflow, the dataset, the recommended evaluation methodology, and establish a baseline performance from both 3D and 2D modalities.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# 何千人もの米国Amazonユーザーのデータをクラウドソーシングする実験からの洞察:透明性、お金、データ利用の重要性

Insights from an experiment crowdsourcing data from thousands of US Amazon users: The importance of transparency, money, and data use ( http://arxiv.org/abs/2404.13172v2 )

ライセンス: Link先を確認
Alex Berke, Robert Mahari, Sandy Pentland, Kent Larson, D. Calacci, (参考訳) デジタルプラットフォーム上でユーザが生成するデータは、デジタル不平等を明らかにすること、監査アルゴリズム、人間の行動を理解することに興味を持つ支持者や研究者にとって重要なリソースである。 しかし、データアクセスは制限されることが多い。 研究者はユーザーデータを効果的かつ倫理的に収集できるのか? 本稿は、米国5000人以上のユーザーから5年間にわたる、アクセス不能なAmazon購入履歴をクラウドソーシングする革新的なアプローチを共有する。 我々は参加者の同意を優先し、実験的な研究デザインを含むデータ収集ツールを開発した。 この設計により、プライバシーの認識とデータの共有行動の複数の側面を研究できる。 実験結果(N=6325)は、金銭的インセンティブと透明性の両方がデータ共有を大幅に増加させることを示している。 年齢、人種、教育、性別も役割を担い、女性や教育を受けていない参加者はより共有しやすくなった。 われわれの研究デザインは、ユーザーが実際に行うよりもプライバシーを重視できるという「プライバシーパラドックス」のユニークな経験的評価を可能にする。 実際のデータ共有シナリオと仮説的なデータ共有シナリオを設定し、これらのコンテキスト間で測定可能な類似点とシェア率の違いを見つけました。 例えば、金融インセンティブの増加は、実際のシナリオにおける株価に6倍の影響を及ぼした。 さらに、様々な第三者がデータをどのように利用するべきかについての参加者の意見について検討し、また、人口統計学的にも大きな影響があることを見出した。 特に、大多数の参加者は購入データを使って政府機関を承認しなかったが、大多数は研究者によって承認された。 全体としては、透明性、インセンティブデザイン、およびユーザ人口層が倫理データ収集の実践において果たす重要な役割を強調し、将来の研究者がユーザ生成データをクラウドソースする上でのガイダンスを提供する。

Data generated by users on digital platforms are a crucial resource for advocates and researchers interested in uncovering digital inequities, auditing algorithms, and understanding human behavior. Yet data access is often restricted. How can researchers both effectively and ethically collect user data? This paper shares an innovative approach to crowdsourcing user data to collect otherwise inaccessible Amazon purchase histories, spanning 5 years, from more than 5000 US users. We developed a data collection tool that prioritizes participant consent and includes an experimental study design. The design allows us to study multiple aspects of privacy perception and data sharing behavior. Experiment results (N=6325) reveal both monetary incentives and transparency can significantly increase data sharing. Age, race, education, and gender also played a role, where female and less-educated participants were more likely to share. Our study design enables a unique empirical evaluation of the "privacy paradox", where users claim to value their privacy more than they do in practice. We set up both real and hypothetical data sharing scenarios and find measurable similarities and differences in share rates across these contexts. For example, increasing monetary incentives had a 6 times higher impact on share rates in real scenarios. In addition, we study participants' opinions on how data should be used by various third parties, again finding demographics have a significant impact. Notably, the majority of participants disapproved of government agencies using purchase data yet the majority approved of use by researchers. Overall, our findings highlight the critical role that transparency, incentive design, and user demographics play in ethical data collection practices, and provide guidance for future researchers seeking to crowdsource user generated data.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# 最適オンラインミラーダイスによる重み付き対実レグレストの最小化

Minimizing Weighted Counterfactual Regret with Optimistic Online Mirror Descent ( http://arxiv.org/abs/2404.13891v2 )

ライセンス: Link先を確認
Hang Xu, Kai Li, Bingyun Liu, Haobo Fu, Qiang Fu, Junliang Xing, Jian Cheng, (参考訳) 反事実的後悔の最小化(英: Counterfactual regret minimization, CFR)は、不完全情報ゲーム(英語版)を効果的に解くアルゴリズムの一群である。 これは、Regret Matching (RM) や RM+ などの局所的後悔最小化アルゴリズムを利用して、全後悔を偽りの後悔に分解する。 近年の研究では、オンラインミラー蛍光(OMD)とRM+の関係を確立し、楽観的なPRM+とその拡張PCFR+への道を開いた。 しかし、PCFR+は、後悔を決定するときに各イテレーションに一様重みを割り当て、支配的な行動に直面した時にかなりの後悔をもたらす。 この研究は、楽観的な OMD による重み付き反事実的後悔の最小化を探求し、その結果、新しい CFR 変種 PDCFR+ が生み出された。 PCFR+ と Discounted CFR (DCFR) を原則的に統合し、支配的な行動の負の効果を迅速に緩和し、収束を加速する予測を一貫して活用する。 理論的解析により、PDCFR+はナッシュ平衡に収束し、特に後悔と平均戦略の異なる重み付けスキームの下にあることが証明された。 PDCFR+は不完全情報ゲームにおいて高速収束を示す実験結果が得られた。 コードはhttps://github.com/rpSebastian/PDCFRPlusで公開されている。

Counterfactual regret minimization (CFR) is a family of algorithms for effectively solving imperfect-information games. It decomposes the total regret into counterfactual regrets, utilizing local regret minimization algorithms, such as Regret Matching (RM) or RM+, to minimize them. Recent research establishes a connection between Online Mirror Descent (OMD) and RM+, paving the way for an optimistic variant PRM+ and its extension PCFR+. However, PCFR+ assigns uniform weights for each iteration when determining regrets, leading to substantial regrets when facing dominated actions. This work explores minimizing weighted counterfactual regret with optimistic OMD, resulting in a novel CFR variant PDCFR+. It integrates PCFR+ and Discounted CFR (DCFR) in a principled manner, swiftly mitigating negative effects of dominated actions and consistently leveraging predictions to accelerate convergence. Theoretical analyses prove that PDCFR+ converges to a Nash equilibrium, particularly under distinct weighting schemes for regrets and average strategies. Experimental results demonstrate PDCFR+'s fast convergence in common imperfect-information games. The code is available at https://github.com/rpSebastian/PDCFRPlus.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# 顧客レビューから魅力と認証のコピーライティングを生成する

Generating Attractive and Authentic Copywriting from Customer Reviews ( http://arxiv.org/abs/2404.13906v2 )

ライセンス: Link先を確認
Yu-Xiang Lin, Wei-Yun Ma, (参考訳) 製品のコピーライティングの目的は、テキスト記述を通じて製品の機能を強調することによって、潜在的な購入者の関心を捉えることである。 eコマースプラットフォームが幅広いサービスを提供しているため、これらの自動生成記述のスタイルを動的に調整することが不可欠になっています。 コピーライティング生成の典型的なアプローチは、しばしば特定の製品属性にのみ依存し、退屈で反復的なコンテンツをもたらす。 この問題に対処するために,製品属性だけでなく,より豊富な情報ソースを提供する製品に対して,ユーザレビューに基づいて,手軽に実践的な体験を提供するコピーライティングを生成することを提案する。 我々は、情報に富んだ、魅力的で真正な複写書体を作成するために、強化学習により強化されたシーケンス・ツー・シーケンス・フレームワークを開発した。 我々のフレームワークは,LLaMA-2-chat-7B や GPT-3.5 など,既存のベースラインおよびゼロショットの大規模言語モデルにおいて,魅力と忠実さの両面で優れています。 さらに、この研究はアスペクトベースの要約コレクションや引数のアレーションアセスメントにLLMを使うことが特徴である。 マーケティングドメインコーパス構築における LLM の有効性を示す実験を行った。 コードとデータセットは、https://github.com/YuXiangLin1234/Copywriting-Generationで公開されている。

The goal of product copywriting is to capture the interest of potential buyers by emphasizing the features of products through text descriptions. As e-commerce platforms offer a wide range of services, it's becoming essential to dynamically adjust the styles of these auto-generated descriptions. Typical approaches to copywriting generation often rely solely on specified product attributes, which may result in dull and repetitive content. To tackle this issue, we propose to generate copywriting based on customer reviews, as they provide firsthand practical experiences with products, offering a richer source of information than just product attributes. We have developed a sequence-to-sequence framework, enhanced with reinforcement learning, to produce copywriting that is attractive, authentic, and rich in information. Our framework outperforms all existing baseline and zero-shot large language models, including LLaMA-2-chat-7B and GPT-3.5, in terms of both attractiveness and faithfulness. Furthermore, this work features the use of LLMs for aspect-based summaries collection and argument allure assessment. Experiments demonstrate the effectiveness of using LLMs for marketing domain corpus construction. The code and the dataset is publicly available at: https://github.com/YuXiangLin1234/Copywriting-Generation.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# 量子光との相互作用による強相関多電子束

Strongly correlated multi-electron bunches from interaction with quantum light ( http://arxiv.org/abs/2404.14957v3 )

ライセンス: Link先を確認
Suraj Kumar, Jeremy Lim, Nicholas Rivera, Wesley Wong, Yee Sin Ang, Lay Kee Ang, Liang Jie Wong, (参考訳) 強い相関を持つ電子系は現代の物理学の基盤であり、超伝導磁石から量子コンピューティングまでの現象を画期的に破壊する役割を担っている。 ほとんどの場合、電子の相関はクーロン相互作用によってのみ生じる。 本研究では、光場と同時に相互作用する自由電子が、クーロン相互作用以外の機構を介して高い相関関係を持つことを明らかにする。 2つの電子の場合、出力電子エネルギーのジョイント確率分布に対する結果のピアソン相関係数(PCC)は、光電場と(次々に)相互作用する電子に比べて13桁以上向上する。 これらの高相関電子は、外部量子光場を介して参加電子間の運動量とエネルギー交換の結果である。 我々の研究は、量子情報や超高速イメージングを含む応用のための、高相関な自由電子の生成と制御の道を開いた。

Strongly correlated electron systems are a cornerstone of modern physics, being responsible for groundbreaking phenomena from superconducting magnets to quantum computing. In most cases, correlations in electrons arise exclusively due to Coulomb interactions. In this work, we reveal that free electrons interacting simultaneously with a light field can become highly correlated via mechanisms beyond Coulomb interactions. In the case of two electrons, the resulting Pearson correlation coefficient (PCC) for the joint probability distribution of the output electron energies is enhanced over 13 orders of magnitude compared to that of electrons interacting with the light field in succession (one after another). These highly correlated electrons are the result of momentum and energy exchange between the participating electrons via the external quantum light field. Our findings pave the way to the creation and control of highly correlated free electrons for applications including quantum information and ultra-fast imaging.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# IDアニメーター:ゼロショットアイデンティティ保存ヒューマンビデオ生成

ID-Animator: Zero-Shot Identity-Preserving Human Video Generation ( http://arxiv.org/abs/2404.15275v2 )

ライセンス: Link先を確認
Xuanhua He, Quande Liu, Shengju Qian, Xin Wang, Tao Hu, Ke Cao, Keyu Yan, Jie Zhang, (参考訳) 特定のアイデンティティを持つ高忠実度人間ビデオの生成は、コンテンツ生成コミュニティにおいて大きな注目を集めている。 しかし、既存の技術は、面倒なケース・バイ・ケースの微調整や、ビデオ生成プロセスにおけるアイデンティティの詳細の欠如など、トレーニング効率とアイデンティティの保存のバランスを崩すことに苦慮している。 本研究では,1つの参照顔画像に対して,それ以上のトレーニングを行なわずにパーソナライズされた映像を生成する,ゼロショット映像生成手法であるID-Animatorを提案する。 ID-Animatorは既存の拡散ベースのビデオ生成バックボーンをフェイスアダプタで継承し、学習可能な顔認識クエリからID関連埋め込みを符号化する。 映像生成におけるアイデンティティ情報の抽出を容易にするため、構築された顔画像プールから、切り離された人間の属性とアクションキャプション技術を組み込んだID指向データセット構築パイプラインを導入する。 このパイプラインに基づいて,参照画像からID関連埋め込みを的確に捕捉するランダムな顔参照訓練法が考案され,本モデルにおけるID固有ビデオ生成の忠実度と一般化能力の向上が図られた。 大規模な実験は、以前のモデルよりもパーソナライズされた人間ビデオを生成するためのID-アニメーションの優位性を実証している。 さらに,本手法は,アニメーションフや各種コミュニティバックボーンモデルといった,トレーニング済みのT2Vモデルと互換性が高く,アイデンティティの保存が望まれる実世界のビデオ生成アプリケーションにおいて,高い拡張性を示す。 私たちのコードとチェックポイントはhttps://github.com/ID-Animator/ID-Animator.comでリリースされます。

Generating high fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case finetuning or usually missing the identity details in video generation process. In this study, we present ID-Animator, a zero-shot human-video generation approach that can perform personalized video generation given single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline, which incorporates decoupled human attribute and action captioning technique from a constructed facial image pool. Based on this pipeline, a random face reference training method is further devised to precisely capture the ID-relevant embeddings from reference images, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints will be released at https://github.com/ID-Animator/ID-Animator.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-14
# ブロックチェーンProof-of-Workプロトコルの有効計算によるクリプトプラグのリプレースについて

On Replacing Cryptopuzzles with Useful Computation in Blockchain Proof-of-Work Protocols ( http://arxiv.org/abs/2404.15735v4 )

ライセンス: Link先を確認
Andrea Merlina, Thiago Garrett, Roman Vitenberg, (参考訳) Proof-of-Work(PoW)ブロックチェーンは、オープン環境において堅牢で効果的なコンセンサスメカニズムとして登場し、多数の暗号通貨プラットフォームへの展開と相当な投資につながっている。 しかし、一般にデプロイされているPoW実装は、すべて暗号パズルの解法に基づいている。 ブロックチェーンネットワークの膨大な計算能力と、より持続可能なITインフラストラクチャのグローバルな追求に直面する中、研究者たちは10年以上にわたって、暗号パズルを有用なコンピューティングタスクに置き換えるという説得力のあるアイデアを追求してきた。 本研究では,タスクの代替クラスに対する前提条件を包括的に分析する。 本稿では,「使いやすさ」の導入と,暗号パズル以外のタスククラスへの移行の効果について考察する。 前提条件を蒸留し,既存の文献から提案された設計について検討する。 最後に,現在の最先端技術における関連する技術と研究ギャップについて論じる。

Proof-of-Work (PoW) blockchains have emerged as a robust and effective consensus mechanism in open environments, leading to widespread deployment with numerous cryptocurrency platforms and substantial investments. However, the commonly deployed PoW implementations are all based on solving cryptographic puzzles. Researchers have been pursuing the compelling idea of replacing cryptopuzzles with useful computing tasks for over a decade, in face of the substantial computational capacity of blockchain networks and the global pursuit of a more sustainable IT infrastructure. In this study, we conduct a comprehensive analysis of the prerequisites for alternative classes of tasks. We provide insight into the effect of introducing "usefulness" and of transitioning to task classes other than cryptopuzzles. Having distilled the prerequisites, we use them to examine proposed designs from existing literature. Finally, we discuss pertinent techniques and present research gaps in the current state-of-the-art.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# HookChain: EDRソリューションをバイパスする新しい視点

HookChain: A new perspective for Bypassing EDR Solutions ( http://arxiv.org/abs/2404.16856v2 )

ライセンス: Link先を確認
Helvio Carvalho Junior, (参考訳) 脅威が急速に複雑化する現在のデジタルセキュリティエコシステムでは、エンドポイント検出と応答(EDR)ソリューションを開発している企業は、追いつくだけでなく、新たな攻撃ベクトルも期待するイノベーションを常に探している。 本稿では、HookChainを紹介する。HookChainは、広く知られている技術から見て、従来のEDRシステムに対する高度な回避レイヤーを提供するものである。 IAT Hookingテクニック、動的SSN解像度、間接システムコールの正確な組み合わせにより、HookChainはWindowsサブシステムの実行フローを、Ntdll.dllにのみ作用するEDRの警戒的な目からは見えない方法でリダイレクトする。 この作業は、サイバーセキュリティの現在の慣例に挑戦するだけでなく、デジタルセキュリティの有効性の鍵となる継続的進化の理解を生かして、将来の保護戦略への有望な道に光を当てている。 HookChain技術の開発と探索により、この研究はエンドポイントセキュリティにおける知識の体系に大きく貢献し、デジタル脅威の絶え間なく変化するダイナミクスに効果的に対処できる、より堅牢で適応的なソリューションの開発を刺激する。 この研究は、常に敵に先立ついくつかのステップであるセキュリティ技術の研究と開発に深い反映と進歩を刺激することを目的としています。 建設調査:本論文は最終版ではなく、現在いくつかのEDRに対して最終試験を行っている。 最終バージョンは2024年8月までにリリースされる予定です。

In the current digital security ecosystem, where threats evolve rapidly and with complexity, companies developing Endpoint Detection and Response (EDR) solutions are in constant search for innovations that not only keep up but also anticipate emerging attack vectors. In this context, this article introduces the HookChain, a look from another perspective at widely known techniques, which when combined, provide an additional layer of sophisticated evasion against traditional EDR systems. Through a precise combination of IAT Hooking techniques, dynamic SSN resolution, and indirect system calls, HookChain redirects the execution flow of Windows subsystems in a way that remains invisible to the vigilant eyes of EDRs that only act on Ntdll.dll, without requiring changes to the source code of the applications and malwares involved. This work not only challenges current conventions in cybersecurity but also sheds light on a promising path for future protection strategies, leveraging the understanding that continuous evolution is key to the effectiveness of digital security. By developing and exploring the HookChain technique, this study significantly contributes to the body of knowledge in endpoint security, stimulating the development of more robust and adaptive solutions that can effectively address the ever-changing dynamics of digital threats. This work aspires to inspire deep reflection and advancement in the research and development of security technologies that are always several steps ahead of adversaries. UNDER CONSTRUCTION RESEARCH: This paper is not the final version, as it is currently undergoing final tests against several EDRs. We expect to release the final version by August 2024.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# ReproHum #0087-01: Human Evaluation Re production Report for Generating Fact Checking Explanations

ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations ( http://arxiv.org/abs/2404.17481v2 )

ライセンス: Link先を確認
Tyler Loakman, Chenghua Lin, (参考訳) 本稿では、ReproNLP共有タスクのReproHum要素の一部として、Anatanasova et al (2020)によるFact Checking Explanationsの生成の一部を再現し、人間の評価に関するNLP研究の成果を再現する。 この共有タスクは、フィールドとしてのNLPが、時間とともに多かれ少なかれ再現可能であるかを調べることを目的としている。 タスクオーガナイザと原作者の指示に従えば,40入力に対して3つのファクトチェック説明(ゴールド標準と2モデルのアウトプットを含む)の相対的なランキングを,カバレッジの基準に基づいて収集する。 原著の原著の再現と再分析の結果は,原著と原著の再現に類似したパターンを呈し,原著の原著の原著の発見を裏付けるものである。 結果から若干の変動が見られたが,本研究の結果は,提案モデルの有効性に関する原著者の結論を裏付けるものである。

This paper presents a partial reproduction of Generating Fact Checking Explanations by Anatanasova et al (2020) as part of the ReproHum element of the ReproNLP shared task to reproduce the findings of NLP research regarding human evaluation. This shared task aims to investigate the extent to which NLP as a field is becoming more or less reproducible over time. Following the instructions provided by the task organisers and the original authors, we collect relative rankings of 3 fact-checking explanations (comprising a gold standard and the outputs of 2 models) for 40 inputs on the criteria of Coverage. The results of our reproduction and reanalysis of the original work's raw results lend support to the original findings, with similar patterns seen between the original work and our reproduction. Whilst we observe slight variation from the original results, our findings support the main conclusions drawn by the original authors pertaining to the efficacy of their proposed models.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# 高次元不均一処理効果評価のためのPareto-Smoothed Weighting

Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2404.17483v3 )

ライセンス: Link先を確認
Yoichi Chikahara, Kansei Ushiyama, (参考訳) 高次元の特徴属性を用いて、個人間での不均一な治療効果を推定することへの関心が高まっている。 このような高次元不均一処理効果推定における高い性能を達成することは、この設定では、一部の特徴がサンプル選択バイアスを誘導するのに対し、他の特徴は潜在的な結果の予測をしないため、通常である。 このような予測的特徴情報を失うのを避けるため、既存の手法では逆確率重み付け(IPW)を用いて特徴表現を個別に学習する。 しかし、数値的に不安定なIPW重みのため、これらの手法は有限サンプル設定下での推定バイアスに悩まされる。 重み付き表現学習による数値的ロバストな推定器を開発するために,極度の重み値をエンドツーエンドに置き換える微分可能なパレート平滑化フレームワークを提案する。 提案手法は, 従来の重み付け方式を含む既存手法よりも優れていることを示す。

There is a growing interest in estimating heterogeneous treatment effects across individuals using their high-dimensional feature attributes. Achieving high performance in such high-dimensional heterogeneous treatment effect estimation is challenging because in this setup, it is usual that some features induce sample selection bias while others do not but are predictive of potential outcomes. To avoid losing such predictive feature information, existing methods learn separate feature representations using inverse probability weighting (IPW). However, due to their numerically unstable IPW weights, these methods suffer from estimation bias under a finite sample setup. To develop a numerically robust estimator by weighted representation learning, we propose a differentiable Pareto-smoothed weighting framework that replaces extreme weight values in an end-to-end fashion. Our experimental results show that by effectively correcting the weight values, our proposed method outperforms the existing ones, including traditional weighting schemes.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# 医用画像におけるセグメンテーション品質とボリューム精度

Segmentation Quality and Volumetric Accuracy in Medical Imaging ( http://arxiv.org/abs/2404.17742v2 )

ライセンス: Link先を確認
Zheyuan Zhang, Ulas Bagci, (参考訳) 現在の医療画像のセグメンテーションは、デファクト標準として領域ベース(Dice, F1スコア)と境界ベース(ハウスドルフ距離、表面距離)のメトリクスに依存している。 これらの指標は広く使用されているが、特にボリューム合意に関する統一的な解釈は欠如している。 臨床医はしばしば、これらの指標に基づいてセグメンテーション結果の「良さ」を評価するための明確なベンチマークを欠いている。 ボリュームトライの臨床的関連性を認識し,相対ボリューム予測誤差(vpe)を用いて,セグメンテーションタスクから導出されるボリューム予測の精度を直接評価する。 我々の研究は、様々なデータセットにまたがる理論的分析と経験的検証を統合している。 臨床実習におけるセグメンテーション品質(Dice測定)と容積精度の関係について検討した。 本研究は,容積予測精度をセグメンテーション評価に組み込むことが重要であることを示す。 このアプローチは、セグメンテーションのパフォーマンスをより微妙に理解し、最終的にこれらのメトリクスの解釈と実用性を現実世界の医療環境で改善する。

Current medical image segmentation relies on the region-based (Dice, F1-score) and boundary-based (Hausdorff distance, surface distance) metrics as the de-facto standard. While these metrics are widely used, they lack a unified interpretation, particularly regarding volume agreement. Clinicians often lack clear benchmarks to gauge the "goodness" of segmentation results based on these metrics. Recognizing the clinical relevance of volumetry, we utilize relative volume prediction error (vpe) to directly assess the accuracy of volume predictions derived from segmentation tasks. Our work integrates theoretical analysis and empirical validation across diverse datasets. We delve into the often-ambiguous relationship between segmentation quality (measured by Dice) and volumetric accuracy in clinical practice. Our findings highlight the critical role of incorporating volumetric prediction accuracy into segmentation evaluation. This approach empowers clinicians with a more nuanced understanding of segmentation performance, ultimately improving the interpretation and utility of these metrics in real-world healthcare settings.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# 非線形超伝導磁気効果

Nonlinear Superconducting Magnetoelectric Effect ( http://arxiv.org/abs/2404.18616v4 )

ライセンス: Link先を確認
Jin-Xin Hu, Oles Matsyshyn, Justin C. W. Song, (参考訳) 超電流流はスピン軌道相互作用を持つ非セントロ対称超伝導体における非消滅スピン磁化を誘導することができる。 非散逸性磁気効果としてよく知られるが、これは超電流流の線形次数でよく見られる。 ここでは、非線形超伝導磁気効果(NSM)が自然に変化マグネット/超伝導体(ALM/SC)ヘテロ構造に現れることを論じる: NSMは、駆動超電流に対する2次応答として生じるスピン偏極として現れる。 厳密には、NSMはALM/SCヘテロ構造における第一次磁化反応であり、中心対称性の存在下でも存続する。 これにより、NSMは超伝導スピントロニクスのための有望なプラットフォームであるALM/SCヘテロ構造における磁化を制御する強力な電気的および非散逸的な手段となる。

A supercurrent flow can induce a nonvanishing spin magnetization in noncentrosymmetric superconductors with spin-orbit interaction. Often known as the non-dissipative magnetoelectric effect, these are most commonly found at linear order in supercurrent flow. Here, we argue that a nonlinear superconducting magnetoelectric effect (NSM) can naturally manifest in altermagnet/superconductor (ALM/SC) heterostructures: NSM manifests as a spin polarization generated as a second-order response to a driving supercurrent. Strikingly, we find NSM is the leading order magnetization response in ALM/SC heterostructures and survives even in the presence of centrosymmetry; $C_4 \mathcal{T}$ symmetry in altermagnets zeroes both the equilibrium magnetization as well as out-of-plane linear magnetoelectric response. This renders NSM a powerful electric and non-dissipative means of controlling magnetization in ALM/SC heterostructures, a promising platform for superconducting spintronics.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# M3H:医療のためのマルチモーダルマルチタスク機械学習

M3H: Multimodal Multitask Machine Learning for Healthcare ( http://arxiv.org/abs/2404.18975v2 )

ライセンス: Link先を確認
Dimitris Bertsimas, Yu Ma, (参考訳) 人工知能は、医療を根本的に強化する約束を持っている。 複数のタスクにマルチモーダルデータを活用するマルチモーダル・ツー・マン・フレームワークの開発は、現代医学の統合に不可欠である。 M3Hはマルチモーダル・マルチタスク・機械学習・フォー・ヘルスケア・フレームワークで、表、時系列、言語、視覚データから学習を集約し、教師付きバイナリ/マルチクラス分類、回帰、教師なしクラスタリングを行う。 M3Hは前例のない医療課題や問題領域を包含し、16の医療部門から40の疾患診断、病院での手術予測、3つの患者の表現タスクで、従来のシングルタスクモデルよりも平均11.6%上回っている。 自己探索(学習ソースタスク)と横断探索(学習クロスタスク)のバランスをとる新しい注意機構を備え、提案されたTIMスコアを通じて説明可能性を提供し、タスク学習相互依存性のダイナミクスに光を当てる。 適応可能なアーキテクチャは、新しいデータモダリティとタスクのカスタマイズと統合を容易にサポートし、AI駆動型ヘルスケアシステムを進めるための堅牢でスケーラブルなソリューションとして確立する。

Artificial intelligence holds promise to fundamentally enhance healthcare. Developing an integrated many-to-many framework leveraging multimodal data for multiple tasks is essential to unifying modern medicine. We introduce M3H, an explainable Multimodal Multitask Machine Learning for Healthcare framework that consolidates learning from tabular, time-series, language, and vision data for supervised binary/multiclass classification, regression, and unsupervised clustering. M3H encompasses an unprecedented range of medical tasks and problem domains and consistently outperforms traditional single-task models by on average 11.6% across 40 disease diagnoses from 16 medical departments, three hospital operation forecasts, and one patient phenotyping task. It features a novel attention mechanism balancing self-exploitation (learning source-task), and cross-exploration (learning cross-tasks), and offers explainability through a proposed TIM score, shedding light on the dynamics of task learning interdependencies. Its adaptable architecture supports easy customization and integration of new data modalities and tasks, establishing it as a robust, scalable solution for advancing AI-driven healthcare systems.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# VimTS: クロスドメインの一般化を促進する統一ビデオと画像テキストのスポッター

VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization ( http://arxiv.org/abs/2404.19652v3 )

ライセンス: Link先を確認
Yuliang Liu, Mingxin Huang, Hao Yan, Linger Deng, Weijia Wu, Hao Lu, Chunhua Shen, Lianwen Jin, Xiang Bai, (参考訳) テキストスポッティングは、画像やビデオシーケンスからテキスト情報を抽出するタスクであり、画像から画像への変換や画像から画像への一般化といった、ドメイン間の適応の課題に直面している。 本稿では,タスク間の相乗効果を向上し,モデルの一般化能力を向上する,VimTSと呼ばれる新しい手法を提案する。 典型的には、プロンプトクエリ生成モジュールとタスク対応アダプタを提案し、元の単一タスクモデルを、最小限の追加パラメータを持つ画像シナリオとビデオシナリオの両方に適したマルチタスクモデルに効果的に変換する。 Prompt Queries Generation Moduleは、異なるタスク間の明示的な相互作用を促進する一方、Tasks-aware Adapterは、各タスクに適した機能をモデルが動的に学習するのに役立つ。 さらに,より低コストで時間情報を学習できるように,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。 特に,TT-to-IC15,CTW1500-to-TT,TT-to-CTW1500といった6つのクロスドメインベンチマークにおいて,最先端の手法を平均2.6%上回る結果を得た。 ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応では,画像レベルのデータのみを用いて,平均5.5%の精度で従来のエンドツーエンドビデオスポッティング手法を上回ります。 さらに、既存のLarge Multimodal Modelsは、パラメータやデータを大幅に少なくするVimTSモデルとは対照的に、クロスドメインシーンテキストスポッティングの生成に制限があることを示した。 コードとデータセットはhttps://VimTextSpotter.github.ioで公開される。

Text spotting, a task involving the extraction of textual information from image or video sequences, faces challenges in cross-domain adaption, such as image-to-image and image-to-video generalization. In this paper, we introduce a new method, termed VimTS, which enhances the generalization ability of the model by achieving better synergy among different tasks. Typically, we propose a Prompt Queries Generation Module and a Tasks-aware Adapter to effectively convert the original single-task model into a multi-task model suitable for both image and video scenarios with minimal additional parameters. The Prompt Queries Generation Module facilitates explicit interaction between different tasks, while the Tasks-aware Adapter helps the model dynamically learn suitable features for each task. Additionally, to further enable the model to learn temporal information at a lower cost, we propose a synthetic video text dataset (VTD-368k) by leveraging the Content Deformation Fields (CoDeF) algorithm. Notably, our method outperforms the state-of-the-art method by an average of 2.6% in six cross-domain benchmarks such as TT-to-IC15, CTW1500-to-TT, and TT-to-CTW1500. For video-level cross-domain adaption, our method even surpasses the previous end-to-end video spotting method in ICDAR2015 video and DSText v2 by an average of 5.5% on the MOTA metric, using only image-level data. We further demonstrate that existing Large Multimodal Models exhibit limitations in generating cross-domain scene text spotting, in contrast to our VimTS model which requires significantly fewer parameters and data. The code and datasets will be made available at the https://VimTextSpotter.github.io.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# リニアからリニアへの最適化:定常および非定常DR-サブモジュール最適化への新たなフレームワーク

From Linear to Linearizable Optimization: A Novel Framework with Applications to Stationary and Non-stationary DR-submodular Optimization ( http://arxiv.org/abs/2405.00065v2 )

ライセンス: Link先を確認
Mohammad Pedramfar, Vaneet Aggarwal, (参考訳) 本稿では,異なる凸集合上の単調および非単調なケースを含む,様々な条件下での凹凸とDR-部分モジュラリティを拡張するクラスである上線形化可能/四分割可能関数の概念を紹介する。 一般メタアルゴリズムは、線形・四次最大化のためのアルゴリズムを上四角化関数を最適化するものに変換し、凹凸問題とDR-部分モジュラー最適化問題に統一的なアプローチを提供する。 本論文は、これらの結果を複数のフィードバック設定に拡張し、半帯域/一階フィードバックと帯域/二階フィードバックの変換を容易にし、一階フィードバックと半帯域/二階フィードバックの変換を容易にする。 このフレームワークを利用すると、既存の結果から凸最適化のベースアルゴリズムとして新たなアルゴリズムが導出され、様々なケースで最先端の結果が改善される。 DR-サブモジュラー最大化のために動的かつ適応的な後悔保証が得られ、これらの設定でそのような保証を達成するための最初のアルゴリズムがマークされる。 特に,本論文は,既存の最先端結果と比較して仮定を少なくして,その広範な適用性と非凸最適化への理論的貢献を裏付けるものである。

This paper introduces the notion of upper linearizable/quadratizable functions, a class that extends concavity and DR-submodularity in various settings, including monotone and non-monotone cases over different convex sets. A general meta-algorithm is devised to convert algorithms for linear/quadratic maximization into ones that optimize upper quadratizable functions, offering a unified approach to tackling concave and DR-submodular optimization problems. The paper extends these results to multiple feedback settings, facilitating conversions between semi-bandit/first-order feedback and bandit/zeroth-order feedback, as well as between first/zeroth-order feedback and semi-bandit/bandit feedback. Leveraging this framework, new algorithms are derived using existing results as base algorithms for convex optimization, improving upon state-of-the-art results in various cases. Dynamic and adaptive regret guarantees are obtained for DR-submodular maximization, marking the first algorithms to achieve such guarantees in these settings. Notably, the paper achieves these advancements with fewer assumptions compared to existing state-of-the-art results, underscoring its broad applicability and theoretical contributions to non-convex optimization.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# HDマップフリー自律運転のためのGAD生成学習

GAD-Generative Learning for HD Map-Free Autonomous Driving ( http://arxiv.org/abs/2405.00515v2 )

ライセンス: Link先を確認
Weijian Sun, Yanbo Jia, Qi Zeng, Zihao Liu, Jiang Liao, Yue Li, Xianfeng Li, (参考訳) 近年、ディープラーニングベースの技術は、認識モジュールを中心に、大量生産のための自動運転ソフトウェアスタックに広く採用されており、この手法を予測モジュールに拡張する作業も行われている。 しかし、下流の計画および制御モジュールは、二次プログラミングやモデル予測制御のような最適化に基づく手法に支配される、手作りの厳密なルールで設計されている。 これにより、コーナーケースは手作りのルールを列挙するだけでは解決できないという、自律運転システムのパフォーマンスボトルネックが生じる。 本稿では,都市部における自動運転の現実的な応用におけるルールベース手法の欠如を克服する試みとともに,予測,決定,計画モジュールをもたらすディープラーニングベースのアプローチを提案する。 私たちが提案したDNNモデルは、人間の運転データ10時間でのみトレーニングされており、現在市場に出回っているすべての大量生産ADAS機能をサポートしている。 この方法は、工場対応のセンサーセットと計算プラットフォームを変更することなく、ジユーテストカーに展開する。 実現可能性、ユーザビリティ、および商業的可能性について、この記事で示します。

Deep-learning-based techniques have been widely adopted for autonomous driving software stacks for mass production in recent years, focusing primarily on perception modules, with some work extending this method to prediction modules. However, the downstream planning and control modules are still designed with hefty handcrafted rules, dominated by optimization-based methods such as quadratic programming or model predictive control. This results in a performance bottleneck for autonomous driving systems in that corner cases simply cannot be solved by enumerating hand-crafted rules. We present a deep-learning-based approach that brings prediction, decision, and planning modules together with the attempt to overcome the rule-based methods' deficiency in real-world applications of autonomous driving, especially for urban scenes. The DNN model we proposed is solely trained with 10 hours of human driver data, and it supports all mass-production ADAS features available on the market to date. This method is deployed onto a Jiyue test car with no modification to its factory-ready sensor set and compute platform. the feasibility, usability, and commercial potential are demonstrated in this article.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# マトリックス製品の成長--最速、平均、総じて

Growth in products of matrices: fastest, average, and generic ( http://arxiv.org/abs/2405.00610v3 )

ライセンス: Link先を確認
Vladimir Shpilrain, (参考訳) この論文で私たちが考慮する問題は次のとおりである。 A と B を 2x2 行列(実数)とする。 w(A, B) を長さ n の語とする。 w(A, B) を行列の積として評価した後、2x2 行列を W と呼びます。n の関数として長さ n のすべての w(A, B) 上で W の最も大きい(絶対値による)入力は何か? 各行列が A または B で確率 0.5 であるような n 行列のランダム積における最大の(絶対値による)エントリーの絶対値は何でしょうか。 そのようなランダムな行列積に対するリャプノフ指数は何か。 これらの質問の第一に部分的な回答を与え、第二に本質的に完全な回答を与える。 第3の質問(三つの中で最も難しい)に対して、行列 A と B のすべての成分が非負である場合、リャプノフ指数上の上限を生成できる非常に単純な方法を提供する。

The problems that we consider in this paper are as follows. Let A and B be 2x2 matrices (over reals). Let w(A, B) be a word of length n. After evaluating w(A, B) as a product of matrices, we get a 2x2 matrix, call it W. What is the largest (by the absolute value) possible entry of W, over all w(A, B) of length n, as a function of n? What is the expected absolute value of the largest (by the absolute value) entry in a random product of n matrices, where each matrix is A or B with probability 0.5? What is the Lyapunov exponent for a random matrix product like that? We give partial answer to the first of these questions and an essentially complete answer to the second question. For the third question (the most difficult of the three), we offer a very simple method to produce an upper bound on the Lyapunov exponent in the case where all entries of the matrices A and B are nonnegative.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# コントラストビジョン・ランゲージ事前学習におけるキャプション多様性のモデル化

Modeling Caption Diversity in Contrastive Vision-Language Pretraining ( http://arxiv.org/abs/2405.00740v3 )

ライセンス: Link先を確認
Samuel Lavoie, Polina Kirichenko, Mark Ibrahim, Mahmoud Assran, Andrew Gordon Wilson, Aaron Courville, Nicolas Ballas, (参考訳) 画像のキャプションには数千の方法があります。 一方、CLIP(Contrastive Language Pretraining)は、イメージとそのキャプションを単一のベクタにマッピングすることで機能する。 本稿では,画像にマッチするキャプションの多様性をモデル化したLlip, Latent Language Image Pretrainingを紹介する。 Llipの視覚エンコーダは、テキストから派生した情報を条件付けして最終的な表現に混合された視覚的特徴のセットを出力する。 Llipは大規模エンコーダでも,CLIPやSigLIPのような非コンテクスト化されたベースラインよりも優れた性能を示す。 Llipは、平均2.9%のゼロショット分類ベンチマークをViT-G/14エンコーダで改善している。 具体的には、ImageNetでゼロショットのトップ-1の精度が83.5%に達し、同様の大きさのCLIPを1.4%上回っている。 また,MS-COCOのゼロショット検索を6.0%改善した。 提案手法によって導入されたコンポーネントの包括的分析を行い,Llipがよりリッチな視覚表現につながることを示す。

There are a thousand ways to caption an image. Contrastive Language Pretraining (CLIP) on the other hand, works by mapping an image and its caption to a single vector -- limiting how well CLIP-like models can represent the diverse ways to describe an image. In this work, we introduce Llip, Latent Language Image Pretraining, which models the diversity of captions that could match an image. Llip's vision encoder outputs a set of visual features that are mixed into a final representation by conditioning on information derived from the text. We show that Llip outperforms non-contextualized baselines like CLIP and SigLIP on a variety of tasks even with large-scale encoders. Llip improves zero-shot classification by an average of 2.9% zero-shot classification benchmarks with a ViT-G/14 encoder. Specifically, Llip attains a zero-shot top-1 accuracy of 83.5% on ImageNet outperforming a similarly sized CLIP by 1.4%. We also demonstrate improvement on zero-shot retrieval on MS-COCO by 6.0%. We provide a comprehensive analysis of the components introduced by the method and demonstrate that Llip leads to richer visual representations.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-14
# HandS3C:RGB画像からの状態空間チャネル注意による3次元手メッシュ再構築

HandS3C: 3D Hand Mesh Reconstruction with State Space Spatial Channel Attention from RGB images ( http://arxiv.org/abs/2405.01066v3 )

ライセンス: Link先を確認
Zixun Jiao, Xihan Wang, Zhaoqiang Xia, Lianhe Shao, Quanli Gao, (参考訳) 片方のRGB画像から手メッシュを再構築するのは難しい作業です。 これまでのほとんどの研究は、さらなる情報を探究し、3次元再構成性能を改善するための注意機構を導入し、同時に計算の複雑さを増大させようとしている。 計算効率の高い性能保存アーキテクチャを実現するため,本研究では,手メッシュ再構築作業に状態空間モデルを組み込んだ最初の3次元手メッシュ再構成ネットワーク(HandS3C)を提案する。 ネットワークでは,有効受容場を拡張し,空間次元における手の特徴を抽出し,チャネル次元における手の局所的特徴を向上する,新しい状態空間型空間チャネルアテンションモジュールを設計する。 これにより、完全かつ詳細なハンドメッシュの再構築が可能になる。 FREIHAND, DEXYCB, HO3Dなど, 重閉塞に直面したよく知られたデータセットに対して行われた大規模な実験により, 提案したHandS3Cは, 最小限のパラメータを保ちながら, 最先端の性能を達成することが示された。

Reconstructing the hand mesh from one single RGB image is a challenging task because hands are often occluded by other objects. Most previous works attempt to explore more additional information and adopt attention mechanisms for improving 3D reconstruction performance, while it would increase computational complexity simultaneously. To achieve a performance-reserving architecture with high computational efficiency, in this work, we propose a simple but effective 3D hand mesh reconstruction network (i.e., HandS3C), which is the first time to incorporate state space model into the task of hand mesh reconstruction. In the network, we design a novel state-space spatial-channel attention module that extends the effective receptive field, extracts hand features in the spatial dimension, and enhances regional features of hands in the channel dimension. This helps to reconstruct a complete and detailed hand mesh. Extensive experiments conducted on well-known datasets facing heavy occlusions (such as FREIHAND, DEXYCB, and HO3D) demonstrate that our proposed HandS3C achieves state-of-the-art performance while maintaining a minimal parameters.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# PICLe:ペルソナ・イン・テクスト学習による大規模言語モデルからの多言語行動の誘発

PICLe: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning ( http://arxiv.org/abs/2405.02501v2 )

ライセンス: Link先を確認
Hyeong Kyu Choi, Yixuan Li, (参考訳) 大規模言語モデル(LLM)は、多種多様な性格特性を符号化した大量のテキストコーパスで訓練される。 このことは、所望の性格特性を LLM から引き出すという興味深い目標を導き、その行動的嗜好を追求する。 そこで我々は,対象のペルソナと整合するLLM動作をカスタマイズすることを目的として,ペルソナ導入タスクを定式化する。 本稿では,ベイズ推論に基づく新しいペルソナ推論フレームワークであるペルソナ・インコンテクスト・ラーニング(PICLe)を提案する。 中心となるものとして、PICLeは確率比に基づく新しいICLサンプル選択基準を導入し、特定のターゲットペルソナを抽出する際にモデルを最適にガイドするように設計されている。 PICLeの有効性を,3つのLLMにおけるベースライン法との比較により実証した。 コードはhttps://github.com/deeplearning-wisc/picle.comから入手できる。

Large Language Models (LLMs) are trained on massive text corpora, which are encoded with diverse personality traits. This triggers an interesting goal of eliciting a desired personality trait from the LLM, and probing its behavioral preferences. Accordingly, we formalize the persona elicitation task, aiming to customize LLM behaviors to align with a target persona. We present Persona In-Context Learning (PICLe), a novel persona elicitation framework grounded in Bayesian inference. At the core, PICLe introduces a new ICL example selection criterion based on likelihood ratio, which is designed to optimally guide the model in eliciting a specific target persona. We demonstrate the effectiveness of PICLe through extensive comparisons against baseline methods across three contemporary LLMs. Code is available at https://github.com/deeplearning-wisc/picle.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# Light-VQA+:視線誘導による露出補正のための映像品質評価モデル

Light-VQA+: A Video Quality Assessment Model for Exposure Correction with Vision-Language Guidance ( http://arxiv.org/abs/2405.03333v2 )

ライセンス: Link先を確認
Xunchu Zhou, Xiaohong Liu, Yunlong Dong, Tengchuan Kou, Yixuan Gao, Zicheng Zhang, Chunyi Li, Haoning Wu, Guangtao Zhai, (参考訳) 近年,ユーザ生成コンテンツ(UGC)ビデオが日常的に普及している。 しかし、UGCビデオは、撮影機器や技術に制限があるため、露出不良に悩まされることが多い。 そのため、ビデオ露光補正(VEC)アルゴリズム、低照度映像強調(LLVE)アルゴリズム、OEVR(Over-Exposed Video Recovery)アルゴリズムが提案されている。 ビデオ品質アセスメント(VQA)は、ビデオ品質アセスメント(VQA)である。 残念ながら、既存のVQAモデルのほとんどは一般的に構築されており、包括的な視点からビデオの品質を測定している。 その結果、LLVE-QAでトレーニングされたLight-VQAがLLVEの評価のために提案されている。 LLVE-QAデータセットをビデオ露出補正品質アセスメント(VEC-QA)データセットに拡張することで、Light-VQAの作業を拡張する。 また,VEC評価に特化したVQAモデルであるLight-VQA+を提案する。 Light-VQA+は、主にCLIPモデルの使用と特徴抽出時の視覚言語指導、さらにより正確な評価のためにHVS(Human Visual System)を参照する新しいモジュールとの違いがある。 VEC-QAデータセットおよび他の公開データセット上で,本モデルが現状のSOTA(State-Of-The-Art)VQAモデルに対して最高の性能を達成することを示す。

Recently, User-Generated Content (UGC) videos have gained popularity in our daily lives. However, UGC videos often suffer from poor exposure due to the limitations of photographic equipment and techniques. Therefore, Video Exposure Correction (VEC) algorithms have been proposed, Low-Light Video Enhancement (LLVE) and Over-Exposed Video Recovery (OEVR) included. Equally important to the VEC is the Video Quality Assessment (VQA). Unfortunately, almost all existing VQA models are built generally, measuring the quality of a video from a comprehensive perspective. As a result, Light-VQA, trained on LLVE-QA, is proposed for assessing LLVE. We extend the work of Light-VQA by expanding the LLVE-QA dataset into Video Exposure Correction Quality Assessment (VEC-QA) dataset with over-exposed videos and their corresponding corrected versions. In addition, we propose Light-VQA+, a VQA model specialized in assessing VEC. Light-VQA+ differs from Light-VQA mainly from the usage of the CLIP model and the vision-language guidance during the feature extraction, followed by a new module referring to the Human Visual System (HVS) for more accurate assessment. Extensive experimental results show that our model achieves the best performance against the current State-Of-The-Art (SOTA) VQA models on the VEC-QA dataset and other public datasets.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# 前向きコントラスト学習の改善

Improved Forward-Forward Contrastive Learning ( http://arxiv.org/abs/2405.03432v2 )

ライセンス: Link先を確認
Gananath R, (参考訳) バックプロパゲーションアルゴリズム(バックプロパゲーションアルゴリズム、英: backpropagation algorithm)は、ディープラーニングにおいて広く利用されている最適化手法である。 バックプロップで訓練されたモデルが神経データを正確に説明できるという証拠が増えているが、生物学の脳では、バックプロップのような方法がまだ見つかっていない。 さらに、脳内のバックプロップの素直な実装を利用することには、いくつかの欠点がある。 2022年、ジェフリー・ヒントン (Geoffrey Hinton) はフォワード・フォワード (FF) アルゴリズムと呼ばれる生物学的に妥当な学習法を提案した。 この記事の直後にFFCLと呼ばれる改良版が導入された。 しかし、FFCLには制限があり、特に3段階の学習システムであり、最終段階は通常のバックプロパゲーションに依存していた。 提案手法では,FFCLの最後の2段階を除去し,通常のバックプロパゲーションを完全に除去することで,これらの欠点に対処する。 代わりに、ローカルアップデートにのみ依存し、より生物学的に可能な代替手段を提供しています。

The backpropagation algorithm, or backprop, is a widely utilized optimization technique in deep learning. While there's growing evidence suggesting that models trained with backprop can accurately explain neuronal data, no backprop-like method has yet been discovered in the biological brain for learning. Moreover, employing a naive implementation of backprop in the brain has several drawbacks. In 2022, Geoffrey Hinton proposed a biologically plausible learning method known as the Forward-Forward (FF) algorithm. Shortly after this paper, a modified version called FFCL was introduced. However, FFCL had limitations, notably being a three-stage learning system where the final stage still relied on regular backpropagation. In our approach, we address these drawbacks by eliminating the last two stages of FFCL and completely removing regular backpropagation. Instead, we rely solely on local updates, offering a more biologically plausible alternative.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# MAmmoTH2: Webからのインストラクションのスケーリング

MAmmoTH2: Scaling Instructions from the Web ( http://arxiv.org/abs/2405.03548v2 )

ライセンス: Link先を確認
Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen, (参考訳) インストラクションチューニングは、大規模言語モデル(LLM)の推論能力を改善し、データ品質とスケーラビリティが重要な要素である。 ほとんどのインストラクションチューニングデータは、人間のクラウドソーシングやGPT-4蒸留に由来する。 LLM推論を強化するために,学習前のWebコーパスから1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。 提案手法では,(1)関連文書のリコール,(2)命令応答対の抽出,(3)オープンソースのLCMを用いて抽出したペアの精製を行う。 このデータセットに基づいて微調整ベースLLMを構築し,MAmmoTH2モデルを構築し,推論ベンチマークの性能を著しく向上させる。 特に、MAmmoTH2-7Bのパフォーマンスは、MATHでは11%から34%、GSM8Kでは36%から67%に向上した。 さらに、パブリックインストラクションチューニングデータセットでMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、いくつかの推論とチャットボットベンチマークで最先端のパフォーマンスを達成する。 本研究は,人為的アノテーションやGPT-4蒸留を使わずに大規模かつ高品質な指導データを収集する方法を実証し,より優れた指導調律データを構築するための新たなパラダイムを提供する。

Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B's (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# 確率論的シナリオプログラムを自然言語から生成する

Generating Probabilistic Scenario Programs from Natural Language ( http://arxiv.org/abs/2405.03709v2 )

ライセンス: Link先を確認
Karim Elmaaroufi, Devan Shanker, Ana Cismaru, Marcell Vazquez-Chanlatte, Alberto Sangiovanni-Vincentelli, Matei Zaharia, Sanjit A. Seshia, (参考訳) ロボティクスや自動運転車を含むサイバー物理システム(CPS)にとって、大量展開は稀な出来事で発生する致命的なエラーによって妨げられている。 車両事故などの稀な出来事を再現するために、多くの企業がログシステムを作成し、これらの貴重な出来事を正確にシミュレーションで再現するためにクラッシュ再構築の専門家を雇った。 しかし、これらの手法では「もし」の質問は簡単に定式化され、答えられるわけではない。 自然言語からシナリオプログラムを作成するためのAIシステムであるScenarioNLを提案する。 具体的には、これらのプログラムを警察の事故報告から生成する。 通常レポートには、確率的プログラミング言語(PPL)を通じて表現されるインシデントの詳細に関する不確実性が含まれています。 Scenicを使用することで、CPSの挙動、特性、相互作用に対する不確実性や変動を明確かつ簡潔に表現することができる。 我々は,最も優れたLarge Language Models (LLM) を用いた一般的なプロンプト技術が,確率的シナリオプログラムの推論や,Scanicのような低リソース言語のためのコード生成が不可能であることを示す。 本システムは,複数のLSMと,複数のプロンプト戦略,コンパイラ,シミュレータから構成される。 われわれは過去5年間、カリフォルニア州で利用可能な自動運転車のクラッシュレポートを評価し、セマンティックに意味があり、構文的に正しいコードを生成する方法に関する洞察を共有した。

For cyber-physical systems (CPS), including robotics and autonomous vehicles, mass deployment has been hindered by fatal errors that occur when operating in rare events. To replicate rare events such as vehicle crashes, many companies have created logging systems and employed crash reconstruction experts to meticulously recreate these valuable events in simulation. However, in these methods, "what if" questions are not easily formulated and answered. We present ScenarioNL, an AI System for creating scenario programs from natural language. Specifically, we generate these programs from police crash reports. Reports normally contain uncertainty about the exact details of the incidents which we represent through a Probabilistic Programming Language (PPL), Scenic. By using Scenic, we can clearly and concisely represent uncertainty and variation over CPS behaviors, properties, and interactions. We demonstrate how commonplace prompting techniques with the best Large Language Models (LLM) are incapable of reasoning about probabilistic scenario programs and generating code for low-resource languages such as Scenic. Our system is comprised of several LLMs chained together with several kinds of prompting strategies, a compiler, and a simulator. We evaluate our system on publicly available autonomous vehicle crash reports in California from the last five years and share insights into how we generate code that is both semantically meaningful and syntactically correct.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# ERATTA: 大規模言語モデルで答えるテーブルのための極端なRAG

ERATTA: Extreme RAG for Table To Answers with Large Language Models ( http://arxiv.org/abs/2405.03963v2 )

ライセンス: Link先を確認
Sohini Roychowdhury, Marko Krema, Anvar Mahammad, Brian Moore, Arijit Mukherjee, Punit Prakashchandra, (参考訳) 検索拡張現実(RAG)を備えた大規模言語モデル(LLM)は、近年、スケーラブルな生成AIソリューションに最適な選択肢となっている。 しかしながら、RAGをLLMに組み込んだユースケースの選択は、汎用的あるいは極端にドメイン特化されているため、RAG-LLMアプローチのスケーラビリティと一般化性に疑問が呈されている。 本研究では,データ認証,ユーザクエリルーティング,データ検索,カスタムプロンプトなどを実現するために,高度に可変かつ大規模なデータテーブルから複数のLSMを起動する,ユニークなLCMベースのシステムを提案する。 当社のシステムは,エンタープライズレベルのデータ製品から情報を抽出し,リアルタイム応答を10秒以下で行うように調整されている。 1つのプロンプトは、ユーザ間認証を管理し、3つのプロンプトでルーティングし、データをフェッチし、カスタマイズ可能な自然言語応答を生成する。 さらに,LLM応答の幻覚を検知し,報告する5つの評価モジュールを提案する。 提案するシステムと評価基準は,持続可能性,財務状況,ソーシャルメディア領域において,数百のユーザクエリに対して,90%以上の信頼性スコアを達成している。 提案した極端なRAGアーキテクチャの拡張は、LLMを用いた異種ソースクエリを可能にする。

Large language models (LLMs) with retrieval augmented-generation (RAG) have been the optimal choice for scalable generative AI solutions in the recent past. However, the choice of use-cases that incorporate RAG with LLMs have been either generic or extremely domain specific, thereby questioning the scalability and generalizability of RAG-LLM approaches. In this work, we propose a unique LLM-based system where multiple LLMs can be invoked to enable data authentication, user query routing, data retrieval and custom prompting for question answering capabilities from data tables that are highly varying and large in size. Our system is tuned to extract information from Enterprise-level data products and furnish real time responses under 10 seconds. One prompt manages user-to-data authentication followed by three prompts to route, fetch data and generate a customizable prompt natural language responses. Additionally, we propose a five metric scoring module that detects and reports hallucinations in the LLM responses. Our proposed system and scoring metrics achieve >90% confidence scores across hundreds of user queries in the sustainability, financial health and social media domains. Extensions to the proposed extreme RAG architectures can enable heterogeneous source querying using LLMs.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# Splat-MOVER: 編集可能なガウススプレイティングによる多段オープンボキャブラリロボットマニピュレーション

Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting ( http://arxiv.org/abs/2405.04378v2 )

ライセンス: Link先を確認
Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager, (参考訳) オープン語彙ロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERについて述べる。 Splat-MOVER は以下の通りである。 (i)ASK-Splatは言語意味論のための潜伏符号を蒸留し、3Dシーンに余裕をつかむGSplat表現である。 ASK-Splatは3Dシーンの幾何学的、意味的、余計な理解を可能にする。 (II)SEE-Splatは3次元セマンティックマスクと埋め込んだリアルタイムシーン編集モジュールで、現実世界におけるロボットの相互作用によって生じる物体の動きを可視化する。 SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。 3)ASK-SplatとSEE-Splatを併用したグリップ生成モジュールであるGrasp-Splatを用いて、オープンワールドオブジェクトの候補グリップを提案する。 ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。 本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,1段のオープン語彙操作タスクと,既存のベースラインでは不可能な以前の操作ステージによるシーン変化を反映するための編集シーンを用いた4つの複数ステージ操作タスクで比較した。 このプロジェクトのコードとプロジェクトページへのリンクは近く公開される予定だ。

We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills latent codes for language semantics and grasp affordance into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical for many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks, as well as in four multi-stage manipulation tasks using the edited scene to reflect scene changes due to prior manipulation stages, which is not possible with the existing baselines. Code for this project and a link to the project page will be made available soon.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# 肺癌と大腸癌の診断性向上のための説明可能なAI技術の検討

Exploring Explainable AI Techniques for Improved Interpretability in Lung and Colon Cancer Classification ( http://arxiv.org/abs/2405.04610v2 )

ライセンス: Link先を確認
Mukaffi Bin Moin, Fatema Tuj Johora Faria, Swarnajit Saha, Busra Kamal Rafa, Mohammad Shafiul Alam, (参考訳) 肺がんと大腸がんは世界中で深刻な健康上の問題であり、死亡リスクを減らすためには早期かつ正確な診断が必要である。 しかし、病理学者の能力に大きく依存する診断は、専門知識が不十分な場合に困難と危険をもたらす。 画像や血液マーカーなどの診断手法は早期発見に寄与するが、病理組織学は依然として金の標準でありながら、時間をかけてサーバ間のミスに対して脆弱である。 ハイエンド技術への限られたアクセスは、患者の即時医療と診断の能力をさらに制限する。 近年のディープラーニングの進歩は、その医学的画像解析への応用、特に肺がんや大腸癌の診断における病理画像の利用に関心を惹き付けている。 この調査の目的は、Xception、DenseNet201、ResNet101、InceptionV3、DenseNet121、DenseNet169、ResNet152、InceptionResNetV2といった既存のトレーニング済みCNNベースのモデルを使用して、より良い拡張戦略を通じて分類を強化することである。 8モデルとも97%から99%の精度に到達した。 さらに、GradCAM、GradCAM++、ScoreCAM、Faster Score-CAM、LayerCAM、Vanilla Saliency、SmoothGradといった注意可視化技術を使用して、モデルの分類決定に関する洞察を提供し、悪性と良性の画像分類の解釈性と理解を改善する。

Lung and colon cancer are serious worldwide health challenges that require early and precise identification to reduce mortality risks. However, diagnosis, which is mostly dependent on histopathologists' competence, presents difficulties and hazards when expertise is insufficient. While diagnostic methods like imaging and blood markers contribute to early detection, histopathology remains the gold standard, although time-consuming and vulnerable to inter-observer mistakes. Limited access to high-end technology further limits patients' ability to receive immediate medical care and diagnosis. Recent advances in deep learning have generated interest in its application to medical imaging analysis, specifically the use of histopathological images to diagnose lung and colon cancer. The goal of this investigation is to use and adapt existing pre-trained CNN-based models, such as Xception, DenseNet201, ResNet101, InceptionV3, DenseNet121, DenseNet169, ResNet152, and InceptionResNetV2, to enhance classification through better augmentation strategies. The results show tremendous progress, with all eight models reaching impressive accuracy ranging from 97% to 99%. Furthermore, attention visualization techniques such as GradCAM, GradCAM++, ScoreCAM, Faster Score-CAM, and LayerCAM, as well as Vanilla Saliency and SmoothGrad, are used to provide insights into the models' classification decisions, thereby improving interpretability and understanding of malignant and benign image classification.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# 離散時間ReLUリカレントニューラルネットワークの安定性と性能解析

Stability and Performance Analysis of Discrete-Time ReLU Recurrent Neural Networks ( http://arxiv.org/abs/2405.05236v3 )

ライセンス: Link先を確認
Sahel Vahedi Noori, Bin Hu, Geir Dullerud, Peter Seiler, (参考訳) 本稿では、ReLUアクティベーション機能付きリカレントニューラルネットワーク(RNN)の安定性と$\ell_2$-gein性能について述べる。 これらの条件は、リアプノフ/異方性理論と、繰り返しReLUによって満たされる二次制約(QC)を組み合わせることによって導かれる。 我々は、スカラーReLUの既知の特性を用いて、繰り返しRELUに対するQCの一般的なクラスを記述する。 我々の安定性と性能条件は、これらのQCとReLU RNNの"リフト"表現を使います。 本研究では、スカラー ReLU で満たされる正の均一性は、繰り返し ReLU に対して QC のクラスを拡大しないことを示す。 本稿では, 安定/性能条件を実証し, 昇降地平線の効果について検討する。

This paper presents sufficient conditions for the stability and $\ell_2$-gain performance of recurrent neural networks (RNNs) with ReLU activation functions. These conditions are derived by combining Lyapunov/dissipativity theory with Quadratic Constraints (QCs) satisfied by repeated ReLUs. We write a general class of QCs for repeated RELUs using known properties for the scalar ReLU. Our stability and performance condition uses these QCs along with a "lifted" representation for the ReLU RNN. We show that the positive homogeneity property satisfied by a scalar ReLU does not expand the class of QCs for the repeated ReLU. We present examples to demonstrate the stability / performance condition and study the effect of the lifting horizon.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-14
# 長期連続予測のためのマルチスケール拡張畳み込みネットワーク

Multi-Scale Dilated Convolution Network for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2405.05499v2 )

ライセンス: Link先を確認
Feifei Li, Suhan Guo, Feng Han, Jian Zhao, Furao Shen, (参考訳) 時系列の正確な予測は意思決定や計画に重要な応用がある。 しかし、時系列データの長期的な依存関係をキャプチャすることは依然として困難である。 長期的依存関係をよりよく抽出するために,浅層拡張畳み込みアーキテクチャを用いて時系列の周期的・傾向特性を抽出するマルチスケール拡張畳み込みネットワーク(MSDCN)を提案する。 指数関数的に増加する拡張と異なるカーネルサイズを持つ異なる畳み込みブロックを設計し、異なるスケールで時系列データをサンプリングする。 さらに、従来の自己回帰モデルを用いて、データ内の線形関係をキャプチャする。 提案手法の有効性を検証するため,8つの長期時系列予測ベンチマークデータセットを用いて実験を行った。 実験の結果,提案手法は従来の最先端手法よりも優れており,いくつかの強力なベースライン手法と比較して推論速度が大幅に向上していることがわかった。

Accurate forecasting of long-term time series has important applications for decision making and planning. However, it remains challenging to capture the long-term dependencies in time series data. To better extract long-term dependencies, We propose Multi Scale Dilated Convolution Network (MSDCN), a method that utilizes a shallow dilated convolution architecture to capture the period and trend characteristics of long time series. We design different convolution blocks with exponentially growing dilations and varying kernel sizes to sample time series data at different scales. Furthermore, we utilize traditional autoregressive model to capture the linear relationships within the data. To validate the effectiveness of the proposed approach, we conduct experiments on eight challenging long-term time series forecasting benchmark datasets. The experimental results show that our approach outperforms the prior state-of-the-art approaches and shows significant inference speed improvements compared to several strong baseline methods.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# 太陽電池発電予測のためのクラスタリングに基づくマルチタスキングディープニューラルネットワーク

Clustering-based Multitasking Deep Neural Network for Solar Photovoltaics Power Generation Prediction ( http://arxiv.org/abs/2405.05989v2 )

ライセンス: Link先を確認
Hui Song, Zheng Miao, Ali Babalhavaeji, Saman Mehrnia, Mahdi Jalili, Xinghuo Yu, (参考訳) 太陽電池(PV)セルの設置が増加すると、再生可能エネルギー源(RES)の発生が増加するが、エネルギースケジューリングの不確実性が増大する。 スマートグリッドにおけるエネルギー管理とディスパッチ最適化には,PV発電の予測が重要である。 しかし、PV発電データは様々な種類の顧客(住宅、農業、工業、商業など)で収集されることが多い。 この結果はしばしば、すべてのPV発電データでトレーニングされた予測モデルとなり、予測者は、顧客タイプごとに別々の予測器を構築するのではなく、モデル内の自己学習を通じてさまざまなパターンを学習することができる。 本稿では、PV発電予測のためのクラスタリングに基づくマルチタスクディープニューラルネットワーク(CM-DNN)フレームワークを提案する。 K-meansは、データをさまざまな顧客タイプにクラスタリングする。 各タイプに対して、ディープニューラルネットワーク(DNN)が採用され、精度が向上するまで訓練される。 その後、特定の顧客タイプ(すなわち目標タスク)に対して、モデル間知識伝達を行い、トレーニング精度を高める。 この過程で、ソースタスクの選択は、タスクの最適サブセット(ターゲット顧客を除く)を選択するように設計され、選択されたソースタスクは、係数を使用して、対象の予測タスクに転送されるDNNモデルの知識(重みとバイアス)の量を決定する。 提案するCM-DNNは、実世界のPV発電データセット上でテストされ、クラスタリングなしでデータセットをトレーニングする際の予測性能を単一のモデルと比較することにより、その優位性を実証する。

The increasing installation of Photovoltaics (PV) cells leads to more generation of renewable energy sources (RES), but results in increased uncertainties of energy scheduling. Predicting PV power generation is important for energy management and dispatch optimization in smart grid. However, the PV power generation data is often collected across different types of customers (e.g., residential, agricultural, industrial, and commercial) while the customer information is always de-identified. This often results in a forecasting model trained with all PV power generation data, allowing the predictor to learn various patterns through intra-model self-learning, instead of constructing a separate predictor for each customer type. In this paper, we propose a clustering-based multitasking deep neural network (CM-DNN) framework for PV power generation prediction. K-means is applied to cluster the data into different customer types. For each type, a deep neural network (DNN) is employed and trained until the accuracy cannot be improved. Subsequently, for a specified customer type (i.e., the target task), inter-model knowledge transfer is conducted to enhance its training accuracy. During this process, source task selection is designed to choose the optimal subset of tasks (excluding the target customer), and each selected source task uses a coefficient to determine the amount of DNN model knowledge (weights and biases) transferred to the aimed prediction task. The proposed CM-DNN is tested on a real-world PV power generation dataset and its superiority is demonstrated by comparing the prediction performance on training the dataset with a single model without clustering.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# HMT:長期言語処理のための階層型メモリ変換器

HMT: Hierarchical Memory Transformer for Long Context Language Processing ( http://arxiv.org/abs/2405.06067v2 )

ライセンス: Link先を確認
Zifan He, Zongyue Qin, Neha Prakriya, Yizhou Sun, Jason Cong, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、言語処理アプリケーションで広く使われている。 しかしながら、ほとんどの場合、入力中のすべてのトークンにモデルが参加できるように、コンテキストウィンドウを制限します。 繰り返しモデルにおける以前の作業は、過去のトークンを記憶して、無制限のコンテキストを可能にし、有効性を維持することができる。 しかし、それらは「フラット」なメモリアーキテクチャを持ち、情報の選択とフィルタリングに制限がある。 人間は学習と自己調整に長けており、脳の記憶階層を模倣することはモデル記憶にとって有益であると推測する。 本稿では,人間の記憶動作を模倣することで,モデルの長文処理能力を向上する新しいフレームワークである階層記憶変換器(HMT)を提案する。 メモリ拡張セグメントレベルの再実行を活用して、初期入力トークンセグメントからトークンを保存し、シーケンスに沿ってメモリ埋め込みを渡し、履歴から関連する情報をリコールすることで、メモリ階層を編成する。 一般言語モデリング (Wikitext-103, PG-19) と質問応答タスク (PubMedQA) の評価により, HMT は文脈制約および長文モデルの長文処理能力を着実に改善することを示した。 パラメータの0.5% - 2%を追加することで、HMTは簡単にプラグインでき、将来のLLMを拡張して、長いコンテキストを効果的に扱うことができる。 私たちのコードはGithubでオープンソース化されています。

Transformer-based large language models (LLM) have been widely used in language processing applications. However, most of them restrict the context window that permits the model to attend to every token in the inputs. Previous works in recurrent models can memorize past tokens to enable unlimited context and maintain effectiveness. However, they have "flat" memory architectures, which have limitations in selecting and filtering information. Since humans are good at learning and self-adjustment, we speculate that imitating brain memory hierarchy is beneficial for model memorization. We propose the Hierarchical Memory Transformer (HMT), a novel framework that enables and improves models' long-context processing ability by imitating human memorization behavior. Leveraging memory-augmented segment-level recurrence, we organize the memory hierarchy by preserving tokens from early input token segments, passing memory embeddings along the sequence, and recalling relevant information from history. Evaluating general language modeling (Wikitext-103, PG-19) and question-answering tasks (PubMedQA), we show that HMT steadily improves the long-context processing ability of context-constrained and long-context models. With an additional 0.5% - 2% of parameters, HMT can easily plug in and augment future LLMs to handle long context effectively. Our code is open-sourced on Github: https://github.com/OswaldHe/HMT-pytorch.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# ピコ秒パルス光を用いた遠隔通信における多光子フォック状態の生成

Generation of multi-photon Fock states at telecommunication wavelength using picosecond pulsed light ( http://arxiv.org/abs/2405.06567v2 )

ライセンス: Link先を確認
Tatsuki Sonoyama, Kazuma Takahashi, Tomoki Sano, Takumi Suzuki, Takefumi Nomura, Masahiro Yabuno, Shigehito Miki, Hirotaka Terai, Kan Takase, Warit Asavanant, Mamoru Endo, Akira Furusawa, (参考訳) 多光子フォック状態は、光学量子情報処理のような様々な応用を持つ。 量子情報処理の実装には、特にCバンド(1530-1565nm)において、通信波長帯内でフォック状態が生成されることが望ましい。 これは、成熟した光通信技術が伝送、操作、検出に利用できるためである。 さらに、高速な量子情報処理を実現するためには、フォック状態が短い光パルスで生成されることが望ましい。 本稿では,Wigner Negativities を持つCバンドにおけるピコ秒パルス多重光子フォック状態(単光子および2光子状態)の第1世代を報告し,パルスホモダインのトモグラフィーにより検証した。 実験装置では, 高温超伝導ナノストリップ光子数分解検出器(SNSPD)を用いて, 様々な量子状態の高速生成が期待できる。 この機能は、従来のMHz帯からGHz帯までのパルス光の繰り返し周波数を増大させることができるSNSPD(50ps)の高時間分解能に起因するが、この実験では、ホモダインの検出器の帯域幅により、繰り返し周波数は10MHzに制限される。 その結果,我々の実験装置は,通信波長の超高速量子情報処理のための高速光量子状態発生器のプロトタイプとして機能することが期待されている。

Multi-photon Fock states have diverse applications such as optical quantum information processing. For the implementation of quantum information processing, it is desirable that Fock states be generated within the telecommunication wavelength band, particularly in the C-band (1530-1565 nm). This is because mature optical communication technologies can be leveraged for the transmission, manipulation, and detection. Additionally, to achieve high-speed quantum information processing, it is desirable for Fock states to be generated in short optical pulses, as this allows embedding lots of information in the time domain. In this paper, we report the first generation of picosecond pulsed multi-photon Fock states (single-photon and two-photon states) in the C-band with Wigner negativities, which are verified by pulsed homodyne tomography. In our experimental setup, we utilize a single-pixel superconducting nanostrip photon-number-resolving detector (SNSPD), which is expected to facilitate the high-rate generation of various quantum states. This capability stems from the high temporal resolution of SNSPDs (50 ps in our case) allowing us to increase the repetition frequency of pulsed light from the conventional MHz range to the GHz range, although in this experiment the repetition frequency is limited to 10 MHz due to the bandwidth of the homodyne detector. Consequently, our experimental setup is anticipated to serve as a prototype of a high-speed optical quantum state generator for ultrafast quantum information processing at telecommunication wavelength.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# カテゴリー流束の経路依存的考察に向けて

Towards a Path Dependent Account of Category Fluency ( http://arxiv.org/abs/2405.06714v2 )

ライセンス: Link先を確認
David Heineman, Reba Koenen, Sashank Varma, (参考訳) カテゴリー・フルエンシは広く研究されている認知現象であるが、2つの矛盾するアカウントが基礎となる検索メカニズムとして提案されている。これはメモリを意図的に探索する最適な捕食プロセス(Hills et al , 2012)とセマンティックネットワークからのランダムウォークサンプリング(Abbott et al , 2015)である。 両方のアカウントの証拠は、人間のパッチスイッチを予測することに集中しており、どちらも既存のカテゴリー流速モデルがパラドックス的に同じ結果をもたらす。 まず、既存のモデルによってなされた仮定、すなわち、各名前の例が前の例にのみ依存する、という仮定を取り消すことから始めます。 一 カテゴリー遷移確率を直接モデル化するための追加バイアスを加えること (ii) 既存のシーケンス全体に基づいて予測するために,大規模な言語モデルに依存する。 そこで本研究では, モデルを配列生成器として再構成することで, 捕食状況の相違を解消する証拠を提示する。 評価のために,n-gramの重なりに基づく計量を提案することにより,生成したカテゴリの流速を人文シーケンスのバンクと比較した。 実際,Hills et al (2012) モデルで使用される追加バイアスは生成品質を改善するために必要であり,これは後にカテゴリ修正によって改善される。 LLMで排他的に生成しても、運用中にパッチスイッチング動作をトリガーするためには、追加のグローバルキューが必要になる。 セマンティックネットワーク上の検索プロセスのみに関するさらなるテストは、人間の行動を再現する決定論的検索の重要性を強調している。

Category fluency is a widely studied cognitive phenomenon, yet two conflicting accounts have been proposed as the underlying retrieval mechanism -- an optimal foraging process deliberately searching through memory (Hills et al., 2012) and a random walk sampling from a semantic network (Abbott et al., 2015). Evidence for both accounts has centered around predicting human patch switches, where both existing models of category fluency produce paradoxically identical results. We begin by peeling back the assumptions made by existing models, namely that each named example only depends on the previous example, by (i) adding an additional bias to model the category transition probability directly and (ii) relying on a large language model to predict based on the entire existing sequence. Then, we present evidence towards resolving the disagreement between each account of foraging by reformulating models as sequence generators. To evaluate, we compare generated category fluency runs to a bank of human-written sequences by proposing a metric based on n-gram overlap. We find category switch predictors do not necessarily produce human-like sequences, in fact the additional biases used by the Hills et al. (2012) model are required to improve generation quality, which are later improved by our category modification. Even generating exclusively with an LLM requires an additional global cue to trigger the patch switching behavior during production. Further tests on only the search process on top of the semantic network highlight the importance of deterministic search to replicate human behavior.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# 大規模言語モデル(LLM)における脳スコアの形状について

On the Shape of Brainscores for Large Language Models (LLMs) ( http://arxiv.org/abs/2405.06725v2 )

ライセンス: Link先を確認
Jingkai Li, (参考訳) LLM(Large Language Models)の台頭とともに、LLMと人間の脳/神経系の機能的類似性を評価する手段として、新しいメトリクスであるBrainscoreが登場した。 本研究は,190名の被験者と39名のLLMと訓練を受けていない被験者を対象とするヒトfMRIデータから得られたトポロジカルな特徴を抽出することにより,新規スコアの意味を抽出することを目的とした。 その後,36種類の線形回帰モデルを訓練し,信頼性と有効性を明らかにするため,詳細な統計的解析を行った。 本研究は, 興味領域 (ROIs) と半球領域 (hemispheres) にまたがる既存の脳スコアの解釈に特徴的な特徴の組み合わせを明らかにし, 機械学習(iML) 研究の進展に大きく寄与した。 この研究は、既存の脳スコアに関するさらなる議論と分析によって豊かになっている。 我々の知る限り、この研究は、この学際領域における新しいメートル法脳スコアを理解するための最初の試みである。

With the rise of Large Language Models (LLMs), the novel metric "Brainscore" emerged as a means to evaluate the functional similarity between LLMs and human brain/neural systems. Our efforts were dedicated to mining the meaning of the novel score by constructing topological features derived from both human fMRI data involving 190 subjects, and 39 LLMs plus their untrained counterparts. Subsequently, we trained 36 Linear Regression Models and conducted thorough statistical analyses to discern reliable and valid features from our constructed ones. Our findings reveal distinctive feature combinations conducive to interpreting existing brainscores across various brain regions of interest (ROIs) and hemispheres, thereby significantly contributing to advancing interpretable machine learning (iML) studies. The study is enriched by our further discussions and analyses concerning existing brainscores. To our knowledge, this study represents the first attempt to comprehend the novel metric brainscore within this interdisciplinary domain.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# PLeak: 大規模言語モデルアプリケーションに対する攻撃を急襲

PLeak: Prompt Leaking Attacks against Large Language Model Applications ( http://arxiv.org/abs/2405.06823v2 )

ライセンス: Link先を確認
Bo Hui, Haolin Yuan, Neil Gong, Philippe Burlina, Yinzhi Cao, (参考訳) 大きな言語モデル(LLM)は、LLMアプリケーションと呼ばれる多くの下流アプリケーションと異なる自然言語処理タスクを備えた新しいエコシステムを実現する。 LLMアプリケーションの機能と性能はシステムプロンプトに大きく依存しており、どのタスクを実行するかをバックエンドのLCMに指示する。 したがって、LLMアプリケーション開発者は、しばしばその知的財産を保護するためにシステムプロンプトを秘密にしておく。 結果として、プロンプトリークと呼ばれる自然な攻撃は、LLMアプリケーションからシステムプロンプトを盗み、開発者の知的財産権を侵害する。 既存の即時リーク攻撃は主に手作業によるクエリに依存しており、有効性は限られている。 本稿では, PLeak と呼ばれる新しいクローズドボックスプロンプトリーク攻撃フレームワークを設計し, 攻撃者がLLMアプリケーションに送信すると, その応答が独自のシステムプロンプトを示すように, 対向クエリを最適化する。 このような逆クエリを最適化問題として定式化し、勾配法を略して解決する。 我々のキーとなる考え方は、システムのプロンプトに対する逆クエリを漸進的に最適化することで最適化の目標を分解することである。 我々はPLeakをオフライン設定と現実世界のLLMアプリケーションの両方で評価する。 以上の結果から,PLeakはシステムプロンプトを効果的にリークし,クエリを手動でキュレートするベースラインだけでなく,既存のjailbreak攻撃から修正および適応する最適化されたクエリでベースラインを著しく上回ることを示す。 われわれは責任を持って問題をPoeに報告し、まだ回答を待っている。 私たちの実装はこのリポジトリで利用可能です。

Large Language Models (LLMs) enable a new ecosystem with many downstream applications, called LLM applications, with different natural language processing tasks. The functionality and performance of an LLM application highly depend on its system prompt, which instructs the backend LLM on what task to perform. Therefore, an LLM application developer often keeps a system prompt confidential to protect its intellectual property. As a result, a natural attack, called prompt leaking, is to steal the system prompt from an LLM application, which compromises the developer's intellectual property. Existing prompt leaking attacks primarily rely on manually crafted queries, and thus achieve limited effectiveness. In this paper, we design a novel, closed-box prompt leaking attack framework, called PLeak, to optimize an adversarial query such that when the attacker sends it to a target LLM application, its response reveals its own system prompt. We formulate finding such an adversarial query as an optimization problem and solve it with a gradient-based method approximately. Our key idea is to break down the optimization goal by optimizing adversary queries for system prompts incrementally, i.e., starting from the first few tokens of each system prompt step by step until the entire length of the system prompt. We evaluate PLeak in both offline settings and for real-world LLM applications, e.g., those on Poe, a popular platform hosting such applications. Our results show that PLeak can effectively leak system prompts and significantly outperforms not only baselines that manually curate queries but also baselines with optimized queries that are modified and adapted from existing jailbreaking attacks. We responsibly reported the issues to Poe and are still waiting for their response. Our implementation is available at this repository: https://github.com/BHui97/PLeak.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# 大規模言語モデルにおける倫理的コンプライアンスのための感情モデルと言語モデルの統合

Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models ( http://arxiv.org/abs/2405.07076v2 )

ライセンス: Link先を確認
Edward Y. Chang, (参考訳) 本研究では,感情や倫理に関する言語行動をよりよく管理するために,Large Language Models (LLMs) の高度な方法論を開発する。 DIKEはLLMがグローバルな人間の価値観を内包し、反映する能力を高め、ユーザ間の透明性と信頼を促進するために様々な文化的文脈に適応する敵対的枠組みである。 この方法論には、感情の詳細なモデリング、言語行動の分類、倫理的ガードレールの実装が含まれる。 我々の革新的なアプローチには、自己指導型学習技術を用いた感情や行動のマッピング、敵のレビューを通じてガードレールを精査すること、倫理的アライメントを確保するためにアウトプットを体系的に調整することが含まれる。 このフレームワークは、倫理的整合性と文化的な敏感さで運用するAIシステムの堅牢な基盤を確立し、より責任とコンテキストを意識したAIインタラクションを実現する。

This research develops advanced methodologies for Large Language Models (LLMs) to better manage linguistic behaviors related to emotions and ethics. We introduce DIKE, an adversarial framework that enhances the LLMs' ability to internalize and reflect global human values, adapting to varied cultural contexts to promote transparency and trust among users. The methodology involves detailed modeling of emotions, classification of linguistic behaviors, and implementation of ethical guardrails. Our innovative approaches include mapping emotions and behaviors using self-supervised learning techniques, refining these guardrails through adversarial reviews, and systematically adjusting outputs to ensure ethical alignment. This framework establishes a robust foundation for AI systems to operate with ethical integrity and cultural sensitivity, paving the way for more responsible and context-aware AI interactions.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-14
# 川井コンピューティング:対話型システムを用いたユーザエクスペリエンスにおける日本語のCute表記をスクープする

Kawaii Computing: Scoping Out the Japanese Notion of Cute in User Experiences with Interactive Systems ( http://arxiv.org/abs/2405.08244v1 )

ライセンス: Link先を確認
Yijia Wang, Katie Seaborn, (参考訳) 川井コンピューティングは、人間-コンピュータインタラクション(HCI)研究および実践における「カット」という日本の概念に関する着実に成長している研究分野の新たな用語である。 河井は、その経験的・文化的な性格から、可愛らしいという一般的な概念と区別される。 対話型エージェント・インタフェース・システムの外観・行動にデザインできるが、日本の社会文化の文脈によって引き起こされる、文化的な日本人のユーザ体験(UX)や川井の精神モデルなど、特定の情緒的・文化的側面も指す。 本稿では,HCI 研究および関連分野における川井の探索方法について,設計と経験の要素として考察する。 川井計算における理論的・方法論的ギャップと今後の研究の機会を照らす。

Kawaii computing is a new term for a steadily growing body of work on the Japanese notion of "cute" in human-computer interaction (HCI) research and practice. Kawaii is distinguished from general notions of cute by its experiential and culturally-sensitive nature. While it can be designed into the appearance and behaviour of interactive agents, interfaces, and systems, kawaii also refers to certain affective and cultural dimensions experienced by culturally Japanese users, i.e., kawaii user experiences (UX) and mental models of kawaii elicited by the socio-cultural context of Japan. In this scoping review, we map out the ways in which kawaii has been explored within HCI research and related fields as a factor of design and experience. We illuminate theoretical and methodological gaps and opportunities for future work on kawaii computing.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-14
# マルチ受容場戦略に基づく低照度・欠陥条件下での壁画画像のプログレッシブ・エンハンスメントと復元

Progressive enhancement and restoration for mural images under low-light and defected conditions based on multi-receptive field strategy ( http://arxiv.org/abs/2405.08245v1 )

ライセンス: Link先を確認
Xiameng Wei, Binbin Fan, Ying Wang, Yanxiang Feng, Laiyi Fu, (参考訳) 古代の壁画は貴重な文化遺産であり、考古学的価値が高い。 彼らはその内容を通じて古代の宗教、儀式、民俗学などについての洞察を提供する。 しかし、長期の酸化や保護が不十分なため、古代の壁画は皮剥きや金型など、継続的な被害を受けている。 また、古代の壁画は一般的に屋内で描かれていたため、デジタル装置で撮影した画像の光度は低いことが多い。 視界の低さは、損傷した地域のさらなる修復を妨げている。 古代のフレスコ画の損傷の増大に対処し, 遺跡のバッチ復元を容易にするため, 低照度で損傷を受けた古壁画をMER(Mural Enhancement and Restoration net)と呼ぶ2段階の復元モデルを提案する。 我々の2段階モデルは、復元された画像の視覚的品質を向上するだけでなく、他の競技者と比較して、関連する計量評価において満足できる結果を得る。 さらに,提案したモデルを用いて,古壁画の復元のためのウェブサイトを開設した。 コードはhttps://gitee.com/bbfan2024/MER.gitで入手できる。

Ancient murals are valuable cultural heritage with great archaeological value. They provide insights into ancient religions, ceremonies, folklore, among other things through their content. However, due to long-term oxidation and inadequate protection, ancient murals have suffered continuous damage, including peeling and mold etc. Additionally, since ancient murals were typically painted indoors, the light intensity in images captured by digital devices is often low. The poor visibility hampers the further restoration of damaged areas. To address the escalating damage to ancient frescoes and facilitate batch restoration at archaeological sites, we propose a two-stage restoration model which called MER(Mural Enhancement and Restoration net) for ancient murals that are damaged and have been captured in low light. Our two-stage model not only enhances the visual quality of restored images but also achieves commendable results in relevant metric evaluations compared with other competitors. Furthermore, we have launched a website dedicated to the restoration of ancient mural paintings, utilizing the proposed model. Code is available at https://gitee.com/bbfan2024/MER.git.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 濃密なブロブ表現を用いた合成テキスト・画像生成

Compositional Text-to-Image Generation with Dense Blob Representations ( http://arxiv.org/abs/2405.08246v1 )

ライセンス: Link先を確認
Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat, (参考訳) 既存のテキスト・ツー・イメージモデルでは、複雑なテキストプロンプトに従うのに苦労しており、制御性を改善するために、追加の接地入力の必要性が高まっている。 本研究では,シーンを視覚的プリミティブ(濃密なブロブ表現)に分解することを提案する。 ブロブ表現に基づいて,Blobgenと呼ばれるBlob-grounded text-to-image diffusion modelを合成生成のために開発する。 特に,ブロブ表現と視覚的特徴の融合を解消するために,新たにマスク付きクロスアテンションモジュールを導入する。 大規模言語モデル(LLM)の合成性を活用するために,テキストプロンプトからブロブ表現を生成するための新しいコンテキスト内学習手法を提案する。 広汎な実験により,BlobGENはより優れたゼロショット生成品質とレイアウト誘導制御性をMS-COCO上で実現することが示された。 LLMによって拡張された場合、合成画像生成ベンチマークにおいて、より優れた数値的、空間的正当性を示す。 プロジェクトページ: https://blobgen-2d.github.io

Existing text-to-image models struggle to follow complex text prompts, raising the need for extra grounding inputs for better controllability. In this work, we propose to decompose a scene into visual primitives - denoted as dense blob representations - that contain fine-grained details of the scene while being modular, human-interpretable, and easy-to-construct. Based on blob representations, we develop a blob-grounded text-to-image diffusion model, termed BlobGEN, for compositional generation. Particularly, we introduce a new masked cross-attention module to disentangle the fusion between blob representations and visual features. To leverage the compositionality of large language models (LLMs), we introduce a new in-context learning approach to generate blob representations from text prompts. Our extensive experiments show that BlobGEN achieves superior zero-shot generation quality and better layout-guided controllability on MS-COCO. When augmented by LLMs, our method exhibits superior numerical and spatial correctness on compositional image generation benchmarks. Project page: https://blobgen-2d.github.io.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# マルチパラメトリックボディMRIシリーズの自動分類

Automated classification of multi-parametric body MRI series ( http://arxiv.org/abs/2405.08247v1 )

ライセンス: Link先を確認
Boah Kim, Tejas Sudharshan Mathai, Kimberly Helm, Ronald M. Summers, (参考訳) 多パラメータMRI(Multi-parametric MRI)研究は、様々な疾患の診断のための臨床実践で広く利用されている。 mpMRI検査の量が年々増加するにつれて、これらの試験のDICOMヘッダフィールド内には、共用不正確さが存在する。 これにより、放射線技師のハングプロトコルの一部として、異なるシリーズの配置にヘッダ情報を使用することを防ぎ、修正には臨床医の監視が必要である。 本研究では,mpMRI研究において,8種類の異なるシリーズを分類する自動フレームワークを提案する。 我々は3つのシーメンススキャナーによって取得された1,363個の研究を用いて、5倍のクロスバリデーションを持つDenseNet-121モデルを訓練した。 DenseNet-121アンサンブルの性能を313 mpMRI実験のホールドアウトテストセットで評価した。 平均精度は96.6%,感度は96.6%,特異性は99.6%,F1スコアは96.6%であった。 以上より, 胸部, 腹部, 骨盤のレベルで得られたmpMRI検査において, シリーズタイプを分類する手法を最初に開発した。 本手法は,近代放射線学の実践において,ハングプロトコルの堅牢な自動化を実現する能力を有する。

Multi-parametric MRI (mpMRI) studies are widely available in clinical practice for the diagnosis of various diseases. As the volume of mpMRI exams increases yearly, there are concomitant inaccuracies that exist within the DICOM header fields of these exams. This precludes the use of the header information for the arrangement of the different series as part of the radiologist's hanging protocol, and clinician oversight is needed for correction. In this pilot work, we propose an automated framework to classify the type of 8 different series in mpMRI studies. We used 1,363 studies acquired by three Siemens scanners to train a DenseNet-121 model with 5-fold cross-validation. Then, we evaluated the performance of the DenseNet-121 ensemble on a held-out test set of 313 mpMRI studies. Our method achieved an average precision of 96.6%, sensitivity of 96.6%, specificity of 99.6%, and F1 score of 96.6% for the MRI series classification task. To the best of our knowledge, we are the first to develop a method to classify the series type in mpMRI studies acquired at the level of the chest, abdomen, and pelvis. Our method has the capability for robust automation of hanging protocols in modern radiology practice.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 密集, 密集, 大規模イベントにおける地理空間車両検出のためのマルチモーダル協調ネットワーク

Multimodal Collaboration Networks for Geospatial Vehicle Detection in Dense, Occluded, and Large-Scale Events ( http://arxiv.org/abs/2405.08251v1 )

ライセンス: Link先を確認
Xin Wu, Zhanchao Huang, Li Wang, Jocelyn Chanussot, Jiaojiao Tian, (参考訳) 大規模災害では, 災害現場の物体検出能力に依存し, 密集・密集した物体の存在が主な課題となっている。 既存の手法は、通常RGBのモダリティに基づいており、混み合った環境で同じ色やテクスチャでターゲットを区別するのに苦労しており、不明瞭な物体を識別できない。 この目的のために、RGBと高さマップのモダリティを利用して、大規模イベントのための2つのマルチモーダル密閉車両検出データセットを構築した。 これらのデータセットに基づいて、密集かつ隠蔽された車両検出のためのマルチモーダル協調ネットワークであるMuDetを提案する。 MuDetは階層的に、モダリティ内の識別可能な情報の完全性を高め、単純なサンプルと複雑なサンプルを区別する。 MuDetには、Unimodal Feature Hierarchical Enhancement (Uni-Enh)、Multimodal Cross Learning (Mul-Lea)、Hard-easy Discriminative (He-Dis)パターンの3つの主要なモジュールが含まれている。 Uni-Enh と Mul-Lea は各モジュラリティ内の特徴を強化し、2つの不均一なモジュラリティから特徴のクロス積分を促進する。 He-Disは、密閉された車両ターゲットを、信頼性値の定義としきい値の閾値によって、クラス内の大きな違いとクラス間の最小限の差で効果的に分離し、複雑な背景を抑える。 4K-SAI-LCSデータセットとISPRS Potsdamデータセットという2つの再ラベルされたマルチモーダルベンチマークデータセットの実験結果は、MuDetの堅牢性と一般化を実証している。 この作業のコードは \url{https://github.com/Shank2358/MuDet} で公開されている。

In large-scale disaster events, the planning of optimal rescue routes depends on the object detection ability at the disaster scene, with one of the main challenges being the presence of dense and occluded objects. Existing methods, which are typically based on the RGB modality, struggle to distinguish targets with similar colors and textures in crowded environments and are unable to identify obscured objects. To this end, we first construct two multimodal dense and occlusion vehicle detection datasets for large-scale events, utilizing RGB and height map modalities. Based on these datasets, we propose a multimodal collaboration network for dense and occluded vehicle detection, MuDet for short. MuDet hierarchically enhances the completeness of discriminable information within and across modalities and differentiates between simple and complex samples. MuDet includes three main modules: Unimodal Feature Hierarchical Enhancement (Uni-Enh), Multimodal Cross Learning (Mul-Lea), and Hard-easy Discriminative (He-Dis) Pattern. Uni-Enh and Mul-Lea enhance the features within each modality and facilitate the cross-integration of features from two heterogeneous modalities. He-Dis effectively separates densely occluded vehicle targets with significant intra-class differences and minimal inter-class differences by defining and thresholding confidence values, thereby suppressing the complex background. Experimental results on two re-labeled multimodal benchmark datasets, the 4K-SAI-LCS dataset, and the ISPRS Potsdam dataset, demonstrate the robustness and generalization of the MuDet. The codes of this work are available openly at \url{https://github.com/Shank2358/MuDet}.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# スマートサンプリング:Q-Learningの改善のための自己注意とブートストラップ

Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning ( http://arxiv.org/abs/2405.08252v1 )

ライセンス: Link先を確認
Muhammad Junaid Khan, Syed Hammad Ahmed, Gita Sukthankar, (参考訳) アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。 提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。 これにより、オリジナルのREDQ(Chen et al 2021)とDroQ(Hi-raoka et al 2022)のパフォーマンスが向上し、Q予測が向上するだけでなく、Q関数アンサンブル内の平均正規化バイアスと標準正規化バイアスの偏差を効果的に低減する。 重要なことに,本手法は,更新データ(UTD)比が低いシナリオでも良好に動作する。 特に,提案手法の実装は単純であり,基本モデルの変更を最小限に抑える必要がある。

We present a novel method aimed at enhancing the sample efficiency of ensemble Q learning. Our proposed approach integrates multi-head self-attention into the ensembled Q networks while bootstrapping the state-action pairs ingested by the ensemble. This not only results in performance improvements over the original REDQ (Chen et al. 2021) and its variant DroQ (Hi-raoka et al. 2022), thereby enhancing Q predictions, but also effectively reduces both the average normalized bias and standard deviation of normalized bias within Q-function ensembles. Importantly, our method also performs well even in scenarios with a low update-to-data (UTD) ratio. Notably, the implementation of our proposed method is straightforward, requiring minimal modifications to the base model.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 無限水平離散決定過程に対するトンプソンサンプリング

Thompson Sampling for Infinite-Horizon Discounted Decision Processes ( http://arxiv.org/abs/2405.08253v1 )

ライセンス: Link先を確認
Daniel Adelman, Cagla Keceli, Alba V. Olivares Nadal, (参考訳) 我々は、未知パラメータによってパラメータ化されたマルコフ決定過程をモデル化し、トンプソンサンプリングと呼ばれるサンプリングベースアルゴリズムの漸近挙動を研究する。 後悔の標準的な定義は、特に下層の連鎖構造が一般である場合、政策を評価するのに必ずしも適していない。 我々は、(予想された)後悔が(超)直線的に成長し、非自明な状態進化を伴う現実的な環境での学習の概念を捉えることができないことを示す。 標準的な(予想された)後悔を分解することで、期待された後悔という新しい尺度を開発し、過去の行動の不変な結果を無視します。 代わりに、現在の期間から進む最適な報酬に対して後悔を測る。 トンプソンサンプリングアルゴリズムの残差残差は指数関数的に0に収束する項によって上界化されていることを示す。 我々は、トンプソンサンプリングの後方サンプリング誤差がほぼ確実に0に収束する条件を示す。 次に、期待された残差残差の確率バージョンと、それがほぼ確実に 0 に収束する現在の条件を導入する。 そこで本研究では,これまで考えられてきたよりも広い環境において有用なアルゴリズムを抽出する学習方法を提案する。

We model a Markov decision process, parametrized by an unknown parameter, and study the asymptotic behavior of a sampling-based algorithm, called Thompson sampling. The standard definition of regret is not always suitable to evaluate a policy, especially when the underlying chain structure is general. We show that the standard (expected) regret can grow (super-)linearly and fails to capture the notion of learning in realistic settings with non-trivial state evolution. By decomposing the standard (expected) regret, we develop a new metric, called the expected residual regret, which forgets the immutable consequences of past actions. Instead, it measures regret against the optimal reward moving forward from the current period. We show that the expected residual regret of the Thompson sampling algorithm is upper bounded by a term which converges exponentially fast to 0. We present conditions under which the posterior sampling error of Thompson sampling converges to 0 almost surely. We then introduce the probabilistic version of the expected residual regret and present conditions under which it converges to 0 almost surely. Thus, we provide a viable concept of learning for sampling algorithms which will serve useful in broader settings than had been considered previously.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 気候誤報における誤報の検出--誤報を識別するための技術認知的アプローチ

Detecting Fallacies in Climate Misinformation: A Technocognitive Approach to Identifying Misleading Argumentation ( http://arxiv.org/abs/2405.08254v1 )

ライセンス: Link先を確認
Francisco Zanartu, John Cook, Markus Wagner, Julian Garcia, (参考訳) 気候変動に関する誤報は、技術と心理学の交差点で全体論的、学際的な解決を必要とする複雑な社会問題である。 提案された解決策の1つは、心理学とコンピュータ科学の研究の合成を含む「技術認知」アプローチである。 心理学的研究は、誤情報に対する介入には、事実に基づく(例えば、事実的説明)と技術に基づく(例えば、誤解を招く技術の説明)の両方のコンテンツが必要であると特定している。 しかし、気候の誤報の誤報を記録・検出する研究はほとんど行われていない。 本研究では,様々な種類の気候誤報から誤報を推論するデータセットを構築するために,以前に開発された批判的思考手法を適用した。 このデータセットは、気候の誤報の誤報を検出するためにモデルをトレーニングするために使用される。 本研究は,従来よりも2.5~3.5のF1スコアを示した。 検出するのが最も容易な誤報には、偽の専門家や逸話的議論が含まれるが、過度に単純化、誤表現、スロットフル誘導といった背景知識を必要とする誤報は、比較的検出が困難である。 本研究は, 自動的に検出された気候の誤報が生成技術に基づく補正に対処できるソリューション開発の基盤となる。

Misinformation about climate change is a complex societal issue requiring holistic, interdisciplinary solutions at the intersection between technology and psychology. One proposed solution is a "technocognitive" approach, involving the synthesis of psychological and computer science research. Psychological research has identified that interventions in response to misinformation require both fact-based (e.g., factual explanations) and technique-based (e.g., explanations of misleading techniques) content. However, little progress has been made on documenting and detecting fallacies in climate misinformation. In this study, we apply a previously developed critical thinking methodology for deconstructing climate misinformation, in order to develop a dataset mapping different types of climate misinformation to reasoning fallacies. This dataset is used to train a model to detect fallacies in climate misinformation. Our study shows F1 scores that are 2.5 to 3.5 better than previous works. The fallacies that are easiest to detect include fake experts and anecdotal arguments, while fallacies that require background knowledge, such as oversimplification, misrepresentation, and slothful induction, are relatively more difficult to detect. This research lays the groundwork for development of solutions where automatically detected climate misinformation can be countered with generative technique-based corrections.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# パレットに基づく画像間の色移動

Palette-based Color Transfer between Images ( http://arxiv.org/abs/2405.08263v1 )

ライセンス: Link先を確認
Chenlei Lv, Dan Zhang, (参考訳) 画像強調の重要なサブトピックとして、色移動は、セマンティックコンテキストを保ちながら、参照画像に従ってソース画像の色スキームを強化することを目的としている。 カラートランスファーを実現するために,パレットベースのカラーマッピングフレームワークが提案された。 \textcolor{black}{これは、新しいカラースキームを生成するために複雑なセマンティック分析に依存しない古典的なソリューションである。 しかし、このフレームワークは通常手動で設定する必要がある。 伝統的なパレット生成の質は、色分離の程度に依存する。 本稿では,新しいカラースキームを自動生成できるパレットベースのカラートランスファー手法を提案する。 再設計されたパレットベースのクラスタリング手法により、画素は色分布に応じて異なるセグメントに分類でき、適用性も向上する。 深層学習に基づくイメージセグメンテーションと新しいカラーマッピング戦略を組み合わせることで、セマンティック一貫性を維持しつつ、前景や背景部分に色移動を独立して実装することができる。 実験結果から,本手法は自然リアリズム,色整合性,一般性,ロバスト性の観点から,ピア法に対して有意な優位性を示した。

As an important subtopic of image enhancement, color transfer aims to enhance the color scheme of a source image according to a reference one while preserving the semantic context. To implement color transfer, the palette-based color mapping framework was proposed. \textcolor{black}{It is a classical solution that does not depend on complex semantic analysis to generate a new color scheme. However, the framework usually requires manual settings, blackucing its practicality.} The quality of traditional palette generation depends on the degree of color separation. In this paper, we propose a new palette-based color transfer method that can automatically generate a new color scheme. With a redesigned palette-based clustering method, pixels can be classified into different segments according to color distribution with better applicability. {By combining deep learning-based image segmentation and a new color mapping strategy, color transfer can be implemented on foreground and background parts independently while maintaining semantic consistency.} The experimental results indicate that our method exhibits significant advantages over peer methods in terms of natural realism, color consistency, generality, and robustness.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# T-Watch: ブロックチェーンにおけるプライベートトランザクションの時間的実行を目指す

T-Watch: Towards Timed Execution of Private Transaction in Blockchains ( http://arxiv.org/abs/2405.08268v1 )

ライセンス: Link先を確認
Chao Li, Balaji Palanisamy, (参考訳) BitcoinやEthereumのようなブロックチェーンでは、トランザクションは、外部の世界がブロックチェーンの状態を変えるために使用できる主要なメカニズムである。 取引は証拠の重要な源であり、法医学的分析において重要な役割を果たす。 タイムドトランザクションとは、ユーザが選択した将来の時間枠でトランザクションをスケジュールしてブロックチェーンの状態を変更することを可能にする、特定のタイプのサービスを指す。 本稿では,Ethereumにおける任意のトランザクションの時間的実行をプライバシ保証付きでスケジュールする,分散的で費用効率のよいアプローチであるT-Watchを提案する。 T-Watchは、しきい値秘密共有と分散スマートコントラクトを組み合わせた新しい組み合わせを採用している。 スケジュールされたトランザクションのプライベート要素が将来の時間枠の前に開示されるのを防ぐため、T-Watchは、指定された将来の時間枠の前にブロックチェーンネットワークで採用された実行者のグループを使用して、スケジュールされたトランザクションの復号鍵の共有を維持し、スケジュールされたトランザクションをプロキシスマートコントラクトで復元して、必要な時間枠におけるブロックチェーン状態の変更をトリガーする。 T-Watchにおけるスマートコントラクト実行のコストを削減するため,提案プロトコルを既定で楽観的モードで実行するように慎重に設計し,誤動作が発生したら悲観的モードに切り替える。 さらに、このプロトコルは、ユーザがガスコストをさらに削減するために、サービス要求プーリングを作成するのをサポートする。 我々は、T-Watchのセキュリティを厳格に分析し、Ethereumの公式テストネットワーク上でプロトコルを実装します。 その結果、T-Watchは最先端と比較してスケーラビリティが高く、プールによってコストを90%以上削減できることが示された。

In blockchains such as Bitcoin and Ethereum, transactions represent the primary mechanism that the external world can use to trigger a change of blockchain state. Transactions serve as key sources of evidence and play a vital role in forensic analysis. Timed transaction refers to a specific class of service that enables a user to schedule a transaction to change the blockchain state during a chosen future time-frame. This paper proposes T-Watch, a decentralized and cost-efficient approach for users to schedule timed execution of any type of transaction in Ethereum with privacy guarantees. T-Watch employs a novel combination of threshold secret sharing and decentralized smart contracts. To protect the private elements of a scheduled transaction from getting disclosed before the future time-frame, T-Watch maintains shares of the decryption key of the scheduled transaction using a group of executors recruited in a blockchain network before the specified future time-frame and restores the scheduled transaction at a proxy smart contract to trigger the change of blockchain state at the required time-frame. To reduce the cost of smart contract execution in T-Watch, we carefully design the proposed protocol to run in an optimistic mode by default and then switch to a pessimistic mode once misbehaviors occur. Furthermore, the protocol supports users to form service request pooling to further reduce the gas cost. We rigorously analyze the security of T-Watch and implement the protocol over the Ethereum official test network. The results demonstrate that T-Watch is more scalable compared to the state of the art and could reduce the cost by over 90% through pooling.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 臨床医が優先するセグメンテーションに向けて: 医用画像セグメンテーションにおけるテスト時間適応のためのヒューマン・イン・ザ・ループの活用

Towards Clinician-Preferred Segmentation: Leveraging Human-in-the-Loop for Test Time Adaptation in Medical Image Segmentation ( http://arxiv.org/abs/2405.08270v1 )

ライセンス: Link先を確認
Shishuai Hu, Zehui Liao, Zeyou Liu, Yong Xia, (参考訳) 深層学習に基づく医療画像セグメンテーションモデルは、主にデータ分散の相違により、様々な医療センターに展開する際のパフォーマンス劣化に直面することが多い。 テスト時間適応(TTA)手法は、事前訓練されたモデルを用いてデータをテストする。 しかし、既存のTTA手法は、主にバッチ正規化(BN)層を操作することや、発散したデータ分布から生じる矛盾を効果的に是正できないプロンプトと逆学習を採用することに焦点を当てている。 本稿では,Human-in-the-loop TTA(HiTTA)フレームワークを提案する。 まず、臨床医が修正した予測のほとんど見落としている可能性に乗じて、これらの補正をTTAプロセスに統合し、臨床症状の嗜好とより密接な一致した予測に向けてモデルを操る。 第2に,本フレームワークは,BNパラメータの慎重な校正により,領域差による予測のばらつきを低減させることを目的として,分散損失を導出する。 我々のHiTTAは, 臨床上の期待と一致しながら, テストデータの分布に順応し, 医療的文脈におけるその関連性を高めることができる。 公開データセットに関する大規模な実験は、既存のTTA手法よりもHiTTAの方が優れていることを明確に示し、さまざまな医療センターにおけるモデルの性能と適応性を高める上で、人間のフィードバックの統合と分散損失の利点を強調した。

Deep learning-based medical image segmentation models often face performance degradation when deployed across various medical centers, largely due to the discrepancies in data distribution. Test Time Adaptation (TTA) methods, which adapt pre-trained models to test data, have been employed to mitigate such discrepancies. However, existing TTA methods primarily focus on manipulating Batch Normalization (BN) layers or employing prompt and adversarial learning, which may not effectively rectify the inconsistencies arising from divergent data distributions. In this paper, we propose a novel Human-in-the-loop TTA (HiTTA) framework that stands out in two significant ways. First, it capitalizes on the largely overlooked potential of clinician-corrected predictions, integrating these corrections into the TTA process to steer the model towards predictions that coincide more closely with clinical annotation preferences. Second, our framework conceives a divergence loss, designed specifically to diminish the prediction divergence instigated by domain disparities, through the careful calibration of BN parameters. Our HiTTA is distinguished by its dual-faceted capability to acclimatize to the distribution of test data whilst ensuring the model's predictions align with clinical expectations, thereby enhancing its relevance in a medical context. Extensive experiments on a public dataset underscore the superiority of our HiTTA over existing TTA methods, emphasizing the advantages of integrating human feedback and our divergence loss in enhancing the model's performance and adaptability across diverse medical centers.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# VS-Assistant:外科医の需要に関するVersatile surgery Assistant

VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons ( http://arxiv.org/abs/2405.08272v1 )

ライセンス: Link先を確認
Zhen Chen, Xingjian Luo, Jinlin Wu, Danny T. M. Chan, Zhen Lei, Jinqiao Wang, Sebastien Ourselin, Hongbin Liu, (参考訳) 外科的介入は患者医療にとって不可欠であり、多くの研究が、外科医に対する理解と意思決定の支援を提供するための高度なアルゴリズムを開発した。 大きな進歩にもかかわらず、これらのアルゴリズムは1つの特定のタスクとシナリオのために開発され、実際には異なる関数を手動で組み合わせる必要があり、適用性が制限される。 このように、インテリジェントで汎用的な外科アシスタントは、外科医の意図を正確に理解し、手術プロセスを支援するための特定のタスクを実行することが期待されている。 本研究では,高度なマルチモーダル大言語モデル (MLLM) を活用することで,外科医の意図を正確に理解し,外科的シーン分析,外科的機器検出,オンデマンドのセグメンテーションといった一連の外科的理解作業を完了できるVersatile Surgery Assistant (VS-Assistant) を提案する。 具体的には,より優れた外科的マルチモーダル理解を実現するために,VS-Assistantの外科的MLLMを整列させるプロジェクター(MOP)モジュールを考案し,外科的知識と外科的知識のバランスをとる。 さらに,VS-Assistantが外科的意図を理解できるように,外科的機能ケア戦略を考案し,外科医のニーズを満たすための一連の外科的機能呼び出しを行う。 脳神経外科データに対する広範囲な実験により、VS-Assistantは既存のMLLMよりも外科医の意図を正確に理解でき、テキスト分析や視覚タスクにおいて圧倒的なパフォーマンスをもたらすことが確認された。 ソースコードとモデルは公開されます。

The surgical intervention is crucial to patient healthcare, and many studies have developed advanced algorithms to provide understanding and decision-making assistance for surgeons. Despite great progress, these algorithms are developed for a single specific task and scenario, and in practice require the manual combination of different functions, thus limiting the applicability. Thus, an intelligent and versatile surgical assistant is expected to accurately understand the surgeon's intentions and accordingly conduct the specific tasks to support the surgical process. In this work, by leveraging advanced multimodal large language models (MLLMs), we propose a Versatile Surgery Assistant (VS-Assistant) that can accurately understand the surgeon's intention and complete a series of surgical understanding tasks, e.g., surgical scene analysis, surgical instrument detection, and segmentation on demand. Specifically, to achieve superior surgical multimodal understanding, we devise a mixture of projectors (MOP) module to align the surgical MLLM in VS-Assistant to balance the natural and surgical knowledge. Moreover, we devise a surgical Function-Calling Tuning strategy to enable the VS-Assistant to understand surgical intentions, and thus make a series of surgical function calls on demand to meet the needs of the surgeons. Extensive experiments on neurosurgery data confirm that our VS-Assistant can understand the surgeon's intention more accurately than the existing MLLM, resulting in overwhelming performance in textual analysis and visual tasks. Source code and models will be made public.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 量子崩壊モデルから格子ゲージ理論へ

From the Quantum Breakdown Model to the Lattice Gauge Theory ( http://arxiv.org/abs/2405.08273v1 )

ライセンス: Link先を確認
Yu-Min Hu, Biao Lian, (参考訳) 電気分解現象をシミュレートする空間的非対称フェルミオン相互作用を特徴とする1次元量子分解モデルは、指数的U(1)対称性と、多体局在や量子スカー状態を伴う量子カオスを含む様々な動的相を示す。 我々は、相互作用に必要なオンサイトフェルミオン軌道の最小数で最小の量子分解モデルを調べ、モデル内の多数の局所的な電荷を同定する。 次に、ある電荷セクターにおける最小量子分解モデルと、$U(1)$格子ゲージ理論をシミュレートする量子リンクモデルとの写像を明らかにし、局所保存電荷がゲージ対称性生成器にマップされていることを示す。 モデルの特別な電荷セクターは、量子多体傷を示すPXPモデルにさらにマッピングする。 この写像は、量子分解モデルにおける異なるゲージ配置によって特徴づけられる異なるクリロフ部分空間におけるリッチダイナミクスを明らかにする。

The one-dimensional quantum breakdown model, which features spatially asymmetric fermionic interactions simulating the electrical breakdown phenomenon, exhibits an exponential U(1) symmetry and a variety of dynamical phases including many-body localization and quantum chaos with quantum scar states. We investigate the minimal quantum breakdown model with the minimal number of on-site fermion orbitals required for the interaction, and identify a large number of local conserved charges in the model. We then reveal a mapping between the minimal quantum breakdown model in certain charge sectors and a quantum link model which simulates the $U(1)$ lattice gauge theory, and show that the local conserved charges map to the gauge symmetry generators. A special charge sector of the model further maps to the PXP model, which shows quantum many-body scars. This mapping unveils the rich dynamics in different Krylov subspaces characterized by different gauge configurations in the quantum breakdown model.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 高次テンソルリカバリのための$\ell_1$-norm正規化Kaczmarzアルゴリズムのパワー

Power of $\ell_1$-Norm Regularized Kaczmarz Algorithms for High-Order Tensor Recovery ( http://arxiv.org/abs/2405.08275v1 )

ライセンス: Link先を確認
Katherine Henneberger, Jing Qin, (参考訳) テンソルは複雑な多次元データの表現と解析において重要なツールである。 データボリュームが拡大を続けるにつれ、テンソルを直接操作して高速で効率的な計算を行う最適化アルゴリズムの開発に対する需要が高まっている。 実世界の応用における多くの問題は、スパース構造やローランク構造を特徴とする高次テンソルを復元するタスクとして定式化することができる。 本研究では,高次テンソル再構成のための$\ell_1$-norm正規化の力を持つ新規なKaczmarzアルゴリズムを提案する。 さらに,これらのアルゴリズムの完全収束解析とともに,ブロックと加速変種の両方を開発する。 合成と実世界の両方のデータセットに関する様々な数値実験は、画像シーケンスデストリップやビデオデコンボリューションのような画像およびビデオ処理タスクにおける提案手法の有効性と有意義なポテンシャルを示している。

Tensors serve as a crucial tool in the representation and analysis of complex, multi-dimensional data. As data volumes continue to expand, there is an increasing demand for developing optimization algorithms that can directly operate on tensors to deliver fast and effective computations. Many problems in real-world applications can be formulated as the task of recovering high-order tensors characterized by sparse and/or low-rank structures. In this work, we propose novel Kaczmarz algorithms with a power of the $\ell_1$-norm regularization for reconstructing high-order tensors by exploiting sparsity and/or low-rankness of tensor data. In addition, we develop both a block and an accelerated variant, along with a thorough convergence analysis of these algorithms. A variety of numerical experiments on both synthetic and real-world datasets demonstrate the effectiveness and significant potential of the proposed methods in image and video processing tasks, such as image sequence destriping and video deconvolution.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# ディープニューラルネットワークのためのスケーラブルなサブサンプリング推論

Scalable Subsampling Inference for Deep Neural Networks ( http://arxiv.org/abs/2405.08276v1 )

ライセンス: Link先を確認
Kejin Wu, Dimitris N. Politis, (参考訳) ディープニューラルネットワーク(DNN)は、ここ数年で機械学習アプリケーションに注目が集まっている。 近年,ReLUアクティベーション機能を備えた完全連結DNN推定器の性能を回帰モデルで推定するために,非漸近誤差境界が開発された。 本稿では,DNNの近似能力に関する最新の結果に基づいて,現在の誤差を若干改善する。 しかし、より重要なのは、非ランダムなサブサンプリング技術、-scalable subsampling を適用して 'subagged' DNN 推定器を構築することである。 正規性条件下では、サブタグ付きDNN推定器は、推定タスクや予測タスクの精度を犠牲にすることなく、計算効率がよいことを示す。 点推定・予測以外にも、サブタグ付きDNN推定器に基づく信頼度と予測間隔を構築するための異なるアプローチを提案する。 漸近的に有効であるだけでなく、提案された信頼/予測間隔は有限サンプルでうまく機能しているように見える。 全体として、スケーラブルなサブサンプリングDNN推定器は、統計的推測、すなわち、完全なパッケージを提供する。 a) 計算効率; 計算効率 (b)点推定・予測精度、及び (c)実質的に有用な信頼と予測間隔の構築を可能にする。

Deep neural networks (DNN) has received increasing attention in machine learning applications in the last several years. Recently, a non-asymptotic error bound has been developed to measure the performance of the fully connected DNN estimator with ReLU activation functions for estimating regression models. The paper at hand gives a small improvement on the current error bound based on the latest results on the approximation ability of DNN. More importantly, however, a non-random subsampling technique--scalable subsampling--is applied to construct a `subagged' DNN estimator. Under regularity conditions, it is shown that the subagged DNN estimator is computationally efficient without sacrificing accuracy for either estimation or prediction tasks. Beyond point estimation/prediction, we propose different approaches to build confidence and prediction intervals based on the subagged DNN estimator. In addition to being asymptotically valid, the proposed confidence/prediction intervals appear to work well in finite samples. All in all, the scalable subsampling DNN estimator offers the complete package in terms of statistical inference, i.e., (a) computational efficiency; (b) point estimation/prediction accuracy; and (c) allowing for the construction of practically useful confidence and prediction intervals.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# ファシリテート機能とトポロジー軽量化:不正アカウント検出のためのEthereumトランザクショングラフ圧縮法

Facilitating Feature and Topology Lightweighting: An Ethereum Transaction Graph Compression Method for Malicious Account Detection ( http://arxiv.org/abs/2405.08278v1 )

ライセンス: Link先を確認
Xuanze Chen, Chenkai Hu, Shengbo Gong, Chengxiang Jin, Jiajun Zhou, Shanqing Yu, Qi Xuan, (参考訳) Ethereumは暗号通貨の主要なグローバルプラットフォームのひとつとなり、金融エコシステムの多様化を促進する上で重要な役割を担っている。 しかし、規制の相対的な遅れによりEthereumの悪意ある活動が急増し、セキュリティへの資金提供が深刻な脅威となっている。 既存の規制手法は通常、機能エンジニアリングや大規模トランザクショングラフマイニングを通じて悪意のあるアカウントを検出する。 しかし、大量のトランザクションデータと悪意のある攻撃により、これらの手法は、データ処理と異常検出の間、非効率性とロバスト性に悩まされる。 そこで本研究では,TGC4Ethと呼ばれるEthereumトランザクショングラフ圧縮手法を提案し,トランザクショングラフの特徴とトポロジを軽量化することにより,悪意のあるアカウント検出を支援する。 特徴レベルでは,特徴回避攻撃に対する検出モデルのロバスト性を改善するために,低重要度に基づくトランザクション特徴を選択し,トポロジレベルでは,トランザクショングラフの構造を圧縮する集中処理と粗大化処理を採用し,検出モデルのデータ処理と推論効率を両立させる。 TGC4Ethは、トランザクショングラフの接続性を維持しながら、既存の検出モデルの計算効率を大幅に向上することを示した。 さらに、TGC4Ethは既存の検出モデルで安定した性能を維持し、機能回避攻撃に対して高い堅牢性を示すことができる。

Ethereum has become one of the primary global platforms for cryptocurrency, playing an important role in promoting the diversification of the financial ecosystem. However, the relative lag in regulation has led to a proliferation of malicious activities in Ethereum, posing a serious threat to fund security. Existing regulatory methods usually detect malicious accounts through feature engineering or large-scale transaction graph mining. However, due to the immense scale of transaction data and malicious attacks, these methods suffer from inefficiency and low robustness during data processing and anomaly detection. In this regard, we propose an Ethereum Transaction Graph Compression method named TGC4Eth, which assists malicious account detection by lightweighting both features and topology of the transaction graph. At the feature level, we select transaction features based on their low importance to improve the robustness of the subsequent detection models against feature evasion attacks; at the topology level, we employ focusing and coarsening processes to compress the structure of the transaction graph, thereby improving both data processing and inference efficiency of detection models. Extensive experiments demonstrate that TGC4Eth significantly improves the computational efficiency of existing detection models while preserving the connectivity of the transaction graph. Furthermore, TGC4Eth enables existing detection models to maintain stable performance and exhibit high robustness against feature evasion attacks.
翻訳日:2024-05-15 15:17:48 公開日:2024-05-14
# 畳み込みニューラルネットワークを用いた非コントラストCTにおける腎臓と嚢胞性腎病変の自動分離

Automatic Segmentation of the Kidneys and Cystic Renal Lesions on Non-Contrast CT Using a Convolutional Neural Network ( http://arxiv.org/abs/2405.08282v1 )

ライセンス: Link先を確認
Lucas Aronson, Ruben Ngnitewe Massaa, Syed Jamal Safdar Gardezi, Andrew L. Wentland, (参考訳) 目的:自動セグメンテーションツールは、腎臓の体積を迅速かつ正確に計算するのに有用である。 さらに、これらのツールには、画像登録アルゴリズムなどの入力ラベルを生成することによって、大規模な画像ベース人工知能プロジェクトを促進する能力がある。 従来の自動セグメンテーションモデルでは、非コントラストCT画像がほとんど無視されていた。 この研究は、非コントラストCTスキャンから腎臓と嚢胞性腎病変(CRL)を分離するために、ディープラーニング(DL)モデルを実装し、訓練することを目的としている。 方法:150例の非造影CTで腎とCRLの手技分割を行った。 データは80/20列車/テスト分割に分割し,深層学習(DL)モデルを用いて腎臓とCRLを分離した。 Dice similarity Coefficient (DSC), Jaccard Index (JI), and absolute and% error kidney volume and lesion volume。 Bland-Altman (B-A) 法を用いて, 手動式とDL型腎臓容積の比較を行った。 結果: DLモデルでは正中腎 DSC 0.934,正中腎 CRL DSC 0.711,正中腎 DSC 0.823 であった。 平均容積誤差は腎発作で0.9%,CRLで37.0%,全身で2.2%であった。 B-A分析により、DLベースのボリュームは手動ボリュームよりも大きく、平均バイアスは+3.0 ml(+/-2 SD +/-50.2 ml)であることが示された。 結語:非コントラストCT検査で腎臓と嚢胞性腎病変の分画を訓練した深層学習モデルでは,Dice similarity Coefficient 0.934。 キーワード:ディープラーニング、腎臓分割、人工知能、畳み込みニューラルネットワーク。

Objective: Automated segmentation tools are useful for calculating kidney volumes rapidly and accurately. Furthermore, these tools have the power to facilitate large-scale image-based artificial intelligence projects by generating input labels, such as for image registration algorithms. Prior automated segmentation models have largely ignored non-contrast computed tomography (CT) imaging. This work aims to implement and train a deep learning (DL) model to segment the kidneys and cystic renal lesions (CRLs) from non-contrast CT scans. Methods: Manual segmentation of the kidneys and CRLs was performed on 150 non-contrast abdominal CT scans. The data were divided into an 80/20 train/test split and a deep learning (DL) model was trained to segment the kidneys and CRLs. Various scoring metrics were used to assess model performance, including the Dice Similarity Coefficient (DSC), Jaccard Index (JI), and absolute and percent error kidney volume and lesion volume. Bland-Altman (B-A) analysis was performed to compare manual versus DL-based kidney volumes. Results: The DL model achieved a median kidney DSC of 0.934, median CRL DSC of 0.711, and total median study DSC of 0.823. Average volume errors were 0.9% for renal parenchyma, 37.0% for CRLs, and 2.2% overall. B-A analysis demonstrated that DL-based volumes tended to be greater than manual volumes, with a mean bias of +3.0 ml (+/- 2 SD of +/- 50.2 ml). Conclusion: A deep learning model trained to segment kidneys and cystic renal lesions on non-contrast CT examinations was able to provide highly accurate segmentations, with a median kidney Dice Similarity Coefficient of 0.934. Keywords: deep learning; kidney segmentation; artificial intelligence; convolutional neural networks.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# NVIDIAの次の株価予測:LSTM, MLP, ARIMA, ARIMA-GARCHモデルの比較分析

Predicting NVIDIA's Next-Day Stock Price: A Comparative Analysis of LSTM, MLP, ARIMA, and ARIMA-GARCH Models ( http://arxiv.org/abs/2405.08284v1 )

ライセンス: Link先を確認
Yiluan Xing, Chao Yan, Cathy Chang Xie, (参考訳) 株価の予測は、投資家、トレーダー、金融機関に重大な影響を及ぼし、金融市場では依然としてかなりの課題である。 AI革命が進行中である中、NVIDIAはさまざまな分野でイノベーションを推進している主要なプレーヤーとして現れてきた。 その卓越性から、我々はNVIDIAを研究対象に選んだ。

Forecasting stock prices remains a considerable challenge in financial markets, bearing significant implications for investors, traders, and financial institutions. Amid the ongoing AI revolution, NVIDIA has emerged as a key player driving innovation across various sectors. Given its prominence, we chose NVIDIA as the subject of our study.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# メメティックアルゴリズムの設計の今後 -線形順序問題の場合-

Future Trends in the Design of Memetic Algorithms: the Case of the Linear Ordering Problem ( http://arxiv.org/abs/2405.08285v1 )

ライセンス: Link先を確認
Lázaro Lugo, Carlos Segura, Gara Miranda, (参考訳) ヒューリスティックなオプティマイザの設計方法は、コンピューティングのパワーが増大するにつれて、数十年にわたって進化してきた。 当初, トラジェクトリ・メタヒューリスティックは, 多くの問題において最先端のメタヒューリスティックを形作るのに用いられてきたが, 今日では, 人口ベースのメカニズムの方が有効である傾向にあり, 反復的局所探索や可変近傍探索といった戦略が1990年代に先導した分野である線形順序付け問題(LOP)は, 現在では進化的・機械的スキームに取って代わられている。 本稿では,LOPオプティマイザの設計が今後どのように変化するかを理解することに注力する。 一方、メタヒューリスティック(メタヒューリスティック)は、大量の計算資源を効果的に活用できるように設計されており、特に、最近のコアが実行中に4ヶ月にわたって出力できる計算能力と同等である。 この側面の分析は並列化に依存しており、計算資源のパワーが増大するにつれて、人口の停滞を防ぐために、メメティックアルゴリズムに適用される強化手法の能力を高める必要があると結論づけることができた。 一方、今日の最も難しいインスタンスセット(xLOLIB2)の最もよく知られている結果は、大幅にパフォーマンスが向上した。 300から1000までの大きさのインスタンスを解析し、将来の研究の枠組みを提供する新たな境界を設定した。

The way heuristic optimizers are designed has evolved over the decades, as computing power has increased. Initially, trajectory metaheuristics used to shape the state of the art in many problems, whereas today, population-based mechanisms tend to be more effective.Such has been the case for the Linear Ordering Problem (LOP), a field in which strategies such as Iterated Local Search and Variable Neighborhood Search led the way during the 1990s, but which have now been surpassed by evolutionary and memetic schemes. This paper focuses on understanding how the design of LOP optimizers will change in the future, as computing power continues to increase, yielding two main contributions. On the one hand, a metaheuristic was designed that is capable of effectively exploiting a large amount of computational resources, specifically, computing power equivalent to what a recent core can output during runs lasting over four months. Our analysis of this aspect relied on parallelization, and allowed us to conclude that as the power of the computational resources increases, it will be necessary to boost the capacities of the intensification methods applied in the memetic algorithms to keep the population from stagnating. And on the other, the best-known results for today's most challenging set of instances (xLOLIB2) were significantly outperformed. Instances with sizes ranging from 300 to 1000 were analyzed, and new bounds were established that provide a frame of reference for future research.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# プラケットモデル, セルオートマタおよび測定による臨界度

Plaquette Models, Cellular Automata, and Measurement-induced Criticality ( http://arxiv.org/abs/2405.08286v1 )

ライセンス: Link先を確認
Hanchen Liu, Xiao Chen, (参考訳) ここでは,複数スピン相互作用項をプラケット項と呼ぶ2次元ランダム化プラケットモデルのクラスを,1-p$の確率で単一サイトスピン項に置き換える。 異なる$p$により、基底状態の位相遷移、あるいは同値な対称性作用素の位相遷移を観察する。 p$ が変化するにつれて、対称性作用素は拡大から空間の局所化へと変化する。 これらのモデルは1+1Dランダム化セルオートマトンダイナミクスと等価に理解することができ、2D遷移を1+1D動的吸収相転移と解釈することができる。 本稿では,3体あるいは5体の相互作用を持つラケット項に着目し,遷移の普遍性クラスについて検討する。 具体的には, 1+1D クリフォード力学で観測される測定誘起エンタングルメント相転移と, ランダムバルクパウリ測定により誘導される2次元クラスター状態の境界エンタングルメント遷移と同じ普遍性クラスに属することを示す。 この研究は、古典的なスピンモデル、セルオートマトン、ハイブリッドランダム回路における遷移の間の接続を確立する。

We present a class of two-dimensional randomized plaquette models, where the multi-spin interaction term, referred to as the plaquette term, is replaced by a single-site spin term with a probability of $1-p$. By varying $p$, we observe a ground state phase transition, or equivalently, a phase transition of the symmetry operator. We find that as we vary $p$, the symmetry operator changes from being extensive to being localized in space. These models can be equivalently understood as 1+1D randomized cellular automaton dynamics, allowing the 2D transition to be interpreted as a 1+1D dynamical absorbing phase transition. In this paper, our primary focus is on the plaquette term with three or five-body interactions, where we explore the universality classes of the transitions. Specifically, for the model with five-body interaction, we demonstrate that it belongs to the same universality class as the measurement-induced entanglement phase transition observed in 1+1D Clifford dynamics, as well as the boundary entanglement transition of the 2D cluster state induced by random bulk Pauli measurements. This work establishes a connection between transitions in classical spin models, cellular automata, and hybrid random circuits.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# テンポラル核融合変圧器を用いた空港遅延予測

Airport Delay Prediction with Temporal Fusion Transformers ( http://arxiv.org/abs/2405.08293v1 )

ライセンス: Link先を確認
Ke Liu, Kaijing Ding, Xi Cheng, Jianan Chen, Siyuan Feng, Hui Lin, Jilin Song, Chen Zhu, (参考訳) 飛行遅延は乗客、航空会社、空港を損なうため、航空業界におけるすべての利害関係者の意思決定に欠かせないものとなり、これまでさまざまな研究が試みてきた。 しかし、以前の遅延予測はしばしばカテゴリー的であり、高度に集約されたレベルである。 そこで本研究では,新しい時空核融合変圧器モデルを適用し,米国最上位30空港の4分の1の到着遅延を予測することを提案する。 我々のモデルには、空港の需要と容量予測、歴史的な空港の運転効率情報、空港の風と可視性、さらには気象や交通条件などが含まれる。 その結果,本モデルでは,テストセット上の小さな予測誤差によって測定された良好な性能が得られた。 さらに、モデル出力の解釈可能性解析により、遅延予測の重要な入力要素を特定する。

Since flight delay hurts passengers, airlines, and airports, its prediction becomes crucial for the decision-making of all stakeholders in the aviation industry and thus has been attempted by various previous research. However, previous delay predictions are often categorical and at a highly aggregated level. To improve that, this study proposes to apply the novel Temporal Fusion Transformer model and predict numerical airport arrival delays at quarter hour level for U.S. top 30 airports. Inputs to our model include airport demand and capacity forecasts, historic airport operation efficiency information, airport wind and visibility conditions, as well as enroute weather and traffic conditions. The results show that our model achieves satisfactory performance measured by small prediction errors on the test set. In addition, the interpretability analysis of the model outputs identifies the important input factors for delay prediction.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# SpeechVerse: 大規模汎用型オーディオ言語モデル

SpeechVerse: A Large-scale Generalizable Audio Language Model ( http://arxiv.org/abs/2405.08295v1 )

ライセンス: Link先を確認
Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff, (参考訳) 大規模言語モデル(LLM)は、自然言語命令の意味的理解を必要とするタスクの実行において、驚くほどの熟練度を示している。 近年,マルチモーダル音声やテキスト入力を知覚するために,この機能をさらに拡張する研究が数多く行われているが,その能力は音声認識や翻訳など,特定の微調整タスクに限られることが多い。 そこで我々は,学習可能なパラメータの小さなセットを通じて,事前学習した音声とテキストの基盤モデルを組み合わせた,堅牢なマルチタスク学習およびカリキュラム学習フレームワークであるSpeechVerseを開発した。 音声基礎モデルから抽出した連続潜時表現を用いて命令を微調整し,自然言語命令を用いた多種多様な音声処理タスクにおいて最適なゼロショット性能を実現する。 モデルパフォーマンスを、いくつかのデータセットやタスクにわたる従来のベースラインと比較するなど、広範なベンチマークを行います。 さらに、ドメイン外のデータセット、新しいプロンプト、目に見えないタスクをテストすることによって、一般化された命令のモデル能力を評価する。 実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。

Large language models (LLMs) have shown incredible proficiency in performing tasks that require semantic understanding of natural language instructions. Recently, many works have further expanded this capability to perceive multimodal audio and text inputs, but their capabilities are often limited to specific fine-tuned tasks such as automatic speech recognition and translation. We therefore develop SpeechVerse, a robust multi-task training and curriculum learning framework that combines pre-trained speech and text foundation models via a small set of learnable parameters, while keeping the pre-trained models frozen during training. The models are instruction finetuned using continuous latent representations extracted from the speech foundation model to achieve optimal zero-shot performance on a diverse range of speech processing tasks using natural language instructions. We perform extensive benchmarking that includes comparing our model performance against traditional baselines across several datasets and tasks. Furthermore, we evaluate the model's capability for generalized instruction following by testing on out-of-domain datasets, novel prompts, and unseen tasks. Our empirical experiments reveal that our multi-task SpeechVerse model is even superior to conventional task-specific baselines on 9 out of the 11 tasks.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# 距離制限された説明:理論的アンダーピンニングと効率的な実装

Distance-Restricted Explanations: Theoretical Underpinnings & Efficient Implementation ( http://arxiv.org/abs/2405.08297v1 )

ライセンス: Link先を確認
Yacine Izza, Xuanxiang Huang, Antonio Morgado, Jordi Planes, Alexey Ignatiev, Joao Marques-Silva, (参考訳) 近年,機械学習(ML)の利用が雪だるまになってきた。 多くの場合、MLモデルは極めて複雑であり、その操作は人間の意思決定者に対する理解を超えたものである。 それでも、いくつかのMLモデルの使用には、高い評価と安全性クリティカルなアプリケーションが含まれる。 説明可能な人工知能(XAI)は、人間の意思決定者がこのような複雑なMLモデルの操作を理解するのを助けることを目的としている。 残念ながら、過去のXAIの作業の大部分は非公式なアプローチに基づいており、厳格な保証は提供されていない。 当然のことながら、XAIの非公式な手法が誤った情報を提供することができることを示す包括的な実験的・理論的証拠が存在する。 論理ベースのXAIは、説明可能性に対する厳密なアプローチであり、モデルベースであり、計算された説明の厳密な保証を提供する。 しかしながら、ロジックベースのXAIのよく知られた欠点は、特に高度に複雑なMLモデルにおいて、論理推論の複雑さである。 最近の研究は、与えられた入力までの距離が十分小さいという厳密な説明として、距離制限された説明を提案している。 距離制限された説明性は敵の強靭性と密接な関係があり、中程度に複雑なMLモデルに対してスケールすることが示されているが、入力の数は依然として重要な制限因子である。 本稿では,MLモデル記述を計算・列挙する際の論理モデル記述器の性能向上のための新しいアルゴリズムについて検討する。

The uses of machine learning (ML) have snowballed in recent years. In many cases, ML models are highly complex, and their operation is beyond the understanding of human decision-makers. Nevertheless, some uses of ML models involve high-stakes and safety-critical applications. Explainable artificial intelligence (XAI) aims to help human decision-makers in understanding the operation of such complex ML models, thus eliciting trust in their operation. Unfortunately, the majority of past XAI work is based on informal approaches, that offer no guarantees of rigor. Unsurprisingly, there exists comprehensive experimental and theoretical evidence confirming that informal methods of XAI can provide human-decision makers with erroneous information. Logic-based XAI represents a rigorous approach to explainability; it is model-based and offers the strongest guarantees of rigor of computed explanations. However, a well-known drawback of logic-based XAI is the complexity of logic reasoning, especially for highly complex ML models. Recent work proposed distance-restricted explanations, i.e. explanations that are rigorous provided the distance to a given input is small enough. Distance-restricted explainability is tightly related with adversarial robustness, and it has been shown to scale for moderately complex ML models, but the number of inputs still represents a key limiting factor. This paper investigates novel algorithms for scaling up the performance of logic-based explainers when computing and enumerating ML model explanations with a large number of inputs.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# 実時間地上遅延計画修正のための深層強化学習と飛行遅延割り当て対応

Deep Reinforcement Learning for Real-Time Ground Delay Program Revision and Corresponding Flight Delay Assignments ( http://arxiv.org/abs/2405.08298v1 )

ライセンス: Link先を確認
Ke Liu, Fan Hu, Hui Lin, Xi Cheng, Jianan Chen, Jilin Song, Siyuan Feng, Gaofeng Su, Chen Zhu, (参考訳) 本稿では,航空交通管理 (ATM) で広く使われている交通管理イニシアチブである地上遅延プログラム (GDP) の最適化について検討する。 気象変動, 飛行要求変動, 空港到着率など, 国家空域における固有の不確実性を管理するために強化学習(RL)を用いて, 行動クローン(BC)と保守的Qラーニング(CQL)という2つのRLモデルを開発した。 これらのモデルは、地上および空中遅延と終端領域の混雑を統合した洗練された報酬関数を利用することで、GDP効率を向上させるように設計されている。 実運用データと予測された不確実性を組み込んで,現実的な意思決定シナリオを促進する,模擬単一空港環境SAGDP_ENVを構築した。 2019年のニューアーク・リバティ国際空港(EWR)のデータを利用して、私たちのモデルは空港の計画レートを事前に設定することを目的としています。 徹底的なモデリングとシミュレーションにもかかわらず、初期の結果は、モデルが効果的に学習するのに苦労したことを示している。 本稿では,実際の運用データに対して発生する課題を論じ,モデルの性能を評価し,ATMにおけるRLアプリケーションの改良に向けた今後の方向性を概説する。

This paper explores the optimization of Ground Delay Programs (GDP), a prevalent Traffic Management Initiative used in Air Traffic Management (ATM) to reconcile capacity and demand discrepancies at airports. Employing Reinforcement Learning (RL) to manage the inherent uncertainties in the national airspace system-such as weather variability, fluctuating flight demands, and airport arrival rates-we developed two RL models: Behavioral Cloning (BC) and Conservative Q-Learning (CQL). These models are designed to enhance GDP efficiency by utilizing a sophisticated reward function that integrates ground and airborne delays and terminal area congestion. We constructed a simulated single-airport environment, SAGDP_ENV, which incorporates real operational data along with predicted uncertainties to facilitate realistic decision-making scenarios. Utilizing the whole year 2019 data from Newark Liberty International Airport (EWR), our models aimed to preemptively set airport program rates. Despite thorough modeling and simulation, initial outcomes indicated that the models struggled to learn effectively, attributed potentially to oversimplified environmental assumptions. This paper discusses the challenges encountered, evaluates the models' performance against actual operational data, and outlines future directions to refine RL applications in ATM.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# Differentially Private Federated Learning: システムレビュー

Differentially Private Federated Learning: A Systematic Review ( http://arxiv.org/abs/2405.08299v1 )

ライセンス: Link先を確認
Jie Fu, Yuan Hong, Xinpeng Ling, Leixia Wang, Xun Ran, Zhiyu Sun, Wendy Hui Wang, Zhili Chen, Yang Cao, (参考訳) 近年、機械学習におけるプライバシとセキュリティの懸念が、信頼できるフェデレーション学習を研究の最前線に押し上げている。 微分プライバシーは、厳格な数学的基盤と証明可能な保証のために、連邦学習におけるプライバシー保護の事実上の標準として登場した。 差分プライバシーをフェデレート学習に組み込んだアルゴリズムに関する広範な研究にもかかわらず、これらの研究を分類し、合成する体系的なレビューには明らかな欠陥がある。 我々の研究は、差分的にプライベートなフェデレーション学習の体系的な概要を提示する。 既存の分類学は、連合学習において差分プライバシーによって提供される対象やプライバシー保護のレベルを十分に考慮していない。 このギャップを是正するために,差分プライバシーとフェデレーションシナリオの定義と保証に基づく,差分プライベートなフェデレーション学習の新しい分類法を提案する。 我々の分類では、保護対象を様々な差分プライバシモデルと、フェデレートされた学習環境内のそれぞれの近隣レベルにわたって明確に記述することができる。 さらに,フェデレート学習シナリオにおける差分プライバシーの適用について検討する。 本研究は,プライバシ保護フェデレーション学習に関する貴重な知見を提供し,今後の研究に向けた実践的方向性を提案する。

In recent years, privacy and security concerns in machine learning have promoted trusted federated learning to the forefront of research. Differential privacy has emerged as the de facto standard for privacy protection in federated learning due to its rigorous mathematical foundation and provable guarantee. Despite extensive research on algorithms that incorporate differential privacy within federated learning, there remains an evident deficiency in systematic reviews that categorize and synthesize these studies. Our work presents a systematic overview of the differentially private federated learning. Existing taxonomies have not adequately considered objects and level of privacy protection provided by differential privacy in federated learning. To rectify this gap, we propose a new taxonomy of differentially private federated learning based on definition and guarantee of differential privacy and federated scenarios. Our classification allows for a clear delineation of the protected objects across various differential privacy models and their respective neighborhood levels within federated learning environments. Furthermore, we explore the applications of differential privacy in federated learning scenarios. Our findings provide valuable insights into privacy-preserving federated learning and suggest practical directions for future research.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# イベントベースオプティカルフローのためのベクトル・シンボリックアーキテクチャ

Vector-Symbolic Architecture for Event-Based Optical Flow ( http://arxiv.org/abs/2405.08300v1 )

ライセンス: Link先を確認
Hongzhi You, Yijun Cao, Wei Yuan, Fanjun Wang, Ning Qiao, Yongjie Li, (参考訳) 特徴マッチングの観点から、イベントカメラの光学的フロー推定は、付随するイベントフレーム間の特徴類似性を比較することによって、イベント対応を識別する。 本稿では,Vector Symbolic Architectures(VSA)を利用して,イベントフレームのための実効的で堅牢な高次元特徴記述子を提案する。 VSA内の隣接する変数間の位相的類似性は、フローマッチング点に対する特徴記述子の表現類似性の向上に寄与する一方、その構造化されたシンボル表現能力は、事象極性と複数の空間スケールからの特徴融合を促進する。 本稿では,このHD特徴記述子に基づいて,モデルベース(VSA-Flow)と自己教師型学習(VSA-SM)の両方を対象とする,イベントベースの光フローのための新しい特徴マッチングフレームワークを提案する。 VSA-Flowでは、正確な光学フロー推定がHD特徴記述子の有効性を検証する。 VSA-SMでは、HD特徴記述子に基づく新しい類似度最大化法が提案され、補助的なグレースケール画像の必要性を排除し、イベントのみから自己教師付き方法で光の流れを学習する。 評価結果から,DSECベンチマークではモデルベースと自己教師型の両方の学習手法と比較して,VSAに基づく手法の方が精度がよいことが示されたが,MVSECベンチマークでは両手法の競合が続いている。 この貢献は、特徴マッチング手法における事象ベースの光学フローの著しい進歩を示す。

From a perspective of feature matching, optical flow estimation for event cameras involves identifying event correspondences by comparing feature similarity across accompanying event frames. In this work, we introduces an effective and robust high-dimensional (HD) feature descriptor for event frames, utilizing Vector Symbolic Architectures (VSA). The topological similarity among neighboring variables within VSA contributes to the enhanced representation similarity of feature descriptors for flow-matching points, while its structured symbolic representation capacity facilitates feature fusion from both event polarities and multiple spatial scales. Based on this HD feature descriptor, we propose a novel feature matching framework for event-based optical flow, encompassing both model-based (VSA-Flow) and self-supervised learning (VSA-SM) methods. In VSA-Flow, accurate optical flow estimation validates the effectiveness of HD feature descriptors. In VSA-SM, a novel similarity maximization method based on the HD feature descriptor is proposed to learn optical flow in a self-supervised way from events alone, eliminating the need for auxiliary grayscale images. Evaluation results demonstrate that our VSA-based method achieves superior accuracy in comparison to both model-based and self-supervised learning methods on the DSEC benchmark, while remains competitive among both methods on the MVSEC benchmark. This contribution marks a significant advancement in event-based optical flow within the feature matching methodology.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# 慢性疾患を対象としたmHealthアプリケーションのための適応型ユーザインタフェースの設計:ユーザ中心アプローチ

Designing Adaptive User Interfaces for mHealth applications targeting chronic disease: A User-Centric Approach ( http://arxiv.org/abs/2405.08302v1 )

ライセンス: Link先を確認
Wei Wang, John Grundy, Hourieh Khalajzadeh, Anuradha Madugalla, Humphrey O. Obie, (参考訳) mHealthの介入は、慢性疾患の自己管理に役立つ有意な可能性を秘めているが、その使用は依然として問題である。 慢性疾患に対処する個人間の実質的な多様性を考えると、調整された戦略が不可欠である。 \emph{Adaptive User Interfaces} (AUIs)は、この階層の多様性と進化するニーズに対処するのに役立ちます。 そこで本研究では,既存の文献から得られたAUIプロトタイプを開発した。 次に, このプロトタイプを, 様々な慢性疾患を管理する22人の被験者を対象に, フォーカスグループディスカッションとインタビュー調査の基盤として使用し, 全参加者のフォローアップ調査を行った。 これらの調査を通じて、AUIの使用、適応設計を改善するための戦略、そしてこれらの課題と戦略の間の潜在的なトレードオフに関連する重要な課題を特定しました。 また,90名以上の慢性疾患患者を対象に,AUIの嗜好を抽出するための定量的調査を行った。 これにより、参加者のさまざまな適応、データタイプ、収集方法、関与レベルに対する好みが明らかになった。 最後に、これらの洞察とカテゴリを合成し、mHealthアプリ適応設計のための既存のガイドラインと設計上の考慮に合わせる。 その結果、20人の参加者による最終フィードバック調査で改善した9つのガイドラインが得られた。

mHealth interventions show significant potential to help in the self-management of chronic diseases, but their under use remains a problem. Considering the substantial diversity among individuals dealing with chronic diseases, tailored strategies are essential. \emph{Adaptive User Interfaces} (AUIs) may help address the diverse and evolving needs of this demographic. To investigate this approach, we developed an AUI prototype informed by existing literature findings. We then used this prototype as the basis for focus group discussions and interview studies with 22 participants managing various chronic diseases, and follow-up surveys of all participants. Through these investigations, we pinpointed key challenges related to the use of AUIs, strategies to improve adaptation design, and potential trade-offs between these challenges and strategies. Concurrently, a quantitative survey was conducted to extract preferences for AUIs in chronic disease-related applications with 90 further participants. This uncovered participants' preferences for various adaptations, data types, collection methods, and involvement levels. Finally, we synthesised these insights and categories, aligning them with existing guidelines and design considerations for mHealth app adaptation design. This resulted in nine guidelines that we refined by a final feedback survey conducted with 20 participants.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# より厳密な哲学と心の科学のための計算的思考実験

Computational Thought Experiments for a More Rigorous Philosophy and Science of the Mind ( http://arxiv.org/abs/2405.08304v1 )

ライセンス: Link先を確認
Iris Over, Nikhil Krishnaswamy, James Pustejovsky, Joshua Hartshorne, (参考訳) 我々は、仮想世界認知科学(VW CogSci)と呼ばれる手法に対して、仮想世界に埋め込まれた仮想的エンボディエージェントを用いて、認知科学の分野における質問を探索する哲学的モチベーションを提供する。 我々は、心的・言語的表現に関する問題と、そのような計算モデルが哲学的思考実験に厳密な要素を加える方法、およびそのような表現の科学的研究で用いられる用語に焦点をあてる。 猫が馬鹿げているという信念や概念CATのような、信念と概念の議論の必要性を排除しつつ、個々の認知者の心の中の信念と概念トークンを保存しているような方法で、心の中の実体と実体の動的関係を記述する際に、この手法は神の目で見ることを強いる。 我々は、心的・言語的表現の科学的研究と認知科学をより広く行うために、VW CogSciのさらなる重要な利点を結論付けている。

We offer philosophical motivations for a method we call Virtual World Cognitive Science (VW CogSci), in which researchers use virtual embodied agents that are embedded in virtual worlds to explore questions in the field of Cognitive Science. We focus on questions about mental and linguistic representation and the ways that such computational modeling can add rigor to philosophical thought experiments, as well as the terminology used in the scientific study of such representations. We find that this method forces researchers to take a god's-eye view when describing dynamical relationships between entities in minds and entities in an environment in a way that eliminates the need for problematic talk of belief and concept types, such as the belief that cats are silly, and the concept CAT, while preserving belief and concept tokens in individual cognizers' minds. We conclude with some further key advantages of VW CogSci for the scientific study of mental and linguistic representation and for Cognitive Science more broadly.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# 暗号支援型スタブルコインの両立ポートフォリオ最適化

Collateral Portfolio Optimization in Crypto-Backed Stablecoins ( http://arxiv.org/abs/2405.08305v1 )

ライセンス: Link先を確認
Bretislav Hajek, Daniel Reijsbergen, Anwitaman Datta, Jussi Keppo, (参考訳) Stablecoins — US Dollarのような現実世界の資産に価値を振り向けた暗号通貨 — は、トークン価格のボラティリティの影響を軽減する上で、DeFiエコシステムの重要なコンポーネントである。 暗号で支えられた安定コインでは、ペグはシステム停止の場合、各安定コインが、その名目上の価値に値する他の暗号トークンのバスケットと交換可能であることを保証して確立される。 しかし、担保トークンに影響を与える価格変動は、この保証を無効にする可能性がある。 本研究は, 余剰ポートフォリオの構成が, このタイプの破滅的な事象に対するレジリエンスに与える影響について検討する。 開発者がコラテラルの大部分(例えばMakerDAOのDai)を維持できる安定型コインに対しては,凸最適化と(半)分散最小化に基づく2つのポートフォリオ最適化手法を提案する。 最適なポートフォリオとダイのポートフォリオの歴史的進化を比較し、再現性を支援するため、データとコードを公開しました。

Stablecoins - crypto tokens whose value is pegged to a real-world asset such as the US Dollar - are an important component of the DeFi ecosystem as they mitigate the impact of token price volatility. In crypto-backed stablecoins, the peg is founded on the guarantee that in case of system shutdown, each stablecoin can be exchanged for a basket of other crypto tokens worth approximately its nominal value. However, price fluctuations that affect the collateral tokens may cause this guarantee to be invalidated. In this work, we investigate the impact of the collateral portfolio's composition on the resilience to this type of catastrophic event. For stablecoins whose developers maintain a significant portion of the collateral (e.g., MakerDAO's Dai), we propose two portfolio optimization methods, based on convex optimization and (semi)variance minimization, that account for the correlation between the various token prices. We compare the optimal portfolios to the historical evolution of Dai's collateral portfolio, and to aid reproducibility, we have made our data and code publicly available.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# 実体と関係の連成抽出のための疎結合と集約の枠組み

A Decoupling and Aggregating Framework for Joint Extraction of Entities and Relations ( http://arxiv.org/abs/2405.08311v1 )

ライセンス: Link先を確認
Yao Wang, Xin Liu, Weikun Kong, Hai-Tao Yu, Teeradaj Racharak, Kyoung-Sook Kim, Minh Le Nguyen, (参考訳) 名前付きエンティティ認識と関係抽出は、情報抽出の分野で重要な2つのサブタスクである。 従来のアプローチによる成功にもかかわらず、基礎研究の問題は未解決のままである。 第一に、最近の研究では2つのサブタスクのパラメータ共有や共有機能を用いて、それらの意味的差異を無視している。 第二に、情報相互作用は主に2つのサブタスクに焦点を当て、サブタスク固有の主題、関係、探索されていない対象を符号化する特徴間のきめ細かい情報伝達相互作用を残している。 上記の制約に感化して, 実体と関係を協調的に抽出する新しいモデルを提案する。 1) 対象の符号化, 対象の符号化, 関係の符号化という, 特徴の符号化プロセスを3つの部分に分割することを提案する。 これにより、きめ細かいサブタスク固有の機能を使うことができます。 2) 情報インタラクションを強化し, 個別の微粒化サブタスク特有の特徴を構築するための, 新たな集約間戦略と集約内戦略を提案する。 実験により,本モデルが過去の最先端モデルより優れていたことを示す。 大規模な追加実験により,本モデルの有効性がさらに確認された。

Named Entity Recognition and Relation Extraction are two crucial and challenging subtasks in the field of Information Extraction. Despite the successes achieved by the traditional approaches, fundamental research questions remain open. First, most recent studies use parameter sharing for a single subtask or shared features for both two subtasks, ignoring their semantic differences. Second, information interaction mainly focuses on the two subtasks, leaving the fine-grained informtion interaction among the subtask-specific features of encoding subjects, relations, and objects unexplored. Motivated by the aforementioned limitations, we propose a novel model to jointly extract entities and relations. The main novelties are as follows: (1) We propose to decouple the feature encoding process into three parts, namely encoding subjects, encoding objects, and encoding relations. Thanks to this, we are able to use fine-grained subtask-specific features. (2) We propose novel inter-aggregation and intra-aggregation strategies to enhance the information interaction and construct individual fine-grained subtask-specific features, respectively. The experimental results demonstrate that our model outperforms several previous state-of-the-art models. Extensive additional experiments further confirm the effectiveness of our model.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# SpeechGuard: マルチモーダル大言語モデルの逆ロバスト性を探る

SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models ( http://arxiv.org/abs/2405.08317v1 )

ライセンス: Link先を確認
Raghuveer Peri, Sai Muralidhar Jayanthi, Srikanth Ronanki, Anshu Bhatia, Karel Mundnich, Saket Dingliwal, Nilaksh Das, Zejiang Hou, Goeric Huybrechts, Srikanth Vishnubhotla, Daniel Garcia-Romero, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff, (参考訳) 近年,音声命令に従い,関連するテキスト応答を生成する統合音声・大規模言語モデル (SLM) が普及している。 しかし、これらのモデルの安全性と堅牢性はほとんど不明である。 本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。 具体的には、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。 また,このような脱獄攻撃を阻止するための対策も提案する。 本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。 安全ガードレールにもかかわらず、ジェイルブレイク実験では、12種類の有害なカテゴリーにまたがる慎重に設計された有害な質問のデータセットでそれぞれ90%と10%の攻撃成功率で、敵の摂動と移動攻撃に対するSLMの脆弱性を実証している。 しかし,本提案手法により攻撃効果が著しく低下することが実証された。

Integrated Speech and Large Language Models (SLMs) that can follow speech instructions and generate relevant text responses have gained popularity lately. However, the safety and robustness of these models remains largely unclear. In this work, we investigate the potential vulnerabilities of such instruction-following speech-language models to adversarial attacks and jailbreaking. Specifically, we design algorithms that can generate adversarial examples to jailbreak SLMs in both white-box and black-box attack settings without human involvement. Additionally, we propose countermeasures to thwart such jailbreaking attacks. Our models, trained on dialog data with speech instructions, achieve state-of-the-art performance on spoken question-answering task, scoring over 80% on both safety and helpfulness metrics. Despite safety guardrails, experiments on jailbreaking demonstrate the vulnerability of SLMs to adversarial perturbations and transfer attacks, with average attack success rates of 90% and 10% respectively when evaluated on a dataset of carefully designed harmful questions spanning 12 different toxic categories. However, we demonstrate that our proposed countermeasures reduce the attack success significantly.
翻訳日:2024-05-15 15:08:02 公開日:2024-05-14
# ガウス過程によるブラックボックスゲームのためのナッシュ平衡の非線形学習

No-Regret Learning of Nash Equilibrium for Black-Box Games via Gaussian Processes ( http://arxiv.org/abs/2405.08318v1 )

ライセンス: Link先を確認
Minbiao Han, Fengxue Zhang, Yuxin Chen, (参考訳) 本稿では,ブラックボックスゲームにおける学習の課題について検討する。 ゲームについての完全な情報とともにナッシュ均衡を計算するアルゴリズムの理論解析に関する広範な文献があるが、ブラックボックスゲームにおけるナッシュ均衡の研究は一般的ではない。 本稿では,エージェントの支払情報だけが経験的クエリの形で得られる場合,ナッシュ均衡の学習に焦点をあてる。 我々はガウス過程を利用してそのようなゲームの平衡を同定する非回帰学習アルゴリズムを提供する。 提案手法は, 理論収束率を保証するだけでなく, 実験的な検証を通じて, 様々なゲーム群に対して有効性を示す。

This paper investigates the challenge of learning in black-box games, where the underlying utility function is unknown to any of the agents. While there is an extensive body of literature on the theoretical analysis of algorithms for computing the Nash equilibrium with complete information about the game, studies on Nash equilibrium in black-box games are less common. In this paper, we focus on learning the Nash equilibrium when the only available information about an agent's payoff comes in the form of empirical queries. We provide a no-regret learning algorithm that utilizes Gaussian processes to identify the equilibrium in such games. Our approach not only ensures a theoretical convergence rate but also demonstrates effectiveness across a variety collection of games through experimental validation.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# 計測に基づく量子機械学習

Measurement-based quantum machine learning ( http://arxiv.org/abs/2405.08319v1 )

ライセンス: Link先を確認
Luis Mantilla Calderón, Polina Feldmann, Robert Raussendorf, Dmytro Bondarenko, (参考訳) 量子ニューラルネットワーク(QNN)は、古典的ニューラルネットワークの概念を量子データのための量子モデルに拡張するオブジェクトである。 量子過程をパラメータ化し、量子状態間の未知の関係をモデル化することで、QNNを作成することができる。 本稿では,量子機械学習問題に対する計測ベースの量子計算の使い方を考察し,このフレームワークでマルチトライアングル・アンサッツ(MuTA)と呼ぶ普遍的なQNNを提案する。 提案したQNNを用いて、共通ゲート集合の学習、後処理による計測の最適化、量子機器の学習、古典データの分類など、いくつかの課題を解決する。 最後に,フォトニックな Gottesman-Kitaev-Preskill 量子ビットによるハードウェア制約下でのアンザッツのトレーニング方法について議論する。 本研究は,量子機械学習アルゴリズムのフレームワークとして計測ベースの量子計算を用いることの可能性を示す。

A quantum neural network (QNN) is an object that extends the notion of a classical neural network to quantum models for quantum data. We can create a QNN by parametrizing a quantum process and then using it to model unknown relations between quantum states. In this paper, we explore how to use measurement-based quantum computation for quantum machine learning problems and propose a universal QNN in this framework which we call the multiple-triangle ansatz (MuTA). Using the proposed QNN, we solve several tasks, including learning a universal set of gates, optimizing measurement with post-processing, learning a quantum instrument, and the classification of classical data. Finally, we discuss how to train an ansatz under the hardware constraints imposed by photonic Gottesman-Kitaev-Preskill qubits. Our work demonstrates the feasibility of using measurement-based quantum computation as a framework for quantum machine learning algorithms.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# StraightPCF: Straight Point Cloud Filtering

StraightPCF: Straight Point Cloud Filtering ( http://arxiv.org/abs/2405.08322v1 )

ライセンス: Link先を確認
Dasith de Silva Edirimuni, Xuequan Lu, Gang Li, Lei Wei, Antonio Robles-Kelly, Hongdong Li, (参考訳) ポイントクラウドフィルタリングは、基礎となるクリーンな表面を回復しながらノイズを取り除くことを目的とした、基本的な3Dビジョンタスクである。 最先端の手法は、確率軌道に沿ってノイズのある点をクリーンな表面へ移動させることによってノイズを取り除く。 これらの手法は、訓練対象と/または後処理の間、忠実性を確保するために規則化を必要とすることが多い。 本稿では,ポイントクラウドフィルタリングのための新しい深層学習手法であるStraightPCFを紹介する。 ノイズの多い点を直線に沿って移動させることで、離散化誤差を低減し、クリーン表面への高速な収束を保証する。 ノイズパッチを高ノイズパッチとクリーンパッチの中間状態としてモデル化し,VelocityModuleを設計して,前者から後者までの一定の流れ速度を推定する。 この一定の流れはストレートなフィルタリング軌道につながる。 さらに, 推定距離スカラーを用いて直線軌道を拡大し, クリーン表面近傍での収束を実現するディスタンスモジュールを導入する。 私たちのネットワークは軽量で、IterativePFN(最近のポイントクラウドフィルタリングネットワーク)の17%である$\sim530K$パラメータしか持っていません。 合成データと実世界のデータの両方に対する大規模な実験により,本手法は最先端の結果が得られることが示された。 また, 正規化を必要とせず, フィルタされた点のよい分布を示す。 実装コードは、https://github.com/ddsediri/StraightPCFを参照。

Point cloud filtering is a fundamental 3D vision task, which aims to remove noise while recovering the underlying clean surfaces. State-of-the-art methods remove noise by moving noisy points along stochastic trajectories to the clean surfaces. These methods often require regularization within the training objective and/or during post-processing, to ensure fidelity. In this paper, we introduce StraightPCF, a new deep learning based method for point cloud filtering. It works by moving noisy points along straight paths, thus reducing discretization errors while ensuring faster convergence to the clean surfaces. We model noisy patches as intermediate states between high noise patch variants and their clean counterparts, and design the VelocityModule to infer a constant flow velocity from the former to the latter. This constant flow leads to straight filtering trajectories. In addition, we introduce a DistanceModule that scales the straight trajectory using an estimated distance scalar to attain convergence near the clean surface. Our network is lightweight and only has $\sim530K$ parameters, being 17% of IterativePFN (a most recent point cloud filtering network). Extensive experiments on both synthetic and real-world data show our method achieves state-of-the-art results. Our method also demonstrates nice distributions of filtered points without the need for regularization. The implementation code can be found at: https://github.com/ddsediri/StraightPCF.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# カークウッド・ディラック準確率における量子性に対する十分条件、低境界およびトレードオフ関係

Sufficient conditions, lower bounds and trade-off relations for quantumness in Kirkwood-Dirac quasiprobability ( http://arxiv.org/abs/2405.08324v1 )

ライセンス: Link先を確認
Agung Budiyono, (参考訳) カークウッド・ディラック(Kirkwood-Dirac、KD)は、古典位相空間確率の量子アナログである。 量子状態の情報的に完全な表現を提供し、量子非可換性に関連する量子性はその非古典的な値、すなわち実数の非現実的および負の値に現れる。 このような量子性は、量子非可換性からもたらされる不確実性原理にどのように準拠するのか? ここでは、まず、古典的でない値を持つ一対のPVM(射影値測度)基底に対して定義されるKD準確率について十分な条件を得る。 これらの非古典的値を用いて、単一のPVM基底に対して量子状態におけるKD量子性の量をキャプチャする2つの量を導入する。 これらはそれぞれ、非現実性(nonreality)と、非現実性(nonreality)と負性(negativity)の両方を捉える古典性(classicity)として定義される。 それらの下界を取得し、それぞれロバートソンとロバートソン=シュルンガーの不確実性関係を想起させるが、完全固有射影の集合が PVM 基底によって与えられるエルミート作用素の凸集合上で最大化される下界を持つ。 弱値測定と古典的最適化を用いて測定を行い、PVM基底の最適推定と状態乱れの観点から情報理論および操作的解釈を提案する。

Kirkwood-Dirac (KD) quasiprobability is a quantum analog of classical phase space probability. It offers an informationally complete representation of quantum state wherein the quantumness associated with quantum noncommutativity manifests in its nonclassical values, i.e., the nonreal and/or negative values of the real part. This naturally raises a question: how does such form of quantumness comply with the uncertainty principle which also arise from quantum noncommutativity? Here, first, we obtain sufficient conditions for the KD quasiprobability defined relative to a pair of PVM (projection-valued measure) bases to have nonclassical values. Using these nonclassical values, we then introduce two quantities which capture the amount of KD quantumness in a quantum state relative to a single PVM basis. They are defined respectively as the nonreality, and the classicality which captures both the nonreality and negativity, of the associated KD quasiprobability over the PVM basis of interest, and another PVM basis, and maximized over all possible choices of the latter. We obtain their lower bounds, and derive trade-off relations respectively reminiscent of the Robertson and Robertson-Schr\"odinger uncertainty relations but with lower bounds maximized over the convex sets of Hermitian operators whose complete sets of eigenprojectors are given by the PVM bases. We discuss their measurement using weak value measurement and classical optimization, and suggest information theoretical and operational interpretations in terms of optimal estimation of the PVM basis and state disturbance.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# 網膜病変分割のためのクロスデータセット一般化

Cross-Dataset Generalization For Retinal Lesions Segmentation ( http://arxiv.org/abs/2405.08329v1 )

ライセンス: Link先を確認
Clément Playout, Farida Cheriet, (参考訳) 眼底画像における病変の同定は、網膜疾患の自動化および解釈可能な診断に向けた重要なマイルストーンである。 この方向の研究を支援するために、複数のデータセットがリリースされ、異なる病変に対する基底マップが提案されている。 しかし、アノテーションの間に重要な相違があり、データセット間の一般化の問題を提起する。 本研究は、いくつかの既知のデータセットを特徴付け、確率的ウェイト平均化、モデルスープ、アンサンブルなどのモデルの一般化性能を高めるために提案された様々な手法を比較する。 以上の結果から,粗いラベル付きデータを微細なデータセットと組み合わせて病変のセグメンテーションを改善する方法についての知見が得られた。

Identifying lesions in fundus images is an important milestone toward an automated and interpretable diagnosis of retinal diseases. To support research in this direction, multiple datasets have been released, proposing groundtruth maps for different lesions. However, important discrepancies exist between the annotations and raise the question of generalization across datasets. This study characterizes several known datasets and compares different techniques that have been proposed to enhance the generalisation performance of a model, such as stochastic weight averaging, model soups and ensembles. Our results provide insights into how to combine coarsely labelled data with a finely-grained dataset in order to improve the lesions segmentation.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# ソーシャルメディアに共通するソーシャルグループに関するジェネリックとネガティビティ : Twitter(X)データの比較分析

Are Generics and Negativity about Social Groups Common on Social Media? A Comparative Analysis of Twitter (X) Data ( http://arxiv.org/abs/2405.08331v1 )

ライセンス: Link先を確認
Uwe Peters, Ignacio Ojea Quintana, (参考訳) ジェネリック(不適切な一般化)はコミュニケーションにおいて広く普及していると考えられており、それらが社会集団であるときには、ジェネリックが個人間のばらつきを乗り越えているため、人々を怒らせ、偏見づける可能性がある。 ソーシャルグループに関するジェネリックは、特にTwitter(X)で一般的かもしれない。 しかし、これは未定である。 そこで、機械学習(ML)技術を用いて、ソーシャルジェネリクスの自動分類器を開発し、人に関する100万以上のツイートに適用し、そのツイートを分析した。 人のツイートのほとんど(78%)にジェネリックは含まれていないことがわかった。 しかし、ソーシャルジェネリクスによるツイートはより「いいね」やリツイートを受け取った。 さらに、近年の心理学的研究は、政治集団に関するジェネリクスによるツイートは、民族集団に関するジェネリクスによるツイートよりも一般的である、という予測に繋がるかも知れないが、その逆は見いだされた。 しかし、近年の政治的敵意は、性別や民族集団に対する敵意よりも社会的規範に制約されないという主張と一致して、政治集団に関するジェネリクスの否定的なツイートは、民族集団に関する否定的なツイートよりも著しく多くなり、リツイートされた。 私たちの研究は、Twitter上でのソーシャルジェネリクスの使用と影響に関するMLベースの最初の洞察を提供する。

Generics (unquantified generalizations) are thought to be pervasive in communication and when they are about social groups, this may offend and polarize people because generics gloss over variations between individuals. Generics about social groups might be particularly common on Twitter (X). This remains unexplored, however. Using machine learning (ML) techniques, we therefore developed an automatic classifier for social generics, applied it to more than a million tweets about people, and analyzed the tweets. We found that most tweets (78%) about people contained no generics. However, tweets with social generics received more 'likes' and retweets. Furthermore, while recent psychological research may lead to the prediction that tweets with generics about political groups are more common than tweets with generics about ethnic groups, we found the opposite. However, consistent with recent claims that political animosity is less constrained by social norms than animosity against gender and ethnic groups, negative tweets with generics about political groups were significantly more prevalent and retweeted than negative tweets about ethnic groups. Our study provides the first ML-based insights into the use and impact of social generics on Twitter.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# ケミカルLLMはメッセージパッシングの恩恵を受けるか?

Could Chemical LLMs benefit from Message Passing ( http://arxiv.org/abs/2405.08334v1 )

ライセンス: Link先を確認
Jiaqing Xie, Ziheng Chi, (参考訳) 事前訓練言語モデル(LM)は、分子テキストを処理する上で重要な機能を示し、同時に、メッセージパッシングニューラルネットワーク(MPNN)は、分子科学の領域におけるレジリエンスと汎用性を示している。 これらの進歩にもかかわらず、分子構造とそれに対応するテクスチャ表現の間の双方向相互作用を研究する研究は限られている。 そこで本稿では,MPNNを用いてLMのトレーニングを監督するコントラスト学習と,両モデルからの情報を活用する融合という2つの手法を提案する。 我々の経験的分析により、これらの積分法は、より小さな分子グラフに適用した場合のベースラインよりも優れた性能を示し、一方、これらの積分法は大規模グラフ上での性能向上を得られないことが明らかとなった。

Pretrained language models (LMs) showcase significant capabilities in processing molecular text, while concurrently, message passing neural networks (MPNNs) demonstrate resilience and versatility in the domain of molecular science. Despite these advancements, we find there are limited studies investigating the bidirectional interactions between molecular structures and their corresponding textual representations. Therefore, in this paper, we propose two strategies to evaluate whether an information integration can enhance the performance: contrast learning, which involves utilizing an MPNN to supervise the training of the LM, and fusion, which exploits information from both models. Our empirical analysis reveals that the integration approaches exhibit superior performance compared to baselines when applied to smaller molecular graphs, while these integration approaches do not yield performance enhancements on large scale graphs.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# 一般用(PINGU)における血管周囲空間同定

Perivascular space Identification Nnunet for Generalised Usage (PINGU) ( http://arxiv.org/abs/2405.08337v1 )

ライセンス: Link先を確認
Benjamin Sinclair, Lucy Vivash, Jasmine Moses, Miranda Lynch, William Pham, Karina Dorfmann, Cassandra Marotta, Shaun Koh, Jacob Bunyamin, Ella Rowsthorn, Alex Jarema, Himashi Peiris, Zhaolin Chen, Sandy R Shultz, David K Wright, Dexiao Kong, Sharon L. Naismith, Terence J. OBrien, Meng Law, (参考訳) 血管周囲の空間(PVSs)は、グリフ系(英語版)である脳の廃棄物クリアランス系の中心的な構成要素である。 これらの構造はMRI画像で見ることができ、その形態は老化や神経疾患と関連している。 PVSのマニュアル定量化は時間がかかり主観的である。 PVSセグメンテーションのための多くの深層学習法が開発されているが、その大部分は同種データセットや高分解能スキャンで開発・評価されており、おそらくクリニックや研究で得られた幅広い画像品質に対する適用性を制限している。 本研究では、6つの異なるデータセットから、さまざまな品質と解像度のMRI画像を手動で分割する異種トレーニングサンプルを用いて、トップパフォーマンスのバイオメディカルイメージセグメンテーションアルゴリズムであるnnUNetをトレーニングする。 これらは、PVSの3Dセグメンテーションのための公開のディープラーニング手法と比較される。 PINGU (Perivascular space Identification Nnunet for Generalized Usage) は、白質(WM)では0.50(SD=0.15), 0.63(0.17),基底神経節(BG)では0.54(0.11), 0.66(0.17)のボクセルとクラスターレベルのダイススコアを得た。 PINGU(0.20-0.38(WM, voxel), 0.29-0.58(WM, cluster), 0.22-0.36(BG, voxel), 0.46-0.60(BG, cluster))と一般に公開されているアルゴリズム(0.18-0.30(WM, voxel), 0.29-0.38(WM cluster), 0.10-0.20(BG, voxel), 0.15-0.37(BG, cluster))ではかなり低かったが、PINGUは一般に公開されているアルゴリズム(特にBGでは特に優れていた。 最後に、PINGUを1つのサイトから手動セグメンテーションでトレーニングすると、内部クロスバリデーションの性能は極端に低下するが、いくつかのケースでは外部バリデーションのパフォーマンスが向上した。 PINGUは広義のPVSセグメンテーションツールであり、特にBGは血管疾患や病理に関連するPVSの領域である。

Perivascular spaces(PVSs) form a central component of the brain\'s waste clearance system, the glymphatic system. These structures are visible on MRI images, and their morphology is associated with aging and neurological disease. Manual quantification of PVS is time consuming and subjective. Numerous deep learning methods for PVS segmentation have been developed, however the majority have been developed and evaluated on homogenous datasets and high resolution scans, perhaps limiting their applicability for the wide range of image qualities acquired in clinic and research. In this work we train a nnUNet, a top-performing biomedical image segmentation algorithm, on a heterogenous training sample of manually segmented MRI images of a range of different qualities and resolutions from 6 different datasets. These are compared to publicly available deep learning methods for 3D segmentation of PVS. The resulting model, PINGU (Perivascular space Identification Nnunet for Generalised Usage), achieved voxel and cluster level dice scores of 0.50(SD=0.15), 0.63(0.17) in the white matter(WM), and 0.54(0.11), 0.66(0.17) in the basal ganglia(BG). Performance on data from unseen sites was substantially lower for both PINGU(0.20-0.38(WM, voxel), 0.29-0.58(WM, cluster), 0.22-0.36(BG, voxel), 0.46-0.60(BG, cluster)) and the publicly available algorithms(0.18-0.30(WM, voxel), 0.29-0.38(WM cluster), 0.10-0.20(BG, voxel), 0.15-0.37(BG, cluster)), but PINGU strongly outperformed the publicly available algorithms, particularly in the BG. Finally, training PINGU on manual segmentations from a single site with homogenous scan properties gave marginally lower performances on internal cross-validation, but in some cases gave higher performance on external validation. PINGU stands out as broad-use PVS segmentation tool, with particular strength in the BG, an area of PVS related to vascular disease and pathology.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# 分解能非依存DNN画像透かしの達成:暗黙のニューラル表現の新しい視点

Achieving Resolution-Agnostic DNN-based Image Watermarking:A Novel Perspective of Implicit Neural Representation ( http://arxiv.org/abs/2405.08340v1 )

ライセンス: Link先を確認
Yuchen Wang, Xingyu Zhu, Guanhui Ye, Shiyao Zhang, Xuetao Wei, (参考訳) DNNベースの透かし手法は、急速に発展し、素晴らしいパフォーマンスを提供している。 最近の進歩は、可変解像度透かし問題を固定解像度透かし問題に還元することで、解像度に依存しない画像透かしを実現する。 しかし、そのような削減プロセスは、アーティファクトを導入し、ロバスト性も低い可能性がある。 この問題に対処するため,画像の暗黙的ニューラル表現(INR)を透かし,リゾリューションに依存しない画像ウォーターマーキング(RAIMark)フレームワークを提案する。 従来の手法とは異なり、画像画素の代わりに連続信号を直接透かし、解像度に依存しない透かしを実現することで、従来の縮小処理に依存しない。 正確には、任意の解像度の画像が与えられた場合、ターゲット画像にINRを適合させる。 連続信号として、そのようなINRをサンプリングして、可変解像度の画像を得ることができる。 次に、実装したINRを素早く微調整し、二項秘密メッセージに透かしを付けたINRを得る。 予め訓練された透かしデコーダは任意の解像度でサンプル画像から隠されたメッセージを抽出する。 InRを直接透かし、高ロバスト性を有する分解能非依存な透かしを実現する。 拡張実験により,提案手法は従来手法よりも性能が向上し,ビット精度が7%向上した。 特に、従来の手法は少なくとも1つのウォーターマーキング攻撃(JPEG、作物、再サイズなど)に対して脆弱であり、我々の手法は全てのウォーターマーキング攻撃に対して堅牢である。

DNN-based watermarking methods are rapidly developing and delivering impressive performances. Recent advances achieve resolution-agnostic image watermarking by reducing the variant resolution watermarking problem to a fixed resolution watermarking problem. However, such a reduction process can potentially introduce artifacts and low robustness. To address this issue, we propose the first, to the best of our knowledge, Resolution-Agnostic Image WaterMarking (RAIMark) framework by watermarking the implicit neural representation (INR) of image. Unlike previous methods, our method does not rely on the previous reduction process by directly watermarking the continuous signal instead of image pixels, thus achieving resolution-agnostic watermarking. Precisely, given an arbitrary-resolution image, we fit an INR for the target image. As a continuous signal, such an INR can be sampled to obtain images with variant resolutions. Then, we quickly fine-tune the fitted INR to get a watermarked INR conditioned on a binary secret message. A pre-trained watermark decoder extracts the hidden message from any sampled images with arbitrary resolutions. By directly watermarking INR, we achieve resolution-agnostic watermarking with increased robustness. Extensive experiments show that our method outperforms previous methods with significant improvements: averagely improved bit accuracy by 7%$\sim$29%. Notably, we observe that previous methods are vulnerable to at least one watermarking attack (e.g. JPEG, crop, resize), while ours are robust against all watermarking attacks.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# オーディオ・スペクトログラム・ビジョン・トランスを用いた呼吸音の異常同定

Abnormal Respiratory Sound Identification Using Audio-Spectrogram Vision Transformer ( http://arxiv.org/abs/2405.08342v1 )

ライセンス: Link先を確認
Whenty Ariyanti, Kai-Chun Liu, Kuan-Yu Chen, Yu Tsao, (参考訳) 世界第3位の死因である呼吸器疾患は、身元確認と治療に関する重要な研究を必要とする重篤な疾患であると考えられている。 ステソスコープで記録された肺の音と人工知能を利用した装置は、肺疾患を特定し、正確な診断を行うための専門家を助けるために使われてきた。 本研究では, 異常呼吸音を識別する新しい手法であるAS-ViTを開発した。 肺の音は、短時間フーリエ変換(STFT)と呼ばれる技術を用いて、分光図と呼ばれる視覚表現に変換される。 これらの画像は、視覚変換器と呼ばれるモデルを用いて分析され、異なる種類の呼吸音を識別する。 この分類は、周波数、騒音レベル、背景の異なる様々な種類の肺音を含むICBHI 2017データベースを用いて行われた。 提案手法は3つの測定値を用いて評価し,60:40分割比79.1%,59.8%,80:20分割比86.4%,69.3%,呼吸音検出率0。

Respiratory disease, the third leading cause of deaths globally, is considered a high-priority ailment requiring significant research on identification and treatment. Stethoscope-recorded lung sounds and artificial intelligence-powered devices have been used to identify lung disorders and aid specialists in making accurate diagnoses. In this study, audio-spectrogram vision transformer (AS-ViT), a new approach for identifying abnormal respiration sounds, was developed. The sounds of the lungs are converted into visual representations called spectrograms using a technique called short-time Fourier transform (STFT). These images are then analyzed using a model called vision transformer to identify different types of respiratory sounds. The classification was carried out using the ICBHI 2017 database, which includes various types of lung sounds with different frequencies, noise levels, and backgrounds. The proposed AS-ViT method was evaluated using three metrics and achieved 79.1% and 59.8% for 60:40 split ratio and 86.4% and 69.3% for 80:20 split ratio in terms of unweighted average recall and overall scores respectively for respiratory sound detection, surpassing previous state-of-the-art results.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# 時間を無駄にしない: モバイルビデオ理解のためのチャンネルに時間を割く

No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding ( http://arxiv.org/abs/2405.08344v1 )

ライセンス: Link先を確認
Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang, (参考訳) ビデオ理解のための現在のアーキテクチャは、主に3次元の畳み込みブロックまたは2次元の畳み込みの上に構築され、時間的モデリングのための追加の操作がある。 しかし、これらの手法はすべて、時間軸をビデオシーケンスの別次元とみなし、大きな計算とメモリ予算を必要とし、モバイルデバイス上での使用を制限する。 本稿では,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークである「textit{SqueezeTime}」を提案する。 提案するネットワークの時間的モデリング能力を高めるために,シーケンスの時間的ダイナミクスを捉えるためにチャネル時間学習ブロック(CTL)を設計する。 このモジュールは2つの補完的なブランチを持ち、1つのブランチは時間的重要度学習のためのものであり、もう1つのブランチは時間的位置復元能力を持つ。 提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。 Kinetics400, Kinetics600, HMDB51, AVA2.1, THUMOS14 など,様々なビデオ認識および行動検出ベンチマークの大規模な実験により, モデルの優位性を実証した。 例えば、私たちのSqueezeTimeは、Kinetics400で以前の方法よりも$+1.2\%の精度と$+80\%のGPUスループットを達成しています。 コードはhttps://github.com/xinghaochen/SqueezeTimeとhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTimeで公開されている。

Current architectures for video understanding mainly build upon 3D convolutional blocks or 2D convolutions with additional operations for temporal modeling. However, these methods all regard the temporal axis as a separate dimension of the video sequence, which requires large computation and memory budgets and thus limits their usage on mobile devices. In this paper, we propose to squeeze the time axis of a video sequence into the channel dimension and present a lightweight video recognition network, term as \textit{SqueezeTime}, for mobile video understanding. To enhance the temporal modeling capability of the proposed network, we design a Channel-Time Learning (CTL) Block to capture temporal dynamics of the sequence. This module has two complementary branches, in which one branch is for temporal importance learning and another branch with temporal position restoring capability is to enhance inter-temporal object modeling ability. The proposed SqueezeTime is much lightweight and fast with high accuracies for mobile video understanding. Extensive experiments on various video recognition and action detection benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14, demonstrate the superiority of our model. For example, our SqueezeTime achieves $+1.2\%$ accuracy and $+80\%$ GPU throughput gain on Kinetics400 than prior methods. Codes are publicly available at https://github.com/xinghaochen/SqueezeTime and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# KG-Empire: 要求工学における実証研究の状況と進化に関する持続可能な文献レビューのためのコミュニティ管理可能な知識グラフ

KG-EmpiRE: A Community-Maintainable Knowledge Graph for a Sustainable Literature Review on the State and Evolution of Empirical Research in Requirements Engineering ( http://arxiv.org/abs/2405.08351v1 )

ライセンス: Link先を確認
Oliver Karras, (参考訳) 過去20年間に、いくつかの研究者が文献レビューを通じて、要求工学(RE)における経験的研究の「現在の」状態と進化のスナップショットを提供した。 しかし、これらの文献レビューは、抽出・解析されたデータの有効性のため、以前の作品の上に構築・更新されることが無かったため、持続可能ではなかった。 KG-Empireは、現在IEEE International Requirements Engineering Conference (1994-2022)で発行されている680の論文から抽出された科学的データに基づいて、REにおける経験的研究の知識グラフ(KG)である。 KG-EmpiRE は Open Research Knowledge Graph (ORKG) でメンテナンスされており、すべてのデータを FAIR データ原則に従って、オープンかつ長期に利用できるようにしている。 我々の長期的な目標は、KG-Empireを研究コミュニティと継続的に維持し、REにおける実証研究の現状と進化の包括的で最新の、そして長期的な概要を合成することである。 KG-EmpiREの他に、リポジトリ内のすべての補助材料について分析を行う。 このリポジトリにはすべてのファイルが含まれており、ローカルまたは実行可能環境を介して分析を複製および(再)再利用し、研究アプローチを繰り返すための命令がある。 199の論文(2014-2022)に基づいた最初のリリース以来、KG-EmpiREとその分析は2回更新され、現在は650以上の論文をカバーしている。 KG-EmpiREとその分析は、ORKGのような革新的なインフラがどのように活用され、文献レビューからデータを得ることができるかを示している。 このようにして、複製可能で(再使用可能で、持続可能な文献レビューを可能にすることで、研究結果の品質、信頼性、タイムラインを保証できます。

In the last two decades, several researchers provided snapshots of the "current" state and evolution of empirical research in requirements engineering (RE) through literature reviews. However, these literature reviews were not sustainable, as none built on or updated previous works due to the unavailability of the extracted and analyzed data. KG-EmpiRE is a Knowledge Graph (KG) of empirical research in RE based on scientific data extracted from currently 680 papers published in the IEEE International Requirements Engineering Conference (1994-2022). KG-EmpiRE is maintained in the Open Research Knowledge Graph (ORKG), making all data openly and long-term available according to the FAIR data principles. Our long-term goal is to constantly maintain KG-EmpiRE with the research community to synthesize a comprehensive, up-to-date, and long-term available overview of the state and evolution of empirical research in RE. Besides KG-EmpiRE, we provide its analysis with all supplementary materials in a repository. This repository contains all files with instructions for replicating and (re-)using the analysis locally or via executable environments and for repeating the research approach. Since its first release based on 199 papers (2014-2022), KG-EmpiRE and its analysis have been updated twice, currently covering over 650 papers. KG-EmpiRE and its analysis demonstrate how innovative infrastructures, such as the ORKG, can be leveraged to make data from literature reviews FAIR, openly available, and maintainable for the research community in the long term. In this way, we can enable replicable, (re-)usable, and thus sustainable literature reviews to ensure the quality, reliability, and timeliness of their research results.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# Seal-Tools:エージェントチューニングのためのセルフインストラクトツール学習データセットと詳細なベンチマーク

Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark ( http://arxiv.org/abs/2405.08355v1 )

ライセンス: Link先を確認
Mengsong Wu, Tong Zhu, Han Han, Chuanyuan Tan, Xiang Zhang, Wenliang Chen, (参考訳) 本稿では、自己指示型APIのようなツールを含む新しいツール学習データセットSeal-Toolsを提案する。 Seal-Toolsは多数のツールを提供するだけでなく、ツールの実践的応用を示すインスタンスも備えている。 信頼性を確保しながら大規模にデータを生成するために,ツールやインスタンスを生成する自己インストラクト手法を提案する。 さらに、Seal-Toolsには複数のツールを呼び出し、ジョブを完了させるハードインスタンスが含まれています。 正確で包括的な評価のために、厳密なフォーマット制御と異なる次元から3つのメトリクスを設計します。 したがって、Seal-ToolsはLLMのツール呼び出し能力を評価するための新しいベンチマークとして機能する。 最後に, シールツール上でのLLMと微調整モデルについて検討した。 その結果、現在のシステムは完璧には程遠いことがわかった。 コード、データ、実験結果はhttps://github.com/fairyshine/Seal-Tools.comで公開されている。

This paper presents a new tool learning dataset Seal-Tools, which contains self-instruct API-like tools. Seal-Tools not only offers a large number of tools, but also includes instances which demonstrate the practical application of tools. Seeking to generate data on a large scale while ensuring reliability, we propose a self-instruct method to generate tools and instances, allowing precise control over the process. Moreover, our Seal-Tools contains hard instances that call multiple tools to complete the job, among which some are nested tool callings. For precise and comprehensive evaluation, we use strict format control and design three metrics from different dimensions. Therefore, Seal-Tools can serve as a new benchmark to evaluate the tool-calling ability of LLMs. Finally, we evaluate several prevalent LLMs and our finetuned model on Seal-Tools. The results show that current systems are far from perfect. The code, data and experiment results are available at https://github.com/fairyshine/Seal-Tools .
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# 複雑なシステムのプライバシ分析のためのモデル指向推論フレームワーク

A Model-oriented Reasoning Framework for Privacy Analysis of Complex Systems ( http://arxiv.org/abs/2405.08356v1 )

ライセンス: Link先を確認
Sebastian Rehms, Stefan Köpsell, Verena Klös, Florian Tschorsch, (参考訳) 本稿では,システムと環境のプライバシ特性に関する推論フレームワークを提案し,システムのさまざまな論理レベルに関する知識リークをキャプチャして,どのエンティティが何を学べるか,という問題に対処する。 用語の知識では、関係のあるデータの種類、メタデータ、解釈などを指します。 これを実現するために、開発者がどの知識がどのエンティティで、どの知識がどのエンティティ間で流れ、どの知識が他の知識から推測できるかを明確に記述するよう強制するモデリングフレームワークを提案する。 さらに、プライバシ要件は、エンティティの禁止された知識を記述する規則として指定される。 私たちのモデリングアプローチは漸進的であり、システムの抽象的なビューから始まり、明確に定義された変換を通じて詳細を追加します。 この作業は、既存のアプローチを補完することを目的としており、可能な限りアクセスしやすくしながら、プライバシー指向の分析のためのより正式な基盤に向けたステップを導入している。 スキーマや語彙を通じて拡張可能で、外部の要件や標準との互換性を実現するように設計されている。

This paper proposes a reasoning framework for privacy properties of systems and their environments that can capture any knowledge leaks on different logical levels of the system to answer the question: which entity can learn what? With the term knowledge we refer to any kind of data, meta-data or interpretation of those that might be relevant. To achieve this, we present a modeling framework that forces the developers to explicitly describe which knowledge is available at which entity, which knowledge flows between entities and which knowledge can be inferred from other knowledge. In addition, privacy requirements are specified as rules describing forbidden knowledge for entities. Our modeling approach is incremental, starting from an abstract view of the system and adding details through well-defined transformations. This work is intended to complement existing approaches and introduces steps towards more formal foundations for privacy oriented analyses while keeping them as accessible as possible. It is designed to be extensible through schemata and vocabulary to enable compatibility with external requirements and standards.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# GPS-IDS - 自律走行車用GPSスポーフィング検出フレームワーク

GPS-IDS: An Anomaly-based GPS Spoofing Attack Detection Framework for Autonomous Vehicles ( http://arxiv.org/abs/2405.08359v1 )

ライセンス: Link先を確認
Murad Mehrab Abrar, Raian Islam, Shalaka Satam, Sicong Shao, Salim Hariri, Pratik Satam, (参考訳) 自律走行車(AV)は、GPS(Global Positioning System)のようなセンサーや通信ネットワークに大きく依存している。 これまでの研究によると、GPSのようなネットワークは、スプーフや妨害などのサイバー攻撃に弱いため、ナビゲーションエラーやシステム障害といった深刻なリスクがある。 これらの脅威は、AVの広範な展開によって強化されることが期待されており、そのような攻撃を検知し緩和することが不可欠である。 本稿では,GPS侵入検知システム(GPS-IDS)を提案する。 このフレームワークは、GPSナビゲーションモデルを従来の動的自転車モデルに統合し、正確なAV行動表現を行う新しい物理に基づく車両行動モデルを使用する。 この行動モデルから得られた時間的特徴を機械学習を用いて解析し、正常なナビゲーション行動と異常なナビゲーション行動を検出する。 GPS-IDSフレームワークのパフォーマンスは、AVテストベッドを使用してチームによって収集された実世界のデータセットであるAV-GPS-Datasetで評価される。 このデータセットは、グローバルな研究コミュニティ向けに公開されている。 私たちの知る限りでは、このデータセットはこの種の最初のもので、このようなセキュリティ上の課題に対処するための有用なリソースとして役立ちます。

Autonomous Vehicles (AVs) heavily rely on sensors and communication networks like Global Positioning System (GPS) to navigate autonomously. Prior research has indicated that networks like GPS are vulnerable to cyber-attacks such as spoofing and jamming, thus posing serious risks like navigation errors and system failures. These threats are expected to intensify with the widespread deployment of AVs, making it crucial to detect and mitigate such attacks. This paper proposes GPS Intrusion Detection System, or GPS-IDS, an Anomaly Behavior Analysis (ABA)-based intrusion detection framework to detect GPS spoofing attacks on AVs. The framework uses a novel physics-based vehicle behavior model where a GPS navigation model is integrated into the conventional dynamic bicycle model for accurate AV behavior representation. Temporal features derived from this behavior model are analyzed using machine learning to detect normal and abnormal navigation behavior. The performance of the GPS-IDS framework is evaluated on the AV-GPS-Dataset - a real-world dataset collected by the team using an AV testbed. The dataset has been publicly released for the global research community. To the best of our knowledge, this dataset is the first of its kind and will serve as a useful resource to address such security challenges.
翻訳日:2024-05-15 14:58:01 公開日:2024-05-14
# UnMarker: 防御的な透かしに対するユニバーサルな攻撃

UnMarker: A Universal Attack on Defensive Watermarking ( http://arxiv.org/abs/2405.08363v1 )

ライセンス: Link先を確認
Andre Kassis, Urs Hengartner, (参考訳) 有害なディープフェイクを作成するために$\textit{Generative AI}$$$\textit{GenAI}$)の誤用に関する報告が毎日現れている。 最近、画像に指紋を隠すための$\textit{GenAI}$プロバイダで、ディープフェイク検出に使用される防衛用透かしが増えている。 しかし、その可能性は完全には調査されていない。 私たちは$\textit{UnMarker}$ -- 最初の実用的な$\textit{Universal}$で防御的な透かしを攻撃します。 既存の攻撃とは異なり、$\textit{UnMarker}$は検出器のフィードバックを必要とせず、スキームや類似モデルに関する非現実的な知識も必要とせず、利用できない可能性のある高度なデノゲーションパイプラインも不要である。 代わりに、強いスキームがスペクトル振幅でそれらの透かしを構築する必要があることを示す透かしパラダイムの詳細な分析の産物として、$\textit{UnMarker}$は透かし画像のスペクトルを乱し、透かしを消去するために2つの新しい逆最適化を用いる。 $\textit{SOTA}$に対する評価は、既存の攻撃よりも優れた品質を維持しながら従来のスキームを破るだけでなく、画像の構造を変える$\textit{semantic}$の透かしを破り、最高の検出レートを43\%に下げ、役に立たない。 我々の知る限り、$\textit{UnMarker}$は$\textit{semantic}$ watermarksに対する最初の実用的な攻撃である。 $\textit{UnMarker}$ casts doubts on the very penitential of this countermeasure and reveals its paradoxical nature as designs for robustness inevitible compromises other robustness aspects。

Reports regarding the misuse of $\textit{Generative AI}$ ($\textit{GenAI}$) to create harmful deepfakes are emerging daily. Recently, defensive watermarking, which enables $\textit{GenAI}$ providers to hide fingerprints in their images to later use for deepfake detection, has been on the rise. Yet, its potential has not been fully explored. We present $\textit{UnMarker}$ -- the first practical $\textit{universal}$ attack on defensive watermarking. Unlike existing attacks, $\textit{UnMarker}$ requires no detector feedback, no unrealistic knowledge of the scheme or similar models, and no advanced denoising pipelines that may not be available. Instead, being the product of an in-depth analysis of the watermarking paradigm revealing that robust schemes must construct their watermarks in the spectral amplitudes, $\textit{UnMarker}$ employs two novel adversarial optimizations to disrupt the spectra of watermarked images, erasing the watermarks. Evaluations against the $\textit{SOTA}$ prove its effectiveness, not only defeating traditional schemes while retaining superior quality compared to existing attacks but also breaking $\textit{semantic}$ watermarks that alter the image's structure, reducing the best detection rate to $43\%$ and rendering them useless. To our knowledge, $\textit{UnMarker}$ is the first practical attack on $\textit{semantic}$ watermarks, which have been deemed the future of robust watermarking. $\textit{UnMarker}$ casts doubts on the very penitential of this countermeasure and exposes its paradoxical nature as designing schemes for robustness inevitably compromises other robustness aspects.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# 解釈性と制御のためのスパースオートエンコーダの原理的評価に向けて

Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control ( http://arxiv.org/abs/2405.08366v1 )

ライセンス: Link先を確認
Aleksandar Makelov, George Lange, Neel Nanda, (参考訳) モデルアクティベーションを意味のある特徴に遠ざけることは、解釈可能性の中心的な問題である。 しかし、現実的なシナリオにおけるこれらの特徴に対する基礎的真理の欠如は、スパース辞書学習のような近年のアプローチの検証を困難にしている。 そこで本稿では,特定のタスクの文脈における特徴辞書を評価するためのフレームワークを提案する。 まず,教師付き辞書は,タスク上でのモデル計算の近似,制御,解釈性に優れることを示す。 第2に、教師なし辞書を用いて、同じ3つの軸に沿った教師なし辞書の評価を開発し、文脈的に評価する。 我々は,このフレームワークを GPT-2 Small を用いて間接オブジェクト識別タスク (IOI) に適用し, IOI と OpenWebText のデータセットで訓練したスパースオートエンコーダ (SAE) を用いた。 これらのSAEは、IOIタスクの解釈可能な特徴をキャプチャするが、モデルを制御する上では教師付き機能ほど成功しない。 最後に,SAEトレーニングにおける2つの定性的な現象を観察する:特徴排除(因果関係の概念が学習特徴においてわずかに高次な概念によって強固に覆われている)と特徴過分割(二分的特徴が明確な解釈なしに多数の小さな特徴に分割される)である。 我々は,より客観的かつ基礎的な辞書学習手法の評価に向けて,我々のフレームワークが有用なステップになることを願っている。

Disentangling model activations into meaningful features is a central problem in interpretability. However, the lack of ground-truth for these features in realistic scenarios makes the validation of recent approaches, such as sparse dictionary learning, elusive. To overcome this, we propose a framework to evaluate feature dictionaries in the context of specific tasks, by comparing them against \emph{supervised} feature dictionaries. First, we demonstrate that supervised dictionaries achieve excellent approximation, control and interpretability of model computations on the task. Second, we use the supervised dictionaries to develop and contextualize evaluations of unsupervised dictionaries along the same three axes. We apply this framework to the indirect object identification task (IOI) using GPT-2 Small, with sparse autoencoders (SAEs) trained on either the IOI or OpenWebText datasets. We find that these SAEs capture interpretable features for the IOI task, but they are not as successful as supervised features in controlling the model. Finally, we observe two qualitative phenomena in SAE training: feature occlusion (where a causally relevant concept is robustly overshadowed by even slightly higher-magnitude ones in the learned features), and feature over-splitting (where binary features split into many smaller features without clear interpretation). We hope that our framework will be a useful step towards more objective and grounded evaluations of sparse dictionary learning methods.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# MEDIQA-CORR 2024 の PromptMind チーム: エラー分類と LLM アンサンブルによる臨床テキスト補正の改善

PromptMind Team at MEDIQA-CORR 2024: Improving Clinical Text Correction with Error Categorization and LLM Ensembles ( http://arxiv.org/abs/2405.08373v1 )

ライセンス: Link先を確認
Satya Kesav Gundabathula, Sriram R Kolar, (参考訳) 本稿では,医療従事者による臨床ノートの誤り検出と修正を含むMEDIQA-CORR共有タスクへのアプローチについて述べる。 このタスクは、エラーの検出、エラーを含む特定の文の特定、修正という3つのサブタスクを扱う。 本研究は,事実情報と信頼できない情報の両方を含む膨大なインターネットデータのコーパスに基づいて学習したLarge Language Models(LLM)の機能を評価することを目的とする。 本稿では,すべてのサブタスクを包括的に扱うことを提案する。 一般的な推論と医学的知識の組み合わせを要求されるこの専門課題における有効性を評価する。 予測誤差が致命的な結果をもたらす医療システムでは,自己整合性およびアンサンブル法を利用して誤り訂正と誤り検出性能を向上させることを提案する。

This paper describes our approach to the MEDIQA-CORR shared task, which involves error detection and correction in clinical notes curated by medical professionals. This task involves handling three subtasks: detecting the presence of errors, identifying the specific sentence containing the error, and correcting it. Through our work, we aim to assess the capabilities of Large Language Models (LLMs) trained on a vast corpora of internet data that contain both factual and unreliable information. We propose to comprehensively address all subtasks together, and suggest employing a unique prompt-based in-context learning strategy. We will evaluate its efficacy in this specialized task demanding a combination of general reasoning and medical knowledge. In medical systems where prediction errors can have grave consequences, we propose leveraging self-consistency and ensemble methods to enhance error correction and error detection performance.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# CIER: 深層強化学習における因果推論を用いた新しい経験リプレイアプローチ

CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning ( http://arxiv.org/abs/2405.08380v1 )

ライセンス: Link先を確認
Jingwen Wang, Dehui Du, Yida Li, Yiyang Li, Yikang Chen, (参考訳) 深層強化学習(DRL)の訓練プロセスでは、エージェントは環境との反復的な相互作用を必要とする。 訓練量の増大とモデルの複雑さにより、DRLトレーニングのデータ利用と説明可能性を高めることは依然として難しい問題である。 本稿では,時系列の時間次元における時間的相関に着目し,これらの課題に対処する。 本稿では,多変量時系列を意味のあるサブシーケンスに分割し,これらのサブシーケンスに基づいて時系列を表現する新しい手法を提案する。 さらに、これらのサブシーケンスは、トレーニング結果に大きな影響を及ぼす基本的な因果要因を特定するために因果推論に使用される。 DRLトレーニング中の因果関係に対するフィードバックを提供するモジュールを設計する。 いくつかの実験は、我々のアプローチが共通の環境で実現可能であることを実証し、DRLトレーニングの有効性を高め、トレーニングプロセスに一定のレベルの説明可能性を与える能力を確認した。 さらに,提案手法を優先体験再生アルゴリズムにより拡張し,提案手法の有効性を実証した。

In the training process of Deep Reinforcement Learning (DRL), agents require repetitive interactions with the environment. With an increase in training volume and model complexity, it is still a challenging problem to enhance data utilization and explainability of DRL training. This paper addresses these challenges by focusing on the temporal correlations within the time dimension of time series. We propose a novel approach to segment multivariate time series into meaningful subsequences and represent the time series based on these subsequences. Furthermore, the subsequences are employed for causal inference to identify fundamental causal factors that significantly impact training outcomes. We design a module to provide feedback on the causality during DRL training. Several experiments demonstrate the feasibility of our approach in common environments, confirming its ability to enhance the effectiveness of DRL training and impart a certain level of explainability to the training process. Additionally, we extended our approach with priority experience replay algorithm, and experimental results demonstrate the continued effectiveness of our approach.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# 衛星ランデブーに応用した非線形力学系のニューロモルフィックロバスト推定

Neuromorphic Robust Estimation of Nonlinear Dynamical Systems Applied to Satellite Rendezvous ( http://arxiv.org/abs/2405.08392v1 )

ライセンス: Link先を確認
Reza Ahmadvand, Sarah Safura Sharif, Yaser Mike Banad, (参考訳) 非線形力学系の状態推定は、精度、計算効率、堅牢性、信頼性のバランスをとることを目的としていた。 様々な産業の急速な発展は、これらの要因をすべて満たす見積もりフレームワークの需要を増大させてきた。 本研究では,非線形力学系のロバストフィルタに対するニューロモルフィックなアプローチとして,SNN-EMSIF(スポーキングニューラルネットワーク拡張改良型スライディング・イノベーション・フィルタ)を提案する。 SNN-EMSIFは、ゼロ平均ガウス雑音を持つ非線形システムのために設計された推定フレームワークであるEMSIFの堅牢性とSNNの計算効率とスケーラビリティを結合する。 特に、重み行列はシステムモデルに従って設計され、学習プロセスの必要性がなくなる。 このフレームワークの有効性は、SNN-EMSIFとEKFとEMSIFを比較した総合的なモンテカルロシミュレーションによって評価される。 さらに、RMSEを指標として、不確実性や神経細胞の損失のモデリングの存在下でSNN-EKFと比較される。 その結果,SNN-EMSIFの精度とロバスト性は良好であった。 ランタイムとスパイクパターンのさらなる分析により、スパイクの可能なスパイクに比べて85%の大幅な削減が示され、SNN-EMSIFの計算効率が強調された。 このフレームワークは、非線形力学系におけるロバストな推定のための有望なソリューションを提供し、ニューロモルフィックコンピューティングの恩恵を受ける様々な産業において、効率的で信頼性の高い推定のための新しい道を開く。

State estimation of nonlinear dynamical systems has long aimed to balance accuracy, computational efficiency, robustness, and reliability. The rapid evolution of various industries has amplified the demand for estimation frameworks that satisfy all these factors. This study introduces a neuromorphic approach for robust filtering of nonlinear dynamical systems: SNN-EMSIF (spiking neural network-extended modified sliding innovation filter). SNN-EMSIF combines the computational efficiency and scalability of SNNs with the robustness of EMSIF, an estimation framework designed for nonlinear systems with zero-mean Gaussian noise. Notably, the weight matrices are designed according to the system model, eliminating the need for a learning process. The framework's efficacy is evaluated through comprehensive Monte Carlo simulations, comparing SNN-EMSIF with EKF and EMSIF. Additionally, it is compared with SNN-EKF in the presence of modeling uncertainties and neuron loss, using RMSEs as a metric. The results demonstrate the superior accuracy and robustness of SNN-EMSIF. Further analysis of runtimes and spiking patterns reveals an impressive reduction of 85% in emitted spikes compared to possible spikes, highlighting the computational efficiency of SNN-EMSIF. This framework offers a promising solution for robust estimation in nonlinear dynamical systems, opening new avenues for efficient and reliable estimation in various industries that can benefit from neuromorphic computing.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# zk-SNARKを用いたオフチェーンアグリゲーション機構を持つOracleを用いたクロスブロックチェーン通信

Cross-Blockchain Communication Using Oracles With an Off-Chain Aggregation Mechanism Based on zk-SNARKs ( http://arxiv.org/abs/2405.08395v1 )

ライセンス: Link先を確認
Michael Sober, Giulia Scaffino, Stefan Schulte, (参考訳) 一般的なブロックチェーンシステムのクローズドアーキテクチャは、このテクノロジの使用を、主にさまざまな現実世界の問題に対して不可能にしている。 ほとんどのブロックチェーンは、他のブロックチェーンと協調したり切り替えたりすることなく、分離されたスペースでユーザやアプリケーションをトラップします。 そのためブロックチェーンには、シームレスな通信と、相互および外部システム間の任意のデータ交換のための追加のメカニズムが必要だ。 残念ながら、現在のクロスブロックチェーン通信のアプローチは、リソース集約的あるいは、接続されたブロックチェーンの適用されるコンセンサスメカニズムに応じて、追加のブロックチェーンまたは調整されたソリューションを必要とする。 そこで本研究では,ZeroKnowledge Succinct Non-interactive Arguments of Knowledge (zk-SNARKs) に基づくオフチェーンアグリゲーション機構を持つオラクルを提案する。 オラクルは別のブロックチェーンからデータをクエリし、状態と計算をチェーンから移動するためのロールアップのようなメカニズムを適用します。 zkOracle契約は、転送されたデータ、更新された状態ルート、およびアグリゲーションメカニズムの正しい実行の証明のみを期待する。 提案されたソリューションは、Ethereumブロックチェーンにデータを送信するために、常に378kgasしか必要とせず、主にクエリされたブロックチェーンの基盤技術とは独立している。

The closed architecture of prevailing blockchain systems renders the usage of this technology mostly infeasible for a wide range of real-world problems. Most blockchains trap users and applications in their isolated space without the possibility of cooperating or switching to other blockchains. Therefore, blockchains need additional mechanisms for seamless communication and arbitrary data exchange between each other and external systems. Unfortunately, current approaches for cross-blockchain communication are resource-intensive or require additional blockchains or tailored solutions depending on the applied consensus mechanisms of the connected blockchains. Therefore, we propose an oracle with an off-chain aggregation mechanism based on ZeroKnowledge Succinct Non-interactive Arguments of Knowledge (zk-SNARKs) to facilitate cross-blockchain communication. The oracle queries data from another blockchain and applies a rollup-like mechanism to move state and computation off-chain. The zkOracle contract only expects the transferred data, an updated state root, and proof of the correct execution of the aggregation mechanism. The proposed solution only requires constant 378 kgas to submit data on the Ethereum blockchain and is primarily independent of the underlying technology of the queried blockchains.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# 大規模言語モデルのためのスティロメトリックな透かし

Stylometric Watermarks for Large Language Models ( http://arxiv.org/abs/2405.08400v1 )

ライセンス: Link先を確認
Georg Niess, Roman Kern, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、人間と機械によって書かれたテキストの区別がますます困難になっている。 そこで本稿では,トークンの確率を戦略的に変化させる新しい透かし生成手法を提案する。 従来の手法とは異なり、この手法はスタイメトリーのような言語的特徴を独自に採用している。 具体的には,LLMにアクロスティカと感覚モチーフのノルムを導入する。 さらに、これらの機能はキーによってパラメータ化され、文ごとに更新される。 このキーを計算するために、セマンティックゼロショット分類を使用し、レジリエンスを高める。 評価の結果, 3つ以上の文に対して, 偽陽性, 偽陰性率は0.02であることがわかった。 周期的翻訳攻撃の場合、7つ以上の文に対して同様の結果が得られた。 この研究は、説明責任の促進と社会的危害の防止を目的として、プロプライエタリなLCMに特に関心を寄せている。

The rapid advancement of large language models (LLMs) has made it increasingly difficult to distinguish between text written by humans and machines. Addressing this, we propose a novel method for generating watermarks that strategically alters token probabilities during generation. Unlike previous works, this method uniquely employs linguistic features such as stylometry. Concretely, we introduce acrostica and sensorimotor norms to LLMs. Further, these features are parameterized by a key, which is updated every sentence. To compute this key, we use semantic zero shot classification, which enhances resilience. In our evaluation, we find that for three or more sentences, our method achieves a false positive and false negative rate of 0.02. For the case of a cyclic translation attack, we observe similar results for seven or more sentences. This research is of particular of interest for proprietary LLMs to facilitate accountability and prevent societal harm.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# 音声自己監督モデルにおける「オートエンコーダ行動」の検討 : HuBERT の事前学習に着目して

Investigating the 'Autoencoder Behavior' in Speech Self-Supervised Models: a focus on HuBERT's Pretraining ( http://arxiv.org/abs/2405.08402v1 )

ライセンス: Link先を確認
Valentin Vielzeuf, (参考訳) 自己教師型学習は音声認識において大きな成功を収めている。 しかし、学習したモデルのすべてのレイヤを微調整すると、トップレイヤのリセットよりもパフォーマンスが低下することが観察されている。 トップレイヤには入力に近い情報が含まれており、音声認識などの言語情報を必要とするタスクには適さないため、この動作をよりよく理解するために、事前学習中にモデル内の高レベル情報の進化を研究することを提案する。 We focus on the HuBERT model, which showed a less pronounced ''autoencoder' behavior。 様々な要因を実験的に検討することにより,HuBERTの上位層を高レベルタスクに拡張し,トレーニング手順の改善により,下流タスクの収束と競争性能が向上することが実証された。

Self-supervised learning has shown great success in Speech Recognition. However, it has been observed that finetuning all layers of the learned model leads to lower performance compared to resetting top layers. This phenomenon is attributed to the ''autoencoder'' behavior: top layers contain information closer to the input and are less suitable for tasks that require linguistic information, such as Speech Recognition.To better our understanding of this behavior, we propose to study the evolution of high-level information within the model during pretraining. We focus on the HuBERT model, which exhibits a less pronounced ''autoencoder'' behavior. By experimentally exploring various factors that may have an impact, we aim to improve the training procedure and enhance the top layers of HuBERT for high-level tasks.Furthermore, our experiments demonstrate that these improvements in the training procedure result in faster convergence and competitive performance on downstream tasks.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# TFWT: Transformer によるタブラルな特徴重み付け

TFWT: Tabular Feature Weighting with Transformer ( http://arxiv.org/abs/2405.08403v1 )

ライセンス: Link先を確認
Xinhao Zhang, Zaitian Wang, Lu Jiang, Wanfu Gao, Pengfei Wang, Kunpeng Liu, (参考訳) 本稿では,従来のグラフデータの特徴処理手法の限界に対処する特徴重み付け手法を提案する。 通常、既存のメソッドは1つのデータセット内のすべてのサンプルと機能に対して同等に重要であると仮定する。 この単純化された処理方法は、各機能のユニークな貢献を見落とし、重要な特徴情報を見逃す可能性がある。 結果として、リッチな特徴を持つ複雑なデータセットにおいて、最適以下のパフォーマンスがもたらされる。 この問題に対処するため,Tarbular Feature Weighting with Transformerを導入する。 本手法では,Transformerを用いて複雑な特徴の依存関係をキャプチャし,離散的かつ連続的な特徴に適切な重み付けをコンテキスト的に割り当てる。 さらに,重み付けプロセスをさらに微調整するために,強化学習戦略を採用している。 実世界の様々なデータセットと様々な下流タスクにまたがる広範な実験結果から、TFWTの有効性が示され、表層データ解析における特徴重み付けの強化の可能性が浮き彫りにされている。

In this paper, we propose a novel feature weighting method to address the limitation of existing feature processing methods for tabular data. Typically the existing methods assume equal importance across all samples and features in one dataset. This simplified processing methods overlook the unique contributions of each feature, and thus may miss important feature information. As a result, it leads to suboptimal performance in complex datasets with rich features. To address this problem, we introduce Tabular Feature Weighting with Transformer, a novel feature weighting approach for tabular data. Our method adopts Transformer to capture complex feature dependencies and contextually assign appropriate weights to discrete and continuous features. Besides, we employ a reinforcement learning strategy to further fine-tune the weighting process. Our extensive experimental results across various real-world datasets and diverse downstream tasks show the effectiveness of TFWT and highlight the potential for enhancing feature weighting in tabular data analysis.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# WaterMamba: 水中画像強調のためのビジュアルステートスペースモデル

WaterMamba: Visual State Space Model for Underwater Image Enhancement ( http://arxiv.org/abs/2405.08419v1 )

ライセンス: Link先を確認
Meisheng Guan, Haiyong Xu, Gangyi Jiang, Mei Yu, Yeyao Chen, Ting Luo, Yang Song, (参考訳) 水中イメージングは、光の伝播や水中の吸収に影響を及ぼす要因によって、しばしば品質の低下に悩まされる。 画像品質を向上させるため、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づく水中画像強調法(UIE)が提案されている。 しかし、CNNベースのUIEメソッドは長距離依存性のモデリングに限られており、Transformerベースのメソッドには多数のパラメータと複雑な自己認識機構が含まれており、効率の課題が引き起こされている。 計算複雑性と高度水中画像劣化を考慮して,UIEの線形計算複雑性を持つ状態空間モデルであるWaterMambaを提案する。 本研究では,空間チャネル座標全方向選択走査(SCCOSS)モジュールとマルチスケールフィードフォワードネットワーク(MSFFN)からなる空間チャネル全方向選択走査(SCOSS)ブロックを提案する。 SCOSSブロックは、依存に対処するピクセルとチャネル情報の流れをモデル化する。 MSFFNは情報フロー調整を容易にし、SCCOSSモジュール内の同期操作を促進する。 大規模な実験では、パラメータと計算資源を削減したウォーターマンバの最先端のパフォーマンスを示し、様々なデータセット上で最先端の手法より優れ、その有効性と一般化性を検証する。 コードは受け入れた後にGitHubでリリースされる。

Underwater imaging often suffers from low quality due to factors affecting light propagation and absorption in water. To improve image quality, some underwater image enhancement (UIE) methods based on convolutional neural networks (CNN) and Transformer have been proposed. However, CNN-based UIE methods are limited in modeling long-range dependencies, and Transformer-based methods involve a large number of parameters and complex self-attention mechanisms, posing efficiency challenges. Considering computational complexity and severe underwater image degradation, a state space model (SSM) with linear computational complexity for UIE, named WaterMamba, is proposed. We propose spatial-channel omnidirectional selective scan (SCOSS) blocks comprising spatial-channel coordinate omnidirectional selective scan (SCCOSS) modules and a multi-scale feedforward network (MSFFN). The SCOSS block models pixel and channel information flow, addressing dependencies. The MSFFN facilitates information flow adjustment and promotes synchronized operations within SCCOSS modules. Extensive experiments showcase WaterMamba's cutting-edge performance with reduced parameters and computational resources, outperforming state-of-the-art methods on various datasets, validating its effectiveness and generalizability. The code will be released on GitHub after acceptance.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# NAFRSSR:高効率ステレオ画像超解像のための軽量再帰ネットワーク

NAFRSSR: a Lightweight Recursive Network for Efficient Stereo Image Super-Resolution ( http://arxiv.org/abs/2405.08423v1 )

ライセンス: Link先を確認
Yihong Chen, Zhen Fan, Shuai Dong, Zhiwei Chen, Wenjie Li, Minghui Qin, Min Zeng, Xubing Lu, Guofu Zhou, Xingsen Gao, Jun-Ming Liu, (参考訳) ステレオ・イメージ・スーパーレゾリューション(Stereo image Super- resolution, SR)とは、高解像度(HR)画像の2枚の低解像度(LR)画像からの再構成である。 SR画像の品質を高めるため、ほとんどの研究は特徴写像の数とサイズを増大させ、複雑で計算集約的な構造を導入し、計算の複雑さの高いモデルを生み出した。 本稿では,従来の最先端モデルNAFSSRから,再帰的接続を導入し,構成モジュールを軽量化するNAFRSSRという,シンプルで効率的なステレオ画像SRモデルを提案する。 NAFRSSRモデルは,非線形アクティベーションフリーおよびグループ畳み込みベースブロック(NAFGCBlocks)と深度分離ステレオクロスアテンションモジュール(DSSCAMs)から構成される。 NAFGCBlockは、NAFBlockから単純なチャネルアテンション機構を取り除き、グループ畳み込みを使用することで、特徴抽出を改善し、パラメータ数を削減している。 DSSCAMは特徴融合を強化し、SCAMの1x1のポイントワイド・コンボリューションを重量共有3x3のディープワイド・コンボリューションに置き換えることでパラメータ数を削減している。 さらに,トレーニング可能なエッジ検出演算子をNAFRSSRに組み込むことにより,モデル性能をさらに向上することを提案する。 NAFRSSR-Mobile(NAFRSSR-M)、NAFRSSR-Tiny(NAFRSSR-T)、NAFRSSR-Super(NAFRSSR-S)、NAFRSSR-Base(NAFRSSR-B)の4種類が設計されており、いずれもより少ないパラメータ、より高いPSNR/SSIM、より高速である。 特に、我々の知る限り、NAFRSSR-Mはベンチマークデータセット上で平均PSNR/SSIMを24.657 dB/0.7622で達成する最も軽量(0.28Mパラメータ)かつ最速(50msの推論時間)モデルである。 コードとモデルはhttps://github.com/JNUChenYiHong/NAFRSSR.comでリリースされる。

Stereo image super-resolution (SR) refers to the reconstruction of a high-resolution (HR) image from a pair of low-resolution (LR) images as typically captured by a dual-camera device. To enhance the quality of SR images, most previous studies focused on increasing the number and size of feature maps and introducing complex and computationally intensive structures, resulting in models with high computational complexity. Here, we propose a simple yet efficient stereo image SR model called NAFRSSR, which is modified from the previous state-of-the-art model NAFSSR by introducing recursive connections and lightweighting the constituent modules. Our NAFRSSR model is composed of nonlinear activation free and group convolution-based blocks (NAFGCBlocks) and depth-separated stereo cross attention modules (DSSCAMs). The NAFGCBlock improves feature extraction and reduces number of parameters by removing the simple channel attention mechanism from NAFBlock and using group convolution. The DSSCAM enhances feature fusion and reduces number of parameters by replacing 1x1 pointwise convolution in SCAM with weight-shared 3x3 depthwise convolution. Besides, we propose to incorporate trainable edge detection operator into NAFRSSR to further improve the model performance. Four variants of NAFRSSR with different sizes, namely, NAFRSSR-Mobile (NAFRSSR-M), NAFRSSR-Tiny (NAFRSSR-T), NAFRSSR-Super (NAFRSSR-S) and NAFRSSR-Base (NAFRSSR-B) are designed, and they all exhibit fewer parameters, higher PSNR/SSIM, and faster speed than the previous state-of-the-art models. In particular, to the best of our knowledge, NAFRSSR-M is the lightest (0.28M parameters) and fastest (50 ms inference time) model achieving an average PSNR/SSIM as high as 24.657 dB/0.7622 on the benchmark datasets. Codes and models will be released at https://github.com/JNUChenYiHong/NAFRSSR.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# 教師なしの組合せ最適化における有意な条件に対処する: 心力、最小限、カバーなど

Tackling Prevalent Conditions in Unsupervised Combinatorial Optimization: Cardinality, Minimum, Covering, and More ( http://arxiv.org/abs/2405.08424v1 )

ライセンス: Link先を確認
Fanchen Bu, Hyeonsoo Jo, Soo Yong Lee, Sungsoo Ahn, Kijung Shin, (参考訳) 組合せ最適化(CO)は自然に独立しており、微分可能な最適化に基づく機械学習が適用できない。 Karalias & Loukas (2020) はCOを微分可能な最適化に組み込む確率的手法を採用した。 彼らの研究は、確率論的目的とデランドマイゼーションという2つの主要な構成要素からなる、COの教師なし学習の研究に火をつけた。 しかし、各コンポーネントは固有の課題に直面します。 まず、様々な条件(例えば、濃度制約、最小限)の下で目的を導出するのは自明ではない。 第二に、デランドマイズ法は未探索であり、既存のデランドマイズ法はランダムサンプリングかナイーブラウンドである。 本研究は、非監督的COにおける一般的な(一般的に関与する)条件に取り組むことを目的としている。 まず、客観的な構築とデランドマイズのための目標を理論的に正当化する。 次に, 異なるCO問題に共通する諸条件に対して, 非自明な目的と, 目的を満たすためのデランドマイズを導出する。 最後に,CO問題への導出について述べる。 合成グラフと実世界のグラフに関する広範な実験により、導出の正しさを検証し、最適化品質と速度の両方で経験的優位性を示す。

Combinatorial optimization (CO) is naturally discrete, making machine learning based on differentiable optimization inapplicable. Karalias & Loukas (2020) adapted the probabilistic method to incorporate CO into differentiable optimization. Their work ignited the research on unsupervised learning for CO, composed of two main components: probabilistic objectives and derandomization. However, each component confronts unique challenges. First, deriving objectives under various conditions (e.g., cardinality constraints and minimum) is nontrivial. Second, the derandomization process is underexplored, and the existing derandomization methods are either random sampling or naive rounding. In this work, we aim to tackle prevalent (i.e., commonly involved) conditions in unsupervised CO. First, we concretize the targets for objective construction and derandomization with theoretical justification. Then, for various conditions commonly involved in different CO problems, we derive nontrivial objectives and derandomization to meet the targets. Finally, we apply the derivations to various CO problems. Via extensive experiments on synthetic and real-world graphs, we validate the correctness of our derivations and show our empirical superiority w.r.t. both optimization quality and speed.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# スタンプがマルチモーダルチャット感度解析およびインテント認識に及ぼす影響:新しいタスク,データセット,ベースライン

Impact of Stickers on Multimodal Chat Sentiment Analysis and Intent Recognition: A New Task, Dataset and Baseline ( http://arxiv.org/abs/2405.08427v1 )

ライセンス: Link先を確認
Yuanchen Shi, Biao Ma, Fang Kong, (参考訳) スタンプは、感情や意図を表現するためにソーシャルメディアでますます使われている。 タイピングが面倒な場合は、代わりにステッカーを使うことが多い。 スタンプが感情分析や意図認識に多大な影響を与えているにもかかわらず、研究はほとんど行われていない。 このギャップに対処するため,マルチモーダルチャットセンチメント分析とステッカーを含むインテント認識(MSAIRS)を提案する。 さらに,いくつかの主流ソーシャルメディアプラットフォームから抽出した,中国のチャット記録とステッカーを含む新しいマルチモーダルデータセットを導入する。 私たちのデータセットには、同じテキストと異なるスタンプのペアデータと、異なるテキストの同じイメージで構成されるさまざまなステッカーが含まれており、チャットの感情と意図に対するステッカーの影響をよりよく理解することができます。 また,本課題に対して有効なマルチモーダルジョイントモデルであるMMSAIRを提案する。 データセットとコードは公開されます。

Stickers are increasingly used in social media to express sentiment and intent. When finding typing troublesome, people often use a sticker instead. Despite the significant impact of stickers on sentiment analysis and intent recognition, little research has been conducted. To address this gap, we propose a new task: Multimodal chat Sentiment Analysis and Intent Recognition involving Stickers (MSAIRS). Additionally, we introduce a novel multimodal dataset containing Chinese chat records and stickers excerpted from several mainstream social media platforms. Our dataset includes paired data with the same text but different stickers, and various stickers consisting of the same images with different texts, allowing us to better understand the impact of stickers on chat sentiment and intent. We also propose an effective multimodal joint model, MMSAIR, for our task, which is validated on our datasets and indicates that visual information of stickers counts. Our dataset and code will be publicly available.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# TEDNet: 2次元カメラとLiDAR道路検出のためのツインエンコーダデコーダニューラルネットワーク

TEDNet: Twin Encoder Decoder Neural Network for 2D Camera and LiDAR Road Detection ( http://arxiv.org/abs/2405.08429v1 )

ライセンス: Link先を確認
Martín Bayón-Gutiérrez, María Teresa García-Ordás, Héctor Alaiz Moretón, Jose Aveleira-Mata, Sergio Rubio Martín, José Alberto Benítez-Andrades, (参考訳) 自動運転車が安全に走行するには、ロバストな路面推定が必要である。 近年、自動運転の研究者の標的となっているが、カメラとLiDARセンサーが、異なる環境で車両が運転している道路の位置、大きさ、形状を予測するのに十分なことを証明していることは、まだ未解決の問題である。 本研究では,道路面の正確な推定のために,新しい畳み込みニューラルネットワークモデルを提案する。 さらに、異なるエンコーディング戦略がモデル性能にどのように影響するかを調べるためのアブレーション研究が行われ、わずかに異なる6つのニューラルネットワークアーキテクチャをテストする。 我々のモデルは、独立カメラとLiDAR特徴抽出にTwin Encoder-Decoder Neural Network(TEDNet)を使用しており、Kitti-Roadデータセットに基づいて訓練および評価されている。 このモデルでは、カメラとLiDARデータのバードアイビュー投影を用いて、各ピクセルが路面に属するか否かのセマンティックセグメンテーションを行う。 提案手法は,LiDARやカメラと同じフレームレートで動作し,リアルタイムアプリケーションでの利用に適している。

Robust road surface estimation is required for autonomous ground vehicles to navigate safely. Despite it becoming one of the main targets for autonomous mobility researchers in recent years, it is still an open problem in which cameras and LiDAR sensors have demonstrated to be adequate to predict the position, size and shape of the road a vehicle is driving on in different environments. In this work, a novel Convolutional Neural Network model is proposed for the accurate estimation of the roadway surface. Furthermore, an ablation study has been conducted to investigate how different encoding strategies affect model performance, testing 6 slightly different neural network architectures. Our model is based on the use of a Twin Encoder-Decoder Neural Network (TEDNet) for independent camera and LiDAR feature extraction, and has been trained and evaluated on the Kitti-Road dataset. Bird's Eye View projections of the camera and LiDAR data are used in this model to perform semantic segmentation on whether each pixel belongs to the road surface. The proposed method performs among other state-of-the-art methods and operates at the same frame-rate as the LiDAR and cameras, so it is adequate for its use in real-time applications.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# MR画像から画像への変換における類似度

Similarity Metrics for MR Image-To-Image Translation ( http://arxiv.org/abs/2405.08431v1 )

ライセンス: Link先を確認
Melanie Dohmen, Mark Klemens, Ivo Baltruschat, Tuan Truong, Matthias Lenga, (参考訳) 画像から画像への変換は、患者の画像がより良い診断のために別のモダリティ、タイプまたはシーケンスに変換される場合、医療画像に大きな影響を与える可能性がある。 しかし、これらの手法は、費用がかかり、小さなサンプルに制限されるヒトの読者による研究によって検証されなければならない。 ヒトのバリデーションが必要とされる前に,大規模サンプルの自動評価を行い,手法を事前評価し,継続的に改善する。 本研究では,画像合成評価のための基準・非参照指標の概要と,参照(SSIM, MS-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, NMI, PCC)と3つの非参照指標(BLUR, MSN, MNG)がブラシンデータセットから11種類のMR画像の歪みを検出するために必要となる9つの指標(SSIM, MS-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, NMI, PCC)の能力について検討する。 さらに、下流セグメンテーション計量と3つの正規化法(Minmax, cMinMax, Zscore)の効果を検証した。 PSNRとSSIMは、医療領域における画像と画像の翻訳タスクの生成モデルを評価するために頻繁に使用されるが、非常に具体的な欠点を示す。 SSIMはぼやけを無視するが、非正規化MR画像の強度シフトに非常に敏感である。 PSNRはさらに異なる正規化法に敏感であり、歪みの度合いを測ることはほとんどない。 LPIPS、NMI、DICEなどのさらなるメトリクスは、他の類似性側面を評価するのに非常に有用である。 比較対象のイメージが一致していない場合、ほとんどのメトリクスは欠陥があります。 画像類似度指標を慎重に選択し、合理的に組み合わせることで、MR画像合成のための生成モデルのトレーニングと選択を改善することができる。 放射線技師による最終評価と費用のかかる評価を行う前に、その出力の多くの側面を検証できる。

Image-to-image translation can create large impact in medical imaging, i.e. if images of a patient can be translated to another modality, type or sequence for better diagnosis. However, these methods must be validated by human reader studies, which are costly and restricted to small samples. Automatic evaluation of large samples to pre-evaluate and continuously improve methods before human validation is needed. In this study, we give an overview of reference and non-reference metrics for image synthesis assessment and investigate the ability of nine metrics, that need a reference (SSIM, MS-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, NMI and PCC) and three non-reference metrics (BLUR, MSN, MNG) to detect 11 kinds of distortions in MR images from the BraSyn dataset. In addition we test a downstream segmentation metric and the effect of three normalization methods (Minmax, cMinMax and Zscore). Although PSNR and SSIM are frequently used to evaluate generative models for image-to-image-translation tasks in the medical domain, they show very specific shortcomings. SSIM ignores blurring but is very sensitive to intensity shifts in unnormalized MR images. PSNR is even more sensitive to different normalization methods and hardly measures the degree of distortions. Further metrics, such as LPIPS, NMI and DICE can be very useful to evaluate other similarity aspects. If the images to be compared are misaligned, most metrics are flawed. By carefully selecting and reasonably combining image similarity metrics, the training and selection of generative models for MR image synthesis can be improved. Many aspects of their output can be validated before final and costly evaluation by trained radiologists is conducted.
翻訳日:2024-05-15 14:48:16 公開日:2024-05-14
# TP3M: トランスフォーマーを用いた擬似3次元画像マッチング

TP3M: Transformer-based Pseudo 3D Image Matching with Reference ( http://arxiv.org/abs/2405.08434v1 )

ライセンス: Link先を確認
Liming Han, Zhaoxiang Liu, Shiguo Lian, (参考訳) 画像マッチングは、大きな視点や照明の変化、または低いテクスチャを持つシーンでは依然として難しい。 本論文では,トランスフォーマーを用いた擬似3次元画像マッチング手法を提案する。 ソース画像から抽出した2D特徴を基準画像の助けを借りて3D特徴にアップグレードし、粗い3Dマッチングにより目的地画像から抽出した2D特徴と一致する。 我々の重要な発見は、参照画像を導入することで、ソース画像の細かい点をスクリーニングし、さらに特徴記述子を2Dから3Dに富ませることで、目的地画像とのマッチング性能を向上させることである。 複数のデータセットに対する実験結果から,提案手法は,特に挑戦場面におけるホモグラフィー推定,ポーズ推定,視覚的局所化といったタスクにおいて,最先端の手法を実現することが示された。

Image matching is still challenging in such scenes with large viewpoints or illumination changes or with low textures. In this paper, we propose a Transformer-based pseudo 3D image matching method. It upgrades the 2D features extracted from the source image to 3D features with the help of a reference image and matches to the 2D features extracted from the destination image by the coarse-to-fine 3D matching. Our key discovery is that by introducing the reference image, the source image's fine points are screened and furtherly their feature descriptors are enriched from 2D to 3D, which improves the match performance with the destination image. Experimental results on multiple datasets show that the proposed method achieves the state-of-the-art on the tasks of homography estimation, pose estimation and visual localization especially in challenging scenes.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# 静的摂動理論と動的摂動理論の関連

A link between static and dynamical perturbation theory ( http://arxiv.org/abs/2405.08439v1 )

ライセンス: Link先を確認
Sebastian Gemsheim, (参考訳) 時間の物理的変化と自然科学の柱であるダイナミクスは、興味あるシステムがより大きな静的な現象の一部である場合、創発的な現象と見なすことができる。 この「時間への関係的なアプローチ」は、システムの環境が時間的参照を提供するものであり、物理学の基礎的な問題に対する洞察を提供するだけでなく、静的と力学を密接に結び付けることによって、より深い理論的理解の可能性を秘めている。 量子力学における時間に依存しない摂動理論と時間に依存しない摂動理論の間の重要なリンクとしての創発時間の役割は、近年の進歩 (Phys. Lett. 131, 140202 (2023)) に基づいて示される。 我々は、しばしば最も重要な1次コントリビューションを計算し、退化スペクトルの問題について議論する。 本研究は,1つの純エネルギー固有状態に基づく力学現象の計算への将来的な応用を想定する。

Dynamics, the physical change in time and a pillar of natural sciences, can be regarded as an emergent phenomenon when the system of interest is part of a larger, static one. This "relational approach to time", in which the system's environment provides a temporal reference, does not only provide insight into foundational issues of physics, but holds the potential for a deeper theoretical understanding as it intimately links statics and dynamics. Reinforcing the significance of this connection, we demonstrate, based on recent progress [Phys. Rev. Lett. 131, 140202 (2023)], the role of emergent time as a vital link between time-independent and time-dependent perturbation theory in quantum mechanics. We calculate first order contributions, which are often the most significant, and discuss the issue of degenerate spectra. Based on our results, we envision future applications for the calculation of dynamical phenomena based on a single pure energy eigenstate.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# DGCformer:多変量時系列予測のためのディープグラフクラスタリング変換器

DGCformer: Deep Graph Clustering Transformer for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2405.08440v1 )

ライセンス: Link先を確認
Qinshuo Liu, Yanwen Fang, Pengtao Jiang, Guodong Li, (参考訳) 多変量時系列予測タスクは通常、より可変関連情報を組み込むことができるため、チャンネル依存(CD)方式で行われる。 しかし、これは多くの無関係な変数も含み、チャネル非依存(CI)戦略よりもパフォーマンスが悪くなります。 本稿では,両戦略の長所を組み合わせ,多変量時系列予測のためのディープグラフクラスタリング変換器(DGCformer)を提案する。 具体的には、まずこれらの関連する変数をオートエンコーダと統合されたグラフ畳み込みネットワークでグループ化し、その後、CD戦略を変数群に適用し、CI戦略を異なるグループに適用する。 8つのデータセットに対する大規模な実験結果から,提案手法の最先端モデルに対する優位性が確認された。

Multivariate time series forecasting tasks are usually conducted in a channel-dependent (CD) way since it can incorporate more variable-relevant information. However, it may also involve a lot of irrelevant variables, and this even leads to worse performance than the channel-independent (CI) strategy. This paper combines the strengths of both strategies and proposes the Deep Graph Clustering Transformer (DGCformer) for multivariate time series forecasting. Specifically, it first groups these relevant variables by a graph convolutional network integrated with an autoencoder, and a former-latter masked self-attention mechanism is then considered with the CD strategy being applied to each group of variables while the CI one for different groups. Extensive experimental results on eight datasets demonstrate the superiority of our method against state-of-the-art models, and our code will be publicly available upon acceptance.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# 変分量子アルゴリズムにおけるトラップからの量子相転移の解法

Unveiling quantum phase transitions from traps in variational quantum algorithms ( http://arxiv.org/abs/2405.08441v1 )

ライセンス: Link先を確認
Chenfeng Cao, Filippo Maria Gambetta, Ashley Montanaro, Raul A. Santos, (参考訳) 物理系における量子相転移を理解することは、その振舞いを小さな温度で特徴づけるのに不可欠である。 これを実現するには、基底状態への適切な近似へのアクセスと、異なる位相を区別する順序パラメータの識別の両方が必要である。 これらの課題に対処するために、量子最適化と古典的な機械学習を組み合わせたハイブリッドアルゴリズムを導入しました。 このアプローチは、有限の最適化によって局所的に閉じ込められた状態を作成するために、短期量子コンピュータの能力を利用する。 具体的には,従来の位相遷移の同定にLASSO,およびトポロジカル遷移にTransformerモデルを用い,ハミルトンパラメータのスライディングウィンドウを用いて適切な順序パラメータを学習し,臨界点を正確に推定する。 リゲッティのAnkaa 9Q-1量子コンピュータにおける数値シミュレーションと実ハードウェア実験により,本手法の有効性を検証した。 我々のプロトコルは、浅い量子回路を用いて量子相転移を研究するための堅牢なフレームワークを提供するだけでなく、効率と精度を大幅に向上させ、量子コンピューティングと機械学習の統合における新たな道を開く。

Understanding quantum phase transitions in physical systems is fundamental to characterize their behaviour at small temperatures. Achieving this requires both accessing good approximations to the ground state and identifying order parameters to distinguish different phases. Addressing these challenges, our work introduces a hybrid algorithm that combines quantum optimization with classical machine learning. This approach leverages the capability of near-term quantum computers to prepare locally trapped states through finite optimization. Specifically, we utilize LASSO for identifying conventional phase transitions and the Transformer model for topological transitions, applying these with a sliding window of Hamiltonian parameters to learn appropriate order parameters and estimate the critical points accurately. We verified the effectiveness of our method with numerical simulation and real-hardware experiments on Rigetti's Ankaa 9Q-1 quantum computer. Our protocol not only provides a robust framework for investigating quantum phase transitions using shallow quantum circuits but also significantly enhances efficiency and precision, opening new avenues in the integration of quantum computing and machine learning.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# アクティブ電圧制御のための安全制約付きマルチエージェント強化学習

Safety Constrained Multi-Agent Reinforcement Learning for Active Voltage Control ( http://arxiv.org/abs/2405.08443v1 )

ライセンス: Link先を確認
Yang Qu, Jinming Ma, Feng Wu, (参考訳) アクティブ電圧制御は、屋上太陽光発電などの電力ネットワークにおける分散制御可能発電機を利用して、電力混雑の軽減と電圧品質の向上のための有望な道を示す。 MARL(Multi-Agent Reinforcement Learning)は、この問題に対処するための魅力的なアプローチとして登場したが、既存のMARLアプローチは、この問題の制約された最適化特性を見落とし、安全性の制約を保証しない傾向にある。 本稿では,能動電圧制御問題を制約付きマルコフゲームとして定式化し,安全性に制約のあるMARLアルゴリズムを提案する。 そこで,本手法をマルチエージェント設定に拡張し,ポリシーの学習とラグランジュ乗算器の更新のために,二重安全性推定の新しいアプローチで拡張する。 さらに,異なるコスト関数を提案し,制約付きMARL法の挙動に与える影響について検討した。 実世界規模シナリオを用いた配電ネットワークシミュレーション環境における本手法の評価を行った。 実験により,提案手法の有効性を最先端のMARL法と比較した。

Active voltage control presents a promising avenue for relieving power congestion and enhancing voltage quality, taking advantage of the distributed controllable generators in the power network, such as roof-top photovoltaics. While Multi-Agent Reinforcement Learning (MARL) has emerged as a compelling approach to address this challenge, existing MARL approaches tend to overlook the constrained optimization nature of this problem, failing in guaranteeing safety constraints. In this paper, we formalize the active voltage control problem as a constrained Markov game and propose a safety-constrained MARL algorithm. We expand the primal-dual optimization RL method to multi-agent settings, and augment it with a novel approach of double safety estimation to learn the policy and to update the Lagrange-multiplier. In addition, we proposed different cost functions and investigated their influences on the behavior of our constrained MARL method. We evaluate our approach in the power distribution network simulation environment with real-world scale scenarios. Experimental results demonstrate the effectiveness of the proposed method compared with the state-of-the-art MARL methods.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# オンラインアライメントアルゴリズムとオフラインアライメントアルゴリズムのパフォーマンスギャップを理解する

Understanding the performance gap between online and offline alignment algorithms ( http://arxiv.org/abs/2405.08448v1 )

ライセンス: Link先を確認
Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney, (参考訳) 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルのアライメントのための標準フレームワークである。 しかし、オフラインアライメントアルゴリズムの人気が高まっているため、RLHFのオンラインサンプリングの必要性が高まっている。 報酬の過度な最適化のコンテキスト内では、オフラインメソッドよりもオンラインメソッドの明確な利点を示す実験のオープニングセットから始めます。 これにより、慎重に設計された実験的な改善を通じて、パフォーマンスの相違の原因を調べることができる。 オフラインデータカバレッジやデータ品質自体が性能の違いを説得力のある説明ができないという仮説を実証的に示す。 また、オフラインアルゴリズムはポリシーをペアワイドな分類に適するように訓練するが、世代によって悪くなる。一方、オンラインアルゴリズムによって訓練されたポリシーは世代ごとに良く、ペアワイドな分類には悪くなる。 このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。 最後に、コントラストと非コントラストの両方の損失関数で性能差が持続し、単にポリシーネットワークのスケールアップによって対処されないように見える。 同時に、我々の研究は、AIアライメントにおけるオンラインサンプリングの重要部分について光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。

Reinforcement learning from human feedback (RLHF) is the canonical framework for large language model alignment. However, rising popularity in offline alignment algorithms challenge the need for on-policy sampling in RLHF. Within the context of reward over-optimization, we start with an opening set of experiments that demonstrate the clear advantage of online methods over offline methods. This prompts us to investigate the causes to the performance discrepancy through a series of carefully designed experimental ablations. We show empirically that hypotheses such as offline data coverage and data quality by itself cannot convincingly explain the performance difference. We also find that while offline algorithms train policy to become good at pairwise classification, it is worse at generations; in the meantime the policies trained by online algorithms are good at generations while worse at pairwise classification. This hints at a unique interplay between discriminative and generative capabilities, which is greatly impacted by the sampling process. Lastly, we observe that the performance discrepancy persists for both contrastive and non-contrastive loss functions, and appears not to be addressed by simply scaling up policy networks. Taken together, our study sheds light on the pivotal role of on-policy sampling in AI alignment, and hints at certain fundamental challenges of offline alignment algorithms.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# アライメントがマルチモーダルデータを最大限活用する方法

How Alignment Helps Make the Most of Multimodal Data ( http://arxiv.org/abs/2405.08454v1 )

ライセンス: Link先を確認
Christian Arnold, Andreas Küpfer, (参考訳) 政治コミュニケーションを研究する際、テキスト、音声、ビデオ信号からの情報を組み合わせることで、個々のモダリティのみに絞るよりも、人間のコミュニケーションの豊かさをより包括的に反映することを約束する。 しかし、そのようなマルチモーダルデータのモデリングでは、その不均一性、接続性、相互作用に対処することが困難である。 我々は、モデルに人間の理解を知らせるため、各モダリティの整合性は、マルチモーダルデータの可能性を完全に活用する上で不可欠なステップであると主張している。 一致したモダリティの探索は、有望な分析レバレッジを解放する。 まず、データを最大限に活用できるので、インターエイリアスによって、より良い品質予測への扉が開きます。 第二に、複数のモダリティにまたがる研究質問に、クロスモーダルクエリで答えることが可能である。 最後に、アライメントはモデルの解釈可能性に関する懸念に対処する。 我々は、ドイツ議会が演説の中で極右のAfDのメンバーにどう対処するかを分析し、2020年アメリカ合衆国大統領選挙の文脈でビデオ広告のトーンを予測することによって、このアプローチの有用性を解説する。 本稿は、マルチモーダルデータを効果的に分析しようとするすべての人に重要な洞察を提供する。

When studying political communication, combining the information from text, audio, and video signals promises to reflect the richness of human communication more comprehensively than confining it to individual modalities alone. However, when modeling such multimodal data, its heterogeneity, connectedness, and interaction are challenging to address. We argue that aligning the respective modalities can be an essential step in entirely using the potential of multimodal data because it informs the model with human understanding. Exploring aligned modalities unlocks promising analytical leverage. First, it allows us to make the most of information in the data, which inter alia opens the door to better quality predictions. Second, it is possible to answer research questions that span multiple modalities with cross-modal queries. Finally, alignment addresses concerns about model interpretability. We illustrate the utility of this approach by analyzing how German MPs address members of the far-right AfD in their speeches, and predicting the tone of video advertising in the context of the 2020 US presidential race. Our paper offers important insights to all keen to analyze multimodal data effectively.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# ハイゼンベルク極限を満たす位相制御空間光変調器を用いた超解像型量子分光器

A superresolution-based quantum spectrometer using a pair of phase-controlled spatial light modulators satisfying the Heisenberg limit ( http://arxiv.org/abs/2405.08456v1 )

ライセンス: Link先を確認
Byoung S. Ham, (参考訳) 近年, 位相制御型超解像法が提案され, 連続波レーザーの古典的光を用いて古典物理学におけるショットノイズ限界を克服し, N00Nに基づく量子センシングにおける制限Nの解法を実験的に実証している。 ここでは、Mach-Zehnder干渉計の位相制御空間光変調器(SLM)を用いて、超解像を量子分光計に適用する。 提案手法の有効性について,SLM法に基づく予測法から一般解を解析的に導き,N依存性の位相感度と分解能の数値計算を行った。 さらに、古典的な分光計は数値的に比較され、その分解能は超解像と同じである。 しかし、SLMベースの量子分光器の位相感度は走査範囲の減少による量子優位性を示すが、古典的なものは変化しない。

Recently, a phase-controlled superresolution has been proposed and experimentally demonstrated using the classical light of a continuous-wave laser to overcome the shot-noise limit in classical physics as well as to solve the limited N in N00N-based quantum sensing. Here, the superresolution is applied to a quantum spectrometer using phase-controlled spatial light modulators (SLMs) in a Mach-Zehnder interferometer. For the validity of the proposed method, a general solution is analytically derived from the SLM-based projection measurements, and numerical calculations are conducted for the N-dependent phase sensitivity and resolution. Besides, a classical spectrometer is numerically compared, whose resolution is the same as the superresolution. However, the phase sensitivity of the SLM-based quantum spectrometer shows a quantum advantage due to the reduced scan range, whereas the classical one has no change.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# CLIPによるFew-Shotセグメンテーションのための事前情報生成の再考

Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation ( http://arxiv.org/abs/2405.08458v1 )

ライセンス: Link先を確認
Jin Wang, Bingfeng Zhang, Jian Pang, Honglong Chen, Weifeng Liu, (参考訳) 未確認クラスのラベル情報に制限があるため、ショットのセグメンテーションは依然として困難である。 従来の手法では、凍結したビジュアルエンコーダから高レベルな特徴マップを抽出して、デコーダの重要な事前ガイダンスとしてピクセル単位の類似性を計算していた。 しかし、そのような先行表現は、これらの高次特徴写像が明らかに圏バイアスを持つため、粗粒度と新しいクラスへの一般化の欠如に悩まされる。 本研究では,視覚的先行表現を視覚テキストアライメント能力に置き換えて,より信頼性の高いガイダンスをキャプチャし,モデル一般化を強化することを提案する。 具体的には,CLIP(Contrastive Language- Image Pre-Training Model)のセマンティックアライメント機能を活用して,対象クラスを特定する2種類のトレーニングフリー事前情報生成戦略を設計する。 さらに,より正確な事前ガイダンスを得るために,注目マップの高次関係を構築し,それを利用して初期事前情報を洗練する。 PASCAL-5{i} と COCO-20{i} の2つのデータセットを用いた実験により,本手法が明らかに向上し,新たな最先端性能に達することを示す。

Few-shot segmentation remains challenging due to the limitations of its labeling information for unseen classes. Most previous approaches rely on extracting high-level feature maps from the frozen visual encoder to compute the pixel-wise similarity as a key prior guidance for the decoder. However, such a prior representation suffers from coarse granularity and poor generalization to new classes since these high-level feature maps have obvious category bias. In this work, we propose to replace the visual prior representation with the visual-text alignment capacity to capture more reliable guidance and enhance the model generalization. Specifically, we design two kinds of training-free prior information generation strategy that attempts to utilize the semantic alignment capability of the Contrastive Language-Image Pre-training model (CLIP) to locate the target class. Besides, to acquire more accurate prior guidance, we build a high-order relationship of attention maps and utilize it to refine the initial prior information. Experiments on both the PASCAL-5{i} and COCO-20{i} datasets show that our method obtains a clearly substantial improvement and reaches the new state-of-the-art performance.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# 時間的一般化評価におけるLCMの評価

Evaluating LLMs at Evaluating Temporal Generalization ( http://arxiv.org/abs/2405.08460v1 )

ライセンス: Link先を確認
Chenghao Zhu, Nuo Chen, Yufei Gao, Benyou Wang, (参考訳) LLM(Large Language Models)の急速な進歩は、言語理解と情報処理の改善に追従する評価方法論の進化に対する緊急の必要性を浮き彫りにしている。 しかし、しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできないため、現実のシナリオにおけるLLMの認識と実際の効果の相違が生じる。 さらに、これらのベンチマークは、より広い時間範囲でモデルの能力や、時間とともに適応性を測定することができない。 時間的一般化とバイアスの観点から現在のLCMについて検討し、言語的可能性と予後予測の両方に様々な時間的バイアスが出現することを明らかにする。 このことは、LLM実践者が時間的偏見を緩和するためにより注意を払うための警告となる。 また,最新の実世界の予測予測からベンチマークを動的に生成する評価フレームワークであるFreshbenchを提案する。 私たちのコードはhttps://github.com/FreedomIntelligence/FreshBench.comで利用可能です。 データセットはまもなくリリースされる予定だ。

The rapid advancement of Large Language Models (LLMs) highlights the urgent need for evolving evaluation methodologies that keep pace with improvements in language comprehension and information processing. However, traditional benchmarks, which are often static, fail to capture the continually changing information landscape, leading to a disparity between the perceived and actual effectiveness of LLMs in ever-changing real-world scenarios. Furthermore, these benchmarks do not adequately measure the models' capabilities over a broader temporal range or their adaptability over time. We examine current LLMs in terms of temporal generalization and bias, revealing that various temporal biases emerge in both language likelihood and prognostic prediction. This serves as a caution for LLM practitioners to pay closer attention to mitigating temporal biases. Also, we propose an evaluation framework Freshbench for dynamically generating benchmarks from the most recent real-world prognostication prediction. Our code is available at https://github.com/FreedomIntelligence/FreshBench. The dataset will be released soon.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# ディープフェイク検出のための視覚変換器のタイムリー調査

A Timely Survey on Vision Transformer for Deepfake Detection ( http://arxiv.org/abs/2405.08463v1 )

ライセンス: Link先を確認
Zhikan Wang, Zhongyao Cheng, Jiajie Xiong, Xun Xu, Tianrui Li, Bharadwaj Veeravalli, Xulei Yang, (参考訳) 近年、ディープフェイク技術の急速な進歩はコンテンツ制作に革命をもたらし、品質を高めながら偽造コストを下げている。 しかし、この進展により、個人の権利侵害、国家安全保障上の脅威、公共の安全へのリスクなどの懸念が強まる。 これらの課題に対処するため、ViT(Vision Transformer)ベースのアプローチでは、汎用性と効率性において優れた性能を示すなど、さまざまな検出手法が出現している。 本調査では,ViTに基づくディープフェイク検出モデルの概要を,スタンドアロンアーキテクチャ,シーケンシャルアーキテクチャ,並列アーキテクチャに分類した。 さらに、各モデルの構造と特性を簡潔に記述する。 本調査は, 既存の研究を分析し, 今後の方向性を明らかにすることにより, 深度検出におけるViTの重要役割の微妙な理解を研究者に提供することを目的としている。

In recent years, the rapid advancement of deepfake technology has revolutionized content creation, lowering forgery costs while elevating quality. However, this progress brings forth pressing concerns such as infringements on individual rights, national security threats, and risks to public safety. To counter these challenges, various detection methodologies have emerged, with Vision Transformer (ViT)-based approaches showcasing superior performance in generality and efficiency. This survey presents a timely overview of ViT-based deepfake detection models, categorized into standalone, sequential, and parallel architectures. Furthermore, it succinctly delineates the structure and characteristics of each model. By analyzing existing research and addressing future directions, this survey aims to equip researchers with a nuanced understanding of ViT's pivotal role in deepfake detection, serving as a valuable reference for both academic and practical pursuits in this domain.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# 勧告をどう考えるか : 複雑なネットワークメトリクスに基づく知識グラフに基づくアプローチ

How to Surprisingly Consider Recommendations? A Knowledge-Graph-based Approach Relying on Complex Network Metrics ( http://arxiv.org/abs/2405.08465v1 )

ライセンス: Link先を確認
Oliver Baumann, Durgesh Nandini, Anderson Rossanez, Mirco Schoenfeld, Julio Cesar dos Reis, (参考訳) コンテンツベースとコラボレーティブなフィルタリングを含む従来のレコメンデーション提案は、通常、アイテムまたはユーザ間の類似性に焦点を当てる。 既存のアプローチでは、ユーザーが予期せぬアイテムを露出することよりも、世界的な人気アイテムを優先し、レコメンデーションに予期せぬ方法を欠いている。 本研究の目的は,リレーショナル情報の導入に適したレコメンデーションシステム上に新たなレイヤを設計・評価し,ユーザ定義のサプライズ度で項目を提案することである。 本稿では,項目カタログ上のユーザインタラクションを符号化して,知識グラフ(KG)に基づくレコメンデーションシステムを提案する。 本研究は,ネットワークレベルのKG測定値がレコメンデーションのサプライズ度に影響を及ぼすかどうかを考察する。 我々は、サプライズネスが特定のネットワークメトリクスと相関し、ユーザプロファイルをより大きなカタログKG内のサブグラフとして扱うことを仮定する。 達成されたソリューションは、構造グラフメトリクスへの影響に基づいたレコメンデーションを再現する。 私たちの研究は、メトリクスを反映するレコメンデーションの最適化に貢献します。 我々は、LastFMリスニング履歴と合成Netflix視聴プロファイルの2つのデータセットに対するアプローチを実験的に評価した。 複雑なネットワークメトリクスに基づいた項目の再ランク付けは、より予期せぬ、驚くべきレコメンデーションリストの合成につながることが分かっています。

Traditional recommendation proposals, including content-based and collaborative filtering, usually focus on similarity between items or users. Existing approaches lack ways of introducing unexpectedness into recommendations, prioritizing globally popular items over exposing users to unforeseen items. This investigation aims to design and evaluate a novel layer on top of recommender systems suited to incorporate relational information and suggest items with a user-defined degree of surprise. We propose a Knowledge Graph (KG) based recommender system by encoding user interactions on item catalogs. Our study explores whether network-level metrics on KGs can influence the degree of surprise in recommendations. We hypothesize that surprisingness correlates with certain network metrics, treating user profiles as subgraphs within a larger catalog KG. The achieved solution reranks recommendations based on their impact on structural graph metrics. Our research contributes to optimizing recommendations to reflect the metrics. We experimentally evaluate our approach on two datasets of LastFM listening histories and synthetic Netflix viewing profiles. We find that reranking items based on complex network metrics leads to a more unexpected and surprising composition of recommendation lists.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# Work-in-Progress: Crash Course: Can (Under Attack) autonomous Driving Beat Human Drivers?

Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? ( http://arxiv.org/abs/2405.08466v1 )

ライセンス: Link先を確認
Francesco Marchiori, Alessandro Brighente, Mauro Conti, (参考訳) 自律運転は、人工知能(AI)の進歩により、ここ数年で大きな注目を集めている研究方向である。 人間の運転者からの独立度によっては、自律走行車(AV)が道路上での衝突回数を減らし、効率を向上させることで全体の燃料排出量を減少させることができることがいくつかの研究で示されている。 しかし、このトピックに関するセキュリティ研究は混在しており、いくつかのギャップがある。 一方、これらの研究はAIアルゴリズムの本質的な脆弱性を無視することが多く、これらのシステムのセキュリティを損なうことが知られている。 一方、AIに対する最も一般的な攻撃は、モデルパラメータやトレーニングデータセットへのアクセスなど、非現実的な仮定に依存している。 そのため、現実の応用において、自動運転が人間の運転よりもいくつかの利点を主張できるかどうかは不明だ。 本稿では,AVの現況を把握し,現実的な脅威モデルを確立することにより,自律運転の本質的なリスクを評価する。 分析を通じて、実世界のシナリオにおけるAVの利点と潜在的なセキュリティ上の課題との微妙なバランスを浮き彫りにする特定のクレームを開発する。 私たちの評価は、自動化パイプラインのさまざまな段階において、研究者と実践者の両方を指導する、重要なメッセージを提供する基盤として役立ちます。 そこで我々は,現実のアプリケーションにおける自律運転の安全性と実現可能性に関する議論を進めるために,貴重な洞察を提供する。

Autonomous driving is a research direction that has gained enormous traction in the last few years thanks to advancements in Artificial Intelligence (AI). Depending on the level of independence from the human driver, several studies show that Autonomous Vehicles (AVs) can reduce the number of on-road crashes and decrease overall fuel emissions by improving efficiency. However, security research on this topic is mixed and presents some gaps. On one hand, these studies often neglect the intrinsic vulnerabilities of AI algorithms, which are known to compromise the security of these systems. On the other, the most prevalent attacks towards AI rely on unrealistic assumptions, such as access to the model parameters or the training dataset. As such, it is unclear if autonomous driving can still claim several advantages over human driving in real-world applications. This paper evaluates the inherent risks in autonomous driving by examining the current landscape of AVs and establishing a pragmatic threat model. Through our analysis, we develop specific claims highlighting the delicate balance between the advantages of AVs and potential security challenges in real-world scenarios. Our evaluation serves as a foundation for providing essential takeaway messages, guiding both researchers and practitioners at various stages of the automation pipeline. In doing so, we contribute valuable insights to advance the discourse on the security and viability of autonomous driving in real-world applications.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# 平衡伝播 : 量子と熱の場合

Equilibrium Propagation: the Quantum and the Thermal Cases ( http://arxiv.org/abs/2405.08467v1 )

ライセンス: Link先を確認
Serge Massar, Bortolo Matteo Mognetti, (参考訳) 平衡伝播(Equilibrium propagation)は、ネットワークがエネルギー関数の最小(より一般的には極端)である人工ニューラルネットワークの使用と訓練を行う方法である。 平衡伝播は多くのベンチマークタスクで良いパフォーマンスを示している。 ここでは平衡伝播を2方向に拡張する。 まず、量子ニューラルネットワークがハミルトニアンネットワークの基底状態(より一般的には任意の固有状態)にあるとみなす平衡伝播の自然な量子一般化と、平均エネルギーが固有状態上で極大であるという事実を生かした同様の訓練機構が示される。 次に、有限温度での平衡伝播の解析を拡張し、熱ゆらぎにより、トレーニング中に出力層をクランプすることなく自然にネットワークを訓練できることを示す。 また,平衡伝播の低温限界についても検討した。

Equilibrium propagation is a recently introduced method to use and train artificial neural networks in which the network is at the minimum (more generally extremum) of an energy functional. Equilibrium propagation has shown good performance on a number of benchmark tasks. Here we extend equilibrium propagation in two directions. First we show that there is a natural quantum generalization of equilibrium propagation in which a quantum neural network is taken to be in the ground state (more generally any eigenstate) of the network Hamiltonian, with a similar training mechanism that exploits the fact that the mean energy is extremal on eigenstates. Second we extend the analysis of equilibrium propagation at finite temperature, showing that thermal fluctuations allow one to naturally train the network without having to clamp the output layer during training. We also study the low temperature limit of equilibrium propagation.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# テキスト生成説明可能性の課題と機会

Challenges and Opportunities in Text Generation Explainability ( http://arxiv.org/abs/2405.08468v1 )

ライセンス: Link先を確認
Kenza Amara, Rita Sevastjanova, Mennatallah El-Assady, (参考訳) 自然言語処理(NLP)における解釈可能性の必要性は,大規模言語モデルの普及とともに高まっている。 NLP内の無数のタスクの中で、テキスト生成は自己回帰モデルの主要な目的として際立っている。 NLPコミュニティは、テキスト生成をより深く理解することに興味を持ち始めており、モデルに依存しない説明可能な人工知能(xAI)手法の開発につながっている。 説明可能性法の設計と評価は、テキスト生成プロセスに関わる多くの要因、例えば、自己回帰モデルとその確率的性質に依存しているため、簡単ではない。 本稿では,属性に基づく説明可能性手法の開発と評価において生じる3つのグループに分類される17の課題について概説する。 これらの課題には、トークン化、説明の類似性の定義、トークンの重要性の決定と予測変更メトリクス、人間の介入のレベル、適切なテストデータセットの作成などが含まれる。 この論文は、これらの課題がコミュニティにとっての新たな機会として、どのように絡み合うことができるかを説明している。 これには確率論的単語レベル説明可能性法の開発や、データ設計から最終的な評価まで、説明可能性パイプラインに人間を巻き込み、xAIメソッドの堅牢な結論を引き出すことが含まれる。

The necessity for interpretability in natural language processing (NLP) has risen alongside the growing prominence of large language models. Among the myriad tasks within NLP, text generation stands out as a primary objective of autoregressive models. The NLP community has begun to take a keen interest in gaining a deeper understanding of text generation, leading to the development of model-agnostic explainable artificial intelligence (xAI) methods tailored to this task. The design and evaluation of explainability methods are non-trivial since they depend on many factors involved in the text generation process, e.g., the autoregressive model and its stochastic nature. This paper outlines 17 challenges categorized into three groups that arise during the development and assessment of attribution-based explainability methods. These challenges encompass issues concerning tokenization, defining explanation similarity, determining token importance and prediction change metrics, the level of human intervention required, and the creation of suitable test datasets. The paper illustrates how these challenges can be intertwined, showcasing new opportunities for the community. These include developing probabilistic word-level explainability methods and engaging humans in the explainability pipeline, from the data design to the final evaluation, to draw robust conclusions on xAI methods.
翻訳日:2024-05-15 14:38:24 公開日:2024-05-14
# 文法的誤り訂正のためのGPT-3.5

GPT-3.5 for Grammatical Error Correction ( http://arxiv.org/abs/2405.08469v1 )

ライセンス: Link先を確認
Anisia Katinskaia, Roman Yangarber, (参考訳) 本稿では,文法的誤り訂正(GEC)に対する GPT-3.5 の適用について,ゼロショット GEC や GEC の微調整,および GPT-3.5 を用いて,他の GEC モデルが生成した補正仮説の再検討を行う。 ゼロショット設定では、言語モデル(LM)による文法性の推定、スクリベンディテスト、文の意味的な埋め込みの比較など、GPT-3.5が提案した補正を自動的に評価する。 GPT-3.5は誤り文を過度に訂正する傾向が知られており、代替の修正を提案する。 チェコ語、ドイツ語、ロシア語、スペイン語、ウクライナ語などいくつかの言語では、GPT-3.5は、その意味論を含む原文を実質的に変更し、基準ベースのメトリクスによる評価において大きな課題を呈している。 英語では、GPT-3.5は高いリコールを示し、流動的な修正を生成し、文のセマンティクスを一般的に保存する。 しかしながら、英語とロシア語の双方に対する人間の評価は、強い誤り検出能力にもかかわらず、GPT-3.5は句読点誤り、緊張エラー、単語間の構文的依存関係、文レベルでの語彙的互換性など、いくつかのエラータイプに苦戦していることを示している。

This paper investigates the application of GPT-3.5 for Grammatical Error Correction (GEC) in multiple languages in several settings: zero-shot GEC, fine-tuning for GEC, and using GPT-3.5 to re-rank correction hypotheses generated by other GEC models. In the zero-shot setting, we conduct automatic evaluations of the corrections proposed by GPT-3.5 using several methods: estimating grammaticality with language models (LMs), the Scribendi test, and comparing the semantic embeddings of sentences. GPT-3.5 has a known tendency to over-correct erroneous sentences and propose alternative corrections. For several languages, such as Czech, German, Russian, Spanish, and Ukrainian, GPT-3.5 substantially alters the source sentences, including their semantics, which presents significant challenges for evaluation with reference-based metrics. For English, GPT-3.5 demonstrates high recall, generates fluent corrections, and generally preserves sentence semantics. However, human evaluation for both English and Russian reveals that, despite its strong error-detection capabilities, GPT-3.5 struggles with several error types, including punctuation mistakes, tense errors, syntactic dependencies between words, and lexical compatibility at the sentence level.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# ディジタルツインネットワークにおける実データ駆動型ネットワーク評価モデルの改善

Improving the Real-Data Driven Network Evaluation Model for Digital Twin Networks ( http://arxiv.org/abs/2405.08473v1 )

ライセンス: Link先を確認
Hyeju Shin, Ibrahim Aliyu, Abubakar Isah, Jinsul Kim, (参考訳) スマートホームや仮想現実(VR)、拡張現実(augmented reality)など、新しいタイプの大規模サービスの出現と拡大に伴い、ますます複雑なネットワークは、運用コストの大幅な増加を懸念している。 その結果、ネットワーク管理自動化の必要性が強調され、Digital Twin Networks(DTN)技術が自律ネットワークの基礎技術となることが期待されている。 DTNは、クローズドループシステムにおいて、リアルタイムに収集されたデータに基づいて、ネットワークを運用およびシステム化できるという利点がある。 最適化シナリオにおけるネットワーク性能を改善するためには、適切な構成を選択し、実データに基づいて正確な性能評価を行う必要がある。 しかし、ほとんどのネットワーク評価モデルはシミュレーションデータを使っている。 一方、DTN標準文書によると、人工知能(AI)モデルは、大規模ネットワークにおけるスケーラビリティ、リアルタイムパフォーマンス、正確性を保証することができる。 DTNの使用を最適化するために、さまざまなAI研究と標準化作業が進行中である。 AIモデルを設計する場合、データの特徴を考慮することが不可欠である。 本稿では,実ネットワークデータを用いたネットワーク評価モデルとして,オートエンコーダを用いたスキップ接続型メッセージパッシングニューラルネットワーク(AE-SMPN)を提案する。 このモデルは、グラフニューラルネットワーク(GNN)とリカレントニューラルネットワーク(RNN)モデルを用いて、ネットワークデータの時空間的特徴をキャプチャすることによって作成される。 さらに、最初の特徴を抽出するためにAutoEncoder(AE)が使用される。 ニューラルネットワークはバルセロナニューラルネットワークセンター(BNN-UPC)が提供する実際のDTNデータセットを用いて訓練され,実験結果とともにモデル構造の解析を行った。

With the emergence and proliferation of new forms of large-scale services such as smart homes, virtual reality/augmented reality, the increasingly complex networks are raising concerns about significant operational costs. As a result, the need for network management automation is emphasized, and Digital Twin Networks (DTN) technology is expected to become the foundation technology for autonomous networks. DTN has the advantage of being able to operate and system networks based on real-time collected data in a closed-loop system, and currently it is mainly designed for optimization scenarios. To improve network performance in optimization scenarios, it is necessary to select appropriate configurations and perform accurate performance evaluation based on real data. However, most network evaluation models currently use simulation data. Meanwhile, according to DTN standards documents, artificial intelligence (AI) models can ensure scalability, real-time performance, and accuracy in large-scale networks. Various AI research and standardization work is ongoing to optimize the use of DTN. When designing AI models, it is crucial to consider the characteristics of the data. This paper presents an autoencoder-based skip connected message passing neural network (AE-SMPN) as a network evaluation model using real network data. The model is created by utilizing graph neural network (GNN) with recurrent neural network (RNN) models to capture the spatiotemporal features of network data. Additionally, an AutoEncoder (AE) is employed to extract initial features. The neural network was trained using the real DTN dataset provided by the Barcelona Neural Networking Center (BNN-UPC), and the paper presents the analysis of the model structure along with experimental results.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 新形態素と大規模言語モデルによるジェンダー包摂型機械翻訳の強化

Enhancing Gender-Inclusive Machine Translation with Neomorphemes and Large Language Models ( http://arxiv.org/abs/2405.08477v1 )

ライセンス: Link先を確認
Andrea Piergentili, Beatrice Savoldi, Matteo Negri, Luisa Bentivogli, (参考訳) 機械翻訳(MT)モデルは、特に幅広い性別形態を持つ言語に翻訳する際に、性別バイアスに悩まされていることが知られている。 したがって、彼らは依然として、非バイナリアイデンティティーの代表であるジェンダー非包摂的言語の使用に不足している。 本稿では,二分性マーキングを回避し,二分性マーキングを回避し,大言語モデル(LLMs)による日本語からイタリア語への翻訳手法について検討する。 これまでのところ、この領域は、その斬新さと公的に利用可能な評価資源の欠如により、調査が過小評価されている。 このギャップを埋めるために、性別を含まないエンイット翻訳をネオモルヒムで評価するためのリソースであるNeo-GATEをリリースする。 Neo-GATEでは,異なる家族とサイズ,異なるプロンプトフォーマットの4つのLLMを評価し,MTの新たなタスクにおいて,それぞれの長所と短所を識別する。

Machine translation (MT) models are known to suffer from gender bias, especially when translating into languages with extensive gendered morphology. Accordingly, they still fall short in using gender-inclusive language, also representative of non-binary identities. In this paper, we look at gender-inclusive neomorphemes, neologistic elements that avoid binary gender markings as an approach towards fairer MT. In this direction, we explore prompting techniques with large language models (LLMs) to translate from English into Italian using neomorphemes. So far, this area has been under-explored due to its novelty and the lack of publicly available evaluation resources. We fill this gap by releasing Neo-GATE, a resource designed to evaluate gender-inclusive en-it translation with neomorphemes. With Neo-GATE, we assess four LLMs of different families and sizes and different prompt formats, identifying strengths and weaknesses of each on this novel task for MT.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 擬似乱数列の複雑さ対策に関する調査

A Survey on Complexity Measures of Pseudo-Random Sequences ( http://arxiv.org/abs/2405.08479v1 )

ライセンス: Link先を確認
Chunlei Li, (参考訳) 1960年代に2進数列のコルモゴロフ複雑性が導入されて以降、理論計算機科学や暗号学における実践的関心の中心であるランダム性評価の複雑さ尺度のトピックにおいて、大きな進歩があった。 本調査では, 擬似ランダム列の線形, 二次, 最大次複雑度と, レンペル・ジブ複雑性, 拡張複雑性, 2進複雑性, 相関測定との関係について, 過去40年間の顕著な研究をレビューした。

Since the introduction of the Kolmogorov complexity of binary sequences in the 1960s, there have been significant advancements in the topic of complexity measures for randomness assessment, which are of fundamental importance in theoretical computer science and of practical interest in cryptography. This survey reviews notable research from the past four decades on the linear, quadratic and maximum-order complexities of pseudo-random sequences and their relations with Lempel-Ziv complexity, expansion complexity, 2-adic complexity, and correlation measures.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 受動状態BB84量子鍵分布のための実用的な送信装置

A practical transmitter device for passive state BB84 quantum key distribution ( http://arxiv.org/abs/2405.08481v1 )

ライセンス: Link先を確認
Yury Kurochkin, Marios Papadovasilakis, Anton Trushechkin, Rodrigo Piera, James A. Grieve, (参考訳) 量子鍵分布システムでは、送信装置内の量子状態の慎重な準備が複雑さとコストの両面で重要な要因である。 さらに、これらのシステムのセキュリティ保証は、高速な量子乱数生成器(QRNG)の正しい動作と、高速な光電子デバイスによる弱い光信号の高忠実度変調に依存しており、これらは全て、既知の様々なサイドチャネル攻撃に対して強化されなければならない。 完全に受動的な状態準備アプローチは、状態準備とQRNGステージを1つの光学機器に組み合わせることで、これらの問題をエレガントに解決する。 利得スイッチングレーザーダイオードからの1対の光パルスを使用可能なキュービットとして使用することにより、QKD送信機は根本的に単純化され、最終的には単一レーザーと局所位相トモグラフィステージで構成される。 我々は、10kmのファイバ上にQKDリンクを確立し、110ビット/秒の秘密鍵を発生させ、ラストマイルの都市量子ネットワークにおける実用的展開に十分であることを示す。 我々の結果は、QKDをよりシンプルでアクセスしやすいものにし、セキュアな量子通信インフラを構築する上で重要な技術ギャップを埋める、という約束を示している。

In prepare-and-measure quantum key distribution systems, careful preparation of quantum states within the transmitter device is a significant driver of both complexity and cost. Moreover, the security guarantees of such systems rest on the correct operation of high speed quantum random number generators (QRNGs) and the high-fidelity modulation of weak optical signals by high-speed optoelectronic devices, all of which must be hardened against a variety of known side-channel attacks. A fully passive state preparation approach elegantly resolves these problems by combining state preparation and QRNG stages into a single optical instrument. By using pairs of optical pulses from a gain-switched laser diode as ready-to-use qubits, the QKD transmitter can be radically simplified, eventually comprising a single laser and local phase tomography stage. We demonstrate our simplified transmitter by establishing a QKD link over a 10 km fiber, generating a secret key rate 110 bits/s, sufficient for practical deployment in "last mile" urban quantum networks. Our results show promise in making QKD simpler and more accessible, closing a critical technology gap in building a secure quantum communication infrastructure.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# RDPN6D:RGB-D画像に基づく6次元オブジェクト位置推定のための残差に基づくDense Point-wise Network

RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images ( http://arxiv.org/abs/2405.08483v1 )

ライセンス: Link先を確認
Zong-Wei Hong, Yen-Yang Hung, Chu-Song Chen, (参考訳) 本研究では,1枚のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する手法を提案する。 オブジェクトのポーズを直接予測するか、あるいはポーズ回復のためにスパースキーポイントに依存する既存の方法とは異なり、我々のアプローチは、高密度対応(すなわち、各可視画素のオブジェクト座標を回帰する)を使用して、この課題に対処する。 本手法は既存の物体検出手法を利用する。 我々は、RGB-D画像のトリミングに対応するために、カメラの固有の行列を調整するために再投影機構を組み込んだ。 さらに, 3次元オブジェクト座標を残差表現に変換することにより, 出力空間を効果的に低減し, 優れた性能が得られる。 6次元ポーズ推定におけるアプローチの有効性を検証するため,広範囲な実験を行った。 提案手法は,特に閉塞シナリオにおいて,従来手法よりも優れており,最先端手法よりも顕著に改善されていることを示す。 私たちのコードはhttps://github.com/AI-Application-and-Integration-Lab/RDPN6Dで利用可能です。

In this work, we introduce a novel method for calculating the 6DoF pose of an object using a single RGB-D image. Unlike existing methods that either directly predict objects' poses or rely on sparse keypoints for pose recovery, our approach addresses this challenging task using dense correspondence, i.e., we regress the object coordinates for each visible pixel. Our method leverages existing object detection methods. We incorporate a re-projection mechanism to adjust the camera's intrinsic matrix to accommodate cropping in RGB-D images. Moreover, we transform the 3D object coordinates into a residual representation, which can effectively reduce the output space and yield superior performance. We conducted extensive experiments to validate the efficacy of our approach for 6D pose estimation. Our approach outperforms most previous methods, especially in occlusion scenarios, and demonstrates notable improvements over the state-of-the-art methods. Our code is available on https://github.com/AI-Application-and-Integration-Lab/RDPN6D.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 古典および量子機械学習によるカオス特性の普遍的再現

Universal replication of chaotic characteristics by classical and quantum machine learning ( http://arxiv.org/abs/2405.08484v1 )

ライセンス: Link先を確認
Sheng-Chen Bai, Shi-Ju Ran, (参考訳) 近年,機械学習(ML)による非線形力学のカオス特性の再現が注目されている。 本研究では, 最新の歴史状態から1ステップ先進状態を予測することを訓練したMLモデルにより, 離散力学系の分岐図とリアプノフ指数を正確に再現できることを示す。 ハイパーパラメータの異なる値の特徴は、単一のMLモデルによって普遍的にキャプチャされる一方、以前の研究では、ハイパーパラメータを特定の値に固定することで、MLモデルを独立にトレーニングすることを検討した。 1次元と2次元のロジスティックマップのベンチマークでは、変動量子回路は長い短期記憶(よく認識された古典的MLモデル)よりも高い精度で長期特性を再現できることが示されている。 我々の研究は、カオス特性に対するMLと、パフォーマンスとモデルの複雑さの関係の観点から、標準的なタスクにおけるMLとの主な違いを明らかにします。 以上の結果から,量子回路モデルは過適合を緩和し,高い精度と安定性を達成できる可能性が示唆された。

Replicating chaotic characteristics of non-linear dynamics by machine learning (ML) has recently drawn wide attentions. In this work, we propose that a ML model, trained to predict the state one-step-ahead from several latest historic states, can accurately replicate the bifurcation diagram and the Lyapunov exponents of discrete dynamic systems. The characteristics for different values of the hyper-parameters are captured universally by a single ML model, while the previous works considered training the ML model independently by fixing the hyper-parameters to be specific values. Our benchmarks on the one- and two-dimensional Logistic maps show that variational quantum circuit can reproduce the long-term characteristics with higher accuracy than the long short-term memory (a well-recognized classical ML model). Our work reveals an essential difference between the ML for the chaotic characteristics and that for standard tasks, from the perspective of the relation between performance and model complexity. Our results suggest that quantum circuit model exhibits potential advantages on mitigating over-fitting, achieving higher accuracy and stability.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 次元化と特徴抽出のための勾配ブースティングマッピング

Gradient Boosting Mapping for Dimensionality Reduction and Feature Extraction ( http://arxiv.org/abs/2405.08486v1 )

ライセンス: Link先を確認
Anri Patron, Ayush Prasad, Hoang Phuc Hau Luu, Kai Puolamäki, (参考訳) 教師あり学習における根本的な問題は、優れた特徴や距離測定方法を見つけることである。 新しい特徴セットが低次元で、元のデータの単純な変換によって得ることができれば、モデルを理解しやすくし、オーバーフィッティングを減らし、さらには分布のドリフトを検出するのに役立てることができる。 本稿では,1層パーセプトロンとして定義された弱い学習者の出力を埋め込みを定義するGBMAPを提案する。 組込み座標は教師付き学習タスクにより良い機能を提供し、最先端の回帰器や分類器と競合する単純な線形モデルを実現する。 また、埋め込みを用いて点間の原理的距離測度を求める。 特徴と距離測定は、教師付き学習課題とは無関係に、自動的に方向を無視する。 また,大きな回帰や分類誤差を伴って,配当外データポイントを確実に検出できることも示している。 GBMAPは高速で、数百万のデータポイントや数百の機能のデータセットで数秒で動作します。 ボーナスとして、GBMAPは最先端の教師あり学習手法に匹敵するレグレッションと分類性能を提供する。

A fundamental problem in supervised learning is to find a good set of features or distance measures. If the new set of features is of lower dimensionality and can be obtained by a simple transformation of the original data, they can make the model understandable, reduce overfitting, and even help to detect distribution drift. We propose a supervised dimensionality reduction method Gradient Boosting Mapping (GBMAP), where the outputs of weak learners -- defined as one-layer perceptrons -- define the embedding. We show that the embedding coordinates provide better features for the supervised learning task, making simple linear models competitive with the state-of-the-art regressors and classifiers. We also use the embedding to find a principled distance measure between points. The features and distance measures automatically ignore directions irrelevant to the supervised learning task. We also show that we can reliably detect out-of-distribution data points with potentially large regression or classification errors. GBMAP is fast and works in seconds for dataset of million data points or hundreds of features. As a bonus, GBMAP provides a regression and classification performance comparable to the state-of-the-art supervised learning methods.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 顔偽造の意味的文脈化:新しい定義・データセット・検出法

Semantic Contextualization of Face Forgery: A New Definition, Dataset, and Detection Method ( http://arxiv.org/abs/2405.08487v1 )

ライセンス: Link先を確認
Mian Zou, Baosheng Yu, Yibing Zhan, Siwei Lyu, Kede Ma, (参考訳) 近年、深層学習は、現実的な偽の顔画像を生成する過程を大幅に合理化している。 危険に気付いて、研究者たちはこれらの偽物を見つけるための様々なツールを開発しました。 どんなデジタル操作で本物の顔画像が偽物になるのに対し、他の写真は偽物になるのか? 本稿では,顔偽造を意味的文脈に置き,人間の識別しきい値を超えた意味的顔属性を変更する計算手法が顔偽造の源であると定義する。 新しい定義により、我々は大きな顔の偽画像データセットを構築し、各画像は階層的なグラフで整理されたラベルの集合に関連付けられている。 我々のデータセットは、顔偽造検知器の一般化を探索する2つの新しい試験プロトコルを可能にする。 さらに,ラベル関係を抽出し,主課題(実物,偽物)を優先するセマンティクス指向の顔偽造検出手法を提案する。 提案したデータセットは、テストセットとして現在の検出器の弱点を効果的に公開し、トレーニングセットとしてそれらの一般化性を一貫して改善することを示す。 さらに,従来の二分法および多クラス分類に基づく検出器よりもセマンティクス指向の手法が優れていることを示す。

In recent years, deep learning has greatly streamlined the process of generating realistic fake face images. Aware of the dangers, researchers have developed various tools to spot these counterfeits. Yet none asked the fundamental question: What digital manipulations make a real photographic face image fake, while others do not? In this paper, we put face forgery in a semantic context and define that computational methods that alter semantic face attributes to exceed human discrimination thresholds are sources of face forgery. Guided by our new definition, we construct a large face forgery image dataset, where each image is associated with a set of labels organized in a hierarchical graph. Our dataset enables two new testing protocols to probe the generalization of face forgery detectors. Moreover, we propose a semantics-oriented face forgery detection method that captures label relations and prioritizes the primary task (\ie, real or fake face detection). We show that the proposed dataset successfully exposes the weaknesses of current detectors as the test set and consistently improves their generalizability as the training set. Additionally, we demonstrate the superiority of our semantics-oriented method over traditional binary and multi-class classification-based detectors.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# リモートセンシング画像のセマンティックセグメンテーションにおける視覚マンバによるスキャン戦略の再考:実験的検討

Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study ( http://arxiv.org/abs/2405.08493v1 )

ライセンス: Link先を確認
Qinfeng Zhu, Yuan Fang, Yuanzhi Cai, Cheng Chen, Lei Fan, (参考訳) 深層学習法、特に畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)は高解像度のリモートセンシング画像のセマンティックセグメンテーションを行うために頻繁に使用される。 しかし、CNNは制限された受容野に制約されているのに対し、ViTは2次複雑さのために課題に直面している。 近年,線形複雑度と大域的受容場を特徴とするマンバモデルが視覚タスクに広く注目されている。 このようなタスクでは、イメージをシリアライズして、Mambaモデルと互換性のあるシーケンスを生成する必要がある。 多くの研究がイメージのシリアライズのためのスキャン戦略を探求しており、マンバモデルのイメージ理解を強化することを目的としている。 しかし,これらのスキャニング手法の有効性は未だ不明である。 本研究では,主流走査方向とそれらの組み合わせがリモートセンシング画像のセマンティックセグメンテーションに与える影響について,包括的実験を行った。 LoveDA, ISPRS Potsdam, ISPRS Vaihingenデータセットの広範な実験を通じて, 複雑さや走査方向の数に関わらず, 単一の走査戦略が他よりも優れていることが実証された。 高解像度リモートセンシング画像のセマンティックセグメンテーションには、単純で単一の走査方向が十分であると考えられる。 今後の研究の方向性も推奨されている。

Deep learning methods, especially Convolutional Neural Networks (CNN) and Vision Transformer (ViT), are frequently employed to perform semantic segmentation of high-resolution remotely sensed images. However, CNNs are constrained by their restricted receptive fields, while ViTs face challenges due to their quadratic complexity. Recently, the Mamba model, featuring linear complexity and a global receptive field, has gained extensive attention for vision tasks. In such tasks, images need to be serialized to form sequences compatible with the Mamba model. Numerous research efforts have explored scanning strategies to serialize images, aiming to enhance the Mamba model's understanding of images. However, the effectiveness of these scanning strategies remains uncertain. In this research, we conduct a comprehensive experimental investigation on the impact of mainstream scanning directions and their combinations on semantic segmentation of remotely sensed images. Through extensive experiments on the LoveDA, ISPRS Potsdam, and ISPRS Vaihingen datasets, we demonstrate that no single scanning strategy outperforms others, regardless of their complexity or the number of scanning directions involved. A simple, single scanning direction is deemed sufficient for semantic segmentation of high-resolution remotely sensed images. Relevant directions for future research are also recommended.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# より少ないか? 自然言語モデルを用いたイディオム処理における品質, 量, 文脈

Is Less More? Quality, Quantity and Context in Idiom Processing with Natural Language Models ( http://arxiv.org/abs/2405.08497v1 )

ライセンス: Link先を確認
Agne Knietaite, Adam Allsebrook, Anton Minkov, Adam Tomaszewski, Norbert Slinko, Richard Johnson, Thomas Pickard, Dylan Phelps, Aline Villavicencio, (参考訳) 言語モデルにおける構成性は、慣用的な表現を処理する際に問題となる。 微調整やその他の最適化手法は慣用的表現の表現を改善するのに使えるが、これは関連するデータの可用性に依存する。 本論文では、公的なドメインの書籍のテキストにおいて、潜在的に慣用的な英語の名詞化合物の同義語の置換によって生成される、Noun Compound Synonym Substitution in Books - NCSSBデータセットについて述べる。 慣用性検出のためのトレーニングモデルにおいて,データ量と品質のトレードオフを,(周辺文から)局所的に得られた文脈情報や(言語資源を通して)外部から取得した文脈情報と組み合わせて検討する。 慣用性検出タスクのパフォーマンスは、データセットの品質がコンテキストに富んだモデルにとってより強力な要因であることを示しているが、その量もまたコンテキストを含まないモデルでの役割を担っている。

Compositionality in language models presents a problem when processing idiomatic expressions, as their meaning often cannot be directly derived from their individual parts. Although fine-tuning and other optimization strategies can be used to improve representations of idiomatic expressions, this depends on the availability of relevant data. We present the Noun Compound Synonym Substitution in Books - NCSSB - datasets, which are created by substitution of synonyms of potentially idiomatic English noun compounds in public domain book texts. We explore the trade-off between data quantity and quality when training models for idiomaticity detection, in conjunction with contextual information obtained locally (from the surrounding sentences) or externally (through language resources). Performance on an idiomaticity detection task indicates that dataset quality is a stronger factor for context-enriched models, but that quantity also plays a role in models without context inclusion strategies.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# ダブル機械学習による器用変数による意思決定ポリシーの学習

Learning Decision Policies with Instrumental Variables through Double Machine Learning ( http://arxiv.org/abs/2405.08498v1 )

ライセンス: Link先を確認
Daqian Shao, Ashkan Soleymani, Francesco Quinzan, Marta Kwiatkowska, (参考訳) データリッチな設定で意思決定ポリシーを学習する際の一般的な問題は、オフラインデータセットの急激な相関であり、これは隠れた共同設立者によって引き起こされる可能性がある。 インスツルメンタル変数(IV)回帰(英: Instrumental variable (IV) regression)は、インスツルメンタル変数として知られる重要な未確立変数を活用するもので、コンストラクターアクション、結果、コンテキスト変数間の因果関係を学習するための標準手法である。 最近のIV回帰アルゴリズムでは、第1段階で学習したディープニューラルネットワーク(DNN)推定器が第2段階で直接接続され、別のDNNを使用して因果効果を推定する2段階のアプローチを採用している。 特に第1段推定器に正規化バイアスが存在する場合、特に第2段推定器をネーリープラグすると大きなバイアスが発生する。 DML-IVは,2段階IV回帰のバイアスを低減する非線形IV回帰法であり,高い性能ポリシーを効果的に学習する。 バイアスを低減し、DML(Double/debiased Machine Learning)フレームワークに従ってDML-IVアルゴリズムを設計する新たな学習目標を導出する。 学習したDML-IV推定器は強い収束率を持ち、$O(N^{-1/2})$サブ最適性はデータセットが未確立のときと一致することを保証している。 DML-IVは、IV回帰ベンチマークで最先端のIV回帰法を上回り、機器の存在下で高い性能のポリシーを学ぶ。

A common issue in learning decision-making policies in data-rich settings is spurious correlations in the offline dataset, which can be caused by hidden confounders. Instrumental variable (IV) regression, which utilises a key unconfounded variable known as the instrument, is a standard technique for learning causal relationships between confounded action, outcome, and context variables. Most recent IV regression algorithms use a two-stage approach, where a deep neural network (DNN) estimator learnt in the first stage is directly plugged into the second stage, in which another DNN is used to estimate the causal effect. Naively plugging the estimator can cause heavy bias in the second stage, especially when regularisation bias is present in the first stage estimator. We propose DML-IV, a non-linear IV regression method that reduces the bias in two-stage IV regressions and effectively learns high-performing policies. We derive a novel learning objective to reduce bias and design the DML-IV algorithm following the double/debiased machine learning (DML) framework. The learnt DML-IV estimator has strong convergence rate and $O(N^{-1/2})$ suboptimality guarantees that match those when the dataset is unconfounded. DML-IV outperforms state-of-the-art IV regression methods on IV regression benchmarks and learns high-performing policies in the presence of instruments.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# Archimedes-AUEB at SemEval-2024 Task 5: LLM explains Civil procedure

Archimedes-AUEB at SemEval-2024 Task 5: LLM explains Civil Procedure ( http://arxiv.org/abs/2405.08502v1 )

ライセンス: Link先を確認
Odysseas S. Chlapanis, Ion Androutsopoulos, Dimitrios Galanis, (参考訳) 民事訴訟における主張推論に関するSemEvalの課題は、法的概念を理解し、複雑な議論を推論する必要があるという点で困難である。 現在、法的な領域で優れているほとんどの大規模言語モデル(LLM)は、主に分類タスクを目的としており、その推論的根拠は論争の対象となっている。 提案するアプローチは、強力な教師LLM(ChatGPT)を使用して、説明付きトレーニングデータセットを拡張し、合成データを生成する。 得られたデータは、小さな学生LLMを微調整するために活用される。 従来の研究とは対照的に、私たちの説明は教師の内部知識から直接導かれるものではない。 代わりに、それらは真の人間の分析に基礎を置いており、そのためより優れた推論信号を提供する。 さらに、新しい‘mutation’メソッドは、既存のものからインスパイアされた人工データインスタンスを生成する。 私たちは、合成データセットと、両方を生成するために使用されたプロンプトとともに、オリジナルのデータセットの拡張として、説明を公開しています。 我々のシステムはSemEvalコンペティションで15位にランクインした。 法律の専門家が検証したように、独自の教師よりも優れており、オリジナルの人間分析と整合した説明を作成できる。

The SemEval task on Argument Reasoning in Civil Procedure is challenging in that it requires understanding legal concepts and inferring complex arguments. Currently, most Large Language Models (LLM) excelling in the legal realm are principally purposed for classification tasks, hence their reasoning rationale is subject to contention. The approach we advocate involves using a powerful teacher-LLM (ChatGPT) to extend the training dataset with explanations and generate synthetic data. The resulting data are then leveraged to fine-tune a small student-LLM. Contrary to previous work, our explanations are not directly derived from the teacher's internal knowledge. Instead they are grounded in authentic human analyses, therefore delivering a superior reasoning signal. Additionally, a new `mutation' method generates artificial data instances inspired from existing ones. We are publicly releasing the explanations as an extension to the original dataset, along with the synthetic dataset and the prompts that were used to generate both. Our system ranked 15th in the SemEval competition. It outperforms its own teacher and can produce explanations aligned with the original human analyses, as verified by legal experts.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 湾曲管内の真空電流

Vacuum currents in curved tubes ( http://arxiv.org/abs/2405.08504v1 )

ライセンス: Link先を確認
A. A. Saharian, (参考訳) 回転対称2次元湾曲管に局在した荷電スカラー場の真空状態に対する空間曲率とトポロジーの複合効果について検討した。 一般空間幾何学および一般位相をもつ準周期性条件に対しては、位相的寄与が明示的に抽出されるようなアダマール関数の表現が提供される。 真空状態の重要な局所特性として、電流密度の期待値について検討した。 真空電流は、磁束量子の周期で管に囲まれた磁束の周期関数である。 一般式は一定半径と円錐管で指定される。 別の応用として、ベルトラミ擬球面上のスカラー場に対するアダマール関数と真空電流密度を考える。 対応する期待値に対して複数の表現が提供される。 管の固有半径の小さい値に対して、曲率半径と比較して、真空電流に対する空間曲率の影響は弱く、対応する膨張の先頭項は、一定半径管上の電流密度と一致する。 曲率の影響は、空間曲率半径よりも大きい管の適切な半径に不可欠である。 この極限において、電流密度の降下は、固有半径の関数として、無質量場と大質量場の両方の力の法則に従う。 この挙動は、質量場の指数減衰を持つ一定半径管の場合と明らかに対照的である。 また,ベルトラミ擬似球の真空電流と,局所的なド・ジッター管と反ド・ジッター管との比較を行った。

We investigate the combined effects of spatial curvature and topology on the properties of the vacuum state for a charged scalar field localized on rotationally symmetric 2D curved tubes. For a general spatial geometry and for quasiperiodicity condition with a general phase, the representation of the Hadamard function is provided where the topological contribution is explicitly extracted. As an important local characteristic of the vacuum state the expectation value of the current density is studied. The vacuum current is a periodic function of the magnetic flux enclosed by the tube with the period of flux quantum. The general formula is specified for constant radius and conical tubes. As another application, we consider the Hadamard function and the vacuum current density for a scalar field on the Beltrami pseudosphere. Several representations are provided for the corresponding expectation value. For small values of the proper radius of the tube, compared with the curvature radius, the effect of spatial curvature on the vacuum current is weak and the leading term in the corresponding expansion coincides with the current density on a constant radius tube. The effect of curvature is essential for proper radii of the tube larger than the radius of spatial curvature. In this limit the fall-off of the current density, as a function of the proper radius, follows a power-law for both massless and massive fields. This behavior is in clear contrast to the one for a constant radius tube with exponential decay for massive fields. We also compare the vacuum currents on the Beltrami pseudosphere and on locally de Sitter and anti-de Sitter 2D tubes.
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# 制御のためのニューラルネットワークの成長 : 神経多様性の役割

Growing Artificial Neural Networks for Control: the Role of Neuronal Diversity ( http://arxiv.org/abs/2405.08510v1 )

ライセンス: Link先を確認
Eleni Nisioti, Erwan Plantec, Milton Montero, Joachim Winther Pedersen, Sebastian Risi, (参考訳) 生物学的進化において、複雑な神経構造は少数の細胞成分から成長する。 自然界のゲノムはサイズが制限されているため、この複雑さは細胞が他の細胞と分化し、増殖し、接続するかを決定するために局所的に通信する成長過程によって達成される。 この自己組織化は、生物学的ニューラルネットワークの一般化と堅牢性において重要な役割を果たすと仮定されている。 一方、ニューラルネットワーク(ANN)は、伝統的に重みの空間で最適化されている。 このように、人工ニューラルネットワークを成長させることの利点と課題は、まだ検討されていない。 本稿では,従来導入されていたニューラル開発プログラム(NDP)に基づいて,強化学習タスクを解くアルゴリズムを提案する。 表現型複雑性を保証するには、神経細胞の多様性を維持する必要があるが、この多様性は最適化の安定性の犠牲になる。 この問題に対処するために、我々は2つのメカニズムを紹介します。 a) 神経新生によって引き継がれた内在状態のニューロン b) 側方抑制は、生物学的成長にインスパイアされたメカニズムで、成長のペースを制御し、多様性が持続するのを助ける。 両メカニズムがニューロンの多様性に寄与し,それらと組み合わせたNDPは,複雑な移動課題における既存の直接的および発達的エンコーディングに匹敵する結果が得られることを示す。

In biological evolution complex neural structures grow from a handful of cellular ingredients. As genomes in nature are bounded in size, this complexity is achieved by a growth process where cells communicate locally to decide whether to differentiate, proliferate and connect with other cells. This self-organisation is hypothesized to play an important part in the generalisation, and robustness of biological neural networks. Artificial neural networks (ANNs), on the other hand, are traditionally optimized in the space of weights. Thus, the benefits and challenges of growing artificial neural networks remain understudied. Building on the previously introduced Neural Developmental Programs (NDP), in this work we present an algorithm for growing ANNs that solve reinforcement learning tasks. We identify a key challenge: ensuring phenotypic complexity requires maintaining neuronal diversity, but this diversity comes at the cost of optimization stability. To address this, we introduce two mechanisms: (a) equipping neurons with an intrinsic state inherited upon neurogenesis; (b) lateral inhibition, a mechanism inspired by biological growth, which controlls the pace of growth, helping diversity persist. We show that both mechanisms contribute to neuronal diversity and that, equipped with them, NDPs achieve comparable results to existing direct and developmental encodings in complex locomotion tasks
翻訳日:2024-05-15 14:28:33 公開日:2024-05-14
# Falcon 7b for Software Mention Detection in Scholarly Documents

Falcon 7b for Software Mention Detection in Scholarly Documents ( http://arxiv.org/abs/2405.08514v1 )

ライセンス: Link先を確認
AmeerAli Khan, Qusai Ramadan, Cong Yang, Zeyd Boukhers, (参考訳) 本稿では,学術文献におけるソフトウェア言及の検出・分類におけるFalcon-7bの適用を調査することにより,さまざまな分野の研究分野におけるソフトウェアツールの統合の増大による課題に対処することを目的とする。 具体的には、学術文献からのソフトウェア言及の特定と分類を含むSOMD(Software Mention Detection in Scholarly Publications)のSubtask Iの解決に焦点を当てている。 総合的な実験を通じて、二分法アプローチ、適応サンプリング、重み付き損失スケーリングなどの異なる学習手法を探求し、クラス不均衡の複雑さと学術書体の曖昧な構文を克服しつつ、検出精度を高める。 この結果は,モデルの性能向上における選択的ラベリングと適応サンプリングの利点を浮き彫りにした。 しかし、それらはまた、複数の戦略を統合することが必ずしも累積的な改善をもたらすとは限らないことを示唆している。 本研究は,SOMDなどの特定のタスクに対する大規模言語モデルの効果的な適用に関する知見を提供し,学術的テキスト分析による独特な課題に対処するための調整されたアプローチの重要性を浮き彫りにしている。

This paper aims to tackle the challenge posed by the increasing integration of software tools in research across various disciplines by investigating the application of Falcon-7b for the detection and classification of software mentions within scholarly texts. Specifically, the study focuses on solving Subtask I of the Software Mention Detection in Scholarly Publications (SOMD), which entails identifying and categorizing software mentions from academic literature. Through comprehensive experimentation, the paper explores different training strategies, including a dual-classifier approach, adaptive sampling, and weighted loss scaling, to enhance detection accuracy while overcoming the complexities of class imbalance and the nuanced syntax of scholarly writing. The findings highlight the benefits of selective labelling and adaptive sampling in improving the model's performance. However, they also indicate that integrating multiple strategies does not necessarily result in cumulative improvements. This research offers insights into the effective application of large language models for specific tasks such as SOMD, underlining the importance of tailored approaches to address the unique challenges presented by academic text analysis.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 先行体験:オンライン福祉便益制度の市民の不満・不安・汚職

Precarious Experiences: Citizens' Frustrations, Anxieties and Burdens of an Online Welfare Benefit System ( http://arxiv.org/abs/2405.08515v1 )

ライセンス: Link先を確認
Colin Watson, Adam W Parnaby, Ahmed Kharrufa, (参考訳) 所得関連社会福祉給付に支えられている人々、しばしば偽りの状況で支えられている人々と、より大きなデジタル排除を経験した人々の間には、大きな重複がある。 本報告では,英国のユニバーサル・クレジット・オンライン福祉給付システムを用いた請求者の調査について報告する。 遠隔面接 (n=11) とオンライン調査 (n=66) を含むデータ収集を通じて, 本システムと対話する主張者の生きた経験を明らかにする。 主張者は、デジタルチャネルが権力とエージェンシーの不均衡にどのように貢献するかを、自分たちの状況が能力、資源、能力の低下を意味するときに説明し、デザインの選択が、より広い社会技術エコシステムからの助けを利用するための人々のユーティリティに悪影響を及ぼすかを説明している。 我々は、これらのアカウントから、この人口に対するデジタル福祉給付システムの設計と開発を知らせ、デジタル障壁と損害を減らすために8つの勧告を提出する。

There is a significant overlap between people who are supported by income-related social welfare benefits, often in precarious situations, and those who experience greater digital exclusion. We report on a study of claimants using the UK's Universal Credit online welfare benefit system designed as, and still, "digital by default". Through data collection involving remote interviews (n=11) and online surveys (n=66), we expose claimants' own lived experiences interacting with this system. The claimants explain how digital channels can contribute to an imbalance of power and agency, at a time when their own circumstances mean they have reduced abilities, resources and capacities, and where design choices can adversely affect people's utility to leverage help from their own wider socio-technical ecosystems. We contribute eight recommendations from these accounts to inform the future design and development of digital welfare benefit systems for this population, to reduce digital barriers and harms.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 一般化ディープフェイク検出のための脳波機能

EEG-Features for Generalized Deepfake Detection ( http://arxiv.org/abs/2405.08527v1 )

ライセンス: Link先を確認
Arian Beckmann, Tilman Stephani, Felix Klotzsche, Yonghao Chen, Simon M. Hofmann, Arno Villringer, Michael Gaebler, Vadim Nikulin, Sebastian Bosse, Peter Eisert, Anna Hilsmann, (参考訳) デジタルメディアにおけるDeepfakesの出現以来、堅牢で信頼性の高い検出メカニズムの開発が緊急に求められている。 本研究では,FaceForensics++ datsetからDeepfake刺激を観察・分類した被験者の脳波計測(EEG)を用いて,新しいDeepfake検出法を提案する。 これらの測定はバイナリサポートベクトル分類器への入力特徴として機能し、実際の顔画像と操作された顔画像の識別を訓練する。 我々は,脳波がディープフェイク検出に影響を及ぼすかどうか,およびトレーニング領域を超えてディープフェイクを識別できる汎用表現を提供することができるかどうかを検討する。 予備的な結果は、人間のニューラル処理信号がディープフェイク検出フレームワークにうまく統合され、コンピュータ生成顔における人工物の一般化されたニューラル表現の可能性を示すものであることを示唆している。 さらに、本研究では、人間の認知システムにデジタルリアリズムがどのように埋め込まれているかを理解するための次のステップを提供し、将来的にはよりリアルなデジタルアバターの開発を可能にする可能性がある。

Since the advent of Deepfakes in digital media, the development of robust and reliable detection mechanism is urgently called for. In this study, we explore a novel approach to Deepfake detection by utilizing electroencephalography (EEG) measured from the neural processing of a human participant who viewed and categorized Deepfake stimuli from the FaceForensics++ datset. These measurements serve as input features to a binary support vector classifier, trained to discriminate between real and manipulated facial images. We examine whether EEG data can inform Deepfake detection and also if it can provide a generalized representation capable of identifying Deepfakes beyond the training domain. Our preliminary results indicate that human neural processing signals can be successfully integrated into Deepfake detection frameworks and hint at the potential for a generalized neural representation of artifacts in computer generated faces. Moreover, our study provides next steps towards the understanding of how digital realism is embedded in the human cognitive system, possibly enabling the development of more realistic digital avatars in the future.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# モノのインターネットからビジネスプロセスへ:課題とフレームワーク

From Internet of Things Data to Business Processes: Challenges and a Framework ( http://arxiv.org/abs/2405.08528v1 )

ライセンス: Link先を確認
Juergen Mangler, Ronny Seiger, Janik-Vasily Benzin, Joscha Grüger, Yusuf Kirikkayis, Florian Gallik, Lukas Malburg, Matthias Ehrendorfer, Yannis Bertrand, Marco Franceschetti, Barbara Weber, Stefanie Rinderle-Ma, Ralph Bergmann, Estefanía Serral Asensio, Manfred Reichert, (参考訳) IoTとビジネスプロセス管理(BPM)コミュニティは、製造業や医療など、多くの共有アプリケーションドメインに共存しています。 BPMコミュニティは、主にプロセス内のIoTデバイス間の構造化された相互作用を発見し、制御し、拡張することに焦点を当てています。 プロセスマイニングの分野はプロセスモデルの抽出とプロセスイベントログからのプロセス分析を扱うが、IoTセンサによって生成されたデータは、プロセスレベルのイベントよりも粒度が低いことが多い。 IoTセンサ値のストリームからのプロセス関連データの抽出と抽象化に関する基本的な質問は,(1)プロセスイベントの一部として,どのセンサ値をクラスタ化できるのか? , (2)そのようなイベントの開始と終了を表すセンサ値は? ,(3)どのセンサ値が関係するが必須ではないか? 本研究では,低レベルのIoTセンサデータをプロセスマイニングに適した高レベルのプロセスイベントに変換するための,構造化ステップの半自動実行フレームワークを提案する。 このフレームワークは、イベント抽出、抽象化、相関を導くための抽象ステップの一般的なシーケンスを提供することを目的としており、各ステップごとに特定の分析テクニックとアルゴリズムをプラグインするための変分ポイントを提供する。 フレームワークの完全性を評価するため、我々は、フレームワークを通してどのように取り組まなければならないか、そしてスマート製造の分野から実世界の実演でフレームワークをインスタンス化する方法の例を示す。 この枠組みに基づいて、個々のステップを精錬し改善することで、将来的な研究を構造化された方法で行うことができる。

The IoT and Business Process Management (BPM) communities co-exist in many shared application domains, such as manufacturing and healthcare. The IoT community has a strong focus on hardware, connectivity and data; the BPM community focuses mainly on finding, controlling, and enhancing the structured interactions among the IoT devices in processes. While the field of Process Mining deals with the extraction of process models and process analytics from process event logs, the data produced by IoT sensors often is at a lower granularity than these process-level events. The fundamental questions about extracting and abstracting process-related data from streams of IoT sensor values are: (1) Which sensor values can be clustered together as part of process events?, (2) Which sensor values signify the start and end of such events?, (3) Which sensor values are related but not essential? This work proposes a framework to semi-automatically perform a set of structured steps to convert low-level IoT sensor data into higher-level process events that are suitable for process mining. The framework is meant to provide a generic sequence of abstract steps to guide the event extraction, abstraction, and correlation, with variation points for plugging in specific analysis techniques and algorithms for each step. To assess the completeness of the framework, we present a set of challenges, how they can be tackled through the framework, and an example on how to instantiate the framework in a real-world demonstration from the field of smart manufacturing. Based on this framework, future research can be conducted in a structured manner through refining and improving individual steps.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# クラス増分学習のための動的特徴学習とマッチング

Dynamic Feature Learning and Matching for Class-Incremental Learning ( http://arxiv.org/abs/2405.08533v1 )

ライセンス: Link先を確認
Sunyuan Qiang, Yanyan Liang, Jun Wan, Du Zhang, (参考訳) CIL(Class-incremental Learning)は,従来のクラスを壊滅的に忘れることなく,新たなクラスを段階的に学習する手段として登場した。 近年、CILは優れたパフォーマンスのため、動的アーキテクチャへのパラダイムシフトが実施されている。 しかし、これらのモデルはまだ以下の点で制限されている。 (i)CILと密結合したデータ拡張(DA)は、動的アーキテクチャのシナリオでは未解明のままである。 (ii)特徴表現。 動的特徴の識別性は準最適であり、洗練の可能性を秘めている。 (iii)分類器。 動的特徴と分類器のミスアライメントはモデルの能力を制約します。 上記の欠点に対処するため,本稿では3つの視点から,動的特徴学習とマッチング(DFLM)モデルを提案する。 具体的には、まずクラスウェイト情報と非定常関数を導入し、トレーニング中のメモリへのフォーカスを動的に調整するmix DA法を拡張した。 次に、von Mises-Fisher (vMF) 分類器を用いて、動的特徴分布を効果的にモデル化し、その識別特性を暗黙的に学習する。 最後に,学習した動的特徴量と分類器とのアライメントを容易にするために,分布距離を最小化してマッチング損失を提案する。 CILベンチマークの大規模な実験により,提案手法が既存手法よりも大幅な性能向上を実現することを確認した。

Class-incremental learning (CIL) has emerged as a means to learn new classes incrementally without catastrophic forgetting of previous classes. Recently, CIL has undergone a paradigm shift towards dynamic architectures due to their superior performance. However, these models are still limited by the following aspects: (i) Data augmentation (DA), which are tightly coupled with CIL, remains under-explored in dynamic architecture scenarios. (ii) Feature representation. The discriminativeness of dynamic feature are sub-optimal and possess potential for refinement. (iii) Classifier. The misalignment between dynamic feature and classifier constrains the capabilities of the model. To tackle the aforementioned drawbacks, we propose the Dynamic Feature Learning and Matching (DFLM) model in this paper from above three perspectives. Specifically, we firstly introduce class weight information and non-stationary functions to extend the mix DA method for dynamically adjusting the focus on memory during training. Then, von Mises-Fisher (vMF) classifier is employed to effectively model the dynamic feature distribution and implicitly learn their discriminative properties. Finally, the matching loss is proposed to facilitate the alignment between the learned dynamic features and the classifier by minimizing the distribution distance. Extensive experiments on CIL benchmarks validate that our proposed model achieves significant performance improvements over existing methods.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 量子電磁力学フレームワークにおけるアハロノフ・ボーム効果のゲージ不変性

Gauge invariance of the Aharonov-Bohm effect in a quantum electrodynamics framework ( http://arxiv.org/abs/2405.08536v1 )

ライセンス: Link先を確認
Pablo L. Saldanha, (参考訳) Aharonov-Bohm(AB)効果と電磁場に対する量子処理のゲージ不変性を実証した。 量子電磁場と古典的な電荷と電流の相互作用による電磁場エネルギーの正確な解を、古典的な記述においてポテンシャルの源として作用するロレンツゲージで提供する。 次に,1次摂動理論を用いて,この系に既知の波動関数を持つ量子荷電粒子の存在による電磁場エネルギーの余分な変化を計算する。 このエネルギーは一般に干渉計の量子粒子経路に依存し、経路間のAB位相差をもたらす。 このAB位相差のゲージ不変性は、最近提案されたAB効果の磁気、電気、電気力学的バージョンに対して示される。 しかし、AB位相差は非閉路のゲージに依存する可能性があり、これは閉路でしか測定できないという見方を補強するものである。

The gauge invariance of the Aharonov-Bohm (AB) effect with a quantum treatment for the electromagnetic field is demonstrated. We provide an exact solution for the electromagnetic ground energy due to the interaction of the quantum electromagnetic field with the classical charges and currents that act as sources of the potentials in a classical description, in the Lorenz gauge. Then, we use first-order perturbation theory to compute an extra change on the electromagnetic ground energy due to the presence of a quantum charged particle with known wave function in the system. This energy in general depends on the quantum particle path in an interferometer, what results in an AB phase difference between the paths. The gauge invariance of this AB phase difference is then shown for the magnetic, electric, and the recently proposed electrodynamic versions of the AB effect. However, the AB phase difference could depend on the gauge for nonclosed paths, what reinforces the view that it only can be measured in closed paths.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 自己蒸留はDNA配列推論を改善する

Self-Distillation Improves DNA Sequence Inference ( http://arxiv.org/abs/2405.08538v1 )

ライセンス: Link先を確認
Tong Yu, Lei Cheng, Ruslan Khalitov, Erland Brandser Olsson, Zhirong Yang, (参考訳) SSP(Self-supervised pretraining)は、様々な下流タスクにおける予測精度を高める方法として認識されている。 しかし、DNA配列に対する有効性は、いまだにある程度制限されている。 この制限は主に、ゲノミクスにおける既存のSSPアプローチが、複数のシーケンスをまたいで統計を符号化する重要な側面を無視して、個々のシーケンスのマスキング言語モデリングに焦点を当てているという事実に起因している。 この課題を克服するために,我々は,‘学生’と‘教師’サブネットワーク間の協調学習を取り入れた,革新的なディープニューラルネットワークモデルを導入する。 このモデルでは、学生のサブネットはヌクレオチドのマスク学習を採用し、指数的な移動平均アプローチによってそのパラメータを教師のサブネットに徐々に適応させる。 同時に、両方のサブネットは対照的な学習を行い、入力シーケンスの2つの拡張された表現から洞察を得る。 この自己蒸留プロセスにより,各配列からの文脈情報と分布データの両方を効果的に同化することができる。 提案手法は,ヒト基準ゲノムを用いて事前トレーニングを行い,その後,下流の20の推論タスクに適用した。 これらの実験から得られた実験結果から,本手法がほとんどのタスクにおいて推論性能を大幅に向上させることが示された。 私たちのコードはhttps://github.com/wiedersehne/FinDNAで公開されています。

Self-supervised pretraining (SSP) has been recognized as a method to enhance prediction accuracy in various downstream tasks. However, its efficacy for DNA sequences remains somewhat constrained. This limitation stems primarily from the fact that most existing SSP approaches in genomics focus on masked language modeling of individual sequences, neglecting the crucial aspect of encoding statistics across multiple sequences. To overcome this challenge, we introduce an innovative deep neural network model, which incorporates collaborative learning between a `student' and a `teacher' subnetwork. In this model, the student subnetwork employs masked learning on nucleotides and progressively adapts its parameters to the teacher subnetwork through an exponential moving average approach. Concurrently, both subnetworks engage in contrastive learning, deriving insights from two augmented representations of the input sequences. This self-distillation process enables our model to effectively assimilate both contextual information from individual sequences and distributional data across the sequence population. We validated our approach with preliminary pretraining using the human reference genome, followed by applying it to 20 downstream inference tasks. The empirical results from these experiments demonstrate that our novel method significantly boosts inference performance across the majority of these tasks. Our code is available at https://github.com/wiedersehne/FinDNA.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# SecScore: CVSSの脅威メトリクスグループを実証的な証拠で強化する

SecScore: Enhancing the CVSS Threat Metric Group with Empirical Evidences ( http://arxiv.org/abs/2405.08539v1 )

ライセンス: Link先を確認
Miguel Santana, Vinicius V. Cogo, Alan Oliveira de Sá, (参考訳) 背景: 動的サイバーセキュリティ分野において、脆弱性の優先順位付けと更新が最重要であり、最も広く使用されている脆弱性スコアリングシステム(CVSS)の1つは、エクスプロイトコードが出現する可能性の増大に対処していない。 Aims: 私たちは,現実の悪用コードの実証的証拠から統計モデルを用いてCVSS Threatメトリックグループを強化する,革新的な脆弱性重症度スコアであるSecScoreを紹介します。 メソッド:SecScoreは説明可能な経験的な方法で従来のCVSSスコアを調整します。 結果: 本手法はいくつかの脆弱性管理プロセスの評価・優先順位付け段階にシームレスに統合し, 優先順位付けの有効性を向上し, タイムリーな改善を確実にする。 我々は、さまざまな脆弱性タイプやプラットフォームに対して、実世界の統計分析とモデルを提供し、SecScoreが脆弱性のプロファイルに応じてフレキシブルであることを示す。 総合的な実験は、脆弱性優先順位付けにおけるSecScoreの価値とタイムラインを検証する。 結論:SecScoreは脆弱性メトリクス理論を前進させ、実践的な洞察で組織のサイバーセキュリティを強化する。

Background: Timely prioritising and remediating vulnerabilities are paramount in the dynamic cybersecurity field, and one of the most widely used vulnerability scoring systems (CVSS) does not address the increasing likelihood of emerging an exploit code. Aims: We present SecScore, an innovative vulnerability severity score that enhances CVSS Threat metric group with statistical models from empirical evidences of real-world exploit codes. Method: SecScore adjusts the traditional CVSS score using an explainable and empirical method that more accurately and promptly captures the dynamics of exploit code development. Results: Our approach can integrate seamlessly into the assessment/prioritisation stage of several vulnerability management processes, improving the effectiveness of prioritisation and ensuring timely remediation. We provide real-world statistical analysis and models for a wide range of vulnerability types and platforms, demonstrating that SecScore is flexible according to the vulnerability's profile. Comprehensive experiments validate the value and timeliness of SecScore in vulnerability prioritisation. Conclusions: SecScore advances the vulnerability metrics theory and enhances organisational cybersecurity with practical insights.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 普遍直交パラメータ化を用いた知識グラフの一般化

Generalizing Knowledge Graph Embedding with Universal Orthogonal Parameterization ( http://arxiv.org/abs/2405.08540v1 )

ライセンス: Link先を確認
Rui Li, Chaozhuo Li, Yanming Shen, Zeyu Zhang, Xu Chen, (参考訳) 知識グラフ埋め込み(KGE)の最近の進歩は、固有論理パターンと位相構造をモデル化するためのユークリッド/双曲的直交関係変換に依存している。 しかし、既存のアプローチは、制限された次元と均質な幾何学を持つ厳密なリレーショナル直交化に限られており、不十分なモデリング能力をもたらす。 本研究は,一般家庭のリフレクションの形式に基づく普遍的直交パラメータ化を特徴とするGoldEという強力なフレームワークを導入することで,次元と幾何学の両面から,これらのアプローチを超えて進める。 このようなパラメータ化は、理論的な保証とともに次元拡張と幾何学的統一を自然に達成することができ、我々のフレームワークは、知識グラフの重要論理パターンと固有のトポロジ的不均一性を同時に捉えることができる。 経験的に、GoldEは3つの標準ベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/xxrep/GoldE.comで入手できる。

Recent advances in knowledge graph embedding (KGE) rely on Euclidean/hyperbolic orthogonal relation transformations to model intrinsic logical patterns and topological structures. However, existing approaches are confined to rigid relational orthogonalization with restricted dimension and homogeneous geometry, leading to deficient modeling capability. In this work, we move beyond these approaches in terms of both dimension and geometry by introducing a powerful framework named GoldE, which features a universal orthogonal parameterization based on a generalized form of Householder reflection. Such parameterization can naturally achieve dimensional extension and geometric unification with theoretical guarantees, enabling our framework to simultaneously capture crucial logical patterns and inherent topological heterogeneity of knowledge graphs. Empirically, GoldE achieves state-of-the-art performance on three standard benchmarks. Codes are available at https://github.com/xxrep/GoldE.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 宇宙マイクロ波背景からの量子シグネチャによるバウンスとインフレーションの解消

Distinguishing bounce and inflation via quantum signatures from cosmic microwave background ( http://arxiv.org/abs/2405.08543v1 )

ライセンス: Link先を確認
S. Mahesh Chandran, S. Shankaranarayanan, (参考訳) 宇宙物理学的インフレーションは、宇宙マイクロ波放射(CMBR)を理解するための一般的なパラダイムであるが、多くの概念的な課題に直面している。 摂動のほとんどスケール不変のスペクトルを生成するためのインフレーションの別のメカニズムは、初期物質支配の収縮相を持つ 'emph{bouncing cosmology} であり、現在観測されているスケールに対応するモードがハッブル半径を抜ける。 バウンシング宇宙論は初期特異性を避けるが、微調整の問題がある。 2つの初期のユニバースパラダイムの「emph{agnostic view」を取り入れて、CMBRの動的フィデリティ・サセプティビリティ(DFS)という量子測度を提案し、2つのシナリオを区別する。 同じパワースペクトルを持つ2つの単純なモデルを用いて、DFSが2つのシナリオに対して異なる振る舞いをすることを示す。 我々は、今後の宇宙ミッションにおいて、DFSを差別化要因として用いる可能性について論じる。

Cosmological inflation is a popular paradigm for understanding Cosmic Microwave Background Radiation (CMBR); however, it faces many conceptual challenges. An alternative mechanism to inflation for generating an almost scale-invariant spectrum of perturbations is a \emph{bouncing cosmology} with an initial matter-dominated contraction phase, during which the modes corresponding to currently observed scales exited the Hubble radius. Bouncing cosmology avoids the initial singularity but has fine-tuning problems. Taking an \emph{agnostic view} of the two early-universe paradigms, we propose a quantum measure -- Dynamical Fidelity Susceptibility (DFS) of CMBR -- that distinguishes the two scenarios. Taking two simple models with the same power-spectrum, we explicitly show that DFS behaves differently for the two scenarios. We discuss the possibility of using DFS as a distinguisher in the upcoming space missions.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 自動検出言語構成のレンズによる対面対話における話者間収束の解析

Analysing Cross-Speaker Convergence in Face-to-Face Dialogue through the Lens of Automatically Detected Shared Linguistic Constructions ( http://arxiv.org/abs/2405.08546v1 )

ライセンス: Link先を確認
Esam Ghaleb, Marlou Rasenberg, Wim Pouw, Ivan Toni, Judith Holler, Aslı Özyürek, Raquel Fernández, (参考訳) 会話には、対話参加者間のかなりの調整が必要であり、ターンテイクの管理から相互理解の交渉までである。 この調整作業の一部は、話者間での言語行動の再利用として表され、しばしばアライメントと呼ばれるプロセスである。 言語的アライメントの存在は文献によく記録されているが、話者間の再利用パターンが、新規参照者に対するラベル付け規則の出現にどの程度影響するかなど、いくつかの疑問が残っている。 本研究では,対話の中で両話者が使用する共通語彙コアを持つ表現を,共有補題構造を自動的に検出する手法を提案し,既存のラベルが存在しない新規なオブジェクトを参加者が特定するための参照コミュニケーションコーパスに適用した。 対話における共有構造の利用パターンを明らかにし,その頻度や参照に使用する異なる構成量などの特徴が,ソーシャルインタラクション後の参加者が示す対象のラベル付け収束度と関連していることを明らかにした。 より一般的には、自動検出された共有構造は、対話における参照交渉のダイナミクスを調べるのに有用な分析レベルを提供することを示す。

Conversation requires a substantial amount of coordination between dialogue participants, from managing turn taking to negotiating mutual understanding. Part of this coordination effort surfaces as the reuse of linguistic behaviour across speakers, a process often referred to as alignment. While the presence of linguistic alignment is well documented in the literature, several questions remain open, including the extent to which patterns of reuse across speakers have an impact on the emergence of labelling conventions for novel referents. In this study, we put forward a methodology for automatically detecting shared lemmatised constructions -- expressions with a common lexical core used by both speakers within a dialogue -- and apply it to a referential communication corpus where participants aim to identify novel objects for which no established labels exist. Our analyses uncover the usage patterns of shared constructions in interaction and reveal that features such as their frequency and the amount of different constructions used for a referent are associated with the degree of object labelling convergence the participants exhibit after social interaction. More generally, the present study shows that automatically detected shared constructions offer a useful level of analysis to investigate the dynamics of reference negotiation in dialogue.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# グラフに基づく知識の探索:チャネル関係グラフによるマルチレベル特徴蒸留

Exploring Graph-based Knowledge: Multi-Level Feature Distillation via Channels Relational Graph ( http://arxiv.org/abs/2405.08547v1 )

ライセンス: Link先を確認
Zhiwei Wang, Jun Huang, Longhua Ma, Chengyu Wu, Hongyu Ma, (参考訳) 視覚的なタスクでは、大きな教師モデルは重要な特徴と深い情報を取得し、パフォーマンスを向上する。 しかし、この情報をより小さな学生モデルに蒸留すると、構造的差異と容量制限により性能が低下することが多い。 そこで本研究では,マルチレベル特徴アライメント戦略と注意誘導機構を含むグラフ知識に基づく蒸留フレームワークを提案する。 蒸留工程におけるスペクトル埋め込み (SE) は, 学生の特徴空間と教師ネットワークに類似した関係知識と構造的複雑さを融合させる重要な手法である。 この方法は、教師のグラフに基づく表現における理解を捉え、生徒モデルが教師モデルに存在する複雑な構造的依存関係をより正確に模倣できるようにする。 本手法は, 特定の蒸留地域のみに着目した手法と比較して, 教師モデルにおける重要な特徴だけでなく, 特徴集合間の関係や相互作用を捉え, 複雑な情報をグラフ構造にエンコードし, それらの情報間の動的関係をグローバルな視点から理解し活用する試みである。 実験により,CIFAR-100,MS-COCO,Pascal VOCデータセットの従来の特徴蒸留法よりも優れた性能を示し,その効率性と適用性を示した。

In visual tasks, large teacher models capture essential features and deep information, enhancing performance. However, distilling this information into smaller student models often leads to performance loss due to structural differences and capacity limitations. To tackle this, we propose a distillation framework based on graph knowledge, including a multi-level feature alignment strategy and an attention-guided mechanism to provide a targeted learning trajectory for the student model. We emphasize spectral embedding (SE) as a key technique in our distillation process, which merges the student's feature space with the relational knowledge and structural complexities similar to the teacher network. This method captures the teacher's understanding in a graph-based representation, enabling the student model to more accurately mimic the complex structural dependencies present in the teacher model. Compared to methods that focus only on specific distillation areas, our strategy not only considers key features within the teacher model but also endeavors to capture the relationships and interactions among feature sets, encoding these complex pieces of information into a graph structure to understand and utilize the dynamic relationships among these pieces of information from a global perspective. Experiments show that our method outperforms previous feature distillation methods on the CIFAR-100, MS-COCO, and Pascal VOC datasets, proving its efficiency and applicability.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# グラフモデリングの観点からのマルチエージェントコミュニケーションの学習

Learning Multi-Agent Communication from Graph Modeling Perspective ( http://arxiv.org/abs/2405.08550v1 )

ライセンス: Link先を確認
Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao, (参考訳) 多くの人工知能応用において、複数の知的エージェントの協調的努力は目標目標達成に不可欠である。 これらのエージェント間の協調を強化するために、分散通信フレームワークがよく使用される。 しかしながら、すべてのエージェント間での情報共有はリソース集約的であることが証明され、一方、手作業による事前定義されたコミュニケーションアーキテクチャの採用は、エージェント間通信に制限を課し、共同作業の可能性を制限する。 本研究では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。 アーキテクチャパラメータを正常に更新すると同時に、通信グラフを決定するタスクとしてこの問題を定式化し、双方向の最適化プロセスを必要とします。 提案手法であるCommFormerは,グラフ表現の連続的な緩和と注意ユニットの導入を利用して,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドに並列に洗練する。 様々な協調作業に関する広範囲な実験は、エージェントがエージェントの数の変化にかかわらず、より協調的で洗練された戦略を開発できる様々な協調シナリオにおいて、我々のモデルの堅牢性を裏付けるものである。

In numerous artificial intelligence applications, the collaborative efforts of multiple intelligent agents are imperative for the successful attainment of target objectives. To enhance coordination among these agents, a distributed communication framework is often employed. However, information sharing among all agents proves to be resource-intensive, while the adoption of a manually pre-defined communication architecture imposes limitations on inter-agent communication, thereby constraining the potential for collaborative efforts. In this study, we introduce a novel approach wherein we conceptualize the communication architecture among agents as a learnable graph. We formulate this problem as the task of determining the communication graph while enabling the architecture parameters to update normally, thus necessitating a bi-level optimization process. Utilizing continuous relaxation of the graph representation and incorporating attention units, our proposed approach, CommFormer, efficiently optimizes the communication graph and concurrently refines architectural parameters through gradient descent in an end-to-end manner. Extensive experiments on a variety of cooperative tasks substantiate the robustness of our model across diverse cooperative scenarios, where agents are able to develop more coordinated and sophisticated strategies regardless of changes in the number of agents.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 動的に構成可能なマルチヘッドアテンションによる変圧器の改良

Improving Transformers with Dynamically Composable Multi-Head Attention ( http://arxiv.org/abs/2405.08553v1 )

ライセンス: Link先を確認
Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan, (参考訳) MHA(Multi-Head Attention)はTransformerの重要なコンポーネントである。 MHAでは、アテンションヘッドは独立して動作し、アテンションスコア行列の低ランクボトルネックやヘッド冗長といった問題を引き起こす。 本稿では、MHAの欠点に対処し、動的にアテンションヘッドを構成することでモデルの表現力を高めるパラメータと計算効率のよいアテンションアーキテクチャである動的構成可能マルチヘッドアテンション(DCMHA)を提案する。 DCMHAの中核には$\it{Compose}$関数があり、入力依存の方法で注目点と重み行列を変換する。 DCMHAは、任意のトランスアーキテクチャにおけるMHAのドロップイン置換として使用することができ、対応するDCFormerを得ることができる。 DCFormerはトランスフォーマーを言語モデリングにおける異なるアーキテクチャやモデルスケールで大きく上回り、モデルの性能を1.7x-2.0x計算と比較した。 例えば、DCPythia-6.9Bは、事前訓練されたパープレキシティと下流タスク評価の両方で、オープンソースのPythia-12Bを上回っている。 コードとモデルはhttps://github.com/Caiyun-AI/DCFormer.comで入手できる。

Multi-Head Attention (MHA) is a key component of Transformer. In MHA, attention heads work independently, causing problems such as low-rank bottleneck of attention score matrices and head redundancy. We propose Dynamically Composable Multi-Head Attention (DCMHA), a parameter and computation efficient attention architecture that tackles the shortcomings of MHA and increases the expressive power of the model by dynamically composing attention heads. At the core of DCMHA is a $\it{Compose}$ function that transforms the attention score and weight matrices in an input-dependent way. DCMHA can be used as a drop-in replacement of MHA in any transformer architecture to obtain the corresponding DCFormer. DCFormer significantly outperforms Transformer on different architectures and model scales in language modeling, matching the performance of models with ~1.7x-2.0x compute. For example, DCPythia-6.9B outperforms open source Pythia-12B on both pretraining perplexity and downstream task evaluation. The code and models are available at https://github.com/Caiyun-AI/DCFormer.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# 画像品質評価のためのデュアルブランチネットワーク

Dual-Branch Network for Portrait Image Quality Assessment ( http://arxiv.org/abs/2405.08555v1 )

ライセンス: Link先を確認
Wei Sun, Weixia Zhang, Yanwei Jiang, Haoning Wu, Zicheng Zhang, Jun Jia, Yingjie Zhou, Zhongpeng Ji, Xiongkuo Min, Weisi Lin, Guangtao Zhai, (参考訳) ポートレート画像は、典型的には、様々な背景に対して敬意を表した人物で構成されている。 モバイルデバイスの開発や画像処理技術により、ユーザーはいつでもどこでも肖像画を撮影できる。 しかし,これらの肖像画の画質は,環境条件の悪さ,撮影技術が劣る,撮影装置が劣るなどの劣化に悩まされる可能性がある。 本稿では、ポートレート画像品質評価のためのデュアルブランチネットワーク(PIQA)を提案する。 具体的には,2つのバックボーンネットワーク(\textit{i.e.} Swin Transformer-B)を用いて,画像全体と顔画像から高品質な特徴を抽出する。 背骨の質を意識した特徴表現を強化するため,大規模ビデオ品質評価データセットLSVQと大規模顔画像品質評価データセットGFIQAで事前訓練を行った。 さらに、画像シーンの分類と品質評価モデルであるLIQEを利用して、品質認識とシーン固有の特徴を補助的特徴として捉える。 最後に、これらの特徴を結合し、マルチパーセプション層(MLP)を介して品質スコアに分解する。 我々は、画像品質評価データセットPIQにおける品質スコアの不整合を軽減するために、学習からランクまでの方法でモデルをトレーニングするために、忠実度損失を用いる。 実験により,提案モデルがPIQデータセットにおいて優れた性能を示し,その有効性を検証した。 コードは \url{https://github.com/sunwei925/DN-PIQA.git} で公開されている。

Portrait images typically consist of a salient person against diverse backgrounds. With the development of mobile devices and image processing techniques, users can conveniently capture portrait images anytime and anywhere. However, the quality of these portraits may suffer from the degradation caused by unfavorable environmental conditions, subpar photography techniques, and inferior capturing devices. In this paper, we introduce a dual-branch network for portrait image quality assessment (PIQA), which can effectively address how the salient person and the background of a portrait image influence its visual quality. Specifically, we utilize two backbone networks (\textit{i.e.,} Swin Transformer-B) to extract the quality-aware features from the entire portrait image and the facial image cropped from it. To enhance the quality-aware feature representation of the backbones, we pre-train them on the large-scale video quality assessment dataset LSVQ and the large-scale facial image quality assessment dataset GFIQA. Additionally, we leverage LIQE, an image scene classification and quality assessment model, to capture the quality-aware and scene-specific features as the auxiliary features. Finally, we concatenate these features and regress them into quality scores via a multi-perception layer (MLP). We employ the fidelity loss to train the model via a learning-to-rank manner to mitigate inconsistencies in quality scores in the portrait image quality assessment dataset PIQ. Experimental results demonstrate that the proposed model achieves superior performance in the PIQ dataset, validating its effectiveness. The code is available at \url{https://github.com/sunwei925/DN-PIQA.git}.
翻訳日:2024-05-15 14:18:43 公開日:2024-05-14
# CycleGANを用いた肺CT画像の形状認識合成による半監督肺分画の増強

Shape-aware synthesis of pathological lung CT scans using CycleGAN for enhanced semi-supervised lung segmentation ( http://arxiv.org/abs/2405.08556v1 )

ライセンス: Link先を確認
Rezkellah Noureddine Khiati, Pierre-Yves Brillet, Aurélien Justet, Radu Ispa, Catalin Fetita, (参考訳) 本稿では, 病理組織学的肺分画の問題点, 特に肺組織と周辺部とのテキスト的類似性から, 末梢性不透明症(重篤な線維症, 固形化)の症例において顕著な課題である。 これらの課題を克服するために,既存の地底真実に適合した偽の病理画像を生成するための拡張手法として,不適切な画像・画像翻訳にCycleGANを用いることを強調した。 これまでの研究では、CycleGANを使用していたが、正確な医用画像セグメンテーションに欠かせない形状変形の課題を無視することが多かった。 我々の研究は、新たな損失関数を組み込んだ革新的な戦略を導入している。 具体的には、健康ドメインから病理ドメインへの遷移において、形状が変化しないように拘束された肺を囲む肺に基づくL1損失を提案する。 肺を取り囲む肺は、健康ドメインで利用可能な真理の肺マスクに基づいて誘導される。 さらに、リブ/頂点位置に基づく収穫などの前処理ステップを適用して、CycleGANの入力を洗練させ、ネットワークが肺領域に集中することを保証する。 これは、メインタスクから注意を逸らすことができるズーム効果バイアスのような、余分なバイアスを避けるために不可欠である。 本発明の方法は、CycleGANモデルにより生成された合成病理組織を組み込んだオンザフライデータ拡張により訓練されたU-Netモデルを用いることにより、肺分画過程を半監督的に向上させる。 本研究の予備的な結果は質的,定量的な改善を示し,病理肺分節の分野での新しいベンチマークを樹立した。 私たちのコードはhttps://github.com/noureddinekhiati/Semi-supervised-lung-segmentationで利用可能です。

This paper addresses the problem of pathological lung segmentation, a significant challenge in medical image analysis, particularly pronounced in cases of peripheral opacities (severe fibrosis and consolidation) because of the textural similarity between lung tissue and surrounding areas. To overcome these challenges, this paper emphasizes the use of CycleGAN for unpaired image-to-image translation, in order to provide an augmentation method able to generate fake pathological images matching an existing ground truth. Although previous studies have employed CycleGAN, they often neglect the challenge of shape deformation, which is crucial for accurate medical image segmentation. Our work introduces an innovative strategy that incorporates additional loss functions. Specifically, it proposes an L1 loss based on the lung surrounding which shape is constrained to remain unchanged at the transition from the healthy to pathological domains. The lung surrounding is derived based on ground truth lung masks available in the healthy domain. Furthermore, preprocessing steps, such as cropping based on ribs/vertebra locations, are applied to refine the input for the CycleGAN, ensuring that the network focus on the lung region. This is essential to avoid extraneous biases, such as the zoom effect bias, which can divert attention from the main task. The method is applied to enhance in semi-supervised manner the lung segmentation process by employing a U-Net model trained with on-the-fly data augmentation incorporating synthetic pathological tissues generated by the CycleGAN model. Preliminary results from this research demonstrate significant qualitative and quantitative improvements, setting a new benchmark in the field of pathological lung segmentation. Our code is available at https://github.com/noureddinekhiati/Semi-supervised-lung-segmentation
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# PTPI-DL-ROM:非線形パラメトリゼーションPDEのための物理インフォームド深層学習モデル

PTPI-DL-ROMs: pre-trained physics-informed deep learning-based reduced order models for nonlinear parametrized PDEs ( http://arxiv.org/abs/2405.08558v1 )

ライセンス: Link先を確認
Simone Brivio, Stefania Fresca, Andrea Manzoni, (参考訳) Proper Orthogonal Decomposition (POD) とDeep Learning-based ROMs (DL-ROM) の結合は、パラメトリック非線形時間依存PDEのリアルタイム解に対する非侵襲的で高精度なサロゲートの構築に成功している。 POD-DL-ROMの評価は困難であるため、訓練も比較的高速である。 しかし、POD-DL-ROMは、基礎となる方程式の高忠実度離散化に依存するフルオーダーモデル(FOM)によって通常得られる、訓練データを通してのみ問題を管理する物理法則を記述している。 さらに,POD-DL-ROMの精度は利用可能なデータ量に大きく依存する。 本稿では,訓練過程における物理法則の履行,すなわち物理インフォームドを施すことによって,POD-DL-ROMの大幅な拡張を考察する。 そこで我々はまず,POD-DL-ROMをトランクネットアーキテクチャで補完し,空間領域の各点で問題の解を計算し,最終的には強い連続的な定式化によって物理に基づく損失のシームレスな計算を可能にする。 そこで本研究では,物理インフォームドトレーニングフェーズによって生じる悪名高い計算負担を制限する,効率的なトレーニング戦略を提案する。 特に、利用可能な数少ないデータを利用して、低コストの事前訓練手順を開発し、予測信頼性をさらに向上するためにアーキテクチャを微調整する。 実験結果の精度と効率は,非偏光拡散拡散反応方程式から流体流のナビエ・ストークス方程式のような非線形問題に至るまで,一連の実験事例に基づいて評価される。

The coupling of Proper Orthogonal Decomposition (POD) and deep learning-based ROMs (DL-ROMs) has proved to be a successful strategy to construct non-intrusive, highly accurate, surrogates for the real time solution of parametric nonlinear time-dependent PDEs. Inexpensive to evaluate, POD-DL-ROMs are also relatively fast to train, thanks to their limited complexity. However, POD-DL-ROMs account for the physical laws governing the problem at hand only through the training data, that are usually obtained through a full order model (FOM) relying on a high-fidelity discretization of the underlying equations. Moreover, the accuracy of POD-DL-ROMs strongly depends on the amount of available data. In this paper, we consider a major extension of POD-DL-ROMs by enforcing the fulfillment of the governing physical laws in the training process -- that is, by making them physics-informed -- to compensate for possible scarce and/or unavailable data and improve the overall reliability. To do that, we first complement POD-DL-ROMs with a trunk net architecture, endowing them with the ability to compute the problem's solution at every point in the spatial domain, and ultimately enabling a seamless computation of the physics-based loss by means of the strong continuous formulation. Then, we introduce an efficient training strategy that limits the notorious computational burden entailed by a physics-informed training phase. In particular, we take advantage of the few available data to develop a low-cost pre-training procedure; then, we fine-tune the architecture in order to further improve the prediction reliability. Accuracy and efficiency of the resulting pre-trained physics-informed DL-ROMs (PTPI-DL-ROMs) are then assessed on a set of test cases ranging from non-affinely parametrized advection-diffusion-reaction equations, to nonlinear problems like the Navier-Stokes equations for fluid flows.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# ルブレイン単結晶におけるマルチエクシトン状態の量子ビート

Quantum Beats of a Multiexciton State in Rubrene Single Crystals ( http://arxiv.org/abs/2405.08560v1 )

ライセンス: Link先を確認
Eric A. Wolf, Drew M. Finton, Vincent Zoutenbier, Ivan Biaggio, (参考訳) ルブレイン単結晶の光励起後のナノ秒スケール光発光崩壊の量子ビートを0.1〜0.3Tで観測した。 それらの周波数は、ルブレイン分子の2次元回転軸に平行に磁場が向いたときに1.3$ GHzであり、磁場が結晶の分子積層方向に回転すると0.6$ GHzに低下する。 量子ビートの振幅は非振動フォトルミネッセンス背景と共に減衰し、低励起密度では指数減衰時間は4.0 \pm 0.2$~nsである。 我々はこれを、一重項分裂に由来するマルチエクシトン状態の有効寿命と解釈し、再結合を一重項状態に戻すことができる。

We observe quantum beats in the nanosecond-scale photoluminescence decay of rubrene single crystals after photoexcitation with short laser pulses in a magnetic field of 0.1 to 0.3 T. The relative amplitude of the quantum beats is of the order of 5\%. Their frequency is $1.3$ GHz when the magnetic field is oriented parallel to the two-fold rotation axis of the rubrene molecules and decreases to $0.6$ GHz when the magnetic field is rotated to the crystal's molecular stacking direction. The amplitude of the quantum beats decays alongside the non-oscillatory photoluminescence background, which at low excitation densities has an exponential decay time of $ 4.0 \pm 0.2$~ns. We interpret this as the effective lifetime of a multiexciton state that originates from singlet-fission and can undergo geminate recombination back to the singlet state.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# ヘイト(Hate)の見当たらないターゲット - ヘイトフルな通信データセットの体系的レビュー

The Unseen Targets of Hate -- A Systematic Review of Hateful Communication Datasets ( http://arxiv.org/abs/2405.08562v1 )

ライセンス: Link先を確認
Zehui Yu, Indira Sen, Dennis Assenmacher, Mattia Samory, Leon Fröhling, Christina Dahn, Debora Nozza, Claudia Wagner, (参考訳) 機械学習(ML)ベースのコンテンツモデレーションツールは、嫌悪なコミュニケーションからオンライン空間を守るために不可欠である。 しかし、MLツールは、トレーニングされたデータの品質に匹敵する能力しか持たない。 特定のアイデンティティに向けられた憎しみのあるコミュニケーションを検出し、差別する可能性があるという証拠は増えているが、そのような偏見の発覚について驚くほどのことは分かっていない。 このギャップを埋めるために、過去10年間に導入されたヘイトフル通信の自動検出のためのデータセットを体系的にレビューし、それらが具現化しているアイデンティティ、すなわちデータキュレーターが注目するヘイトフル通信のターゲットであるデータセットと、データセットに意図せず含まれているデータセットの質を解き放つ。 全体として、研究がデータセットを概念化し、最終的に含んでいるターゲット間の、選択されたターゲットIDとミスマッチの歪んだ表現を見つけます。 しかし、これらの知見を言語とデータセットの起源の位置で文脈化することにより、この研究領域の拡大と多様化に向けた肯定的な傾向を浮き彫りにしている。

Machine learning (ML)-based content moderation tools are essential to keep online spaces free from hateful communication. Yet, ML tools can only be as capable as the quality of the data they are trained on allows them. While there is increasing evidence that they underperform in detecting hateful communications directed towards specific identities and may discriminate against them, we know surprisingly little about the provenance of such bias. To fill this gap, we present a systematic review of the datasets for the automated detection of hateful communication introduced over the past decade, and unpack the quality of the datasets in terms of the identities that they embody: those of the targets of hateful communication that the data curators focused on, as well as those unintentionally included in the datasets. We find, overall, a skewed representation of selected target identities and mismatches between the targets that research conceptualizes and ultimately includes in datasets. Yet, by contextualizing these findings in the language and location of origin of the datasets, we highlight a positive trend towards the broadening and diversification of this research space.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# シンクリンクモデルを用いたPythonによる強化学習

Python-Based Reinforcement Learning on Simulink Models ( http://arxiv.org/abs/2405.08567v1 )

ライセンス: Link先を確認
Georg Schäfer, Max Schirl, Jakob Rehrl, Stefan Huber, Simon Hirlaender, (参考訳) 本稿では,SimulinkモデルとともにPythonを用いた強化学習エージェントを訓練するためのフレームワークを提案する。 Pythonの優れたカスタマイズオプションとStable Baselines3のような人気のあるライブラリを活用することで、確立したSimulink環境と、最先端エージェントをトレーニングするためのPythonの柔軟性のギャップを埋めることを目指しています。 当社のアプローチは、多用途のデュアルローターヘリコプターであるQuanser Aero 2で実証されている。 そこで本研究では,Simulinkモデルに基づいてトレーニングされたポリシーを実システムにシームレスに移行し,強化学習エージェントの効率的な開発と展開を可能にした。 Simulink からの C-code 生成,DLL コンパイル,Python インターフェース開発など,系統的な統合ステップを通じて,Simulink モデル上でエージェントをトレーニングするための堅牢なフレームワークを確立する。 実験の結果,従来の取り組みを超越し,SimulinkとPythonを組み合わせた強化学習研究と応用の可能性を強調した。

This paper proposes a framework for training Reinforcement Learning agents using Python in conjunction with Simulink models. Leveraging Python's superior customization options and popular libraries like Stable Baselines3, we aim to bridge the gap between the established Simulink environment and the flexibility of Python for training bleeding edge agents. Our approach is demonstrated on the Quanser Aero 2, a versatile dual-rotor helicopter. We show that policies trained on Simulink models can be seamlessly transferred to the real system, enabling efficient development and deployment of Reinforcement Learning agents for control tasks. Through systematic integration steps, including C-code generation from Simulink, DLL compilation, and Python interface development, we establish a robust framework for training agents on Simulink models. Experimental results demonstrate the effectiveness of our approach, surpassing previous efforts and highlighting the potential of combining Simulink with Python for Reinforcement Learning research and applications.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# 局所演算による量子不協和の生成

Generating quantum dissonance via local operations ( http://arxiv.org/abs/2405.08568v1 )

ライセンス: Link先を確認
Gökhan Torun, (参考訳) 相関は様々な方法で量子系に生じ、最も顕著なものは量子絡み合いである。 また、絡み合いがなくても、古典的でない相関関係を示すシステムもある。 量子不協和(quantum dissonance)とは、量子状態における全相関と古典的相関の差である量子不協和(QD)が、絡み合いのないシステムにおいて非古典的相関として現れることを指す。 QDは、古典的でない相関を識別するための、より包括的な視点を提供する可能性があると言えるだろう。 本研究では,ローカル操作による2つのサブシステム間のQD操作の問題に対処する。 非ゼロQDの混合状態である分離可能なワーナー状態を得るための2つの明示的な手順を提案する。 どちらの手法も、古典的に相関した状態の局所的な操作を行ない、分離可能なワーナー状態を得るためのステップバイステップの方法を提供し、既存の方法に代わる(明示的でユーザフレンドリな)方法を提供する。

Correlations may arise in quantum systems through various means, of which the most remarkable one is quantum entanglement. Additionally, there are systems that exhibit non-classical correlations even in the absence of entanglement. Quantum dissonance refers to how quantum discord (QD) -- the difference between the total correlation and the classical correlation in a given quantum state -- appears as a non-classical correlation in a system without entanglement. It could be said that QD has the potential to provide a more inclusive viewpoint for discerning the non-classical correlations. In this work, we address the problem of manipulating the QD between two subsystems through local operations. We propose two explicit procedures for obtaining separable Werner states, a type of mixed state with nonzero QD. Both approaches involve performing local operations on classically correlated states and offers a step-by-step method for obtaining separable Werner states with nonzero discord, providing an alternative (explicit and user-friendly) to existing methods.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# エンコーダ層とデコーダ層との適応関係の再考

Rethinking the adaptive relationship between Encoder Layers and Decoder Layers ( http://arxiv.org/abs/2405.08570v1 )

ライセンス: Link先を確認
Yubo Song, (参考訳) 本稿では,SOTAモデルHelsinki-NLP/opus-mt-de-enを用いて,エンコーダ層とデコーダ層との適応関係について検討する。 具体的な方法は、エンコーダとデコーダの間にバイアスのない完全に接続された層を導入し、レイヤの重みの異なる初期化を行い、微調整と再トレーニングの結果を観察することである。 合計4つの実験が行われた。 その結果, 事前学習したモデル構造を直接修正することで, 最適性能が向上することが示唆された。 しかし、再訓練による実験の結果を観察すると、この構造的調整は有意なポテンシャルを示した。

This article explores the adaptive relationship between Encoder Layers and Decoder Layers using the SOTA model Helsinki-NLP/opus-mt-de-en, which translates German to English. The specific method involves introducing a bias-free fully connected layer between the Encoder and Decoder, with different initializations of the layer's weights, and observing the outcomes of fine-tuning versus retraining. Four experiments were conducted in total. The results suggest that directly modifying the pre-trained model structure for fine-tuning yields suboptimal performance. However, upon observing the outcomes of the experiments with retraining, this structural adjustment shows significant potential.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# 触覚:コンタクトリッチ操作のためのオーディオ・ビジュアル・プレトレーニング

Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation ( http://arxiv.org/abs/2405.08576v1 )

ライセンス: Link先を確認
Jared Mejia, Victoria Dean, Tess Hellebrekers, Abhinav Gupta, (参考訳) 大量のデータに対する事前学習は、ロボット学習にとって有益であるが、現在のパラダイムは視覚表現のための大規模な事前訓練のみを行うのに対し、他のモダリティの表現はゼロから訓練される。 視覚データが豊富であるのとは対照的に、触覚などの他のモダリティの事前訓練にインターネットスケールのデータがどのような意味を持つのかは定かではない。 このような事前訓練は、ロボット工学の応用に共通する低データ体制においてますます重要になっている。 本稿では,コンタクトマイクを代替触覚センサとして利用することで,このギャップに対処する。 私たちのキーとなる洞察は、コンタクトマイクが本質的にオーディオベースの情報をキャプチャし、ロボット操作の性能を高めるために、大規模オーディオ・ビジュアル・プレトレーニングを活用できるということです。 我々の知る限りでは、ロボット操作のための大規模マルチセンサー事前学習を活用した最初のアプローチである。 実際のロボット実験のビデオを含む補足情報については、https://sites.google.com/view/hearing-touchを参照してください。

Although pre-training on a large amount of data is beneficial for robot learning, current paradigms only perform large-scale pretraining for visual representations, whereas representations for other modalities are trained from scratch. In contrast to the abundance of visual data, it is unclear what relevant internet-scale data may be used for pretraining other modalities such as tactile sensing. Such pretraining becomes increasingly crucial in the low-data regimes common in robotics applications. In this paper, we address this gap by using contact microphones as an alternative tactile sensor. Our key insight is that contact microphones capture inherently audio-based information, allowing us to leverage large-scale audio-visual pretraining to obtain representations that boost the performance of robotic manipulation. To the best of our knowledge, our method is the first approach leveraging large-scale multisensory pre-training for robotic manipulation. For supplementary information including videos of real robot experiments, please see https://sites.google.com/view/hearing-touch.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# 6G Open RANにおけるインテリジェントコントロール - セキュリティリスクと機会?

Intelligent Control in 6G Open RAN: Security Risk or Opportunity? ( http://arxiv.org/abs/2405.08577v1 )

ライセンス: Link先を確認
Sanaz Soltani, Mohammad Shojafar, Ali Amanlou, Rahim Tafazolli, (参考訳) Open Radio Access Network (Open RAN)フレームワークは、人工知能(AI)対応の第6世代(6G)モバイルネットワークの基盤として登場し、無線アクセスネットワークアーキテクチャの変革的なシフトを告げている。 Open RANの採用が加速するにつれ、セキュリティの確保が重要になる。 RAN Intelligent Controller(RIC)は、ネットワーク効率と柔軟性を向上させることで、Open RANにおいて中心的な役割を果たす。 それにもかかわらず、注意深い監視を必要とする潜在的なセキュリティリスクももたらします。 したがって、RICセキュリティの現状を総合的に評価することが不可欠である。 この評価は、RCCに関連するセキュリティ上の考慮事項を深く理解するために不可欠である。 この調査では、RANセキュリティの総合的な分析と、2Gから5Gへの進化の追跡、RICセキュリティの詳細な調査が組み合わされ、同種の文献における初めての包括的調査となった。 RICを含む現実世界のセキュリティインシデントが鮮明に説明され、実用的な洞察を提供する。 この研究は、6G Open RANコンテキストにおけるRICのセキュリティへの影響を評価し、セキュリティ脆弱性、緩和戦略、潜在的な拡張に対処する。 通信業界の利害関係者をセキュアで信頼性の高い通信インフラへと導くことを目的としている。 この記事は重要な参考資料として機能し、より広範なネットワークインフラにおけるRCCの重要な役割を明かし、セキュリティの最も重要な重要性を強調している。 この調査ではまた、RICが6Gモバイルネットワークのコンテキストにおいて、ネットワークセキュリティとレジリエンスを強化するための有望なセキュリティ機会についても検討した。 6G Open RANにおける知的制御の領域におけるオープンな問題、学習された教訓、そして将来の研究の方向性を概説し、このダイナミックな景観の包括的理解を促進する。

The Open Radio Access Network (Open RAN) framework, emerging as the cornerstone for Artificial Intelligence (AI)-enabled Sixth-Generation (6G) mobile networks, heralds a transformative shift in radio access network architecture. As the adoption of Open RAN accelerates, ensuring its security becomes critical. The RAN Intelligent Controller (RIC) plays a central role in Open RAN by improving network efficiency and flexibility. Nevertheless, it also brings about potential security risks that need careful scrutiny. Therefore, it is imperative to evaluate the current state of RIC security comprehensively. This assessment is essential to gain a profound understanding of the security considerations associated with RIC. This survey combines a comprehensive analysis of RAN security, tracing its evolution from 2G to 5G, with an in-depth exploration of RIC security, marking the first comprehensive examination of its kind in the literature. Real-world security incidents involving RIC are vividly illustrated, providing practical insights. The study evaluates the security implications of the RIC within the 6G Open RAN context, addressing security vulnerabilities, mitigation strategies, and potential enhancements. It aims to guide stakeholders in the telecom industry toward a secure and dependable telecommunications infrastructure. The article serves as a valuable reference, shedding light on the RIC's crucial role within the broader network infrastructure and emphasizing security's paramount importance. This survey also explores the promising security opportunities that the RIC presents for enhancing network security and resilience in the context of 6G mobile networks. It outlines open issues, lessons learned, and future research directions in the domain of intelligent control in 6G open RAN, facilitating a comprehensive understanding of this dynamic landscape.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# 高速・ランダムな画像縫合のための局所ピークスケール不変特徴変換

Local-peak scale-invariant feature transform for fast and random image stitching ( http://arxiv.org/abs/2405.08578v1 )

ライセンス: Link先を確認
Hao Li, Lipo Wang, Tianyun Zhao, Wei Zhao, (参考訳) 画像縫合は空間分解能の高い広い視野を構築することを目的としており、単一の露光では達成できない。 一般的に、ディープラーニング以外の従来の画像縫合技術は複雑な計算を必要とするため、特に大きな原画像の縫合には計算コストがかかる。 本研究では,流体乱流のマルチスケール特徴に着想を得て,マルチスケール局所ピークとスケール不変特徴変換に基づく局所ピークスケール不変特徴変換 (LP-SIFT) と呼ばれる高速特徴点検出アルゴリズムを開発した。 画像縫合におけるLP-SIFTとRANSACを組み合わせることにより、元のSIFT法と比較して縫合速度をオーダーで改善することができる。 9つの大きな画像(2600*1600ピクセル以上)は、事前の知識なしにランダムに配置され、158.94秒以内で縫合できる。 このアルゴリズムは、様々なアプリケーションシーン、例えば地形図、生物学的解析、さらには犯罪捜査において広い視野を必要とするアプリケーションに対して非常に実用的なものである。

Image stitching aims to construct a wide field of view with high spatial resolution, which cannot be achieved in a single exposure. Typically, conventional image stitching techniques, other than deep learning, require complex computation and thus computational pricy, especially for stitching large raw images. In this study, inspired by the multiscale feature of fluid turbulence, we developed a fast feature point detection algorithm named local-peak scale-invariant feature transform (LP-SIFT), based on the multiscale local peaks and scale-invariant feature transform method. By combining LP-SIFT and RANSAC in image stitching, the stitching speed can be improved by orders, compared with the original SIFT method. Nine large images (over 2600*1600 pixels), arranged randomly without prior knowledge, can be stitched within 158.94 s. The algorithm is highly practical for applications requiring a wide field of view in diverse application scenes, e.g., terrain mapping, biological analysis, and even criminal investigation.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# スピンマイクロ波マグノン系における非相互量子相転移

Nonreciprocal quantum phase transition in a spinning microwave magnonic system ( http://arxiv.org/abs/2405.08581v1 )

ライセンス: Link先を確認
Ye-jun Xu, Long-hua Zhai, Peng Fu, Shou-jing Cheng, Guo-Qiang Zhang, (参考訳) スピンマイクロ波共振器とイットリウム鉄ガーネット球とを結合したマイクロ波共振器とマグノンカー効果を組み合わせたスピンマイクロ波マグノニクス系において,非相互量子相転移を実現する方法を提案する。 共振器の回転によるサニャック・フィゾーシフトは、2階および1階の量子相転移の臨界駆動強度に大きな変化をもたらすため、共振器の回転速度によって高制御可能な量子相を実現することができる。 さらに、共振器の回転方向によって誘起される反時計回りモードと時計回りモードの変形の違いに基づき、この系の相転移は非相反的であり、すなわち、系が一方方向に駆動されるが他方では起こらないときに量子相転移が発生する。 我々の研究は、非相互マグノニクスデバイスを設計・設計するための代替手段を提供する。

We propose how to achieve nonreciprocal quantum phase transition in a spinning microwave magnonic system composed of a spinning microwave resonator coupled with an yttrium iron garnet sphere with magnon Kerr effect. Sagnac-Fizeau shift caused by the spinning of the resonator brings about a significant modification in the critical driving strengths for second- and one-order quantum phase transitions, which means that the highly controllable quantum phase can be realized by the spinning speed of the resonator. More importantly, based on the difference in the detunings of the counterclockwise and clockwise modes induced by spinning direction of the resonator, the phase transition in this system is nonreciprocal, that is, the quantum phase transition occurs when the system is driven in one direction but not the other. Our work offers an alternative path to engineer and design nonreciprocal magnonic devices.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# ドメイン一般化のためのクロスドメイン機能拡張

Cross-Domain Feature Augmentation for Domain Generalization ( http://arxiv.org/abs/2405.08586v1 )

ライセンス: Link先を確認
Yingnan Liu, Yingtian Zou, Rui Qiao, Fusheng Liu, Mong Li Lee, Wynne Hsu, (参考訳) ドメインの一般化は、分散シフトに対して堅牢なモデルを開発することを目的としている。 既存の手法はモデルの堅牢性を高めるためにドメイン間の不変性学習に重点を置いており、データ拡張は不変予測器の学習に広く用いられており、ほとんどの手法は入力空間で拡張を行う。 しかし、入力空間における拡張は多様性に制限があるのに対して、特徴空間における拡張はより汎用的であり、有望な結果を示している。 それでも、機能セマンティクスはめったに考慮されず、既存の機能拡張メソッドは、限られた種類の機能拡張に悩まされる。 機能をクラスジェネリック、クラス固有の、ドメインジェネリック、ドメイン固有のコンポーネントに分解します。 ドメインの一般化を実現するために不変表現の学習を強調しつつ,サンプルの多様性を高めることができるXDomainMixというクロスドメイン機能拡張手法を提案する。 広範に使用されているベンチマークデータセットの実験により,提案手法が最先端の性能を達成できることが実証された。 定量的分析により,我々の特徴増強アプローチは,異なる領域にまたがって不変な有効モデルの学習を促進することが示唆された。

Domain generalization aims to develop models that are robust to distribution shifts. Existing methods focus on learning invariance across domains to enhance model robustness, and data augmentation has been widely used to learn invariant predictors, with most methods performing augmentation in the input space. However, augmentation in the input space has limited diversity whereas in the feature space is more versatile and has shown promising results. Nonetheless, feature semantics is seldom considered and existing feature augmentation methods suffer from a limited variety of augmented features. We decompose features into class-generic, class-specific, domain-generic, and domain-specific components. We propose a cross-domain feature augmentation method named XDomainMix that enables us to increase sample diversity while emphasizing the learning of invariant representations to achieve domain generalization. Experiments on widely used benchmark datasets demonstrate that our proposed method is able to achieve state-of-the-art performance. Quantitative analysis indicates that our feature augmentation approach facilitates the learning of effective models that are invariant across different domains.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# EchoTracker: 心エコー図における心筋点追跡の促進

EchoTracker: Advancing Myocardial Point Tracking in Echocardiography ( http://arxiv.org/abs/2405.08587v1 )

ライセンス: Link先を確認
Md Abulkalam Azad, Artem Chernyshov, John Nyberg, Ingrid Tveten, Lasse Lovstakken, Håvard Dalen, Bjørnar Grenne, Andreas Østvik, (参考訳) 心エコー図における組織追跡は, 複雑な心臓運動と超音波取得の固有の性質のために困難である。 オプティカルフロー法は最先端技術(SOTA)と考えられているが、長距離追跡、ノイズ遮断、心循環中におけるドリフトに苦慮している。 近年,これらの問題に対処するために,新たな学習ベースのポイントトラッキング技術が導入されている。 本稿では,これらの技術を活用し,超音波画像列間の組織表面の問合せ点の追跡を容易にする2次元粗大化モデルであるEchoTrackerを紹介する。 このアーキテクチャは、軌道の粗い初期化と、きめ細かい外観変化に基づく強化繰り返しを含む。 効率的で軽量で、ミッドレンジGPU上で動作する。 実験の結果、平均位置精度は67%、中央軌道誤差は2.86ピクセルである。 さらに,本モデルを用いて臨床検診データセットのGLS(Global longitudinal strain)を計算した場合,他の方法と比較して25%の相対的な改善が得られた。 このことは、学習に基づくポイントトラッキングがパフォーマンスを改善し、現在の技術よりも高い診断と予後の値が得られることを示唆している。 私たちのソースコードは、https://github.com/riponazad/echotracker/.comで公開されています。

Tissue tracking in echocardiography is challenging due to the complex cardiac motion and the inherent nature of ultrasound acquisitions. Although optical flow methods are considered state-of-the-art (SOTA), they struggle with long-range tracking, noise occlusions, and drift throughout the cardiac cycle. Recently, novel learning-based point tracking techniques have been introduced to tackle some of these issues. In this paper, we build upon these techniques and introduce EchoTracker, a two-fold coarse-to-fine model that facilitates the tracking of queried points on a tissue surface across ultrasound image sequences. The architecture contains a preliminary coarse initialization of the trajectories, followed by reinforcement iterations based on fine-grained appearance changes. It is efficient, light, and can run on mid-range GPUs. Experiments demonstrate that the model outperforms SOTA methods, with an average position accuracy of 67% and a median trajectory error of 2.86 pixels. Furthermore, we show a relative improvement of 25% when using our model to calculate the global longitudinal strain (GLS) in a clinical test-retest dataset compared to other methods. This implies that learning-based point tracking can potentially improve performance and yield a higher diagnostic and prognostic value for clinical measurements than current techniques. Our source code is available at: https://github.com/riponazad/echotracker/.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# 標準射影測定による量子ステアリングの共有

Sharing Quantum Steering via Standard Projective Measurements ( http://arxiv.org/abs/2405.08588v1 )

ライセンス: Link先を確認
Shufen Dong, Zinuo Cai, Chunfeng Wu, Changliang Ren, (参考訳) 本稿では,標準射影測度を用いた3人の観測者,アリス,ボブ,チャーリー間の量子ステアリングの共有手法を提案する。 一方的なシナリオでは、アリスはボブとチャーリーの状態を操り、逆にボブとチャーリーはアリスの状態を操れることを示す。 弱い測定によって達成された量子ステアリング共有とは異なり、我々は標準射影測定を用いて量子ステアリング共有を可能にする。 量子ステアリングは、異なるオブザーバの組み合わせ間の線形ステアリングの不等式違反によって実証される。 アリスはボブの州とチャーリーの州の両方を同時に操ることができ、ボブとチャーリーはアリスの州を操れる。 部分的に絡み合った状態から得られる線形ステアリングの不等式の最大二重違反は、2つの射影測定の場合と2つの同一性測定の場合とをランダムに組み合わせた場合に、最大絡み合った状態から得られるものよりも大きい場合もある。 さらに,Cluser-Horne-Shimony-Holt(CHSH)不等式と線形ステアリング不等式を二重に破って,ハイブリッド量子相関共有を検証する。 本結果は,量子ステアリング研究の新しい視点を提供し,量子ランダムアクセスコード,ランダム性認証,自己検証プロセスへの応用につながる可能性がある。

We propose a scheme for the sharing of quantum steering among three observers, Alice, Bob, and Charlie using standard projective measurements. We show that in the unilateral sequential scenario, Alice can steer Bob's and Charlie's states and conversely, Bob and Charlie can steer Alice's state. Unlike the quantum steering sharing achieved through weak measurements, we use the standard projective measurements to enable quantum steering sharing. Quantum steering is demonstrated by the violations of the linear steering inequality among different observer combinations. We find that Alice can simultaneously steer both Bob's and Charlie's states, and Bob and Charlie can simultaneously steer Alice's state, regardless of whether they are in maximally entangled states or partially entangled states. The maximum double violation of the linear steering inequalities obtained from partially entangled states can be greater in some cases than that obtained from maximally entangled states when randomly combining the case of two projective measurements and the case of two identity measurements. Additionally, we verify hybrid quantum correlation sharing through the double violation of the Clauser-Horne-Shimony-Holt (CHSH) inequality and the linear steering inequality. Our results provide a new perspective for the study of quantum steering and may lead to applications in quantum random access code, randomness certification, and self-testing process.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# 部分重なり合う点集合に対する可変置換と双線形計画法

Variable Substitution and Bilinear Programming for Aligning Partially Overlapping Point Sets ( http://arxiv.org/abs/2405.08589v1 )

ライセンス: Link先を確認
Wei Lian, Zhesen Cui, Fei Ma, Hang Pan, Wangmeng Zuo, (参考訳) 多くの応用において、部分重なり合う点集合を対応する変換に不変のまま整列できるアルゴリズムに対する需要が生じる。 本研究では,ロバストポイントマッチング(RPM)アルゴリズムの目的関数の最小化により,そのような要件を満たすように設計された手法を提案する。 まず、RPMの目的が立方多項式であることを示す。 そして、変数置換により、RPMの目的を二次函数に変換する。 両線形単相の凸エンベロープを利用すれば、結果の目的関数を緩和し、より便利な線形代入と低次元凸二次計画成分に分解可能な下界問題を得ることができる。 さらに、変換パラメータにのみ枝分かれするブランチ・アンド・バウンド(BnB)アルゴリズムが考案され、収束率が向上する。 実験的な評価は、非剛性変形、位置雑音、外乱に対する提案手法のロバスト性の向上を実証している。

In many applications, the demand arises for algorithms capable of aligning partially overlapping point sets while remaining invariant to the corresponding transformations. This research presents a method designed to meet such requirements through minimization of the objective function of the robust point matching (RPM) algorithm. First, we show that the RPM objective is a cubic polynomial. Then, through variable substitution, we transform the RPM objective to a quadratic function. Leveraging the convex envelope of bilinear monomials, we proceed to relax the resulting objective function, thus obtaining a lower bound problem that can be conveniently decomposed into distinct linear assignment and low-dimensional convex quadratic program components, both amenable to efficient optimization. Furthermore, a branch-and-bound (BnB) algorithm is devised, which solely branches over the transformation parameters, thereby boosting convergence rate. Empirical evaluations demonstrate better robustness of the proposed methodology against non-rigid deformation, positional noise, and outliers, particularly in scenarios where outliers remain distinct from inliers, when compared with prevailing state-of-the-art approaches.
翻訳日:2024-05-15 14:08:58 公開日:2024-05-14
# 隣接領域アテンションアライメントによるオープンボキャブラリ物体検出

Open-Vocabulary Object Detection via Neighboring Region Attention Alignment ( http://arxiv.org/abs/2405.08593v1 )

ライセンス: Link先を確認
Sunyuan Qiang, Xianfei Li, Yanyan Liang, Wenlong Liao, Tao He, Pai Peng, (参考訳) 現実世界の環境における多様性の性質は、ニューラルネットワークモデルがクローズドなカテゴリ設定から新しいカテゴリに対応するために拡張する必要がある。 本稿では,オープン・ボキャブラリ・オブジェクト検出(OVD)について検討し,ベースアノテーションとオープン・ボキャブラリ知識のみの監督の下で,新しいオブジェクト・クラスの検出を容易にする。 しかし、アライメント過程における地域間の隣接関係の不適切さは、最近の蒸留によるOVD戦略における性能を必然的に制約することを発見した。 そこで本研究では,近隣地域のアテンション機構内でアライメントを行い,オープン語彙推論を向上する近隣地域のアライメントアライメント(NRAA)を提案する。 具体的には、ある提案領域に対して、ランダムに隣のボックスを探索し、提案する隣のエリアアテンション(NRA)機構を用いて関係情報を抽出する。 そして、この相互作用情報を蒸留工程にシームレスに提供し、検出器と予め訓練された視覚言語モデル(VLM)とのアライメントを支援する。 大規模な実験により,提案モデルがオープン語彙ベンチマークにおいて優れた性能を示すことを確認した。

The nature of diversity in real-world environments necessitates neural network models to expand from closed category settings to accommodate novel emerging categories. In this paper, we study the open-vocabulary object detection (OVD), which facilitates the detection of novel object classes under the supervision of only base annotations and open-vocabulary knowledge. However, we find that the inadequacy of neighboring relationships between regions during the alignment process inevitably constrains the performance on recent distillation-based OVD strategies. To this end, we propose Neighboring Region Attention Alignment (NRAA), which performs alignment within the attention mechanism of a set of neighboring regions to boost the open-vocabulary inference. Specifically, for a given proposal region, we randomly explore the neighboring boxes and conduct our proposed neighboring region attention (NRA) mechanism to extract relationship information. Then, this interaction information is seamlessly provided into the distillation procedure to assist the alignment between the detector and the pre-trained vision-language models (VLMs). Extensive experiments validate that our proposed model exhibits superior performance on open-vocabulary benchmarks.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# ベルによる超コヒーレント状態の不確かさ, ゴールデン比, フェルミオン-ボソン絡み

The Bell Based Super Coherent States. Uncertainty Relations, Golden Ratio and Fermion-Boson Entanglement ( http://arxiv.org/abs/2405.08594v1 )

ライセンス: Link先を確認
Oktay K Pashaev, Aygul Kocak, (参考訳) 最大フェルミオンボソン絡み合うベル超コヒーレント状態の集合を導入する。 分離可能なボゾンコヒーレント状態を持つこれらの状態の重ね合わせは、超ブロック球面上の点によって表され、ベル基底超コヒーレント状態と呼ばれる。 これらの状態におけるボゾンとフェルミオンの自由度の絡み合いは、変位ボゾン作用素を用いて研究される。 これは超ビット参照状態に作用し、ゼロと1つの超数状態の重ね合わせを表し、計算基底超状態を形成する。 これらの状態は、非古典的なフォック状態の重畳として、光子にコヒーレントな状態を加え、絡み合いはコヒーレントな状態パラメータ$\alpha$と時間進化の独立であることを示す。 直交のグラウバーコヒーレント状態とは対照的に、我々の絡み合った超コヒーレント状態は直交である。 状態の不確実性関係はコンカレンスの単調に増大する関数であり、絡み合った状態に対しては、2つのフィボナッチ数の比による非古典的二次的スキーズと不確実性の表現が得られる。 一致の列とそれに対応する不確実性$\hbar F_n/F_{n+1}$, 極限$n \rightarrow \infty $, 黄金比の不確実性$\hbar/\varphi$, ここで$\varphi = \frac{1 + \sqrt{5}}{2}$が見つかる。

The set of maximally fermion-boson entangled Bell super-coherent states is introduced. A superposition of these states with separable bosonic coherent states, represented by points on the super-Bloch sphere, we call the Bell based super-coherent states. Entanglement of bosonic and fermionic degrees of freedom in these states is studied by using displacement bosonic operator. It acts on the super-qubit reference state, representing superposition of the zero and the one super-number states, forming computational basis super-states. We show that the states are completely characterized by displaced Fock states, as a superposition with non-classical, the photon added coherent states, and the entanglement is independent of coherent state parameter $\alpha$ and of the time evolution. In contrast to never orthogonal Glauber coherent states, our entangled super-coherent states can be orthogonal. The uncertainty relation in the states is monotonically growing function of the concurrence and for entangled states we get non-classical quadrature squeezing and representation of uncertainty by ratio of two Fibonacci numbers. The sequence of concurrences, and corresponding uncertainties $\hbar F_n/F_{n+1}$, in the limit $n \rightarrow \infty $, convergent to the Golden ratio uncertainty $\hbar/\varphi$, where $\varphi = \frac{1 + \sqrt{5}}{2}$ is found.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# オープンソース生成AIのリスクと機会

Risks and Opportunities of Open-Source Generative AI ( http://arxiv.org/abs/2405.08597v1 )

ライセンス: Link先を確認
Francisco Eiras, Aleksander Petrov, Bertie Vidgen, Christian Schroeder, Fabio Pizzati, Katherine Elkins, Supratik Mukhopadhyay, Adel Bibi, Aaron Purewal, Csaba Botos, Fabro Steibel, Fazel Keshtkar, Fazl Barez, Genevieve Smith, Gianluca Guadagni, Jon Chun, Jordi Cabot, Joseph Imperial, Juan Arturo Nolazco, Lori Landay, Matthew Jackson, Phillip H. S. Torr, Trevor Darrell, Yong Lee, Jakob Foerster, (参考訳) Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。 こうした地震的な変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、特にAI開発をリードする大手テック企業からの厳しい規制を要求した。 この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。 Gen AI開発のための3段階のフレームワーク(近、中、長期)を使用して、現在利用可能なもの(中、中)と、より大きな機能(長期)を備えたオープンソース生成AIモデルのリスクと機会を分析します。 全体として、オープンソースのGen AIの利点は、そのリスクを上回っている、と私たちは主張する。 そのため、我々は、モデル、トレーニング、評価データのオープンソース化を奨励し、オープンソースの生成AIに関連するリスクを管理するための一連の推奨とベストプラクティスを提供します。

Applications of Generative AI (Gen AI) are expected to revolutionize a number of different areas, ranging from science & medicine to education. The potential for these seismic changes has triggered a lively debate about the potential risks of the technology, and resulted in calls for tighter regulation, in particular from some of the major tech companies who are leading in AI development. This regulation is likely to put at risk the budding field of open-source generative AI. Using a three-stage framework for Gen AI development (near, mid and long-term), we analyze the risks and opportunities of open-source generative AI models with similar capabilities to the ones currently available (near to mid-term) and with greater capabilities (long-term). We argue that, overall, the benefits of open-source Gen AI outweigh its risks. As such, we encourage the open sourcing of models, training and evaluation data, and provide a set of recommendations and best practices for managing risks associated with open-source generative AI.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# アメリカン・パット・オプション・ヘッジのための深層強化学習の最適化

Optimizing Deep Reinforcement Learning for American Put Option Hedging ( http://arxiv.org/abs/2405.08602v1 )

ライセンス: Link先を確認
Reilly Pickard, F. Wredenhagen, Y. Lawryshyn, (参考訳) 本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。 この研究はまず、学習率、トレーニングエピソード、ニューラルネットワークアーキテクチャ、トレーニングステップ、トランザクションコストペナルティ関数を考慮して、ヘッジパフォーマンスに対するハイパーパラメータの影響を調査した。 その結果,訓練エピソード数の多いハイラーニングレートや,トレーニングエピソードが少ないローラーニングレートなど,特定の組み合わせを避けることの重要性を強調し,最適な結果を得るために適度な値を活用することの重要性を強調した。 さらに,不安定性防止のための過度なトレーニング手順を警告し,線形バージョンよりも2次トランザクションコストペナルティ関数の優位性を示す。 この研究は、チェビシェフ補間オプション価格法を利用して、市場キャリブレーションされた確率的ボラティリティモデルを用いてDRLエージェントを訓練するPickard et al (2024)の業績を拡大する。 Pickard et al (2024) の結果から, これらのDRLエージェントは経験的資産パスにおいて良好な性能を発揮することが示されたが, 本研究は, 新たに校正された確率的ボラティリティモデルに対して, 週毎に新たなエージェントが出現する新たなアプローチを提案する。 その結果、週間市場データを用いて再訓練されたDRLエージェントは、販売日のみのトレーニングを受けたエージェントのパフォーマンスを上回った。 さらに,シングルトレインと週間トレインのDRLエージェントは,取引コスト1%と3%でブラックスコールズデルタ法より優れていることを示した。 この実践的関連性は、実践者が利用可能な市場データを利用してDRLエージェントをトレーニングし、ポートフォリオにおけるオプションの効果的なヘッジが可能になることを示唆している。

This paper contributes to the existing literature on hedging American options with Deep Reinforcement Learning (DRL). The study first investigates hyperparameter impact on hedging performance, considering learning rates, training episodes, neural network architectures, training steps, and transaction cost penalty functions. Results highlight the importance of avoiding certain combinations, such as high learning rates with a high number of training episodes or low learning rates with few training episodes and emphasize the significance of utilizing moderate values for optimal outcomes. Additionally, the paper warns against excessive training steps to prevent instability and demonstrates the superiority of a quadratic transaction cost penalty function over a linear version. This study then expands upon the work of Pickard et al. (2024), who utilize a Chebyshev interpolation option pricing method to train DRL agents with market calibrated stochastic volatility models. While the results of Pickard et al. (2024) showed that these DRL agents achieve satisfactory performance on empirical asset paths, this study introduces a novel approach where new agents at weekly intervals to newly calibrated stochastic volatility models. Results show DRL agents re-trained using weekly market data surpass the performance of those trained solely on the sale date. Furthermore, the paper demonstrates that both single-train and weekly-train DRL agents outperform the Black-Scholes Delta method at transaction costs of 1% and 3%. This practical relevance suggests that practitioners can leverage readily available market data to train DRL agents for effective hedging of options in their portfolios.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# 医学における大規模言語モデルと多モーダル大規模言語モデルに関する包括的調査

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine ( http://arxiv.org/abs/2405.08603v1 )

ライセンス: Link先を確認
Hanguang Xiao, Feizhong Zhou, Xingyue Liu, Tianqi Liu, Zhipeng Li, Xin Liu, Xiaoxuan Huang, (参考訳) ChatGPTとGPT-4のリリース以来、大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、理解、推論、生成において強力で汎用的な能力のために大きな注目を集めており、医療と人工知能の統合のための新しいパラダイムを提供している。 この調査は、LLMとMLLMの開発背景と原則を包括的に概観するとともに、その応用シナリオ、課題、将来的な医療の方向性について調査する。 具体的には、この調査はパラダイムシフトに注目し、従来のモデルからLLMやMLLMへの進化をトレースし、モデル構造を要約して詳細な基礎知識を提供することから始まります。 その後、調査では、LLMとMLLMを明確な論理で構築し、評価するプロセス全体について詳述した。 次に、医療におけるLSMとMLLMの意義を強調するため、医療における将来的な6つの応用を調査、まとめる。 最後に,医学 LLM と MLLM が直面している課題について考察し,人工知能と医学の統合に向けた実現可能なアプローチと方向性を提案する。 そこで本調査は, LLMとMLLMの背景, 原則, 臨床応用の観点から, 研究者に貴重な参考資料を提供することを目的とする。

Since the release of ChatGPT and GPT-4, large language models (LLMs) and multimodal large language models (MLLMs) have garnered significant attention due to their powerful and general capabilities in understanding, reasoning, and generation, thereby offering new paradigms for the integration of artificial intelligence with medicine. This survey comprehensively overviews the development background and principles of LLMs and MLLMs, as well as explores their application scenarios, challenges, and future directions in medicine. Specifically, this survey begins by focusing on the paradigm shift, tracing the evolution from traditional models to LLMs and MLLMs, summarizing the model structures to provide detailed foundational knowledge. Subsequently, the survey details the entire process from constructing and evaluating to using LLMs and MLLMs with a clear logic. Following this, to emphasize the significant value of LLMs and MLLMs in healthcare, we survey and summarize 6 promising applications in healthcare. Finally, the survey discusses the challenges faced by medical LLMs and MLLMs and proposes a feasible approach and direction for the subsequent integration of artificial intelligence with medicine. Thus, this survey aims to provide researchers with a valuable and comprehensive reference guide from the perspectives of the background, principles, and clinical applications of LLMs and MLLMs.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# ニューラル多目的組合せ最適化のための幾何学的パレート集合学習に向けて

Towards Geometry-Aware Pareto Set Learning for Neural Multi-Objective Combinatorial Optimization ( http://arxiv.org/abs/2405.08604v1 )

ライセンス: Link先を確認
Yongfan Lu, Zixiang Di, Bingdong Li, Shengcai Liu, Hong Qian, Peng Yang, Ke Tang, Aimin Zhou, (参考訳) 多目的組合せ最適化(MOCO)問題は、実世界の様々な応用で広く用いられている。 既存のMOCO問題に対するほとんどのニューラルメソッドは、分解のみに依存し、多様性を高めるために正確な超体積を利用する。 しかしながら、これらの手法はしばしばパレートフロントの限られた地域のみを近似し、不明瞭な分解と時間を要する超体積計算のために多様性向上に過剰な時間を費やす。 これらの制約に対処するため, GAPLと呼ばれる幾何学的パレート集合学習アルゴリズムを設計し, ハイパーボリューム予測最大化に基づくパレートアテンションモデルを用いて, ニューラルMOCOの幾何学的視点を提供する。 さらに,パレート・アテンション・モデルを用いて,パレート・セット/フロントの局所的情報と非局所的情報の両方をキャプチャする高ボリューム残差更新戦略を提案する。 また、解集合の品質をさらに向上し、超体積計算と局所部分集合選択を高速化するための新しい推論手法を設計する。 3つの古典的MOCO問題に対する実験結果から、GAPLは優れた分解と効率的な多様性向上を通じて最先端の神経ベースラインより優れていることが示された。

Multi-objective combinatorial optimization (MOCO) problems are prevalent in various real-world applications. Most existing neural methods for MOCO problems rely solely on decomposition and utilize precise hypervolume to enhance diversity. However, these methods often approximate only limited regions of the Pareto front and spend excessive time on diversity enhancement because of ambiguous decomposition and time-consuming hypervolume calculation. To address these limitations, we design a Geometry-Aware Pareto set Learning algorithm named GAPL, which provides a novel geometric perspective for neural MOCO via a Pareto attention model based on hypervolume expectation maximization. In addition, we propose a hypervolume residual update strategy to enable the Pareto attention model to capture both local and non-local information of the Pareto set/front. We also design a novel inference approach to further improve quality of the solution set and speed up hypervolume calculation and local subset selection. Experimental results on three classic MOCO problems demonstrate that our GAPL outperforms state-of-the-art neural baselines via superior decomposition and efficient diversity enhancement.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# 平衡から離れた2次元超流体における異常ランダウ減衰と代数的熱化

Anomalous Landau damping and algebraic thermalization in two-dimensional superfluids far from equilibrium ( http://arxiv.org/abs/2405.08606v1 )

ライセンス: Link先を確認
Clément Duval, Nicolas Cherroret, (参考訳) 遠方平衡, 2次元(2次元)ボース超流体の熱化ダイナミクスを定量的に記述する。 我々の分析は量子論的定式化を利用して、ランダウ散乱過程による準粒子の最初の減衰と、長期の地球平衡の緩やかな確立という2つの連続した緩和状態を特定することができる。 遠方平衡初期状態の場合、ランダウ減衰は指数緩和された準粒子の従来の像と異なることが分かる。 さらに,近年の代数的輸送機構はエネルギー保存に根ざし,2次元拡散と相容れないことが示唆された。 理論的および数値的議論を用いて、2次元超流体における大域平衡の詳細な動的ポートレートを構築する。

We present a quantitative description of the thermalization dynamics of far-from-equilibrium, two-dimensional (2D) Bose superfluids. Our analysis leverages a quantum kinetic formalism and allows us to identify two successive regimes of relaxation: an initial damping of quasi-particles due to Landau scattering processes, followed by the slower establishment of a global equilibrium at long time. For a far-from-equilibrium initial state, we find that Landau damping differs from the conventional picture of exponentially relaxing quasi-particles. Moreover, our results showcase a pronounced mechanism of algebraic transport at late times, rooted in energy conservation and compatible with 2D diffusion. Using theoretical and numerical arguments, we construct a detailed dynamical portrait of global equilibration in 2D superfluids.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# Dynamic NeRF: レビュー

Dynamic NeRF: A Review ( http://arxiv.org/abs/2405.08609v1 )

ライセンス: Link先を確認
Jinwei Lin, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は高分解能で3次元再構成と表現を実現する新しい暗黙の手法である。 NeRFの最初の研究が提案された後、NeRFは堅牢な開発力を獲得し、3Dモデリング、表現、再構築の領域でブームとなっている。 しかし、NeRFに基づく最初の研究プロジェクトとほとんどの研究プロジェクトは静的であり、実際的な応用には弱い。 そのため、より多くの研究者が、実用的な応用や状況においてより実現可能で有用な動的NeRFの研究に興味を持ち、焦点を当てている。 静的NeRFと比較すると、動的NeRFの実装はより難しく複雑である。 しかし将来的には、DynamicがEditable NeRFの基本になる可能性も高まっている。 本稿では,Dynamci NeRFの開発と実装の原則について,詳細かつ豊富な発表を行った。 ダイナミックNeRFの主な原理と開発は2021年から2023年にかけて、ダイナミックNeRFプロジェクトの大半を含む。 さらに、カラフルで斬新なデザインのフィギュアとテーブルを用いて、Dynamicのさまざまな特徴の詳細な比較と分析を行った。 さらに、動的NeRFを実装するための鍵となる手法を解析し、検討した。 参考書類のボリュームは大きい。 文と比較は多次元である。 このレビューを読めば、開発履歴全体と、Dynamic NeRFの主要な設計方法や原則のほとんどを簡単に理解し得る。

Neural Radiance Field(NeRF) is an novel implicit method to achieve the 3D reconstruction and representation with a high resolution. After the first research of NeRF is proposed, NeRF has gained a robust developing power and is booming in the 3D modeling, representation and reconstruction areas. However the first and most of the followed research projects based on NeRF is static, which are weak in the practical applications. Therefore, more researcher are interested and focused on the study of dynamic NeRF that is more feasible and useful in practical applications or situations. Compared with the static NeRF, implementing the Dynamic NeRF is more difficult and complex. But Dynamic is more potential in the future even is the basic of Editable NeRF. In this review, we made a detailed and abundant statement for the development and important implementation principles of Dynamci NeRF. The analysis of main principle and development of Dynamic NeRF is from 2021 to 2023, including the most of the Dynamic NeRF projects. What is more, with colorful and novel special designed figures and table, We also made a detailed comparison and analysis of different features of various of Dynamic. Besides, we analyzed and discussed the key methods to implement a Dynamic NeRF. The volume of the reference papers is large. The statements and comparisons are multidimensional. With a reading of this review, the whole development history and most of the main design method or principles of Dynamic NeRF can be easy understood and gained.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# 安全な情報伝達のためのガンマプロトコール

Gamma-protocol for secure transmission of information ( http://arxiv.org/abs/2405.08610v1 )

ライセンス: Link先を確認
R. Shakhmuratov, A. Zinnatullin, F. Vagizov, (参考訳) メッセージの送信者と意図された受信者だけがコンテンツを閲覧できるセキュアな通信には長い歴史がある。 単一光子のような量子オブジェクトは、安全情報伝送のための理想的なキャリアである。なぜなら、非閉鎖定理 [1] によれば、その検出が情報の歪みにつながる間、任意の量子状態の同一かつ独立したコピーを作成することは不可能である。 BB84[2,3]は、単一光子源に基づく量子鍵の生成と分配のための最初の量子暗号プロトコルである。 この量子鍵は古典情報の符号化と復号に使用される。 ガンマ光子のストリームをランダムに放射する放射性核のアンサンブルの確率的崩壊に基づく、全く異なるプロトコルを提案する。 このストリームの助けを借りて、バイナリビット (0 または 1) を含む古典的な情報を伝送する方法を実験的に示す。 ランダムに放出されるガンマ光子のストリーム内の情報の存在を隠蔽できるため、盗聴は不可能である。 この情報を読むには、その送信の繰り返し率を事前に正確に知る必要がある。 盗聴者がこのレートを開示することは非現実的であり、このパラメータの知識がなければ、送信された情報を見える化することは不可能である。

Secure communication that allows only the sender and intended recipient of a message to view its content has a long history. Quantum objects, such as single photons are ideal carriers for secure information transmission because, according to the no-cloning theorem [1], it is impossible to create an identical and independent copy of an arbitrary quantum state while its detection leads to the information distortion. BB84 [2,3] is the first quantum cryptography protocol for a quantum key generation and distribution, based on single photon sources. This quantum key is used for coding and decoding of classical information. We propose completely different protocol based on a stochastic decay of an ensemble of radioactive nuclei randomly emitting a stream of gamma-photons. We experimentally demonstrate a method how to transmit classical information containing binary bits (0 or 1) with the help of this stream. Transmission is organized such that eavesdropping is impossible since the presence of information in the stream of randomly emitted gamma-photons can be hidden. Reading of this information needs precise knowledge of the repetition rate of its sending in advance. It is unrealistic for the eavesdropper to disclose this rate, and without knowledge of this parameter it is impossible to make the transmitted information visible.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# D-Wave 2000Q量子アニールを模擬したスピンネットワークにおける接続性と結合相互作用の相対効果の解析

An analysis of the relative effects of connectivity and coupling interactions on spin networks emulating the D-Wave 2000Q quantum annealer ( http://arxiv.org/abs/2405.08611v1 )

ライセンス: Link先を確認
Jessica Park, Susan Stepney, Irene D'Amico, (参考訳) 利用可能なデータから、D-Wave 2000Q量子アニールチップの量子ビットに強い正の空間相関を示す。 そして、3つの異なるスピンネットワークと2つの異なる初期条件のダイナミクスをシミュレートすることにより、ノード間の相関が多くの要因に影響されていることを示す。 ネットワーク内のキュービットの異なる接続性は、全てのキュービットとキュービットのカップリングが等しく重み付けされている場合でも、情報転送が簡単ではないことを意味する。 連結ノードは、結合の物理的長さに応じて結合の強度がスケールされたときにさらに異なる振る舞いをする(これは双極子-双極子相互作用をシミュレートする)。 これは、アーキテクチャの特徴を理解することの重要性と、量子システムの性能を、チップ全体の同じ量子ビットとカップリングの理想化されたモデルから切り離せる可能性のある、プログラムされていない相互作用/接続の重要性を強調している。

From available data, we show strong positive spatial correlations in the qubits of a D-Wave 2000Q quantum annealing chip that are connected to qubits outside their own unit cell. Then, by simulating the dynamics of three different spin networks and two different initial conditions, we then show that correlation between nodes is affected by a number of factors. The different connectivity of qubits within the network means that information transfer is not straightforward even when all the qubit-qubit couplings have equal weighting. Connected nodes behave even more dissimilarly when the couplings' strength is scaled according to the physical length of the connections (here to simulate dipole-dipole interactions). This highlights the importance of understanding the architectural features and potentially unprogrammed interactions/connections that can divert the performance of a quantum system away from the idealised model of identical qubits and couplings across the chip.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# GN-SINDy:非線形偏微分方程式のスパース同定におけるグレディサンプリングニューラルネットワーク

GN-SINDy: Greedy Sampling Neural Network in Sparse Identification of Nonlinear Partial Differential Equations ( http://arxiv.org/abs/2405.08613v1 )

ライセンス: Link先を確認
Ali Forootani, Peter Benner, (参考訳) 非線形力学系のスパース同定(SINDy)は、観測データに基づいて複雑な系の基本力学を解明し、表現するために用いられるデータ駆動手法である。 しかしながら、非線形偏微分方程式(PDE)のモデルの発見における主要な障害は、次元と大きなデータセットの呪いによって生じる課題に対処することにある。 その結果、与えられたデータセット内の最も情報性の高いサンプルの戦略的選択は、計算コストを削減し、SINDyベースのアルゴリズムの有効性を高める上で重要な役割を担っている。 そこで本研究では,深層ニューラルネットワーク(DNN)をSINDyフレームワークでトレーニングするのに好適な,PDEのスナップショット行列にグリーディサンプリングアプローチを用いて,その有用なサンプルを得る。 SINDyベースのアルゴリズムは、しばしばデータ収集ユニットで構成され、基本関数の辞書を構築し、時間微分を計算し、正規化された最小二乗化に終止符を打つスパース同定問題を解く。 本稿では,SINDyに基づく深層学習モデル探索(DeePyMoD)手法を,データ収集ユニットにグリーディサンプリング手法と最小二乗最小化ユニットに新たな空間促進アルゴリズムを統合することで,その結果を拡張する。 本稿では, 非線形偏微分方程式(GN-SINDy)のスパース同定において, グリーディサンプリングニューラルネットワークを導入し, グリーディサンプリング法, DNN, SINDyアルゴリズムを混合した。 実装段階では、GN-SINDyの有効性を示すために、多数のPDE発見のためにこの目的のために準備されたPythonパッケージを使用して、その結果をDeePyMoDと比較する。

The sparse identification of nonlinear dynamical systems (SINDy) is a data-driven technique employed for uncovering and representing the fundamental dynamics of intricate systems based on observational data. However, a primary obstacle in the discovery of models for nonlinear partial differential equations (PDEs) lies in addressing the challenges posed by the curse of dimensionality and large datasets. Consequently, the strategic selection of the most informative samples within a given dataset plays a crucial role in reducing computational costs and enhancing the effectiveness of SINDy-based algorithms. To this aim, we employ a greedy sampling approach to the snapshot matrix of a PDE to obtain its valuable samples, which are suitable to train a deep neural network (DNN) in a SINDy framework. SINDy based algorithms often consist of a data collection unit, constructing a dictionary of basis functions, computing the time derivative, and solving a sparse identification problem which ends to regularised least squares minimization. In this paper, we extend the results of a SINDy based deep learning model discovery (DeePyMoD) approach by integrating greedy sampling technique in its data collection unit and new sparsity promoting algorithms in the least squares minimization unit. In this regard we introduce the greedy sampling neural network in sparse identification of nonlinear partial differential equations (GN-SINDy) which blends a greedy sampling method, the DNN, and the SINDy algorithm. In the implementation phase, to show the effectiveness of GN-SINDy, we compare its results with DeePyMoD by using a Python package that is prepared for this purpose on numerous PDE discovery
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# 量子デバイスの比較とベンチマーク手法

A methodology for comparing and benchmarking quantum devices ( http://arxiv.org/abs/2405.08617v1 )

ライセンス: Link先を確認
Jessica Park, Susan Stepney, Irene D'Amico, (参考訳) 量子コンピューティング(QC)は、その改善に向け、開発、投資、研究の速度が高くなっているが、「より量子ビット」と「より少ないエラー」という曖昧な言明を超越した改善がどんなものかについては、業界や幅広い文献にはほとんど意見の一致がない。 何かを改善する方法を決定する前に、まずは成功の基準を定義する必要があります。 この疑問を取り巻く明確さの欠如は、ボード全体に一貫性や標準がほとんど存在しない、急速に発展する能力に繋がった。 本稿では, ユーザ, 開発者, 研究者が, 問題の解決やクレーム作成に使用した成功基準と関連するベンチマークを定義し, 明確化し, 正当化することのできるフレームワークについて述べる。

Quantum Computing (QC) is undergoing a high rate of development, investment and research devoted to its improvement.However, there is little consensus in the industry and wider literature as to what improvement might consist of beyond ambiguous statements of "more qubits" and "fewer errors". Before one can decide how to improve something, it is first necessary to define the criteria for success: what are the metrics or statistics that are relevant to the problem? The lack of clarity surrounding this question has led to a rapidly developing capability with little consistency or standards present across the board. This paper lays out a framework by which any user, developer or researcher can define, articulate and justify the success criteria and associated benchmarks that have been used to solve their problem or make their claim.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# 1次元クーロンハミルトニアン:バーマン・シュウィンガー作用素の性質

The one-dimensional Coulomb Hamiltonian: Properties of its Birman-Schwinger operator ( http://arxiv.org/abs/2405.08618v1 )

ライセンス: Link先を確認
S. Fassari, M. Gadella, J. T. Lunardi, L. M. Nieto, F. Rinaldi, (参考訳) 本研究では, 1次元ハミルトニアンとクーロンポテンシャルの自己随伴実現のためのバーマン・シュウィンガー作用素について検討する。 このハミルトニアンが全実数直線上で定義される場合と正の半軸上でのみ定義される場合の両方について検討する。 どちらの場合も、バーマン=シュウィンガー作用素はトレースクラスではないにもかかわらずヒルベルト=シュミットである。 すると、与えられた条件の下で、正のパラメータに依存するハミルトニアンへの近似を考察し、パラメータが 0 になるにつれて、これらの近似のバーマン・シュウィンガー作用素の元のハミルトニアンへの収束を証明した。 さらなるコメントや結果が盛り込まれている。

We study the Birman-Schwinger operator for a self-adjoint realisation of the one-dimensional Hamiltonian with the Coulomb potential. We study both the case in which this Hamiltonian is defined on the whole real line and when it is only defined on the positive semiaxis. In both cases, the Birman-Schwinger operator is Hilbert-Schmidt, even though it is not trace class. Then, we have considered some approximations to the Hamiltonian depending on a positive parameter, under given conditions, and proved the convergence of the Birman-Schwinger operators of these approximations to the original Hamiltonian as the parameter goes to zero. Further comments and results have been included.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# ALMol: オフライン参照コントラスト最適化による言語-分子翻訳LLM

ALMol: Aligned Language-Molecule Translation LLMs through Offline Preference Contrastive Optimisation ( http://arxiv.org/abs/2405.08619v1 )

ライセンス: Link先を確認
Dimitris Gkoumas, (参考訳) 化学と人工知能(AI)の交差点は、科学的発見を加速することを目的とした活発な研究分野である。 大規模言語モデル(LLM)と科学的モダリティの統合は、この取り組みにおいて大きな可能性を秘めている。 しかし、既存のアプローチはより大きなモデルやデータセットに依存しているため、トレーニングの有効性とアウト・オブ・ディストリビューションの問題に効果的に対処する上で、課題は続いている。 この文脈では、機械語-分子翻訳に焦点をあて、コントラスト優先最適化と呼ばれる新しい学習手法を展開する。 一般性を確保し,暗記効果を緩和するため,データの10%しか使用しない実験を行った。 その結果、我々のモデルでは、比較すると最大で32倍の改善が達成されている。 また、責任を負うような、スケーラブルなきめ細かい評価手法も導入します。

The field of chemistry and Artificial Intelligence (AI) intersection is an area of active research that aims to accelerate scientific discovery. The integration of large language models (LLMs) with scientific modalities has shown significant promise in this endeavour. However, challenges persist in effectively addressing training efficacy and the out-of-distribution problem, particularly as existing approaches rely on larger models and datasets. In this context, we focus on machine language-molecule translation and deploy a novel training approach called contrastive preference optimisation, which avoids generating translations that are merely adequate but not perfect. To ensure generalisability and mitigate memorisation effects, we conduct experiments using only 10\% of the data. Our results demonstrate that our models achieve up to a 32\% improvement compared to counterpart models. We also introduce a scalable fine-grained evaluation methodology that accommodates responsibility.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# RMT-BVQA:リカレントメモリ変換器による高画質化のためのブラインド映像品質評価

RMT-BVQA: Recurrent Memory Transformer-based Blind Video Quality Assessment for Enhanced Video Content ( http://arxiv.org/abs/2405.08621v1 )

ライセンス: Link先を確認
Tianhao Peng, Chen Feng, Duolikun Danier, Fan Zhang, David Bull, (参考訳) 近年のディープラーニングの進歩により、ビデオ品質の向上、視覚的アーチファクトの削減、知覚的品質の向上など、数多くのアルゴリズムが開発されている。 しかし, コンテントの品質評価についてはほとんど研究されていない - 圧縮アプリケーション用に設計された品質指標に基づいて, エンハンスメント手法の評価を行う場合が多い。 本稿では,映像コンテンツの改良を目的とした新しいブラインドディープ・ビデオ品質評価手法を提案する。 新たなRecurrent Memory Transformer (RMT) ベースのネットワークアーキテクチャを用いて,13Kトレーニングパッチと拡張コンテンツを備えた新しいデータベースをベースとした,コンテンツ品質に配慮したコントラスト学習戦略によって最適化されたビデオ品質表現を実現する。 抽出された品質表現は線形回帰によって合成され、ビデオレベルの品質指標を生成する。 提案手法であるRTT-BVQAは,VDPVE(VQA Dataset for Perceptual Video Enhancement)データベース上で5倍のクロスバリデーションによって評価されている。 その結果、既存の10の非参照品質指標と比較すると、相関性能が優れていることがわかった。

With recent advances in deep learning, numerous algorithms have been developed to enhance video quality, reduce visual artefacts and improve perceptual quality. However, little research has been reported on the quality assessment of enhanced content - the evaluation of enhancement methods is often based on quality metrics that were designed for compression applications. In this paper, we propose a novel blind deep video quality assessment (VQA) method specifically for enhanced video content. It employs a new Recurrent Memory Transformer (RMT) based network architecture to obtain video quality representations, which is optimised through a novel content-quality-aware contrastive learning strategy based on a new database containing 13K training patches with enhanced content. The extracted quality representations are then combined through linear regression to generate video-level quality indices. The proposed method, RMT-BVQA, has been evaluated on the VDPVE (VQA Dataset for Perceptual Video Enhancement) database through a five-fold cross validation. The results show its superior correlation performance when compared to ten existing no-reference quality metrics.
翻訳日:2024-05-15 13:59:04 公開日:2024-05-14
# 量子アニーリングを超えて: MaxCut問題に対する最適制御ソリューション

Beyond Quantum Annealing: Optimal control solutions to MaxCut problems ( http://arxiv.org/abs/2405.08630v1 )

ライセンス: Link先を確認
Giovanni Pecci, Ruiyi Wang, Pietro Torta, Glen Bigan Mbeng, Giuseppe Santoro, (参考訳) 量子アニーリング (Quantum Annealing, QA) は、2つのハミルトニアン項、単純ドライバーと複素問題ハミルトニアンを線形結合で混合することに依存する。 この混合の時間依存スケジュールは、しばしば線形であると考えられており、この線形選択の改善は必須であることが知られており、困難であることが証明されている。 ここでは,2方向の線形スケジュールQAを改善するための異なる手法について述べる。 1)最初のアプローチは、連続時間における最適制御のためのチョップランダム基底アルゴリズム(CRAB)にインスパイアされたフーリエモードまたはチェビシェフ多項式のパラメータ化されたスケジュールを持つトロッターデジタルQA(dQA)の構築である。 2) 第二のアプローチは、厳密には量子近似最適化アルゴリズム(QAOA)であり、その解はフーリエモードにおける線形補間や拡張を用いて反復的に見つかる。 どちらのアプローチも、スムーズな最適スケジュールパラメータの発見を強調しており、最終的には交互ハミルトニアン・アンザッツ型のハイブリッド量子古典的変分アルゴリズムに繋がる。 これらの手法を N = 14 のサイトを持つ重み付き3つの正則グラフ上の MaxCut 問題に適用する。 我々は,dQAおよびQAOAアプローチの最適プロトコルの背後にある物理を特徴付け,断熱性のような力学へのショートカットを発見する。 さらに,MaxCutのハードインスタンス間の異なる回路深さでのこのような滑らかな解の転送性について検討した。 最後に、デジタル環境で得られたこれらのプロトコルの滑らかさパターンにより、一般的な非滑らかな解とは対照的に、連続的な進化に適応できることを示す。 この手順により、アナログデバイスで実装可能な最適化された量子アニールスケジュールが得られる。

Quantum Annealing (QA) relies on mixing two Hamiltonian terms, a simple driver and a complex problem Hamiltonian, in a linear combination. The time-dependent schedule for this mixing is often taken to be linear in time: improving on this linear choice is known to be essential and has proven to be difficult. Here, we present different techniques for improving on the linear-schedule QA along two directions, conceptually distinct but leading to similar outcomes: 1) the first approach consists of constructing a Trotter-digitized QA (dQA) with schedules parameterized in terms of Fourier modes or Chebyshev polynomials, inspired by the Chopped Random Basis algorithm (CRAB) for optimal control in continuous time; 2) the second approach is technically a Quantum Approximate Optimization Algorithm (QAOA), whose solutions are found iteratively using linear interpolation or expansion in Fourier modes. Both approaches emphasize finding smooth optimal schedule parameters, ultimately leading to hybrid quantum-classical variational algorithms of the alternating Hamiltonian Ansatz type. We apply these techniques to MaxCut problems on weighted 3-regular graphs with N = 14 sites, focusing on hard instances that exhibit a small spectral gap, for which a standard linear-schedule QA performs poorly. We characterize the physics behind the optimal protocols for both the dQA and QAOA approaches, discovering shortcuts to adiabaticity-like dynamics. Furthermore, we study the transferability of such smooth solutions among hard instances of MaxCut at different circuit depths. Finally, we show that the smoothness pattern of these protocols obtained in a digital setting enables us to adapt them to continuous-time evolution, contrarily to generic non-smooth solutions. This procedure results in an optimized quantum annealing schedule that is implementable on analog devices.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# ブロック座標によるグループラッソと弾性ネットペナル化回帰のための高速かつスケーラブルなパスワイズソルバー

A Fast and Scalable Pathwise-Solver for Group Lasso and Elastic Net Penalized Regression via Block-Coordinate Descent ( http://arxiv.org/abs/2405.08631v1 )

ライセンス: Link先を確認
James Yang, Trevor Hastie, (参考訳) 正規化経路に沿った一般化線形モデルに対する群ラッソと群弾性ネットを解くために,ブロック座標降下に基づく高速かつスケーラブルなアルゴリズムを開発した。 損失が通常最小二乗損失(ガウス損失)の場合、特に注意が払われる。 本稿では,ニュートン法を用いて各ブロック座標更新を効率よく解き,適応的2分割法によりさらに改善し,2次収束率でこれらの更新を解くことを示す。 我々のベンチマークによると、我々のパッケージはシミュレーションと実際のデータセットの両方で、次の最速のパッケージよりも3倍から10倍高速である。 さらに,本パッケージは,一般的なラッソパッケージであるglmnetの性能に匹敵する,競合するラッソ解決器であることを示す。

We develop fast and scalable algorithms based on block-coordinate descent to solve the group lasso and the group elastic net for generalized linear models along a regularization path. Special attention is given when the loss is the usual least squares loss (Gaussian loss). We show that each block-coordinate update can be solved efficiently using Newton's method and further improved using an adaptive bisection method, solving these updates with a quadratic convergence rate. Our benchmarks show that our package adelie performs 3 to 10 times faster than the next fastest package on a wide array of both simulated and real datasets. Moreover, we demonstrate that our package is a competitive lasso solver as well, matching the performance of the popular lasso package glmnet.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 機械学習による原子間ポテンシャルの文脈における実験の最適設計--カーネルベース手法の効率性と伝達性の向上

Optimal design of experiments in the context of machine-learning inter-atomic potentials: improving the efficiency and transferability of kernel based methods ( http://arxiv.org/abs/2405.08636v1 )

ライセンス: Link先を確認
Bartosz Barzdajn, Christopher P. Race, (参考訳) 原子間相互作用のデータ駆動機械学習(ML)モデルは、しばしば、原子配列の微妙な側面をエネルギーと力の予測に関連付けるフレキシブルで非物理的関数に基づいている。 その結果、これらのポテンシャルはトレーニングデータ(通常、アブ初期シミュレーションの結果)に匹敵し、モデルが十分に正確で信頼性があり、転送可能であることを保証する必要がある。 主な課題は、化学環境のディスクリプタが、よく明確に定義された連続計量のない高次元の物体であるという事実に起因している。 したがって、トレーニングサンプルを選択するアドホックな方法が無差別になる可能性は低いが、電車やテストセットを生成するために、同じ狭偏サンプリングが使用されるような、確認バイアスの罠に陥ることは容易である。 実験の統計的計画と最適設計の古典的な概念は、そのような問題を比較的低い計算コストで緩和するのに役立つことを実証する。 私たちが調査するメソッドのキーとなる特徴は、データのインフォメーション性(トレーニングサンプルを追加/スワッピングすることでどの程度モデルを改善することができるか)を評価し、トレーニングが現在のセットで可能かどうかを検証して、参照エネルギーと力(いわゆるオフラインアプローチ)を得ることができます。 言い換えれば,我々は実装が容易で,高性能計算(HPC)への自動アクセスを伴う高度なフレームワークを必要としないアプローチに注目している。

Data-driven, machine learning (ML) models of atomistic interactions are often based on flexible and non-physical functions that can relate nuanced aspects of atomic arrangements into predictions of energies and forces. As a result, these potentials are as good as the training data (usually results of so-called ab initio simulations) and we need to make sure that we have enough information for a model to become sufficiently accurate, reliable and transferable. The main challenge stems from the fact that descriptors of chemical environments are often sparse high-dimensional objects without a well-defined continuous metric. Therefore, it is rather unlikely that any ad hoc method of choosing training examples will be indiscriminate, and it will be easy to fall into the trap of confirmation bias, where the same narrow and biased sampling is used to generate train- and test- sets. We will demonstrate that classical concepts of statistical planning of experiments and optimal design can help to mitigate such problems at a relatively low computational cost. The key feature of the method we will investigate is that they allow us to assess the informativeness of data (how much we can improve the model by adding/swapping a training example) and verify if the training is feasible with the current set before obtaining any reference energies and forces -- a so-called off-line approach. In other words, we are focusing on an approach that is easy to implement and doesn't require sophisticated frameworks that involve automated access to high-performance computational (HPC).
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# ドリフト検出:ガウス分割検出器の導入

Drift Detection: Introducing Gaussian Split Detector ( http://arxiv.org/abs/2405.08637v1 )

ライセンス: Link先を確認
Maxime Fuccellaro, Laurent Simon, Akka Zemmari, (参考訳) 最近の研究では、広範囲のドリフト検出器が得られた。 しかし、顕著な性能を達成するためには、ドリフト検出フェーズ中に真のクラスラベルを利用できなければならない。 本論文は, 地中真実が不明な場合の漂流を検出することを目的としている。 そこで我々は,バッチモードで動作する新しいドリフト検出器であるGaussian Split Detector (GSD)を導入する。 GSDは、データが正規分布に従うときに機能し、決定境界の変化を監視するためにガウス混合モデルを使用するように設計されている。 このアルゴリズムは、マルチ次元のデータストリームを処理し、推論フェーズ中に基礎となる真理ラベルを使わずに動作するように設計されている。 実および合成データセットに関する広範な実験研究において、我々は最先端の検知器について評価した。 我々の検出器は、実際のドリフトの検出や、誤報を避けるための鍵となる仮想ドリフトの無視において、最先端よりも優れていることを示す。

Recent research yielded a wide array of drift detectors. However, in order to achieve remarkable performance, the true class labels must be available during the drift detection phase. This paper targets at detecting drift when the ground truth is unknown during the detection phase. To that end, we introduce Gaussian Split Detector (GSD) a novel drift detector that works in batch mode. GSD is designed to work when the data follow a normal distribution and makes use of Gaussian mixture models to monitor changes in the decision boundary. The algorithm is designed to handle multi-dimension data streams and to work without the ground truth labels during the inference phase making it pertinent for real world use. In an extensive experimental study on real and synthetic datasets, we evaluate our detector against the state of the art. We show that our detector outperforms the state of the art in detecting real drift and in ignoring virtual drift which is key to avoid false alarms.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# vMFER:政策改善のためのグラディエント方向の不確実性に基づくVon Mises-Fisherエクスペリエンスのリサンプリング

vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy Improvement ( http://arxiv.org/abs/2405.08638v1 )

ライセンス: Link先を確認
Yiwen Zhu, Jinyi Liu, Wenya Wei, Qianyi Fu, Yujing Hu, Zhou Fang, Bo An, Jianye Hao, Tangjie Lv, Changjie Fan, (参考訳) 強化学習(Reinforcement Learning, RL)は、政策評価と政策改善という2つの基本的な操作を含む、意思決定問題において広く用いられるテクニックである。 学習効率の向上は、RLの重要な課題であり、政策評価効率を高めるためにアンサンブル批評家を使うことに重点を置いている。 しかし、複数の批評家を使用する場合、政策改善プロセスのアクターは異なる勾配を得ることができる。 これまでの研究では、これらの勾配は意見の相違を考慮せずに組み合わされている。 したがって、学習効率を高めるためには、政策改善プロセスの最適化が不可欠である。 本研究は、アンサンブル批評家が政策改善に与える影響について検討する。 本稿では、政策改善プロセスで利用される勾配間の不一致を測定する手段として、勾配方向の不確実性の概念を導入する。 勾配間の不一致を測定することで、政策改善プロセスにおいて、勾配方向の不確実性の低い遷移の方がより信頼性が高いことが分かる。 この分析に基づいて、遷移を再サンプリングし、勾配方向の不確実性の低い遷移に高い信頼を割り当てることにより、政策改善プロセスを最適化するvon Mises-Fisher Experience Resampling (vMFER) という手法を提案する。 実験の結果,vMFERはベンチマークを著しく上回り,特にRLのアンサンブル構造に適していることがわかった。

Reinforcement Learning (RL) is a widely employed technique in decision-making problems, encompassing two fundamental operations -- policy evaluation and policy improvement. Enhancing learning efficiency remains a key challenge in RL, with many efforts focused on using ensemble critics to boost policy evaluation efficiency. However, when using multiple critics, the actor in the policy improvement process can obtain different gradients. Previous studies have combined these gradients without considering their disagreements. Therefore, optimizing the policy improvement process is crucial to enhance learning efficiency. This study focuses on investigating the impact of gradient disagreements caused by ensemble critics on policy improvement. We introduce the concept of uncertainty of gradient directions as a means to measure the disagreement among gradients utilized in the policy improvement process. Through measuring the disagreement among gradients, we find that transitions with lower uncertainty of gradient directions are more reliable in the policy improvement process. Building on this analysis, we propose a method called von Mises-Fisher Experience Resampling (vMFER), which optimizes the policy improvement process by resampling transitions and assigning higher confidence to transitions with lower uncertainty of gradient directions. Our experiments demonstrate that vMFER significantly outperforms the benchmark and is particularly well-suited for ensemble structures in RL.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# バンド工学によるキャビティ強化超伝導

Cavity-enhanced superconductivity via band engineering ( http://arxiv.org/abs/2405.08642v1 )

ライセンス: Link先を確認
Valerii K. Kozin, Even Thingstad, Daniel Loss, Jelena Klinovaja, (参考訳) 量子化キャビティモードと相互作用する2次元電子ガスを考える。 共振器内の電子と光子との結合は超伝導ギャップを増大させる。 ピエルス相の全ての項は、より単純なアプローチとは対照的に維持され、これは急激な超ラジカル相転移をもたらす可能性がある。 平均場理論を用いて、空洞結合強度とほぼ直線的にギャップが増加することを示す。 この効果は、スプリットリング共振器によって形成される局所構造電磁場と相互作用する2次元材料のフレーク(または、大きな格子定数により拡張がより顕著になると予想されるモワール系)に対する走査トンネル顕微鏡(STM)測定により、ギャップサイズの増加として局所的に観察できる。 我々の結果は、格子幾何学とシステムパラメータを広範囲に調整できる空洞モードと相互作用する冷媒原子による量子光学のセットアップにも関係している。

We consider a two-dimensional electron gas interacting with a quantized cavity mode. We find that the coupling between the electrons and the photons in the cavity enhances the superconducting gap. Crucially, all terms in the Peierls phase are kept, in contrast to more naive approaches, which may result in spurious superradiant phase transitions. We use a mean-field theory to show that the gap increases approximately linearly with the cavity coupling strength. The effect can be observed locally as an increase in the gap size via scanning tunneling microscopy (STM) measurements for a flake of a 2D material (or for a Moir\'e system where the enhancement is expected to be more pronounced due to a large lattice constant) interacting with a locally-structured electromagnetic field formed by split-ring resonators. Our results are also relevant for quantum optics setups with cold atoms interacting with the cavity mode, where the lattice geometry and system parameters can be tuned in a vast range.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 言語モデリングのためのトークンを考える

Thinking Tokens for Language Modeling ( http://arxiv.org/abs/2405.08644v1 )

ライセンス: Link先を確認
David Herel, Tomas Mikolov, (参考訳) 56倍37倍ですか。 言語モデルはこのような難解な計算でしばしば間違いを犯す。 これは通常、複雑な推論を行うことができないことから説明される。 言語モデルは、大きなトレーニングセットと大きな記憶能力に依存しているため、当然、複雑な計算を実行する能力は備わっていない。 しかし、人間はこの計算をすぐに行うことができず、解を構築するのにかなりの時間を要すると主張することができる。 言語モデルの一般化能力を高めるとともに,人間の行動と平行して,複雑な問題が発生した場合に,モデルがより多くの計算を行うことのできる特別な「思考トークン」を提案する。

How much is 56 times 37? Language models often make mistakes in these types of difficult calculations. This is usually explained by their inability to perform complex reasoning. Since language models rely on large training sets and great memorization capability, naturally they are not equipped to run complex calculations. However, one can argue that humans also cannot perform this calculation immediately and require a considerable amount of time to construct the solution. In order to enhance the generalization capability of language models, and as a parallel to human behavior, we propose to use special 'thinking tokens' which allow the model to perform much more calculations whenever a complex problem is encountered.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# ポリヘドラ抽象解釈を用いたノード摂動のためのグラフ畳み込みネットワークのロバスト性証明

Certifying Robustness of Graph Convolutional Networks for Node Perturbation with Polyhedra Abstract Interpretation ( http://arxiv.org/abs/2405.08645v1 )

ライセンス: Link先を確認
Boqi Chen, Kristóf Marussy, Oszkár Semeráth, Gunter Mussbacher, Dániel Varró, (参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、トレーニングデータからグラフベースの知識表現を学習するための強力なツールである。 しかし、入力グラフの小さな摂動に弱いため、入力障害や敵攻撃の影響を受けやすい。 これは、重要なアプリケーションで使用されることを意図したGCNにとって重大な問題であり、敵の摂動があっても、確実に堅牢なサービスを提供する必要がある。 本稿では,ノード特徴摂動の存在下でのノード分類のためのGCNロバスト性認証手法を提案する。 本稿では,グラフデータの特定の課題に対処し,GCNの強靭性に対して,上下境界の厳密性を実現するための,新しいポリヘドラに基づく抽象解釈手法を提案する。 実験の結果、我々の手法は堅牢性境界の厳密性と認証の実行時の性能を同時に改善することがわかった。 さらに,本手法は,GCNの堅牢性向上に有効である。

Graph convolutional neural networks (GCNs) are powerful tools for learning graph-based knowledge representations from training data. However, they are vulnerable to small perturbations in the input graph, which makes them susceptible to input faults or adversarial attacks. This poses a significant problem for GCNs intended to be used in critical applications, which need to provide certifiably robust services even in the presence of adversarial perturbations. We propose an improved GCN robustness certification technique for node classification in the presence of node feature perturbations. We introduce a novel polyhedra-based abstract interpretation approach to tackle specific challenges of graph data and provide tight upper and lower bounds for the robustness of the GCN. Experiments show that our approach simultaneously improves the tightness of robustness bounds as well as the runtime performance of certification. Moreover, our method can be used during training to further improve the robustness of GCNs.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 機械の出力分解学習

Output-decomposed Learning of Mealy Machines ( http://arxiv.org/abs/2405.08647v1 )

ライセンス: Link先を確認
Rick Koenders, Joshua Moerman, (参考訳) 本稿では,有限状態機械の分解を個々の出力に投射して学習する能動的オートマトン学習アルゴリズムを提案する。 これは、Labbaf et al (2023)による最近の合成学習アルゴリズムと双対である。 出力を小さなセットに投影すると、モデル自体のサイズが小さくなる。 このようなプロジェクションを複数持つことで、情報を失うことなく、システム全体を再構築することができる。 システムの構造によって、アルゴリズムの予備的な評価によって示されるように、クエリの数が大幅に削減される。

We present an active automata learning algorithm which learns a decomposition of a finite state machine, based on projecting onto individual outputs. This is dual to a recent compositional learning algorithm by Labbaf et al. (2023). When projecting the outputs to a smaller set, the model itself is reduced in size. By having several such projections, we do not lose any information and the full system can be reconstructed. Depending on the structure of the system this reduces the number of queries drastically, as shown by a preliminary evaluation of the algorithm.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 未知を擁護できるか? ニューラルネットワークモニタリングのための閾値選択に関する実証的研究

Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring ( http://arxiv.org/abs/2405.08654v1 )

ライセンス: Link先を確認
Khoi Tran Dang, Kevin Delmas, Jérémie Guiochet, Joris Guérin, (参考訳) クリティカルシステムにおけるニューラルネットワークの利用の増加に伴い、推論中に安全でない予測を拒否するためには、ランタイム監視が不可欠である。 安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。 これらの手法の有効性は、主にレシーバーの動作特性曲線の下の領域のような閾値に依存しない測定値を用いて評価される。 しかし、実世界のアプリケーションでは、効果的なモニターはこれらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。 しきい値最適化の重要さにもかかわらず、この問題はほとんど注目されていない。 この問題にはいくつかの研究が触れているが、一般的には、実行時のデータ配信がトレーニングの配布を反映していると仮定する。 本稿では,様々な画像データセットに関する厳密な実験について述べる。 1. しきい値調整時に利用できない、予期せぬ脅威に対処するモニターの有効性。 2) 総合的な脅威をしきい値最適化手法に組み込むことで, モニターの堅牢性を高めることができるか。

With the increasing use of neural networks in critical systems, runtime monitoring becomes essential to reject unsafe predictions during inference. Various techniques have emerged to establish rejection scores that maximize the separability between the distributions of safe and unsafe predictions. The efficacy of these approaches is mostly evaluated using threshold-agnostic metrics, such as the area under the receiver operating characteristic curve. However, in real-world applications, an effective monitor also requires identifying a good threshold to transform these scores into meaningful binary decisions. Despite the pivotal importance of threshold optimization, this problem has received little attention. A few studies touch upon this question, but they typically assume that the runtime data distribution mirrors the training distribution, which is a strong assumption as monitors are supposed to safeguard a system against potentially unforeseen threats. In this work, we present rigorous experiments on various image datasets to investigate: 1. The effectiveness of monitors in handling unforeseen threats, which are not available during threshold adjustments. 2. Whether integrating generic threats into the threshold optimization scheme can enhance the robustness of monitors.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# マルチエージェント強化学習による自律的区間管理への分散的アプローチ

A Distributed Approach to Autonomous Intersection Management via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.08655v1 )

ライセンス: Link先を確認
Matteo Cederle, Marco Fabris, Gian Antonio Susto, (参考訳) 自律的交差点管理(AIM)は、現実の交通シナリオの複雑な性質と、全車両を同時に制御する高コスト集中型サーバの必要性により、大きな課題を生んでいる。 本研究は,マルチエージェント強化学習(MARL)を利用したAIMへの新たな分散アプローチを提案することで,そのような課題に対処する。 高度な補助システムに3Dサラウンドビュー技術を活用することで、自律走行車は集中制御装置を必要とせずに交差点のシナリオを正確にナビゲートできることを示す。 そこで本研究では,4方向交差点の自律的管理のためのMARLに基づくアルゴリズムと,訓練効率を向上させるための優先シナリオリプレイと呼ばれる新しい戦略を導入する。 従来の集中型AIM技術に代わる革新的な代替手段として,我々のアプローチを検証し,その結果の完全な再現性を確保する。 具体的には、SMARTSプラットフォームを使用して仮想環境で実施された実験は、様々なメトリクスにわたるベンチマークよりも優れていることを強調している。

Autonomous intersection management (AIM) poses significant challenges due to the intricate nature of real-world traffic scenarios and the need for a highly expensive centralised server in charge of simultaneously controlling all the vehicles. This study addresses such issues by proposing a novel distributed approach to AIM utilizing multi-agent reinforcement learning (MARL). We show that by leveraging the 3D surround view technology for advanced assistance systems, autonomous vehicles can accurately navigate intersection scenarios without needing any centralised controller. The contributions of this paper thus include a MARL-based algorithm for the autonomous management of a 4-way intersection and also the introduction of a new strategy called prioritised scenario replay for improved training efficacy. We validate our approach as an innovative alternative to conventional centralised AIM techniques, ensuring the full reproducibility of our results. Specifically, experiments conducted in virtual environments using the SMARTS platform highlight its superiority over benchmarks across various metrics.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 自己教師付き学習は、CT画像の差による深層学習肺腫瘍セグメンテーションの堅牢性を改善する

Self-supervised learning improves robustness of deep learning lung tumor segmentation to CT imaging differences ( http://arxiv.org/abs/2405.08657v1 )

ライセンス: Link先を確認
Jue Jiang, Aneesh Rangnekar, Harini Veeraraghavan, (参考訳) 自己教師付き学習(SSL)は、ラベルなしデータから有用な特徴表現を抽出し、ラベル付き例を限定した下流タスクの微調整を可能にするアプローチである。 セルフプレトレーニング(Self-pretraining)は、ネットワークの事前トレーニングと微調整の両方に、キュレートされたタスクデータセットを使用するSSLアプローチである。 大規模で多様で未修正の公開医療画像セットの可用性は、SSLを"ワイルド"に適用する機会を与え、画像のバリエーションに堅牢な特徴を抽出する可能性がある。 しかし, 医用画像解析において, ワイルド対セルフプレトレーニングの利点は研究されていない。 本稿では,非小細胞肺癌 (NSCLC) 領域のCT画像差に対して, 野生型と自励型トランスフォーマー (ビジョントランス (ViT) モデルと階層型シフトウインドウ (Swin) モデルのロバスト性を比較した。 ワイルドプレトレーニングされたSwinモデルは、様々な画像取得において自己プレトレーニングされたSwinよりも優れていた。 ViTはワイルドモデルとセルフプレトレーニングモデルの両方で同様の精度を実現した。 局所構造を学習するようネットワークに強制するマスク付き画像予測プレテキストタスクは、グローバルな画像情報をモデル化する対照的なタスクよりも精度が高い結果となった。 ワイルドプレトレーニングされたモデルでは,低レベル層での高機能再利用が達成され,微調整後の出力層に近い特徴分化が得られた。 以上の結果より, 肺腫瘍の分画におけるCT像像の違いを自己前置法より解析する上で, 野生前置型ネットワークはより堅牢であった。 Swinアーキテクチャは、ViT以上の事前トレーニングの恩恵を受けました。

Self-supervised learning (SSL) is an approach to extract useful feature representations from unlabeled data, and enable fine-tuning on downstream tasks with limited labeled examples. Self-pretraining is a SSL approach that uses the curated task dataset for both pretraining the networks and fine-tuning them. Availability of large, diverse, and uncurated public medical image sets provides the opportunity to apply SSL in the "wild" and potentially extract features robust to imaging variations. However, the benefit of wild- vs self-pretraining has not been studied for medical image analysis. In this paper, we compare robustness of wild versus self-pretrained transformer (vision transformer [ViT] and hierarchical shifted window [Swin]) models to computed tomography (CT) imaging differences for non-small cell lung cancer (NSCLC) segmentation. Wild-pretrained Swin models outperformed self-pretrained Swin for the various imaging acquisitions. ViT resulted in similar accuracy for both wild- and self-pretrained models. Masked image prediction pretext task that forces networks to learn the local structure resulted in higher accuracy compared to contrastive task that models global image information. Wild-pretrained models resulted in higher feature reuse at the lower level layers and feature differentiation close to output layer after fine-tuning. Hence, we conclude: Wild-pretrained networks were more robust to analyzed CT imaging differences for lung tumor segmentation than self-pretrained methods. Swin architecture benefited from such pretraining more than ViT.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# ブラックボックスを超えて - より複雑なモデルは、より優れたXAI説明を提供するか?

Beyond the Black Box: Do More Complex Models Provide Superior XAI Explanations? ( http://arxiv.org/abs/2405.08658v1 )

ライセンス: Link先を確認
Mateusz Cedro, Marcin Chlebus, (参考訳) 人工知能モデルの複雑さの増大は、特に医療分野において、解釈可能性に課題をもたらす。 本研究では,4つのResNetアーキテクチャ(ResNet-18,34,50,101)を用いて,ディープラーニングモデルの複雑性と説明可能なAI(XAI)の有効性について検討した。 新型コロナウイルスに感染した健康な患者の肺X線画像4,369枚に対する方法実験を通じて、モデルによる分類性能と、それに対応するXAI説明との関連性を評価した。 その結果、モデル複雑性の増加は分類精度の低下とAUC-ROCスコア(ResNet-18:98.4%、0.997; ResNet-101:95.9%、0.988)と関連していることが示された。 特に、12の統計的テストのうち11の段階では、XAIの定量的測定値 – 関連ランク精度と提案された正の属性比 – の間に、トレーニングされたモデル間で統計的に有意な差はなかった。 これらの結果から,モデル複雑性の増大は,モデルの意思決定プロセスにおける高い性能や説明の関連性をもたらすものではないことが示唆された。

The increasing complexity of Artificial Intelligence models poses challenges to interpretability, particularly in the healthcare sector. This study investigates the impact of deep learning model complexity and Explainable AI (XAI) efficacy, utilizing four ResNet architectures (ResNet-18, 34, 50, 101). Through methodical experimentation on 4,369 lung X-ray images of COVID-19-infected and healthy patients, the research evaluates models' classification performance and the relevance of corresponding XAI explanations with respect to the ground-truth disease masks. Results indicate that the increase in model complexity is associated with a decrease in classification accuracy and AUC-ROC scores (ResNet-18: 98.4%, 0.997; ResNet-101: 95.9%, 0.988). Notably, in eleven out of twelve statistical tests performed, no statistically significant differences occurred between XAI quantitative metrics - Relevance Rank Accuracy and the proposed Positive Attribution Ratio - across trained models. These results suggest that increased model complexity does not consistently lead to higher performance or relevance of explanations for models' decision-making processes.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 確率的および決定論的モデルにおける勾配推定とばらつき低減

Gradient Estimation and Variance Reduction in Stochastic and Deterministic Models ( http://arxiv.org/abs/2405.08661v1 )

ライセンス: Link先を確認
Ronan Keane, (参考訳) 現代のコンピュータ、計算、データは、科学研究や発見においてますます重要な役割を担っているようだ。 これは、機械学習と人工知能の台頭によって部分的に反映され、コンピュータ科学だけでなく、他の多くの研究分野にも大きな関心が寄せられている。 より一般的には、より大きく、より複雑で、より高いキャパシティモデルの使用に向かっている傾向があります。 また、既存の決定論的モデルの確率的モデルや確率的変種が、様々な分野において重要な研究方向となったようである。 これらすべてのモデルに対して、勾配に基づく最適化はモデルフィッティング、制御などの主要なパラダイムとして残っています。 この論文は、勾配そのものに焦点をあて、制約のない非線形最適化問題を考える。 第1章では、勾配の効率的な計算を可能にする手法の体系を記述する逆微分の概念を紹介した。 決定的および確率的ケースの両方において、関連するテクニックを取り上げる。 決定的要素と確率的要素の両方を含む問題の勾配を計算するための新しい枠組みを提案する。 第2章では、最適化アルゴリズムの収束証明において典型的に仮定される特性に着目し、勾配推定器の特性を分析する。 第3章は、我々の新しい勾配推定器を適用する様々な例を示す。 さらに、個別のブランチを持つモデルと、使用する特定のブランチを定義するステートメントについて、断片的に連続するモデルを扱うという考え方についても検討する。

It seems that in the current age, computers, computation, and data have an increasingly important role to play in scientific research and discovery. This is reflected in part by the rise of machine learning and artificial intelligence, which have become great areas of interest not just for computer science but also for many other fields of study. More generally, there have been trends moving towards the use of bigger, more complex and higher capacity models. It also seems that stochastic models, and stochastic variants of existing deterministic models, have become important research directions in various fields. For all of these types of models, gradient-based optimization remains as the dominant paradigm for model fitting, control, and more. This dissertation considers unconstrained, nonlinear optimization problems, with a focus on the gradient itself, that key quantity which enables the solution of such problems. In chapter 1, we introduce the notion of reverse differentiation, a term which describes the body of techniques which enables the efficient computation of gradients. We cover relevant techniques both in the deterministic and stochastic cases. We present a new framework for calculating the gradient of problems which involve both deterministic and stochastic elements. In chapter 2, we analyze the properties of the gradient estimator, with a focus on those properties which are typically assumed in convergence proofs of optimization algorithms. Chapter 3 gives various examples of applying our new gradient estimator. We further explore the idea of working with piecewise continuous models, that is, models with distinct branches and if statements which define what specific branch to use.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 科学におけるAIエクイティの促進: アクセシブルVLM研究のための汎用ドメインプロンプト学習

Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research ( http://arxiv.org/abs/2405.08668v1 )

ライセンス: Link先を確認
Qinglong Cao, Yuntian Chen, Lu Lu, Hao Sun, Zhenzhong Zeng, Xiaokang Yang, Dongxiao Zhang, (参考訳) 大規模ビジョンランゲージモデル(VLM)は、自然視タスクにおいて例外的な性能を示し、ドメインをまたいだ研究者がドメイン固有のVLMを探索する動機となっている。 しかし、強力なドメイン固有のVLMの構築には、大量の注釈付きデータ、相当な電気エネルギー、計算資源が要求される。 この課題に対処し、持続的で公平なVLM研究を促進するために、一般化ドメインプロンプト学習(GDPL)フレームワークを提案する。 GDPLは、広範囲のデータやリソースを必要とせずに、VLMの堅牢な認識能力を自然視から特殊領域に移行することを容易にする。 小規模のドメイン固有基盤モデルと最小限のプロンプトサンプルを活用することで、GDPLは、ドメイン固有の視覚特徴と自然な視覚ベースのコンテキスト埋め込みの間の相互関係を明らかにする4つのネットワークを通じて、ドメイン知識を持つ言語ブランチを強化します。 同時にGDPLは、よく整合した視覚言語関係に基づく、生成した視覚プロンプトの特徴の階層的伝播を通じて、視覚分岐を特定の領域に導く。 さらに,VLMの領域適応能力をフル活用するために,新しい低ランク適応手法を導入する。 リモートセンシング、医用イメージング、地質学、合成開口レーダ、流体力学といった多様な領域にわたる広範な実験は、GDPLの有効性を検証し、即時学習パラダイムで最先端のドメイン認識性能を達成する能力を示す。 我々の枠組みは、学術と産業の障壁を超越し、持続的で包括的なVLM研究の道を開く。

Large-scale Vision-Language Models (VLMs) have demonstrated exceptional performance in natural vision tasks, motivating researchers across domains to explore domain-specific VLMs. However, the construction of powerful domain-specific VLMs demands vast amounts of annotated data, substantial electrical energy, and computing resources, primarily accessible to industry, yet hindering VLM research in academia. To address this challenge and foster sustainable and equitable VLM research, we present the Generalized Domain Prompt Learning (GDPL) framework. GDPL facilitates the transfer of VLMs' robust recognition capabilities from natural vision to specialized domains, without the need for extensive data or resources. By leveraging small-scale domain-specific foundation models and minimal prompt samples, GDPL empowers the language branch with domain knowledge through quaternion networks, uncovering cross-modal relationships between domain-specific vision features and natural vision-based contextual embeddings. Simultaneously, GDPL guides the vision branch into specific domains through hierarchical propagation of generated vision prompt features, grounded in well-matched vision-language relations. Furthermore, to fully harness the domain adaptation potential of VLMs, we introduce a novel low-rank adaptation approach. Extensive experiments across diverse domains like remote sensing, medical imaging, geology, Synthetic Aperture Radar, and fluid dynamics, validate the efficacy of GDPL, demonstrating its ability to achieve state-of-the-art domain recognition performance in a prompt learning paradigm. Our framework paves the way for sustainable and inclusive VLM research, transcending the barriers between academia and industry.
翻訳日:2024-05-15 13:49:19 公開日:2024-05-14
# 格子ボルツマン流体シミュレーションのための量子回路モデル

Quantum Circuit Model for Lattice Boltzmann Fluid Flow Simulations ( http://arxiv.org/abs/2405.08669v1 )

ライセンス: Link先を確認
Dinesh Kumar E, Steven H. Frankel, (参考訳) 本稿では,低レイノルズ数(Re$)条件下での流動方程式を解くための格子ボルツマン法(LBM)の量子計算アルゴリズムを提案する。 まず,LBM衝突とストリーミング演算子を行列形式で表現する。 量子論理ゲートは一般にユニタリ行列として表現されるので、まずはユニタリの積としてLBM演算を分解する。 LBMの粒子分布関数(PDF)は、量子状態の確率振幅として符号化される。 我々は状態ベクトル(SV)の振幅が影響を受けることを観察した。 i) 量子状態の準備中にPDFを符号化するか (ii) 古典的なLBM実装のように, 衝突後にストリーミングを行う。 第1のケースでは、量子状態の準備中に、アンシラ量子ビットが計算量子ビットと重畳されなければならないことを示す。 重ね合わせにより、SVは、アンシラを別のレジスタに置くのではなく、アンシラキュービットによって提供されるヒルベルト空間の増大を利用することができる。 次に,ストリーミング操作の前に中間のアダマールゲートを持つことで,第2の問題を解くことができることを示す。 提案アルゴリズムは,ガウス丘陵の対流拡散,ポワゼイユ流,クーエット流,蓋駆動キャビティ問題などの典型的なベンチマーク問題を通じて検証されている。 結果は、それぞれの解析的あるいは参照的解を用いて検証される。 ユニタリを量子ゲート(回路合成)に変換することは、ユニタリ行列を複数の方法で分解できるため、主要な課題となる。 CNOT および U ゲート数について,9 から12 までの範囲で検討した。 ゲート数は理論的な極限と密接に一致するが、2つのキュービットゲートの数は$O(10^7)$である。

In the present contribution, we propose a quantum computational algorithm for the Lattice Boltzmann Method (LBM) to solve fluid flow equations in the low Reynolds number ($Re$) regime. Firstly, we express the LBM collision and streaming operators in matrix form. Since quantum logic gates are typically expressed as unitary matrices, we first decompose LBM operations as a product of unitaries. The particle distribution functions (PDFs) of LBM are encoded as probability amplitudes of the quantum state. We have observed that the amplitudes in the state vector (SV) can be affected: (i) by the choice of encoding the PDFs during the quantum state preparation or (ii) when collision is followed by streaming, as in classical LBM implementation. In the first case, we show that the ancilla qubit must be in superposition with the compute qubits during the quantum state preparation. The superposition allows the SV to utilize the increased Hilbert space offered by the ancilla qubit rather than placing the ancilla in a separate register, which restricts the space of possible outcomes. Next, we show that the second issue can be resolved by having an intermediate Hadamard gate before the streaming operation. The proposed algorithm has been tested through typical benchmark problems like advection-diffusion of a Gaussian hill, Poiseuille flow, Couette flow, and the lid-driven cavity problem. The results are validated with the respective analytic or reference solutions. Translating the unitaries into quantum gates (circuit synthesis) presents a primary challenge, as a unitary matrix can be decomposed in multiple ways. We report on the CNOT and U gate counts obtained for the test cases with the range of qubits from 9 to 12. Although the gate count closely agrees with the theoretical limit, the number of two qubit gates is in the $O(10^7)$ prompts special attention to circuit synthesis.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 内視鏡カメラを用いた自己監督深度推定のための効率的な適応基盤モデル

EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera ( http://arxiv.org/abs/2405.08672v1 )

ライセンス: Link先を確認
Beilei Cui, Mobarakol Islam, Long Bai, An Wang, Hongliang Ren, (参考訳) 深度推定は、ナビゲーション、表面再構成、拡張現実の可視化など、内視鏡手術における様々なタスクにおいて重要な役割を果たす。 深度推定を含む視覚タスクにおける基礎モデルの顕著な成果にもかかわらず、医療領域への直接適用は、しばしば最適以下のパフォーマンスをもたらす。 このことは、これらのモデルを内視鏡的深度推定に適応させる効率的な適応法の必要性を強調している。 本研究では,内視鏡的シーンに基礎モデルを適用する,効率的な自己監督深度推定フレームワークである内視鏡深度カメラ(EndoDAC)を提案する。 具体的には,DV-LoRA (Dynamic Vector-Based Low-Rank Adaptation) を開発した。 また、カメラ情報が常にアクセス可能であるとは限らないことを踏まえ、ポーズエンコーダを用いてカメラ固有の情報を推定する自己教師型適応戦略を導入する。 当社のフレームワークは,任意のカメラからの単眼手術ビデオのみをトレーニングし,最小限のトレーニングコストを確保できる。 実験により,本手法は訓練のエポックを少なくし,地上の真理カメラの内在性を知らない場合でも,優れた性能が得られることが示された。 コードはhttps://github.com/BeileiCui/EndoDACで入手できる。

Depth estimation plays a crucial role in various tasks within endoscopic surgery, including navigation, surface reconstruction, and augmented reality visualization. Despite the significant achievements of foundation models in vision tasks, including depth estimation, their direct application to the medical domain often results in suboptimal performance. This highlights the need for efficient adaptation methods to adapt these models to endoscopic depth estimation. We propose Endoscopic Depth Any Camera (EndoDAC) which is an efficient self-supervised depth estimation framework that adapts foundation models to endoscopic scenes. Specifically, we develop the Dynamic Vector-Based Low-Rank Adaptation (DV-LoRA) and employ Convolutional Neck blocks to tailor the foundational model to the surgical domain, utilizing remarkably few trainable parameters. Given that camera information is not always accessible, we also introduce a self-supervised adaptation strategy that estimates camera intrinsics using the pose encoder. Our framework is capable of being trained solely on monocular surgical videos from any camera, ensuring minimal training costs. Experiments demonstrate that our approach obtains superior performance even with fewer training epochs and unaware of the ground truth camera intrinsics. Code is available at https://github.com/BeileiCui/EndoDAC.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 拡散モデルに基づく多目的ベイズ最適化

Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models ( http://arxiv.org/abs/2405.08674v1 )

ライセンス: Link先を確認
Bingdong Li, Zixiang Di, Yongfan Lu, Hong Qian, Feng Wang, Peng Yang, Ke Tang, Aimin Zhou, (参考訳) 多目的ベイズ最適化(MOBO)は、様々な高価な多目的最適化問題(EMOP)において有望な性能を示す。 しかし、パレート最適解の複素分布を効果的にモデル化することは、限定的な関数評価では困難である。 既存のPareto集合学習アルゴリズムは、そのような高価なシナリオにおいてかなりの不安定性を示し、得られた解集合とPareto集合(PS)の間に大きなずれをもたらす可能性がある。 本稿では,高価なMOBOのための合成拡散モデルに基づくパレートセット学習アルゴリズム,すなわちCDM-PSLを提案する。 CDM-PSLは、高品質なサンプルを生成するための条件付き拡散モデルと条件付き拡散モデルの両方を含んでいる。 さらに,情報エントロピーに基づく重み付け手法を導入し,EMOPの異なる目的のバランスをとる。 本手法は, 最適化過程において, 全ての目的が適切にバランスを保ち, 十分に考慮されていることを保証し, 提案手法を組み込むことにより, 提案手法が各種MOBOアルゴリズムよりも優れた性能を示すことを示す。

Multi-objective Bayesian optimization (MOBO) has shown promising performance on various expensive multi-objective optimization problems (EMOPs). However, effectively modeling complex distributions of the Pareto optimal solutions is difficult with limited function evaluations. Existing Pareto set learning algorithms may exhibit considerable instability in such expensive scenarios, leading to significant deviations between the obtained solution set and the Pareto set (PS). In this paper, we propose a novel Composite Diffusion Model based Pareto Set Learning algorithm, namely CDM-PSL, for expensive MOBO. CDM-PSL includes both unconditional and conditional diffusion model for generating high-quality samples. Besides, we introduce an information entropy based weighting method to balance different objectives of EMOPs. This method is integrated with the guiding strategy, ensuring that all the objectives are appropriately balanced and given due consideration during the optimization process; Extensive experimental results on both synthetic benchmarks and real-world problems demonstrates that our proposed algorithm attains superior performance compared with various state-of-the-art MOBO algorithms.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 自動微分と確率計画による偏見推論の簡易化

Simplifying Debiased Inference via Automatic Differentiation and Probabilistic Programming ( http://arxiv.org/abs/2405.08675v1 )

ライセンス: Link先を確認
Alex Luedtke, (参考訳) 本研究では,効率的な推定器の構築を簡略化するアルゴリズムを導入し,より広い範囲のオーディエンスに利用できるようにする。 「Dimple」は、興味のパラメータを表す入力コンピュータコードとして、効率的な推定器を出力する。 標準的なアプローチとは異なり、ユーザは効率的な影響関数として知られる関数微分を導出する必要はない。 Dimpleは、関心の統計関数に自動微分を適用することで、このタスクを回避している。 そのためには、この機能を、新しい微分可能性条件を満たすプリミティブの合成として表現する必要がある。 また、Dimpleはこの構成を使って見積もるべき問題を決定する。 ソフトウェアでは、プリミティブは互いに独立して実装でき、異なる推定問題にまたがって再利用できる。 概念実証Pythonの実装を提供し、パラメータ仕様から数行のコードで効率的に推定できる方法の例を紹介します。

We introduce an algorithm that simplifies the construction of efficient estimators, making them accessible to a broader audience. 'Dimple' takes as input computer code representing a parameter of interest and outputs an efficient estimator. Unlike standard approaches, it does not require users to derive a functional derivative known as the efficient influence function. Dimple avoids this task by applying automatic differentiation to the statistical functional of interest. Doing so requires expressing this functional as a composition of primitives satisfying a novel differentiability condition. Dimple also uses this composition to determine the nuisances it must estimate. In software, primitives can be implemented independently of one another and reused across different estimation problems. We provide a proof-of-concept Python implementation and showcase through examples how it allows users to go from parameter specification to efficient estimation with just a few lines of code.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 一般音声表現学習のための統合組込み予測アーキテクチャにおける設計選択の検討

Investigating Design Choices in Joint-Embedding Predictive Architectures for General Audio Representation Learning ( http://arxiv.org/abs/2405.08679v1 )

ライセンス: Link先を確認
Alain Riou, Stefan Lattner, Gaëtan Hadjeres, Geoffroy Peeters, (参考訳) 本稿では,自己教師型汎用音声表現学習の課題に対処する。 本稿では、入力メルスペクトルを2つの部分(コンテキストとターゲット)に分割し、それぞれに神経表現を演算し、コンテキスト表現からターゲット表現を予測するニューラルネットワークをトレーニングする、JEPA(Joint-Embedding Predictive Architectures)の利用について検討する。 本研究では, 環境音, 音声, 音楽のダウンストリームタスクなど, 様々な音響分類ベンチマークにおいて, モデルの評価を行い, その影響について検討する。 入力データのどの部分がコンテキストやターゲットとして使用されるかに特化して、モデルの品質に大きな影響を与えることを実験的に示します。 特に、画像領域における効果的な設計選択が、オーディオの性能低下を招き、これらの2つのモードの大きな違いを浮き彫りにする。

This paper addresses the problem of self-supervised general-purpose audio representation learning. We explore the use of Joint-Embedding Predictive Architectures (JEPA) for this task, which consists of splitting an input mel-spectrogram into two parts (context and target), computing neural representations for each, and training the neural network to predict the target representations from the context representations. We investigate several design choices within this framework and study their influence through extensive experiments by evaluating our models on various audio classification benchmarks, including environmental sounds, speech and music downstream tasks. We focus notably on which part of the input data is used as context or target and show experimentally that it significantly impacts the model's quality. In particular, we notice that some effective design choices in the image domain lead to poor performance on audio, thus highlighting major differences between these two modalities.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 一般化不確実性原理歪曲クインテッセンスダイナミクス

Generalized uncertainty principle distorted quintessence dynamics ( http://arxiv.org/abs/2405.08680v1 )

ライセンス: Link先を確認
Gaurav Bhandari, S. D. Pathak, Manabendra Sharma, Anzhong Wang, (参考訳) 本稿では、ポテンシャルを持つクインテッセンスススカラー場によって駆動される宇宙に対して、対称性還元された宇宙ハミルトニアンにおける一般化不確実性原理(GUP)を導出する。 我々の研究は、半古典的体制に焦点を当てている。 特に、 GUP が歪んだフリードマン、レイショードリ、クライン=ゴルドン方程式を導出する。 これに続いて、ポテンシャル $V(\phi) = V_0 \sinh^{-n}{(\mu \phi)}$ の選択に対する定性的力学の体系的解析が行われる。 これは、適切な力学変数を選択して、方程式の自律力学系を構築し、続いて線形安定理論を用いた定性的な研究を行う。 解析の結果, GUPを組み込むことで, GUPをオフにすることで, 量子効果のない制限の場合と比較して, 既存の固定点を著しく変化させることがわかった。

In this paper, we invoke a generalized uncertainty principle (GUP) in the symmetry-reduced cosmological Hamiltonian for a universe driven by a quintessence scalar field with potential. Our study focuses on semi-classical regime. In particular, we derive the GUP-distorted Friedmann, Raychaudhuri, and the Klein-Gordon equation. This is followed by a systematic analysis of the qualitative dynamics for the choice of potential $V(\phi)= V_0 \sinh^{-n}{(\mu \phi)}$. This involves constructing an autonomous dynamical system of equations by choosing appropriate dynamical variables, followed by a qualitative study using linear stability theory. Our analysis shows that incorporating GUP significantly changes the existing fixed points compared to the limiting case without quantum effects by switching off the GUP.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 皮膚疾患診断におけるチャンネルプルーニングによるフェアネスの獲得

Achieving Fairness Through Channel Pruning for Dermatological Disease Diagnosis ( http://arxiv.org/abs/2405.08681v1 )

ライセンス: Link先を確認
Qingpeng Kong, Ching-Hao Chiu, Dewen Zeng, Yu-Jen Chen, Tsung-Yi Ho, Jingtong hu, Yiyu Shi, (参考訳) 多くの研究が、ディープラーニングに基づく医療画像分類モデルが、人種、性別、年齢などの特定の人口特性に偏りを示す可能性があることを明らかにしている。 既存のバイアス緩和法は、しばしばかなりの精度の劣化を犠牲にして高い公平性を達成する。 この課題に対応するために、我々は、チャンネルプルーニングによる公平性を実現する、革新的で適応可能なソフトニアネバーロスに基づくチャネルプルーニングフレームワークを提案する。 伝統的に、チャネルプルーニングはニューラルネットワークの推論を加速するために利用される。 しかし、我々の研究は、刈り取りが公平性を達成するための強力なツールであることを示した。 私たちの重要な洞察は、レイヤ内の異なるチャネルが、異なるグループの正確性に異なる貢献をするということです。 特権グループと特権グループの間の精度差につながる臨界チャネルを選択的に切断することにより、精度を著しく損なうことなく、効果的に公平性を向上させることができる。 複数の感度属性にまたがる2つの皮膚病変診断データセットを用いて行った実験は、精度と公平性の間の最先端のトレードオフを達成する上で、本手法の有効性を検証した。 私たちのコードはhttps://github.com/Kqp1227/Sensitive-Channel-Pruning.comで利用可能です。

Numerous studies have revealed that deep learning-based medical image classification models may exhibit bias towards specific demographic attributes, such as race, gender, and age. Existing bias mitigation methods often achieve high level of fairness at the cost of significant accuracy degradation. In response to this challenge, we propose an innovative and adaptable Soft Nearest Neighbor Loss-based channel pruning framework, which achieves fairness through channel pruning. Traditionally, channel pruning is utilized to accelerate neural network inference. However, our work demonstrates that pruning can also be a potent tool for achieving fairness. Our key insight is that different channels in a layer contribute differently to the accuracy of different groups. By selectively pruning critical channels that lead to the accuracy difference between the privileged and unprivileged groups, we can effectively improve fairness without sacrificing accuracy significantly. Experiments conducted on two skin lesion diagnosis datasets across multiple sensitive attributes validate the effectiveness of our method in achieving state-of-the-art trade-off between accuracy and fairness. Our code is available at https://github.com/Kqp1227/Sensitive-Channel-Pruning.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# スピンフリップとフロップによる反強磁性量子異常ホール効果

Antiferromagnetic Quantum Anomalous Hall Effect Modulated by Spin Flips and Flops ( http://arxiv.org/abs/2405.08686v1 )

ライセンス: Link先を確認
Zichen Lian, Yongchao Wang, Yongqian Wang, Yang Feng, Zehao Dong, Shuai Yang, Liangcai Xu, Yaoxin Li, Bohan Fu, Yuetan Li, Wanjun Jiang, Chang Liu, Jinsong Zhang, Yayu Wang, (参考訳) MnBi2Te4における非自明なバンドトポロジーと層状反強磁性の相互作用は、物質のトポロジー相を探索するための新たな道を開いた。 代表的な例としては、MnBi2Te4の奇数層と偶数層で観測された量子異常ホール効果とアクシオン絶縁体状態があり、上面と下面はそれぞれ平行なスピンアライメントと反平行なスピンアライメントを持つ。 ファンデルワールス反強磁性秩序に関連するリッチで複雑なスピンダイナミクスは、MnBi2Te4に特有の新しい位相相と相転移を生成することが期待されている。 ここでは,AlOxキャッピング層を被覆した7-Septuple層MnBi2Te4を作製し,広いパラメータ空間上での反強磁性量子異常ホール効果の研究を可能にする。 ゲート電圧と垂直磁場を調整することにより、電荷輸送におけるスピン配置の影響に起因する量子相転移のカスケードを明らかにする。 さらに、平面内磁場は、強磁性量子異常ホール状態と対照的に、表面状態の保磁力場と交換ギャップの両方を増強する。 これらの特徴は、ファンデルワールス反強磁性体に固有のスピンフリップとフロップ遷移から生じる。 MnBi2Te4における量子異常ホール効果の汎用的チューニング性は、トポロジカル反強磁性スピントロニクスにおける潜在的な応用の道を開く。

The interplay between nontrivial band topology and layered antiferromagnetism in MnBi2Te4 has opened up a new avenue for exploring topological phases of matter. Representative examples include the quantum anomalous Hall effect and axion insulator state observed in odd and even number layers of MnBi2Te4, when the top and bottom surfaces have parallel and antiparallel spin alignments respectively. The rich and complex spin dynamics associated with the van der Waals antiferromagnetic order is expected to generate novel topological phases and phase transitions that are unique to MnBi2Te4. Here we fabricate a device of 7-septuple-layer MnBi2Te4 covered with AlOx capping layer, which enables the investigation of antiferromagnetic quantum anomalous Hall effect over wide parameter spaces. By tuning the gate voltage and perpendicular magnetic field, we uncover a cascade of quantum phase transitions that can be attributed to the influence of spin configurations on charge transport. Furthermore, we find that an in-plane magnetic field enhances both the coercive field and exchange gap of the surface state, in sharp contrast to that in ferromagnetic quantum anomalous Hall state. We propose that these peculiar features arise from the spin flip and flop transitions inherent to van der Waals antiferromagnet. The versatile tunability of the quantum anomalous Hall effect in MnBi2Te4 paves the way for potential applications in topological antiferromagnetic spintronics.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 動的に分離する方法を学ぶ

Learning How to Dynamically Decouple ( http://arxiv.org/abs/2405.08689v1 )

ライセンス: Link先を確認
Arefur Rahman, Daniel J. Egger, Christian Arenz, (参考訳) 現在の量子コンピュータは、量子デバイスを構成する量子システムと環境の間の相互作用に起因するノイズに悩まされている。 これらの相互作用は動的デカップリングによって抑制され、計算誤差を低減できる。 しかし、動的デカップリングの性能は、現在存在するシステムと環境の相互作用の種類に依存するため、量子デバイスでは正確なモデルが欠落することが多い。 回転ゲートを最適化して量子ハードウェアに調整することで,動的デカップリングの性能を向上させることができることを示す。 CPMGやXY4のような標準デカップリング列と比較して, 最適化された動的デカップリング列は超伝導量子ビットのノイズを抑制するのに最適であることがわかった。 そこで本研究は,ノイズの多いハードウェアにおける回路深度と結果品質の向上を支援する既存の誤り抑制手法を改良する。

Current quantum computers suffer from noise that stems from interactions between the quantum system that constitutes the quantum device and its environment. These interactions can be suppressed through dynamical decoupling to reduce computational errors. However, the performance of dynamical decoupling depends on the type of the system-environment interactions that are present, which often lack an accurate model in quantum devices. We show that the performance of dynamical decoupling can be improved by optimizing its rotational gates to tailor them to the quantum hardware. We find that compared to canonical decoupling sequences, such as CPMG and XY4, the optimized dynamical decoupling sequences yield the best performance in suppressing noise in superconducting qubits. Our work thus enhances existing error suppression methods which helps increase circuit depth and result quality on noisy hardware.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# オープン量子系の励起状態プロトン移動と超高速非断熱ダイナミクスへの非摂動シミュレーション手法の拡張

Extending Non-Perturbative Simulation Techniques for Open-Quantum Systems to Excited-State Proton Transfer and Ultrafast Non-Adiabatic Dynamics ( http://arxiv.org/abs/2405.08693v1 )

ライセンス: Link先を確認
Brieuc Le Dé, Simon Huppert, Riccardo Spezia, Alex W. Chin, (参考訳) 励起状態プロトン移動は、光塩基と酸の超高速反応から光駆動の酵素触媒と光合成まで、生物学や化学においてユビキタスな現象である。 しかし、そのような力学のシミュレーションには、高次元の平衡外ビブロニック状態が重要な役割を担い、陽子の散逸的な実空間力学の完全な量子的記述も必要とされるため、複数の課題が伴う。 本研究は, 強力な行列生成状態のアプローチをオープン量子システム(TEDOPA)に拡張し, これらの要求されるダイナミクスや, 強いレーザー駆動を受ける複雑な光化学において現れるより一般的な非断熱過程を研究する。 図示として、まずは超高速励起状態陽子移動を駆動する数百個の分子内振動と相互作用する4レベル電子系のオープンモデルと、この系で生じる二重蛍光を直接監視できる明示的なフォトニック環境について考察する。 次に、陽子移動の連続的な「反応座標」を組み込むことで、潜在的な表面上のダイアバティック・アダバティック・ダイナミクスの慣れ親しんだ言語で理解、可視化、解釈できる数値的な正確なシミュレーションを可能にし、超高速光化学における様々な問題の研究に使用できる散逸と駆動効果の正確な量子的処理を維持できることを示した。

Excited state proton transfer is an ubiquitous phenomenon in biology and chemistry, spanning from the ultrafast reactions of photo-bases and acids to light-driven, enzymatic catalysis and photosynthesis. However, the simulation of such dynamics involves multiple challenges, since high-dimensional, out-of-equilibrium vibronic states play a crucial role, while a fully quantum description of the proton's dissipative, real-space dynamics is also required. In this work, we extend the powerful Matrix Product State approach to open quantum systems (TEDOPA) to study these demanding dynamics, and also more general non-adiabatic processes that can appear in complex photochemistry subject to strong laser driving. As an illustration, we initially consider an open model of a four-level electronic system interacting with hundreds of intramolecular vibrations that drive ultrafast excited state proton transfer, as well as an explicit photonic environment that allows us to directly monitor the resulting dual fluorescence in this system. We then demonstrate how to include a continuous 'reaction coordinate' of the proton transfer that allows numerically exact simulations that can be understood, visualized and interpreted in the familiar language of diabatic and adiabatic dynamics on potential surfaces, while also retaining an exact quantum treatment of dissipation and driving effects that could be used to study diverse problems in ultrafast photochemistry.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 量子位相推定を用いた結合振動子の計算応答関数

Calculating response functions of coupled oscillators using quantum phase estimation ( http://arxiv.org/abs/2405.08694v1 )

ライセンス: Link先を確認
Sven Danz, Mario Berta, Stefan Schröder, Pascal Kienast, Frank K. Wilhelm, Alessandro Ciani, (参考訳) 量子コンピュータを用いた結合型古典的高調波発振器系の周波数応答関数の推定問題について検討する。 これらの応答関数の関数形式は、エルミート行列 $H$ の対応する固有確率に写像できるので、量子位相推定の利用が示唆される。 提案する量子アルゴリズムは,標準的な$s$sparse,oracleベースのクエリアクセスモデルで動作する。 最大ノルム$\lVert H \rVert_{\mathrm{max}}$, and the eigenvalue tolerance$\varepsilon$ is far smaller than the least eigenvalue gap, we use $\mathcal{O}(\log(N s \lVert H \rVert_{\mathrm{max}}/\varepsilon)$ algorithmic qubits and obtained a rigorous worst-case query complexity upperbound $\mathcal{O}(s \lVert H \rVert_{\mathrm{max}}/(\delta^2 \varepsilon)$ over logarithmic factor, ここで$\deltasは、応答関数に現れる係数の精度を表す。 重要なことに、我々の提案は、悪名高い状態準備ボトルネックに悩まされず、関連する古典的手法と比較して大きな量子スピードアップを達成できる可能性がある。 指数的量子スピードアップの証明として、我々のアルゴリズムの簡単な適応が多項式時間でランダムな結束木問題を解くことを示す。 本稿では, 有限サイズ, エンド・ツー・エンドの複雑度を定量化するための潜在的な改善とともに, 実用的限界について論じる。

We study the problem of estimating frequency response functions of systems of coupled, classical harmonic oscillators using a quantum computer. The functional form of these response functions can be mapped to a corresponding eigenproblem of a Hermitian matrix $H$, thus suggesting the use of quantum phase estimation. Our proposed quantum algorithm operates in the standard $s$-sparse, oracle-based query access model. For a network of $N$ oscillators with maximum norm $\lVert H \rVert_{\mathrm{max}}$, and when the eigenvalue tolerance $\varepsilon$ is much smaller than the minimum eigenvalue gap, we use $\mathcal{O}(\log(N s \lVert H \rVert_{\mathrm{max}}/\varepsilon)$ algorithmic qubits and obtain a rigorous worst-case query complexity upper bound $\mathcal{O}(s \lVert H \rVert_{\mathrm{max}}/(\delta^2 \varepsilon) )$ up to logarithmic factors, where $\delta$ denotes the desired precision on the coefficients appearing in the response functions. Crucially, our proposal does not suffer from the infamous state preparation bottleneck and can as such potentially achieve large quantum speedups compared to relevant classical methods. As a proof-of-principle of exponential quantum speedup, we show that a simple adaptation of our algorithm solves the random glued-trees problem in polynomial time. We discuss practical limitations as well as potential improvements for quantifying finite size, end-to-end complexities for application to relevant instances.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# オブジェクトベースタスクにおけるゼロショット多ラベル動作認識における構成性の影響

The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks ( http://arxiv.org/abs/2405.08695v1 )

ライセンス: Link先を確認
Carmela Calabrese, Stefano Berti, Giulia Pasquale, Lorenzo Natale, (参考訳) ビデオにおけるマルチラベルアクション認識に対処することは、特にロボットがオブジェクトを含むタスクにおいて人間と協力する必要がある場合、動的環境におけるロボットアプリケーションにとって重要な課題である。 既存の手法はまだ、目に見えない動作を認識したり、広範囲のトレーニングデータを必要とすることに苦慮している。 これらの問題を解決するために、ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。 Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法によるゼロショット動作認識法であるVCLIPを強化する。 本手法の強みは,訓練時に2つのプロンプトしか学習せず,他の方法よりもはるかに単純である点である。 我々は、オブジェクトベースのアクションの大部分を含むCharadesデータセット上で、その単純さにもかかわらず、我々のメソッドは、完全なデータセット上の既存のメソッドに対して好意的に機能し、目に見えないアクションでテストした場合に有望なパフォーマンスを示す。 我々の貢献は,ロボットによる新しい協調作業の訓練における動詞目的クラススプリットの影響を強調し,パフォーマンスへの影響を強調し,バイアス軽減への洞察を与える。

Addressing multi-label action recognition in videos represents a significant challenge for robotic applications in dynamic environments, especially when the robot is required to cooperate with humans in tasks that involve objects. Existing methods still struggle to recognize unseen actions or require extensive training data. To overcome these problems, we propose Dual-VCLIP, a unified approach for zero-shot multi-label action recognition. Dual-VCLIP enhances VCLIP, a zero-shot action recognition method, with the DualCoOp method for multi-label image classification. The strength of our method is that at training time it only learns two prompts, and it is therefore much simpler than other methods. We validate our method on the Charades dataset that includes a majority of object-based actions, demonstrating that -- despite its simplicity -- our method performs favorably with respect to existing methods on the complete dataset, and promising performance when tested on unseen actions. Our contribution emphasizes the impact of verb-object class-splits during robots' training for new cooperative tasks, highlighting the influence on the performance and giving insights into mitigating biases.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# プライバシー問題のないフェデレーション学習のためのビザンチン耐性セキュアアグリゲーション

Byzantine-Resilient Secure Aggregation for Federated Learning Without Privacy Compromises ( http://arxiv.org/abs/2405.08698v1 )

ライセンス: Link先を確認
Yue Xia, Christoph Hofmeister, Maximilian Egger, Rawad Bitar, (参考訳) フェデレーテッド・ラーニング(FL)は大規模な機械学習において大きな可能性を秘めているが、プライバシとセキュリティの面で新たなリスクをもたらす。 我々は,ユーザデータをフェデレーターからプライベートに,他のユーザからプライベートに保ちながら,ビザンチンユーザに対してレジリエンスを提供するFLの新しいスキームであるBYITFLを提案する。 このスキームは、既存の非プライベートなFLTrustスキームに基づいて構築され、信頼スコア(TS)を通じて悪意のあるユーザを許容し、ユーザの勾配を減衰または増幅する。 信頼スコアは多項式で近似したReLU関数に基づいている。 ByITFLの分散およびプライバシ保存計算は、ラグランジュ符号化コンピューティング、検証可能な秘密共有と再ランダム化のステップを組み合わせて設計されている。 ByITFLは、情報理論の完全なプライバシーを備えたFLのための最初のビザンティンレジリエントなスキームである。

Federated learning (FL) shows great promise in large scale machine learning, but brings new risks in terms of privacy and security. We propose ByITFL, a novel scheme for FL that provides resilience against Byzantine users while keeping the users' data private from the federator and private from other users. The scheme builds on the preexisting non-private FLTrust scheme, which tolerates malicious users through trust scores (TS) that attenuate or amplify the users' gradients. The trust scores are based on the ReLU function, which we approximate by a polynomial. The distributed and privacy-preserving computation in ByITFL is designed using a combination of Lagrange coded computing, verifiable secret sharing and re-randomization steps. ByITFL is the first Byzantine resilient scheme for FL with full information-theoretic privacy.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# ファジィ知識と複雑なデータの相補性に基づく弱教師付き因果発見

Weakly-supervised causal discovery based on fuzzy knowledge and complex data complementarity ( http://arxiv.org/abs/2405.08699v1 )

ライセンス: Link先を確認
Wenrui Li, Wei Zhang, Qinghao Zhang, Xuegong Zhang, Xiaowo Wang, (参考訳) 観測データに基づく因果発見は、複雑なシステムの背後にある因果メカニズムの解読に重要である。 しかし, 既存の因果探索手法の有効性は, 先行知識の劣り, ドメインの不整合, サンプルサイズが小さい高次元データセットの課題により制限されている。 そこで本研究では,このギャップに対処するために,弱教師付きファジィ知識とデータ共駆動因果探索手法KEELを提案する。 KEELはファジィ因果知識スキーマを採用し、様々な種類のファジィ知識をカプセル化し、制約の弱さに対応する。 このスキーマは専門知識への依存を減らすだけでなく、様々な種類の限定的でエラーを起こしやすいファジィ知識が因果発見を導くことを可能にする。 因果発見の一般化と堅牢性、特に高次元および小サンプルシナリオにおいて強化することができる。 さらに, 拡張線形因果モデル(ELCM)をKEELに統合し, マルチディストリビューションと不完全データを扱う。 異なるデータセットによる大規模な実験は、精度、堅牢性、計算効率のいくつかの最先端手法よりもKEELの方が優れていることを示した。 実際のタンパク質シグナル伝達過程における因果発見のために、KEELは限られたデータでベンチマーク法より優れている。 まとめると、KEELは広い分野の専門知識の要求を緩和しつつ、より高精度で因果発見タスクに取り組むのに効果的である。

Causal discovery based on observational data is important for deciphering the causal mechanism behind complex systems. However, the effectiveness of existing causal discovery methods is limited due to inferior prior knowledge, domain inconsistencies, and the challenges of high-dimensional datasets with small sample sizes. To address this gap, we propose a novel weakly-supervised fuzzy knowledge and data co-driven causal discovery method named KEEL. KEEL adopts a fuzzy causal knowledge schema to encapsulate diverse types of fuzzy knowledge, and forms corresponding weakened constraints. This schema not only lessens the dependency on expertise but also allows various types of limited and error-prone fuzzy knowledge to guide causal discovery. It can enhance the generalization and robustness of causal discovery, especially in high-dimensional and small-sample scenarios. In addition, we integrate the extended linear causal model (ELCM) into KEEL for dealing with the multi-distribution and incomplete data. Extensive experiments with different datasets demonstrate the superiority of KEEL over several state-of-the-art methods in accuracy, robustness and computational efficiency. For causal discovery in real protein signal transduction processes, KEEL outperforms the benchmark method with limited data. In summary, KEEL is effective to tackle the causal discovery tasks with higher accuracy while alleviating the requirement for extensive domain expertise.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 自己エンコーダとディープトランスファー学習を用いて286個のCARMENES M小星の恒星パラメータを決定する

Using autoencoders and deep transfer learning to determine the stellar parameters of 286 CARMENES M dwarfs ( http://arxiv.org/abs/2405.08703v1 )

ライセンス: Link先を確認
P. Mas-Buitrago, A. González-Marcos, E. Solano, V. M. Passegger, M. Cortés-Contreras, J. Ordieres-Meré, A. Bello-García, J. A. Caballero, A. Schweitzer, H. M. Tabernero, D. Montes, C. Cifuentes, (参考訳) 深層学習(Deep Learning, DL)技術は、M小星における恒星パラメータの絶え間ない決定に使用される一連の手法の中で有望なアプローチである。 この文脈では、伝達学習は、合成的ギャップ(つまり、観測されたデータと合成データの特徴分布の違い)による結果の不確実性を緩和する上で重要な役割を果たす可能性がある。 本稿では,高分解能スペクトルから恒星パラメータを決定するために,オートエンコーダに基づく特徴量に基づくディープトランスファー学習(DTL)手法を提案する。 この手法を用いて, CARMENES法で観測された286個の小星に対して, 有効温度, 表面重力, 金属量, 投射回転速度の新たな推定値を提供する。 オートエンコーダアーキテクチャを用いて、合成PHOENIX-ACESスペクトルを投影し、CARMENESスペクトルを2つの領域の違いを低減した低次元の特徴空間に投影した。 我々はこの低次元特徴空間を畳み込みニューラルネットワークの入力として使用し、恒星パラメータの決定値を得た。 我々は,テフ,ログ,[Fe/H]について,3050~4300K,4.7~5.1dex,-0.53~0.25dexと推定された恒星パラメータを広範囲に分析した。 CARMENESデータを用いた最近の研究では,3750K以上の推定値に対するテフスケールの系統的な偏差が認められている。 合成スペクトルからM小星の恒星パラメータを決定するために,DTLに基づく手法を統合し,知識伝達に関わる高品質な測定を不要とした。 これらの結果は、観測値とPHOENIX-ACESスペクトルとの間の特徴分布の違いを緩和するDTLの大きな可能性を示している。

Deep learning (DL) techniques are a promising approach among the set of methods used in the ever-challenging determination of stellar parameters in M dwarfs. In this context, transfer learning could play an important role in mitigating uncertainties in the results due to the synthetic gap (i.e. difference in feature distributions between observed and synthetic data). We propose a feature-based deep transfer learning (DTL) approach based on autoencoders to determine stellar parameters from high-resolution spectra. Using this methodology, we provide new estimations for the effective temperature, surface gravity, metallicity, and projected rotational velocity for 286 M dwarfs observed by the CARMENES survey. Using autoencoder architectures, we projected synthetic PHOENIX-ACES spectra and observed CARMENES spectra onto a new feature space of lower dimensionality in which the differences between the two domains are reduced. We used this low-dimensional new feature space as input for a convolutional neural network to obtain the stellar parameter determinations. We performed an extensive analysis of our estimated stellar parameters, ranging from 3050 to 4300 K, 4.7 to 5.1 dex, and -0.53 to 0.25 dex for Teff, logg, and [Fe/H], respectively. Our results are broadly consistent with those of recent studies using CARMENES data, with a systematic deviation in our Teff scale towards hotter values for estimations above 3750 K. Furthermore, our methodology mitigates the deviations in metallicity found in previous DL techniques due to the synthetic gap. We consolidated a DTL-based methodology to determine stellar parameters in M dwarfs from synthetic spectra, with no need for high-quality measurements involved in the knowledge transfer. These results suggest the great potential of DTL to mitigate the differences in feature distributions between the observations and the PHOENIX-ACES spectra.
翻訳日:2024-05-15 13:39:33 公開日:2024-05-14
# 完全なコード補完 - AIをデスクトップに持ち込む

Full Line Code Completion: Bringing AI to Desktop ( http://arxiv.org/abs/2405.08704v1 )

ライセンス: Link先を確認
Anton Semenkin, Vitaliy Bibaev, Yaroslav Sokolov, Kirill Krylov, Alexey Kalina, Anna Khannanova, Danila Savenkov, Darya Rovdo, Igor Davidenko, Kirill Karnaukhov, Maxim Vakhrushev, Mikhail Kostyukov, Mikhail Podvitskii, Petr Surkov, Yaroslav Golubev, Nikita Povarov, Timofey Bryksin, (参考訳) 近年,マルチトークンコード補完問題に対するいくつかの産業的ソリューションが登場し,それぞれが大きな進歩を遂げているが,主にクラウドベースのランタイムに注目し,エンドユーザのデバイスの開発を回避している。 本稿では,JetBrainsのIntelliJプラットフォーム向けに,Full Line Code Completionと呼ばれるマルチトークンコード補完機能を構築するためのアプローチについて述べる。 この機能は構文的に正しいコードのみを推奨し、ローカルで完全に動作する。 重要な時間とメモリ消費の制限と、コード補完エンジンが満たすべき設計原則を共有しています。 エンドユーザのデバイスで完全に作業することで、コード補完エンジンは、高速でコンパクトなだけでなく、セキュアなユーザエクスペリエンスを豊かにします。 私たちは、前述の開発制約を満たすために有用なテクニックを数多く公開しています。 私たちのオンライン評価では、ツールの使用は、コード補完によって生成されたIDEの1.5倍のコードにつながることが示されています。 説明されたソリューションは当初研究者の助けを借りて始まり、2023年末にJetBrainsのIDEであるPyCharm ProとDataSpellにバンドルされました。

In recent years, several industrial solutions for the problem of multi-token code completion have appeared, each making a great advance in the area but mostly focusing on cloud-based runtime and avoiding working on the end user's device. In this work, we describe our approach for building a multi-token code completion feature for the JetBrains' IntelliJ Platform, which we call Full Line Code Completion. The feature suggests only syntactically correct code and works fully locally, i.e., data querying and the generation of suggestions happens on the end user's machine. We share important time and memory-consumption restrictions, as well as design principles that a code completion engine should satisfy. Working entirely on the end user's device, our code completion engine enriches user experience while being not only fast and compact but also secure. We share a number of useful techniques to meet the stated development constraints and also describe offline and online evaluation pipelines that allowed us to make better decisions. Our online evaluation shows that the usage of the tool leads to 1.5 times more code in the IDE being produced by code completion. The described solution was initially started with the help of researchers and was bundled into two JetBrains' IDEs - PyCharm Pro and DataSpell - at the end of 2023, so we believe that this work is useful for bridging academia and industry, providing researchers with the knowledge of what happens when complex research-based solutions are integrated into real products.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# スケーリング法則を超えて - 連想記憶によるトランスフォーマーのパフォーマンス理解

Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory ( http://arxiv.org/abs/2405.08707v1 )

ライセンス: Link先を確認
Xueyan Niu, Bo Bai, Lei Deng, Wei Han, (参考訳) Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。 この現象は経験的スケーリング法則では説明できない。 さらに、モデルがトレーニングサンプルを記憶するにつれて一般化能力が向上する。 本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。 ホップフィールドネットワークを用いた連想記憶を用いた変圧器の挙動をモデル化し,各変圧器ブロックが近似近傍探索を効果的に行うようにした。 これに基づいて,現代の連続ホップフィールドネットワークに類似したエネルギー関数を設計し,注意機構の洞察に富んだ説明を提供する。 最大化最小化手法を用いてトランスフォーマーの階層構造を捕捉する大域的エネルギー関数を構築する。 特定の条件下では、達成可能な最小のクロスエントロピー損失は、下から1とほぼ等しい定数で有界であることを示す。 2Mトークンのデータセット上でバニラ変換器を訓練するだけでなく、さまざまなデータサイズでGPT-2を用いて実験を行うことで理論結果を裏付ける。

Increasing the size of a Transformer model does not always lead to enhanced performance. This phenomenon cannot be explained by the empirical scaling laws. Furthermore, improved generalization ability occurs as the model memorizes the training samples. We present a theoretical framework that sheds light on the memorization process and performance dynamics of transformer-based language models. We model the behavior of Transformers with associative memories using Hopfield networks, such that each transformer block effectively conducts an approximate nearest-neighbor search. Based on this, we design an energy function analogous to that in the modern continuous Hopfield network which provides an insightful explanation for the attention mechanism. Using the majorization-minimization technique, we construct a global energy function that captures the layered architecture of the Transformer. Under specific conditions, we show that the minimum achievable cross-entropy loss is bounded from below by a constant approximately equal to 1. We substantiate our theoretical results by conducting experiments with GPT-2 on various data sizes, as well as training vanilla Transformers on a dataset of 2M tokens.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# ガウス過程を用いた連続弾性アクチュエータとの人間-ロボットインタラクションのためのデータ駆動力オブザーバ

Data-driven Force Observer for Human-Robot Interaction with Series Elastic Actuators using Gaussian Processes ( http://arxiv.org/abs/2405.08711v1 )

ライセンス: Link先を確認
Samuel Tesfazgi, Markus Keßler, Emilio Trigili, Armin Lederer, Sandra Hirche, (参考訳) 安全性を確保し、ユーザの行動に適応することは、物理的な人間とロボットの相互作用において最重要となる。 このように、ロボットの機械的設計に弾性アクチュエータを組み込むことは、本質的なコンプライアンスを提供するとともに、弾性成分の変形を測定することで相互作用力の粗い推定を提供するため、普及している。 観測者に基づく手法はこれらの推定を改善することが示されているが、複雑な運用環境では入手が困難であるシステムの正確なモデルに依存している。 本研究では,ガウス過程(GP)回帰を用いて未知の動的成分を学習することにより,この問題を克服する。 ベイズフィルタフレームワークにおける学習モデルを用いることで,推定精度を向上させるとともに,状態推定の信頼度測定における局所モデルの不確実性を明確に考慮するオブザーバを得る。 さらに,保証された誤差境界を導出し,安全クリティカルなアプリケーションでの使用を容易にする。 人-外骨格相互作用シナリオにおいて提案手法の有効性を実験的に示す。

Ensuring safety and adapting to the user's behavior are of paramount importance in physical human-robot interaction. Thus, incorporating elastic actuators in the robot's mechanical design has become popular, since it offers intrinsic compliance and additionally provide a coarse estimate for the interaction force by measuring the deformation of the elastic components. While observer-based methods have been shown to improve these estimates, they rely on accurate models of the system, which are challenging to obtain in complex operating environments. In this work, we overcome this issue by learning the unknown dynamics components using Gaussian process (GP) regression. By employing the learned model in a Bayesian filtering framework, we improve the estimation accuracy and additionally obtain an observer that explicitly considers local model uncertainty in the confidence measure of the state estimate. Furthermore, we derive guaranteed estimation error bounds, thus, facilitating the use in safety-critical applications. We demonstrate the effectiveness of the proposed approach experimentally in a human-exoskeleton interaction scenario.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# 一般エネルギーギャップ法則:分子の非断熱現象に対する開系ダイナミクスのアプローチ

Generalized energy gap law: An open system dynamics approach to non-adiabatic phenomena in molecules ( http://arxiv.org/abs/2405.08718v1 )

ライセンス: Link先を確認
N. S. Bassler, M. Reitz, R. Holzinger, A. Vibók, G. J. Halász, B. Gurlek, C. Genes, (参考訳) ボルン=オッペンハイマー近似の崩壊から生じる非断熱的な分子現象は、ほぼ全ての光物理および光化学過程の運命を制御し、分子やその他の固体埋め込み量子エミッタの量子効率を制限している。 単純でエレガントなエネルギーギャップ法則は、50年前に導出され、励起と基底のポテンシャルの風景の間の非断熱的結合が、エネルギーギャップに準指数依存した非放射的崩壊を引き起こすと予測された。 我々はこの理論を再検討し、振動緩和、脱落、放射損失といった重要な側面を考慮に入れた。 我々は,非放射率と低温での振動緩和率,高温での電子遷移の低下率との直接比例を示す一般の妥当性を有する閉解析解を求める。 我々の研究は、ナノスケール量子光学、オープン量子系力学、非断熱分子物理学の接続を確立する。

Non-adiabatic molecular phenomena, arising from the breakdown of the Born-Oppenheimer approximation, govern the fate of virtually all photo-physical and photochemical processes and limit the quantum efficiency of molecules and other solid-state embedded quantum emitters. A simple and elegant description, the energy gap law, was derived five decades ago, predicting that the non-adiabatic coupling between the excited and ground potential landscapes lead to non-radiative decay with a quasi-exponential dependence on the energy gap. We revisit and extend this theory to account for crucial aspects such as vibrational relaxation, dephasing, and radiative loss. We find a closed analytical solution with general validity which indicates a direct proportionality of the non-radiative rate with the vibrational relaxation rate at low temperatures, and with the dephasing rate of the electronic transition at high temperatures. Our work establishes a connection between nanoscale quantum optics, open quantum system dynamics and non-adiabatic molecular physics.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# データドリブンキャリブレーションによるシミュレーションに基づく推論におけるミススペクテーションの対処

Addressing Misspecification in Simulation-based Inference through Data-driven Calibration ( http://arxiv.org/abs/2405.08719v1 )

ライセンス: Link先を確認
Antoine Wehenkel, Juan L. Gamella, Ozan Sener, Jens Behrmann, Guillermo Sapiro, Marco Cuturi, Jörn-Henrik Jacobsen, (参考訳) 生成モデリングの着実に進歩により、シミュレーションベース推論(SBI)は確率的シミュレータ上での推論を可能にした。 しかし、最近の研究により、モデルの不特定がSBIの信頼性を損なうことが示されている。 本研究は, モデル誤特定を克服し, 地上真実パラメータ測定の小さな実世界の校正セットであるロバスト後部推定(ROPE)を導入する。 実世界の学習された表現とシミュレーションされた観察の間の最適輸送問題の解として、誤特定ギャップを定式化する。 本手法は, 対象パラメータに対する事前分布がよく知られ, 適切に特定されていることを前提として, キャリブレーションされた不確実性と, シミュレータのあらゆる不特定性の下での情報的推測との制御可能なバランスを与える。 4つの合成課題と2つの実世界の問題に関する実証実験の結果、ROPEはベースラインを上回り、情報的および校正された信頼区間を一貫して返却することを示した。

Driven by steady progress in generative modeling, simulation-based inference (SBI) has enabled inference over stochastic simulators. However, recent work has demonstrated that model misspecification can harm SBI's reliability. This work introduces robust posterior estimation (ROPE), a framework that overcomes model misspecification with a small real-world calibration set of ground truth parameter measurements. We formalize the misspecification gap as the solution of an optimal transport problem between learned representations of real-world and simulated observations. Assuming the prior distribution over the parameters of interest is known and well-specified, our method offers a controllable balance between calibrated uncertainty and informative inference under all possible misspecifications of the simulator. Our empirical results on four synthetic tasks and two real-world problems demonstrate that ROPE outperforms baselines and consistently returns informative and calibrated credible intervals.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# I-CTRL:制約強化学習によるヒューマノイドロボットの制御

I-CTRL: Imitation to Control Humanoid Robots Through Constrained Reinforcement Learning ( http://arxiv.org/abs/2405.08726v1 )

ライセンス: Link先を確認
Yashuai Yan, Esteve Valls Mascaro, Tobias Egle, Dongheui Lee, (参考訳) 本稿では,人間から人間へのリターゲティング手法によって視覚的類似性が高いにもかかわらず,身体領域における現実的な実行に欠けるロボット動作の精細化の必要性について論じる。 グラフィックコミュニティの既存の技術は、物理ベースの実現可能性よりも視覚的忠実さを優先することが多く、実践的なアプリケーションに二足歩行システムを展開する上で大きな課題となっている。 本研究は,人間軌道の追従に成功しながら,運動類似性を高めた脚付きヒューマノイドロボットに対して,物理に基づく高品質な動作模倣を実現するための拘束強化学習アルゴリズムを提案する。 フレームワークをI-CTRLと名付けます。 運動模倣問題を、非物理学に基づく再ターゲット運動に対する制約付き洗練として再構成することにより、4つのロボットにまたがる単純で独特な報酬で、運動模倣に優れる。 さらに,我々のフレームワークは,RLエージェントを用いた大規模動作データセットを追従することができる。 提案手法は,2足歩行ロボットの制御を前進させる上で重要なステップであり,視覚的および身体的リアリズムを協調させることの重要性を強調している。

This paper addresses the critical need for refining robot motions that, despite achieving a high visual similarity through human-to-humanoid retargeting methods, fall short of practical execution in the physical realm. Existing techniques in the graphics community often prioritize visual fidelity over physics-based feasibility, posing a significant challenge for deploying bipedal systems in practical applications. Our research introduces a constrained reinforcement learning algorithm to produce physics-based high-quality motion imitation onto legged humanoid robots that enhance motion resemblance while successfully following the reference human trajectory. We name our framework: I-CTRL. By reformulating the motion imitation problem as a constrained refinement over non-physics-based retargeted motions, our framework excels in motion imitation with simple and unique rewards that generalize across four robots. Moreover, our framework can follow large-scale motion datasets with a unique RL agent. The proposed approach signifies a crucial step forward in advancing the control of bipedal robots, emphasizing the importance of aligning visual and physical realism for successful motion imitation.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# 低リソースイベント抽出のためのターゲット拡張

Targeted Augmentation for Low-Resource Event Extraction ( http://arxiv.org/abs/2405.08729v1 )

ライセンス: Link先を確認
Sijia Wang, Lifu Huang, (参考訳) 低リソース情報抽出の課題に対処することは、限られたトレーニング例において固有の情報不足が原因で、現在も進行中の課題である。 既存のデータ拡張手法は、潜在的な解決策として、弱い増強(例えば、同義拡大)と急激な増強(例えば、適切なガイダンスのない条件生成)のバランスをとるのに苦労する。 本稿では,多様性,極性,正確性,コヒーレンスを向上した拡張例を生成するために,対象拡張とバックバリデーションを用いた新しいパラダイムを提案する。 大規模な実験結果から,提案手法の有効性が示された。 さらに、特定された制限について論じ、今後の改善に向けての領域に光を当てる。

Addressing the challenge of low-resource information extraction remains an ongoing issue due to the inherent information scarcity within limited training examples. Existing data augmentation methods, considered potential solutions, struggle to strike a balance between weak augmentation (e.g., synonym augmentation) and drastic augmentation (e.g., conditional generation without proper guidance). This paper introduces a novel paradigm that employs targeted augmentation and back validation to produce augmented examples with enhanced diversity, polarity, accuracy, and coherence. Extensive experimental results demonstrate the effectiveness of the proposed paradigm. Furthermore, identified limitations are discussed, shedding light on areas for future improvement.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# SDFの微分可能レンダリングへの簡易的アプローチ

A Simple Approach to Differentiable Rendering of SDFs ( http://arxiv.org/abs/2405.08733v1 )

ライセンス: Link先を確認
Zichen Wang, Xi Deng, Ziyi Zhang, Wenzel Jakob, Steve Marschner, (参考訳) 本稿では,SDF (Signed Distance Fields) で表される曲面の微分可能レンダリングアルゴリズムを提案する。 非微分可能で既存の物理ベースで差別化可能なレンダリング手法を、データ構造を精巧に導いたり、分散に世界的影響を与えるような再パラメータ化に依存することが多い、可視性に関連するデリバティブに対処する。 本稿では、低分散とアーキテクチャの単純さと引き換えに、非ゼロバイアスを受け入れる代替案について検討する。 提案手法は,下面がSDFで表される場合のサンプリングが容易な細い帯域に低次元境界積分を拡大する。 エンドツーエンドの逆レンダリングタスクでは,既存の作業と競合する,あるいは優れている結果が得られるという,私たちの定式化のパフォーマンスと堅牢さを実証する。

We present a simple algorithm for differentiable rendering of surfaces represented by Signed Distance Fields (SDF), which makes it easy to integrate rendering into gradient-based optimization pipelines. To tackle visibility-related derivatives that make rendering non-differentiable, existing physically based differentiable rendering methods often rely on elaborate guiding data structures or reparameterization with a global impact on variance. In this article, we investigate an alternative that embraces nonzero bias in exchange for low variance and architectural simplicity. Our method expands the lower-dimensional boundary integral into a thin band that is easy to sample when the underlying surface is represented by an SDF. We demonstrate the performance and robustness of our formulation in end-to-end inverse rendering tasks, where it obtains results that are competitive with or superior to existing work.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# 非平衡量子力学における2時間積分微分方程式の適応時間ステッピング

Adaptive Time Stepping for a Two-Time Integro-Differential Equation in Non-Equilibrium Quantum Dynamics ( http://arxiv.org/abs/2405.08737v1 )

ライセンス: Link先を確認
Thomas Blommel, David J. Gardner, Carol S. Woodward, Emanuel Gull, (参考訳) 非平衡グリーン関数は量子系に対する一体観測器へのアクセスを与える。 特に興味深いのは密度、電流、吸収スペクトルなどの量であり、量子輸送と分光の実験結果の解釈に重要である。 本稿では,グリーン関数の運動方程式であるカダノフ・バイム方程式(KBE)の統合スキームを提案する。 我々は、KBEを自己整合的に解くことの重要性を分析し、正確な結果を得るためには、履歴積分評価の順序の順応が重要であることを示す。 提案手法の効率性を検討するため,複数のテストシステムに対して,実行時と最先端の固定時間ステップ積分器を比較し,同様の精度で桁違いの高速化を示す。

The non-equilibrium Green's function gives access to one-body observables for quantum systems. Of particular interest are quantities such as density, currents, and absorption spectra which are important for interpreting experimental results in quantum transport and spectroscopy. We present an integration scheme for the Green's function's equations of motion, the Kadanoff-Baym equations (KBE), which is both adaptive in the time integrator step size and method order as well as the history integration order. We analyze the importance of solving the KBE self-consistently and show that adapting the order of history integral evaluation is important for obtaining accurate results. To examine the efficiency of our method, we compare runtimes to a state of the art fixed time step integrator for several test systems and show an order of magnitude speedup at similar levels of accuracy.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# Reinformer: オフラインRLのための最大戻りシーケンスモデリング

Reinformer: Max-Return Sequence Modeling for offline RL ( http://arxiv.org/abs/2405.08740v1 )

ライセンス: Link先を確認
Zifeng Zhuang, Dengyun Peng, jinxin Liu, Ziqi Zhang, Donglin Wang, (参考訳) データ駆動型パラダイムとして、オフライン強化学習(RL)は、リターン、ゴール、将来の軌道を含む後見情報に基づく条件をシーケンスモデリングとして定式化されている。 有望ではあるが、この教師付きパラダイムはリターンを最大化するRLの中核的な目的を見落としている。 この見落としは、準最適データから学習するシーケンスモデルに影響を与える軌道縫合能力の欠如に直接繋がる。 そこで本研究では,戻り値の最大化という目標を既存シーケンスモデルに組み込む,最大復帰シーケンスモデリングの概念を導入する。 本稿では,RLの目的によってシーケンスモデルが強化されていることを示すReinforced Transformer(Reinformer)を提案する。 Reinformerはまた、トレーニングフェーズにおけるリターンの最大化という目的も取り入れており、ディストリビューション内での最大将来のリターンを予測することを目的としている。 推論中、この分布内最大戻り値は最適なアクションの選択を導く。 実証的には、ReinformerはD4RLベンチマークの古典的なRL手法と競合し、特に軌道縫合能力において最先端のシーケンスモデルより優れている。 コードは \url{https://github.com/Dragon-Zhuang/Reinformer} で公開されている。

As a data-driven paradigm, offline reinforcement learning (RL) has been formulated as sequence modeling that conditions on the hindsight information including returns, goal or future trajectory. Although promising, this supervised paradigm overlooks the core objective of RL that maximizes the return. This overlook directly leads to the lack of trajectory stitching capability that affects the sequence model learning from sub-optimal data. In this work, we introduce the concept of max-return sequence modeling which integrates the goal of maximizing returns into existing sequence models. We propose Reinforced Transformer (Reinformer), indicating the sequence model is reinforced by the RL objective. Reinformer additionally incorporates the objective of maximizing returns in the training phase, aiming to predict the maximum future return within the distribution. During inference, this in-distribution maximum return will guide the selection of optimal actions. Empirically, Reinformer is competitive with classical RL methods on the D4RL benchmark and outperforms state-of-the-art sequence model particularly in trajectory stitching ability. Code is public at \url{https://github.com/Dragon-Zhuang/Reinformer}.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# Pairwise Linear Common Factor を持つ二項多項式の最大値について

On Maximal Families of Binary Polynomials with Pairwise Linear Common Factors ( http://arxiv.org/abs/2405.08741v1 )

ライセンス: Link先を確認
Maximilien Gadouleau, Luca Mariot, Federico Mazzone, (参考訳) 有限体 $\mathbb{F}_q$ 上の多項式の最大族の構成を考えると、すべて同じ次数$n$ と 0 でない定数項を持ち、任意の2つの多項式の GCD の次数は$d$ で $1 \le d\le n$ である。 この問題の動機は、細胞オートマトンに基づく最近のサブスペースコードの構築にある。 より正確には、そのような部分空間符号の最小距離は多項式の族における対 GCD の最大次数$d$ に関係している。 したがって、そのような多項式の最大族を特徴づけることは、与えられた最小距離の対応する部分空間符号の最大濃度を決定することと等価である。 まず、そのような家族の濃度の低い境界を示し、次に$d=1$の特定の場合に焦点を当てる。 ここで、二項体 $\mathbb{F}_2$ 上の多項式の最大族を特徴づける。 我々の発見は、よりオープンないくつかの質問を呼び起こし、この研究の拡張バージョンで対処する予定です。

We consider the construction of maximal families of polynomials over the finite field $\mathbb{F}_q$, all having the same degree $n$ and a nonzero constant term, where the degree of the GCD of any two polynomials is $d$ with $1 \le d\le n$. The motivation for this problem lies in a recent construction for subspace codes based on cellular automata. More precisely, the minimum distance of such subspace codes relates to the maximum degree $d$ of the pairwise GCD in this family of polynomials. Hence, characterizing the maximal families of such polynomials is equivalent to determining the maximum cardinality of the corresponding subspace codes for a given minimum distance. We first show a lower bound on the cardinality of such families, and then focus on the specific case where $d=1$. There, we characterize the maximal families of polynomials over the binary field $\mathbb{F}_2$. Our findings prompt several more open questions, which we plan to address in an extended version of this work.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-14
# 極大ループホールフリー非局所性に傾いたベル不等式のロバスト自己検査

Robust self-testing of Bell inequalities tilted for maximal loophole-free nonlocality ( http://arxiv.org/abs/2405.08743v1 )

ライセンス: Link先を確認
Nicolas Gigena, Ekta Panwar, Giovanni Scala, Mateus Araújo, Máté Farkas, Anubhav Chaturvedi, (参考訳) ベルの不平等の抜け穴のない違反の量で測られるように、実験的に達成可能な非局所性の度合いは、非効率な検出器によって著しく制限されている。 非効率検出器の存在下で、どの量子戦略が最大のループホールのない非局所性を達成するのか? ベルの不等式と検出効率の仕様について、最適戦略はベルの不等式が理想的条件で最大に傾いたバージョンに反するものである。 最も単純なシナリオでは、Claus-Horne-Shimony-Holt不等式の傾きバージョンに極大に違反する量子戦略が局所等方性に一意であることを示す。 しかし、正方分解法の標準和による自己検定は、ナバスク-ピロニオ-Ac'in階層の高レベルでさえ、これらの不等式の最大量子違反を飽和させるには不十分であるため、解析的に難解であることが判明した。 その代わりに、新しいヨルダンの補題に基づく証明手法を用いて、傾いたベルの不等式の全族に対する堅牢な解析的自己テストステートメントを得る。 これらの結果から、最も単純なベルのシナリオにおいて、非効率な検出器の効果と、量子相関の集合を特徴づける複雑さの興味深い側面を明らかにすることができる。

The degree of experimentally attainable nonlocality, as gauged by the amount of loophole-free violation of Bell inequalities, remains severely limited due to inefficient detectors. We address an experimentally motivated question: Which quantum strategies attain the maximal loophole-free nonlocality in the presence of inefficient detectors? For any Bell inequality and any specification of detection efficiencies, the optimal strategies are those that maximally violate a tilted version of the Bell inequality in ideal conditions. In the simplest scenario, we demonstrate that the quantum strategies that maximally violate the tilted versions of Clauser-Horne-Shimony-Holt inequality are unique up to local isometries. However, self-testing via the standard sum of squares decomposition method turns out to be analytically intractable since even high levels of the Navascu\'es--Pironio--Ac\'in hierarchy are insufficient to saturate the maximum quantum violation of these inequalities. Instead, we utilize a novel Jordan's lemma-based proof technique to obtain robust analytical self-testing statements for the entire family of tilted-Bell inequalities. These results allow us to unveil intriguing aspects of the effect of inefficient detectors and the complexity of characterizing the set of quantum correlations, in the simplest Bell scenario.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# リッチ・クオリティ・アウェア機能によるブラインド映像品質評価の強化

Enhancing Blind Video Quality Assessment with Rich Quality-aware Features ( http://arxiv.org/abs/2405.08745v1 )

ライセンス: Link先を確認
Wei Sun, Haoning Wu, Zicheng Zhang, Jun Jia, Zhichao Zhang, Linhan Cao, Qiubo Chen, Xiongkuo Min, Weisi Lin, Guangtao Zhai, (参考訳) 本稿では,ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを強化するための,シンプルだが効果的な手法を提案する。 種々のコンピュータビジョンモデルから抽出された事前学習特徴をBVQAの特徴表現として活用する以前の研究により、BVQAモデルが複雑な歪みやソーシャルメディアビデオの多様なコンテンツを扱うのに役立つ補助機能として、BIQAおよびBVQAモデルからのリッチな品質認識特徴をさらに探求した。 具体的には、トレーニング可能なSwin Transformer-Bと固定されたSlowFastからなるBVQAモデルであるSimpleVQAをベースモデルとして使用する。 Swin Transformer-BとSlowFastのコンポーネントはそれぞれ、空間的特徴と運動的特徴を抽出する責任がある。 次に,Q-Align,LIQE,FAST-VQAの3種類の特徴を抽出し,フレームレベルの品質認識機能,フレームレベルの品質認識機能,シーン固有の機能,時空間的な品質認識機能などを抽出する。 これらの特徴を結合することにより,多層パーセプトロン(MLP)ネットワークを用いて品質スコアに回帰する。 実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。 さらに、提案されたモデルは、CVPR NTIRE 2024 Short-form UGC Video Quality Assessment Challengeで優勝した。 コードは \url{https://github.com/sunwei925/RQ-VQA.git} で公開されている。

In this paper, we present a simple but effective method to enhance blind video quality assessment (BVQA) models for social media videos. Motivated by previous researches that leverage pre-trained features extracted from various computer vision models as the feature representation for BVQA, we further explore rich quality-aware features from pre-trained blind image quality assessment (BIQA) and BVQA models as auxiliary features to help the BVQA model to handle complex distortions and diverse content of social media videos. Specifically, we use SimpleVQA, a BVQA model that consists of a trainable Swin Transformer-B and a fixed SlowFast, as our base model. The Swin Transformer-B and SlowFast components are responsible for extracting spatial and motion features, respectively. Then, we extract three kinds of features from Q-Align, LIQE, and FAST-VQA to capture frame-level quality-aware features, frame-level quality-aware along with scene-specific features, and spatiotemporal quality-aware features, respectively. Through concatenating these features, we employ a multi-layer perceptron (MLP) network to regress them into quality scores. Experimental results demonstrate that the proposed model achieves the best performance on three public social media VQA datasets. Moreover, the proposed model won first place in the CVPR NTIRE 2024 Short-form UGC Video Quality Assessment Challenge. The code is available at \url{https://github.com/sunwei925/RQ-VQA.git}.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# Hunyuan-DiT:中国語を微粒化した多解拡散変換器

Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding ( http://arxiv.org/abs/2405.08748v1 )

ライセンス: Link先を確認
Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu, (参考訳) Hunyuan-DiTは、英語と中国語の両方を詳細に理解したテキスト・画像拡散変換器である。 Hunyuan-DiTを構築するために,変換器構造,テキストエンコーダ,位置エンコーディングを慎重に設計する。 また、反復モデル最適化のためのデータを更新し、評価するために、データパイプライン全体をスクラッチから構築します。 詳細な言語理解のために、画像のキャプションを洗練させるためにマルチモーダル大言語モデルを訓練する。 最後に,Hunyuan-DiTはユーザとのマルチターンマルチモーダル対話を行い,コンテキストに応じて画像の生成と精細化を行う。 Hunyuan-DiTは、50人以上の専門家による総合的人間評価プロトコルを通じて、他のオープンソースモデルと比較して、中国から画像世代における新しい最先端を定めている。 コードおよび事前訓練されたモデルはgithub.com/Tencent/HunyuanDiTで公開されている

We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at github.com/Tencent/HunyuanDiT
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# テキストからコンテキストへ:ニュース投稿者分類のための詳細アプローチ

From Text to Context: An Entailment Approach for News Stakeholder Classification ( http://arxiv.org/abs/2405.08751v1 )

ライセンス: Link先を確認
Alapan Kuila, Sudeshna Sarkar, (参考訳) ニュース記事の複雑な風景をナビゲートするには、ニュースステークホルダーと呼ばれる様々なアクターやエンティティを理解する必要がある。 これらの利害関係者は、政策立案者から反対者、市民などまで、ニュースの物語を形成する上で重要な役割を担っている。 株主のタイプを認識し、彼らの役割、政治的アライメント、社会的地位などを反映し、ニュースコンテンツの微妙な理解に最重要である。 ソーシャルメディアデータによる有能な実体抽出、報道のバリエーション、政治的関連性に焦点を当てた既存の研究にもかかわらず、ニュースコンテンツにおける利害関係者の役割の自動検出は未調査領域のままである。 本稿では,ニュース記事における利害関係者のタイプを分類する効果的なアプローチを導入することにより,このギャップを埋める。 本手法では,利害関係者の分類問題を自然言語推論タスクに変換し,利害関係者の型検出の精度を高めるために,ニュース記事や外部知識からの文脈情報を活用する。 さらに,提案モデルでは,ゼロショット設定の有効性を示し,その適用範囲を多様なニュースコンテキストに拡大する。

Navigating the complex landscape of news articles involves understanding the various actors or entities involved, referred to as news stakeholders. These stakeholders, ranging from policymakers to opposition figures, citizens, and more, play pivotal roles in shaping news narratives. Recognizing their stakeholder types, reflecting their roles, political alignments, social standing, and more, is paramount for a nuanced comprehension of news content. Despite existing works focusing on salient entity extraction, coverage variations, and political affiliations through social media data, the automated detection of stakeholder roles within news content remains an underexplored domain. In this paper, we bridge this gap by introducing an effective approach to classify stakeholder types in news articles. Our method involves transforming the stakeholder classification problem into a natural language inference task, utilizing contextual information from news articles and external knowledge to enhance the accuracy of stakeholder type detection. Moreover, our proposed model showcases efficacy in zero-shot settings, further extending its applicability to diverse news contexts.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# 現代GPUの階層的資源分割:強化学習アプローチ

Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach ( http://arxiv.org/abs/2405.08754v1 )

ライセンス: Link先を確認
Urvij Saroliya, Eishi Arima, Dai Liu, Martin Schulz, (参考訳) GPUベースの異種アーキテクチャは現在、HPCクラスタで一般的に使用されている。 データレベルの並列処理に特化したアーキテクチャ上の単純さのため、GPUは、同じ世代のCPUよりもはるかに高い計算スループットとメモリ帯域を提供することができる。 しかし、過去数十年でGPUの利用可能なリソースが指数関数的に増加したため、単一のプログラムがそれらを完全に活用することはますます困難になっている。 その結果、同じGPU上で複数のプログラムを同時にスケジュールすることで、リソース利用を改善するために、業界はいくつかのリソースパーティショニング機能のサポートを開始しました。 本稿では,最新のGPU上での階層的なリソース分割に注目し,その例として,より微細な論理分割であるMPS(Multi-Process Service)と粗粒度の物理分割であるMIG(Multi-Instance GPU)という,最近のNVIDIA GPUで利用可能な2つの異なる特徴の組み合わせを利用する。 本稿では,階層的分割のセットアップと,そのプロファイルを用いた強化学習に基づいて,与えられたジョブ群からの協調スケジューリンググループの選択を包括的に最適化する手法を提案する。 提案手法は,ジョブの同時実行,分割,グループ選択のスケジューリングを同時に行うことができることを示す。 これにより、時間共有スケジューリングに比べて最大スループットが1.87倍向上する。

GPU-based heterogeneous architectures are now commonly used in HPC clusters. Due to their architectural simplicity specialized for data-level parallelism, GPUs can offer much higher computational throughput and memory bandwidth than CPUs in the same generation do. However, as the available resources in GPUs have increased exponentially over the past decades, it has become increasingly difficult for a single program to fully utilize them. As a consequence, the industry has started supporting several resource partitioning features in order to improve the resource utilization by co-scheduling multiple programs on the same GPU die at the same time. Driven by the technological trend, this paper focuses on hierarchical resource partitioning on modern GPUs, and as an example, we utilize a combination of two different features available on recent NVIDIA GPUs in a hierarchical manner: MPS (Multi-Process Service), a finer-grained logical partitioning; and MIG (Multi-Instance GPU), a coarse-grained physical partitioning. We propose a method for comprehensively co-optimizing the setup of hierarchical partitioning and the selection of co-scheduling groups from a given set of jobs, based on reinforcement learning using their profiles. Our thorough experimental results demonstrate that our approach can successfully set up job concurrency, partitioning, and co-scheduling group selections simultaneously. This results in a maximum throughput improvement by a factor of 1.87 compared to the time-sharing scheduling.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# エッジデバイスにおける分散脅威インテリジェンス - 大規模言語モデル駆動アプローチ

Distributed Threat Intelligence at the Edge Devices: A Large Language Model-Driven Approach ( http://arxiv.org/abs/2405.08755v1 )

ライセンス: Link先を確認
Syed Mhamudul Hasan, Alaa M. Alotaibi, Sajedul Talukder, Abdur R. Shahid, (参考訳) エッジデバイスの普及に伴い、これらのデバイスに対する攻撃面が著しく増加する。 エッジデバイスへの脅威インテリジェンスの分散デプロイと、大規模言語モデル(LLM)のコンテキスト内学習機能などの適応機械学習技術は、低パワーエッジデバイス上でのサイバーセキュリティを強化するための有望なパラダイムである。 このアプローチでは、エッジデバイスに直接軽量機械学習モデルをデプロイして、ネットワークトラフィックやシステムログなどのローカルデータストリームをリアルタイムで分析する。 さらに、エッジサーバに計算タスクを分散することでレイテンシが減少し、応答性が向上すると同時に、機密データをローカルに処理することでプライバシも向上する。 LLMサーバは、これらのエッジサーバが進化する脅威や攻撃パターンに自律的に適応できるようにし、モデルを継続的に更新して検出精度を改善し、偽陽性を減らすことができる。 さらに、協調学習機構は、エッジデバイス間のピアツーピアで信頼性の高い知識共有を促進し、ネットワークの集合的知性を高め、検出された異常に対応するデバイス隔離のような動的脅威軽減対策を可能にする。 エッジデバイスはネットワークトラフィックやシステムログの変更といった不審な情報のみを送信し、ネットワークエッジにおける新興のサイバー脅威と戦うためのレジリエントで効率的なソリューションを提供する。 提案フレームワークは,ネットワークからエッジデバイスを分離することにより,サイバー脅威の検出と緩和において,より優れたセキュリティを提供することにより,エッジコンピューティングのセキュリティを向上させることができる。

With the proliferation of edge devices, there is a significant increase in attack surface on these devices. The decentralized deployment of threat intelligence on edge devices, coupled with adaptive machine learning techniques such as the in-context learning feature of large language models (LLMs), represents a promising paradigm for enhancing cybersecurity on low-powered edge devices. This approach involves the deployment of lightweight machine learning models directly onto edge devices to analyze local data streams, such as network traffic and system logs, in real-time. Additionally, distributing computational tasks to an edge server reduces latency and improves responsiveness while also enhancing privacy by processing sensitive data locally. LLM servers can enable these edge servers to autonomously adapt to evolving threats and attack patterns, continuously updating their models to improve detection accuracy and reduce false positives. Furthermore, collaborative learning mechanisms facilitate peer-to-peer secure and trustworthy knowledge sharing among edge devices, enhancing the collective intelligence of the network and enabling dynamic threat mitigation measures such as device quarantine in response to detected anomalies. The scalability and flexibility of this approach make it well-suited for diverse and evolving network environments, as edge devices only send suspicious information such as network traffic and system log changes, offering a resilient and efficient solution to combat emerging cyber threats at the network edge. Thus, our proposed framework can improve edge computing security by providing better security in cyber threat detection and mitigation by isolating the edge devices from the network.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# 安定な逆強化学習:リャプノフ景観の制御による政策

Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes ( http://arxiv.org/abs/2405.08756v1 )

ライセンス: Link先を確認
Samuel Tesfazgi, Leonhard Sprandl, Armin Lederer, Sandra Hirche, (参考訳) 専門家によるデモンストレーションから学び、複雑な振る舞いを持つ自律システムを柔軟にプログラムしたり、エージェントの振る舞いを予測することは、特に協調制御設定において強力なツールである。 この問題を解決するための一般的な方法は逆強化学習(IRL)であり、その意図を反映し制御行動を通知する本質的なコスト関数の最適化により、観察対象であるヒトのデモレータであるegが振舞うと仮定される。 フレームワークは表現力があるが、計算的に要求され、一般に収束保証が欠落している。 そこで我々は,コスト関数推論問題を実演データから学習制御リャプノフ関数 (CLF) に書き換えることにより,新しい安定性確認IRL手法を提案する。 さらに、関連する制御ポリシーにクローズドフォーム表現を活用することにより、誘導力学の誘引的景観を観察することにより、CLFの空間を効率的に探索することができる。 逆最適 CLF の構成には、正方形の Sum を用いて凸最適化問題を定式化する。 我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。

Learning from expert demonstrations to flexibly program an autonomous system with complex behaviors or to predict an agent's behavior is a powerful tool, especially in collaborative control settings. A common method to solve this problem is inverse reinforcement learning (IRL), where the observed agent, e.g., a human demonstrator, is assumed to behave according to the optimization of an intrinsic cost function that reflects its intent and informs its control actions. While the framework is expressive, it is also computationally demanding and generally lacks convergence guarantees. We therefore propose a novel, stability-certified IRL approach by reformulating the cost function inference problem to learning control Lyapunov functions (CLF) from demonstrations data. By additionally exploiting closed-form expressions for associated control policies, we are able to efficiently search the space of CLFs by observing the attractor landscape of the induced dynamics. For the construction of the inverse optimal CLFs, we use a Sum of Squares and formulate a convex optimization problem. We present a theoretical analysis of the optimality properties provided by the CLF and evaluate our approach using both simulated and real-world data.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# ローマ法王はカトリックなのか? ローマ法王はカトリックである。LLMにおけるインテント・レゾリューションの創成的評価

Is the Pope Catholic? Yes, the Pope is Catholic. Generative Evaluation of Intent Resolution in LLMs ( http://arxiv.org/abs/2405.08760v1 )

ライセンス: Link先を確認
Akhila Yerukola, Saujas Vaduguru, Daniel Fried, Maarten Sap, (参考訳) 人間はしばしば、言葉の文字通りの意味を超えて理解するために、間接的または非形式的なコミュニケーション意図を表現する。 既存の研究の多くは差別的評価に重点を置いているが,非文節発話に対する反応を調べることによって,大規模言語モデル(LLM)の意図的理解を生成的に評価する新たなアプローチを提案する。 理想的には、LLMはリテラル解釈ではなく、非リテラル発話の真の意図に従って応答すべきである。 以上の結果から,LLMは非リテラル言語への実用的対応に苦慮し,平均で50~55%の精度しか達成できていないことが示唆された。 オラクルの意図を明示的に提供することはパフォーマンスを著しく向上させる(Mistral-Instructでは75%)が、それでも適切な応答を生成するために与えられた意図を活用する上での課題を示している。 意図を綴り出すためにチェーン・オブ・シンク(英語版)を使用することで、より少ない利得が得られる(Mistral-Instructの60%)。 これらの結果から, LLMはまだ実用的な実用的インターロケータではないことが示唆され, モデリング意図のより良いアプローチの必要性と実用的生成にそれらを活用する必要性が浮き彫りになった。

Humans often express their communicative intents indirectly or non-literally, which requires their interlocutors -- human or AI -- to understand beyond the literal meaning of words. While most existing work has focused on discriminative evaluations, we present a new approach to generatively evaluate large language models' (LLMs') intention understanding by examining their responses to non-literal utterances. Ideally, an LLM should respond in line with the true intention of a non-literal utterance, not its literal interpretation. Our findings show that LLMs struggle to generate pragmatically relevant responses to non-literal language, achieving only 50-55% accuracy on average. While explicitly providing oracle intentions significantly improves performance (e.g., 75% for Mistral-Instruct), this still indicates challenges in leveraging given intentions to produce appropriate responses. Using chain-of-thought to make models spell out intentions yields much smaller gains (60% for Mistral-Instruct). These findings suggest that LLMs are not yet effective pragmatic interlocutors, highlighting the need for better approaches for modeling intentions and utilizing them for pragmatic generation.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# S3C2 Summit 2024-03: 業界の安全なサプライチェーンサミット

S3C2 Summit 2024-03: Industry Secure Supply Chain Summit ( http://arxiv.org/abs/2405.08762v1 )

ライセンス: Link先を確認
Greg Tystahl, Yasemin Acar, Michel Cukier, William Enck, Christian Kastner, Alexandros Kapravelos, Dominik Wermke, Laurie Williams, (参考訳) サプライチェーンのセキュリティは、敵の攻撃から守る上で、考慮すべき重要な指標となっている。 このため、より多くの開発者がサプライチェーンを改善して、将来の脅威に対してより堅牢にすることを熱心に考えています。 3月7日,Secure Software Supply Chain Center (S3C2) の研究者が14人の業界リーダ,開発者,オープンソースエコシステムのユーザを集め,サプライチェーンのセキュリティ状況について議論した。 サミットの目標は、企業と開発者の間で洞察を共有して、これから進む新しいコラボレーションやアイデアを育むことだ。 このミーティングを通じて、参加者はベストプラクティスや今後の改善方法に関する質問を受けた。 本稿では,サミットの回答と議論を要約する。 パネルの質問は付録で確認できる。

Supply chain security has become a very important vector to consider when defending against adversary attacks. Due to this, more and more developers are keen on improving their supply chains to make them more robust against future threats. On March 7th, 2024 researchers from the Secure Software Supply Chain Center (S3C2) gathered 14 industry leaders, developers and consumers of the open source ecosystem to discuss the state of supply chain security. The goal of the summit is to share insights between companies and developers alike to foster new collaborations and ideas moving forward. Through this meeting, participants were questions on best practices and thoughts how to improve things for the future. In this paper we summarize the responses and discussions of the summit. The panel questions can be found in the appendix.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# Image to Pseudo-Episode: Boosting Few-Shot Segmentation by Unlabeled Data

Image to Pseudo-Episode: Boosting Few-Shot Segmentation by Unlabeled Data ( http://arxiv.org/abs/2405.08765v1 )

ライセンス: Link先を確認
Jie Zhang, Yuhan Li, Yude Wang, Stephen Lin, Shiguang Shan, (参考訳) Few-shot segmentation (FSS) は、新しいクラスからいくつかのラベル付きサンプルでオブジェクトをセグメンテーションできるモデルをトレーニングすることを目的としている。 モデルが不十分な一般化能力は、新しいクラスから十分なラベル付きデータがない場合に、不満足なパフォーマンスをもたらす。 ラベルのないデータが豊富にあることを考えると、これらの様々なデータを活用することで、一般化能力を向上させることを約束している。 ラベルのないデータを活用するために,Pseudo-Episode (IPE) と呼ばれる新しい手法を提案し,ラベルのないデータから擬似エピソードを生成する。 具体的には、擬似ラベル生成モジュールとエピソード生成モジュールの2つのモジュールを含む。 前モジュールは、スペクトルクラスタリングアルゴリズムにより、未ラベル画像から擬似ラベルを生成し、後者モジュールはデータ拡張法により擬似ラベル画像から擬似エピソードを生成する。 PASCAL-$5^i$およびCOCO-$20^i$の大規模実験により,本手法がFSSの最先端性能を実現することを示す。

Few-shot segmentation (FSS) aims to train a model which can segment the object from novel classes with a few labeled samples. The insufficient generalization ability of models leads to unsatisfactory performance when the models lack enough labeled data from the novel classes. Considering that there are abundant unlabeled data available, it is promising to improve the generalization ability by exploiting these various data. For leveraging unlabeled data, we propose a novel method, named Image to Pseudo-Episode (IPE), to generate pseudo-episodes from unlabeled data. Specifically, our method contains two modules, i.e., the pseudo-label generation module and the episode generation module. The former module generates pseudo-labels from unlabeled images by the spectral clustering algorithm, and the latter module generates pseudo-episodes from pseudo-labeled images by data augmentation methods. Extensive experiments on PASCAL-$5^i$ and COCO-$20^i$ demonstrate that our method achieves the state-of-the-art performance for FSS.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# エネルギーベースホップフィールドブースティングによるアウト・オブ・ディストリビューション検出

Energy-based Hopfield Boosting for Out-of-Distribution Detection ( http://arxiv.org/abs/2405.08766v1 )

ライセンス: Link先を確認
Claus Hofmann, Simon Schmid, Bernhard Lehner, Daniel Klotz, Sepp Hochreiter, (参考訳) 現実世界に機械学習モデルをデプロイする際には、アウト・オブ・ディストリビューション(OOD)検出が重要である。 トレーニングプロセスに補助的な外部データを含む外部露光法は、高度なトレーニング戦略を持たないアプローチと比較して、OOD検出性能を大幅に向上させることができる。 ホップフィールド・ブースティング(Hopfield Boosting)は、現代のホップフィールド・エネルギ(MHE)を活用して、分配内データとOODデータ間の決定境界を鋭くするブースティング手法である。 ホップフィールド・ブースティングは、分配内データと補助外付けデータの間の決定境界に近い、識別が難しい補助外付けデータに焦点を合わせることを奨励する。 CIFAR-10ではFPR95が2.28から0.92,CIFAR-100では11.76から7.94に改善された。

Out-of-distribution (OOD) detection is critical when deploying machine learning models in the real world. Outlier exposure methods, which incorporate auxiliary outlier data in the training process, can drastically improve OOD detection performance compared to approaches without advanced training strategies. We introduce Hopfield Boosting, a boosting approach, which leverages modern Hopfield energy (MHE) to sharpen the decision boundary between the in-distribution and OOD data. Hopfield Boosting encourages the model to concentrate on hard-to-distinguish auxiliary outlier examples that lie close to the decision boundary between in-distribution and auxiliary outlier data. Our method achieves a new state-of-the-art in OOD detection with outlier exposure, improving the FPR95 metric from 2.28 to 0.92 on CIFAR-10 and from 11.76 to 7.94 on CIFAR-100.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# EfficientTrain++: 効率的なビジュアルバックボーントレーニングのための一般化されたカリキュラム学習

EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training ( http://arxiv.org/abs/2405.08768v1 )

ライセンス: Link先を確認
Yulin Wang, Yang Yue, Rui Lu, Yizeng Han, Shiji Song, Gao Huang, (参考訳) 現代の視覚的バックボーンの優れたパフォーマンスは、通常、高価な訓練手順が伴う。 我々は、カリキュラム学習の考え方を当初の定式化を超えて一般化することで、この問題に寄与する。 具体的には、トレーニングカリキュラムをソフトセレクション関数として再構成し、トレーニング中のサンプル選択をより容易に行うのではなく、各サンプル内のより難しいパターンを徐々に明らかにする。 私たちの研究は、視覚的バックボーンの学習力学に関する興味深い観察から着想を得ています。 これらのパターンは、周波数領域と空間領域を通して観察される場合、低周波成分と、歪みやデータ拡張を伴わない自然な画像内容を含む。 これらの結果から,モデルは常に学習段階ごとにトレーニングデータを利用するカリキュラムを提案するが,まず,学習の進行とともに,より簡単な学習パターンを提示し,より難しいパターンを徐々に導入する。 このアイデアを計算的に効率よく実装するために、入力のフーリエスペクトルにトリミング演算を導入し、低周波成分のみからモデルを学習できるようにする。 そして,データ拡張の強度を変調することにより,自然画像の内容の露光が容易に実現できることを示す。 最後に、これらの側面を統合し、適切な検索アルゴリズムでカリキュラムのスケジュールを設計する。 結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。 これは、ImageNet-1K/22K上の1.5-3.0xで、精度を犠牲にすることなく、様々な人気モデルのトレーニング時間を短縮する。 また、自己教師付き学習(例えば、MAE)において効果を示す。

The superior performance of modern visual backbones usually comes with a costly training procedure. We contribute to this issue by generalizing the idea of curriculum learning beyond its original formulation, i.e., training models using easier-to-harder data. Specifically, we reformulate the training curriculum as a soft-selection function, which uncovers progressively more difficult patterns within each example during training, instead of performing easier-to-harder sample selection. Our work is inspired by an intriguing observation on the learning dynamics of visual backbones: during the earlier stages of training, the model predominantly learns to recognize some 'easier-to-learn' discriminative patterns in the data. These patterns, when observed through frequency and spatial domains, incorporate lower-frequency components, and the natural image contents without distortion or data augmentation. Motivated by these findings, we propose a curriculum where the model always leverages all the training data at every learning stage, yet the exposure to the 'easier-to-learn' patterns of each example is initiated first, with harder patterns gradually introduced as training progresses. To implement this idea in a computationally efficient way, we introduce a cropping operation in the Fourier spectrum of the inputs, enabling the model to learn from only the lower-frequency components. Then we show that exposing the contents of natural images can be readily achieved by modulating the intensity of data augmentation. Finally, we integrate these aspects and design curriculum schedules with tailored search algorithms. The resulting method, EfficientTrain++, is simple, general, yet surprisingly effective. It reduces the training time of a wide variety of popular models by 1.5-3.0x on ImageNet-1K/22K without sacrificing accuracy. It also demonstrates efficacy in self-supervised learning (e.g., MAE).
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# パラ一貫性論理のレンズによる量子絡み合い

Quantum Entanglement Through the Lens of Paraconsistent Logic ( http://arxiv.org/abs/2405.08775v1 )

ライセンス: Link先を確認
Pouria Abbasalinejad, Hamid Tebyanian, (参考訳) 本稿では、論理的矛盾を生じさせることなく、論理的矛盾を効果的に解消する量子絡み合いに対する別のアプローチを提案する。 古典的因果説明に挑戦する状態重畳や非局所性などの量子力学における不整合に対処することにより、本手法はパラ一貫性論理の原理に基づいて構築される。 本研究の目的は、量子力学の特徴を基礎原理に忠実に保ちながら支援するパラ一貫性フレームワークを開発することである。 本稿では,古典論理系に関する量子力学の哲学的・数学的基礎を精査する。 この方法は、理論的なパズル空間をアンハングルし、量子論の議論においてコヒーレンスを促進するように設計されている。 究極的には、我々のアプローチはより一貫性のある方法で量子力学を解釈する潜在的な解決策を提供する。

This paper presents an alternative approach to quantum entanglement, one that effectively resolves the logical inconsistencies without leading to logical contradictions. By addressing some of the inconsistencies within quantum mechanics, such as state superposition and non-locality, that challenge classical causal explanations, our method is constructed on the principles of paraconsistent logic. Our aim is to develop a para-consistent framework that supports the features of quantum mechanics while remaining faithful to its fundamental principles. In this pursuit, we scrutinize the philosophical and mathematical foundations of quantum mechanics in relation to classical logic systems. This method is designed to untangle theoretical puzzle spaces and promote coherence in the discussion of quantum theory. Ultimately, our approach offers a potential solution for interpreting quantum mechanics in a more coherent manner.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# FolkTalent:インドの民族絵画の分類とタグ付けの強化

FolkTalent: Enhancing Classification and Tagging of Indian Folk Paintings ( http://arxiv.org/abs/2405.08776v1 )

ライセンス: Link先を確認
Nancy Hada, Aditya Singh, Kavita Vemuri, (参考訳) インドの民俗画には、シンボル、色、テクスチャ、物語の豊富なモザイクがあり、文化的遺産の貴重な保存物となっている。 本論文は,これらの絵画を異なる芸術形式に分類し,その特徴を特徴付ける新しいアプローチを提案する。 フォークタレント(FolkTalent)という名前のカスタムデータセットは、12種類の絵画の2279枚のデジタル画像で構成されており、インドの民俗絵画の直接のアウトレットであるウェブサイトを使用して作成されている。 色、テーマ、芸術的スタイル、パターンといった幅広い属性をカバーしたタグは、GPT4を使用して生成され、各絵画の専門家によって検証される。 インドの民俗絵画を分類するために、細調整の畳み込みニューラルネットワーク(CNN)モデルでランダムフォレストアンサンブル技術を用いて分類が行われ、精度は91.83%に達する。 タグ付けはCNNベースの顕著な微調整バックボーンを通じて行われ、上部にカスタム分類器を取り付け、マルチラベル画像分類を行う。 生成されたタグは絵に深い洞察を与え、テーマと視覚属性に基づいた検索エクスペリエンスを向上する。 提案されたハイブリッドモデルは、民俗絵画の分類とタグ付けの新しいベンチマークを設定し、インドの民俗芸術遺産のカタログ化に大きく貢献した。

Indian folk paintings have a rich mosaic of symbols, colors, textures, and stories making them an invaluable repository of cultural legacy. The paper presents a novel approach to classifying these paintings into distinct art forms and tagging them with their unique salient features. A custom dataset named FolkTalent, comprising 2279 digital images of paintings across 12 different forms, has been prepared using websites that are direct outlets of Indian folk paintings. Tags covering a wide range of attributes like color, theme, artistic style, and patterns are generated using GPT4, and verified by an expert for each painting. Classification is performed employing the RandomForest ensemble technique on fine-tuned Convolutional Neural Network (CNN) models to classify Indian folk paintings, achieving an accuracy of 91.83%. Tagging is accomplished via the prominent fine-tuned CNN-based backbones with a custom classifier attached to its top to perform multi-label image classification. The generated tags offer a deeper insight into the painting, enabling an enhanced search experience based on theme and visual attributes. The proposed hybrid model sets a new benchmark in folk painting classification and tagging, significantly contributing to cataloging India's folk-art heritage.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# Jacobian Regularizer-based Neural Granger Causality

Jacobian Regularizer-based Neural Granger Causality ( http://arxiv.org/abs/2405.08779v1 )

ライセンス: Link先を確認
Wanqi Zhou, Shuanghao Bai, Shujian Yu, Qibin Zhao, Badong Chen, (参考訳) ニューラルネットワークの進歩に伴い、複雑なデータを扱う能力と非線形関係を示す多様な神経グランガー因果関係の手法が出現した。 しかし、既存の神経グランガー因果関係の枠組みにはいくつかの制限がある。 対象変数毎に別々の予測モデルを構築する必要があり、その関係は第1層の重みの間隔に依存するため、変数間の複雑な関係を効果的にモデル化し、グラガー因果関係の未満足な推定精度を効果的にモデル化する上での課題となる。 さらに、多くはフルタイムのグランガー因果関係を把握できない。 これらの欠点に対処するため,Jacobian Regularizer-based Neural Granger Causality (JRNGC) アプローチを提案する。 具体的には,入力出力ヤコビ行列正規化器を用いて重みの空間的制約を除去し,その後,重み付き因果行列としてポストホック解析で表すことができる。 実験の結果,提案手法は,モデル複雑性の低減とスケーラビリティの向上を両立させながら,Granger因果関係とフルタイムGranger因果関係を学習するための最先端手法との競合性能を実現していることがわかった。

With the advancement of neural networks, diverse methods for neural Granger causality have emerged, which demonstrate proficiency in handling complex data, and nonlinear relationships. However, the existing framework of neural Granger causality has several limitations. It requires the construction of separate predictive models for each target variable, and the relationship depends on the sparsity on the weights of the first layer, resulting in challenges in effectively modeling complex relationships between variables as well as unsatisfied estimation accuracy of Granger causality. Moreover, most of them cannot grasp full-time Granger causality. To address these drawbacks, we propose a Jacobian Regularizer-based Neural Granger Causality (JRNGC) approach, a straightforward yet highly effective method for learning multivariate summary Granger causality and full-time Granger causality by constructing a single model for all target variables. Specifically, our method eliminates the sparsity constraints of weights by leveraging an input-output Jacobian matrix regularizer, which can be subsequently represented as the weighted causal matrix in the post-hoc analysis. Extensive experiments show that our proposed approach achieves competitive performance with the state-of-the-art methods for learning summary Granger causality and full-time Granger causality while maintaining lower model complexity and high scalability.
翻訳日:2024-05-15 13:18:28 公開日:2024-05-14
# Transformer-based sequence model を用いた眼疾患予後診断における経時的医用画像撮影の有用性

Harnessing the power of longitudinal medical imaging for eye disease prognosis using Transformer-based sequence modeling ( http://arxiv.org/abs/2405.08780v1 )

ライセンス: Link先を確認
Gregory Holste, Mingquan Lin, Ruiwen Zhou, Fei Wang, Lei Liu, Qi Yan, Sarah H. Van Tassel, Kyle Kovacs, Emily Y. Chew, Zhiyong Lu, Zhangyang Wang, Yifan Peng, (参考訳) 深層学習は、医用画像による自動診断のブレークスルーを可能にし、眼科に多くの応用が成功している。 しかし, 標準的な医用画像分類手法は, 経時的画像診断の一般的な臨床設定を無視して, 取得時点での疾患の存在を評価するのみである。 加齢に伴う黄斑変性 (AMD) や原発性開放隅角緑内障 (POAG) などの遅発性眼疾患に対して, 経時的に経過観察を行い, 発症リスクを予測し, 治療計画を立てることが重要である。 本研究は,長期的・不規則な期間に撮影された根底画像の時系列画像から,縦断的医用画像からの動的疾患予後をモデル化する。 Age-Related Eye Disease Study (AREDS) およびOcular Hypertension Treatment Study (OHTS) の経時的画像データを用いて, LTSAは, 後期AMD予後19/20例, POAG予後18/20例において, 単像ベースラインよりも有意に優れていた。 時間的注意分析により、最新の画像は典型的には最も影響力のあるものであるが、以前の画像は追加の予後価値をもたらすことが示唆された。

Deep learning has enabled breakthroughs in automated diagnosis from medical imaging, with many successful applications in ophthalmology. However, standard medical image classification approaches only assess disease presence at the time of acquisition, neglecting the common clinical setting of longitudinal imaging. For slow, progressive eye diseases like age-related macular degeneration (AMD) and primary open-angle glaucoma (POAG), patients undergo repeated imaging over time to track disease progression and forecasting the future risk of developing disease is critical to properly plan treatment. Our proposed Longitudinal Transformer for Survival Analysis (LTSA) enables dynamic disease prognosis from longitudinal medical imaging, modeling the time to disease from sequences of fundus photography images captured over long, irregular time periods. Using longitudinal imaging data from the Age-Related Eye Disease Study (AREDS) and Ocular Hypertension Treatment Study (OHTS), LTSA significantly outperformed a single-image baseline in 19/20 head-to-head comparisons on late AMD prognosis and 18/20 comparisons on POAG prognosis. A temporal attention analysis also suggested that, while the most recent image is typically the most influential, prior imaging still provides additional prognostic value.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# Instagramにおけるヒトの健康関連投稿の注釈によるてんかん辞書のリファインメント

Refinement of an Epilepsy Dictionary through Human Annotation of Health-related posts on Instagram ( http://arxiv.org/abs/2405.08784v1 )

ライセンス: Link先を確認
Aehong Min, Xuan Wang, Rion Brattig Correia, Jordan Rozum, Wendy R. Miller, Luis M. Rocha, (参考訳) 私たちは、2010年から2016年初めにかけて、少なくとも一度はてんかん関連薬について言及したユーザーによって800万件以上のInstagram投稿をタグ付けするために、D薬バンク、MedDRA、MedlinePlus、TMGeneDITなどの様々なソースから抽出されたバイオメディカル用語から作られた辞書を使用しました。 1,771のポストと2,947の項一致のランダムなサンプルを、ヒトのアノテーターによって評価し、偽陽性を同定した。 OpenAIのGPTシリーズモデルは人間のアノテーションと比較された。 高い偽陽性率の用語が辞書から削除された。 注釈付き用語の推定偽陽性率の分析では、Instagramの投稿で使われている8つの曖昧な用語(+同義語)が、元の辞書から削除された。 それらの用語を除去する効果を研究するため,精細辞書と原辞書を用いて知識ネットワークを構築し,両ネットワークで固有ベクトル-中央集権解析を行った。 得られた改良辞書は,知識ネットワークの固有ベクトル中央性によって測定されるように,重要な用語のランクが著しく異なることを示す。 さらに、精製後に得られる最も重要な用語は、より大きな医療関連性である。 また, OpenAI の GPT シリーズモデルでは, 人間のアノテータよりも悪い結果が得られた。

We used a dictionary built from biomedical terminology extracted from various sources such as DrugBank, MedDRA, MedlinePlus, TCMGeneDIT, to tag more than 8 million Instagram posts by users who have mentioned an epilepsy-relevant drug at least once, between 2010 and early 2016. A random sample of 1,771 posts with 2,947 term matches was evaluated by human annotators to identify false-positives. OpenAI's GPT series models were compared against human annotation. Frequent terms with a high false-positive rate were removed from the dictionary. Analysis of the estimated false-positive rates of the annotated terms revealed 8 ambiguous terms (plus synonyms) used in Instagram posts, which were removed from the original dictionary. To study the effect of removing those terms, we constructed knowledge networks using the refined and the original dictionaries and performed an eigenvector-centrality analysis on both networks. We show that the refined dictionary thus produced leads to a significantly different rank of important terms, as measured by their eigenvector-centrality of the knowledge networks. Furthermore, the most important terms obtained after refinement are of greater medical relevance. In addition, we show that OpenAI's GPT series models fare worse than human annotators in this task.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# 前立腺癌PI-RADSスコーリングにおける多モード大言語モデルの適用による臨床ガイドラインの組み入れ

Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring ( http://arxiv.org/abs/2405.08786v1 )

ライセンス: Link先を確認
Tiantian Zhang, Manxi Lin, Hongda Guo, Xiaofan Zhang, Ka Fung Peter Chiu, Aasa Feragen, Qi Dou, (参考訳) 前立腺画像報告・データシステム(PI-RADS)はMRIによる臨床上重要な前立腺癌の診断において重要である。 現在の深層学習に基づくPI-RADSスコアリング法は, 放射線技師が活用する本質的なPI-RADSガイドライン~(PICG)を欠いていることが多い。 本稿では,マルチモーダルな大規模言語モデル(MLLM)を用いてPICGをPI-RADSスコアに組み込む手法を提案する。 本稿では,自然画像に基づいて訓練されたMLLMをMRIデータ領域に適応させ,PICGを効果的に統合することを目的とした2段階の微調整プロセスを提案する。 最初の段階では、3次元MRI画像入力の処理に適したドメインアダプタ層を開発し、MLLM命令を設計し、MRIのモダリティを効果的に識別する。 第2段階では、PICGをモデルのための指導命令に変換し、PICG誘導画像の特徴を生成する。 特徴蒸留により、スコアリングネットワークの特徴をPICG誘導画像の特徴と整合させ、スコアリングネットワークがPICG情報を効果的に活用できるようにする。 当社のモデルを公開データセット上で開発し,現実の挑戦的な社内データセットで評価する。 実験により,本手法が現在のスコアリングネットワークの性能を向上させることを示す。

The Prostate Imaging Reporting and Data System (PI-RADS) is pivotal in the diagnosis of clinically significant prostate cancer through MRI imaging. Current deep learning-based PI-RADS scoring methods often lack the incorporation of essential PI-RADS clinical guidelines~(PICG) utilized by radiologists, potentially compromising scoring accuracy. This paper introduces a novel approach that adapts a multi-modal large language model (MLLM) to incorporate PICG into PI-RADS scoring without additional annotations and network parameters. We present a two-stage fine-tuning process aimed at adapting MLLMs originally trained on natural images to the MRI data domain while effectively integrating the PICG. In the first stage, we develop a domain adapter layer specifically tailored for processing 3D MRI image inputs and design the MLLM instructions to differentiate MRI modalities effectively. In the second stage, we translate PICG into guiding instructions for the model to generate PICG-guided image features. Through feature distillation, we align scoring network features with the PICG-guided image feature, enabling the scoring network to effectively incorporate the PICG information. We develop our model on a public dataset and evaluate it in a real-world challenging in-house dataset. Experimental results demonstrate that our approach improves the performance of current scoring networks.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# グラフ修復における応用条件を用いたグラフ変換のランク付け

Using application conditions to rank graph transformations for graph repair ( http://arxiv.org/abs/2405.08788v1 )

ライセンス: Link先を確認
Lars Fritsche, Alexander Lauer, Andy Schürr, Gabriele Taentzer, (参考訳) モデルシステムにグラフとグラフ変換を使用する場合、一貫性は重要な関心事である。 一貫性は、主にバイナリプロパティとして見なされてきたが、例えば、グラフは一連の制約に対して一貫性があるか一貫性がないが、最近の研究は、整合性へのアプローチを累積プロパティとして提示している。 これにより、しばらくの間不整合と生活し、必要に応じて修復することができる。 グラフの不整合を修復する際には、グラフ変換ルールといわゆる障害および修復指示型アプリケーション条件を用いて、特定のルール適用によってどの程度の修復がもたらされるかを理解する。 どちらの条件も与えられたグラフの制約から導出することができる。 本定理は, グラフ変換の前後における実制約違反数の違いが, 障害適応の違反数と修復指示の適用条件との差によって特徴づけられることを示す。 この理論は、グラフ修復の可能性に応じてグラフ変換をランク付けするルックアヘッドを持つアルゴリズムの基礎を形成する。 最初の評価では、これらの新しいタイプのアプリケーション条件で、グラフの修復をルールで十分にサポートできることが示されている。

When using graphs and graph transformations to model systems, consistency is an important concern. While consistency has primarily been viewed as a binary property, i.e., a graph is consistent or inconsistent with respect to a set of constraints, recent work has presented an approach to consistency as a graduated property. This allows living with inconsistencies for a while and repairing them when necessary. When repairing inconsistencies in a graph, we use graph transformation rules with so-called impairment- and repair-indicating application conditions to understand how much repair gain certain rule applications would bring. Both types of conditions can be derived from given graph constraints. Our main theorem shows that the difference between the number of actual constraint violations before and after a graph transformation step can be characterized by the difference between the numbers of violated impairment-indicating and repair-indicating application conditions. This theory forms the basis for algorithms with look-ahead that rank graph transformations according to their potential for graph repair. An initial evaluation shows that graph repair can be well supported by rules with these new types of application conditions.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# 時系列解析のためのKAN(Kolmogorov-Arnold Networks)

Kolmogorov-Arnold Networks (KANs) for Time Series Analysis ( http://arxiv.org/abs/2405.08790v1 )

ライセンス: Link先を確認
Cristian J. Vaca-Rubio, Luis Blanco, Roberto Pereira, Màrius Caus, (参考訳) 本稿では,KAN(Kolmogorov-Arnold Networks)の時系列予測への応用について紹介する。 コルモゴロフ・アルノルドの表現定理に着想を得たカンスは、伝統的な線型重みをスプラインパラメタライズされた単変数関数に置き換え、活性化パターンを動的に学習する。 実世界の衛星交通予測タスクにおいて,kansが従来のMLP(Multi-Layer Perceptrons)よりも優れており,学習可能なパラメータがかなり少ない精度で結果が得られることを示す。 また,kan固有のパラメータが性能に与える影響について,アブレーション研究を行った。 提案手法は適応予測モデルに対する新たな道を開き、予測分析の強力なツールとしてKansの可能性を強調した。

This paper introduces a novel application of Kolmogorov-Arnold Networks (KANs) to time series forecasting, leveraging their adaptive activation functions for enhanced predictive modeling. Inspired by the Kolmogorov-Arnold representation theorem, KANs replace traditional linear weights with spline-parametrized univariate functions, allowing them to learn activation patterns dynamically. We demonstrate that KANs outperforms conventional Multi-Layer Perceptrons (MLPs) in a real-world satellite traffic forecasting task, providing more accurate results with considerably fewer number of learnable parameters. We also provide an ablation study of KAN-specific parameters impact on performance. The proposed approach opens new avenues for adaptive forecasting models, emphasizing the potential of KANs as a powerful tool in predictive analytics.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# RACアクセシビリティ向上に向けて - データセットとLLMの活用

Towards Enhanced RAC Accessibility: Leveraging Datasets and LLMs ( http://arxiv.org/abs/2405.08792v1 )

ライセンス: Link先を確認
Edison Jair Bejarano Sepulveda, Nicolai Potes Hector, Santiago Pineda Montoya, Felipe Ivan Rodriguez, Jaime Enrique Orduy, Alec Rosales Cabezas, Danny Traslaviña Navarrete, Sergio Madrid Farfan, (参考訳) 本稿では,コロンビア航空規則(RAC)をより使いやすくするために,大規模言語モデル(LLM)の可能性を探る。 本研究は,RACの複雑さと広範囲な技術的性質を考慮し,これらの規制を単純化し,より広範な理解を行なおうとする新たなアプローチを提案する。 24,478の専門ラベル付き質問・回答ペアと、RACアプリケーション専用の微調整LCMを含む最初のRACデータベースを開発することにより、データセットアセンブリ、エキスパート主導アノテーション、モデルトレーニングの方法論を概説する。 Gemma1.1 2bモデルとUnslothのような高度なテクニックを併用して、効率的なVRAM使用とフラッシュアテンション機構を実現し、この研究はトレーニングプロセスの迅速化を目指している。 このイニシアチブは、RACの理解性とアクセシビリティを高める基盤を確立し、初心者に利益を与え、航空産業の規制環境をナビゲートするための専門家の協議への依存を減らす可能性がある。 データセット(https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1)とモデル(https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated)をここで見ることができる。

This paper explores the potential of large language models (LLMs) to make the Aeronautical Regulations of Colombia (RAC) more accessible. Given the complexity and extensive technicality of the RAC, this study introduces a novel approach to simplifying these regulations for broader understanding. By developing the first-ever RAC database, which contains 24,478 expertly labeled question-and-answer pairs, and fine-tuning LLMs specifically for RAC applications, the paper outlines the methodology for dataset assembly, expert-led annotation, and model training. Utilizing the Gemma1.1 2b model along with advanced techniques like Unsloth for efficient VRAM usage and flash attention mechanisms, the research aims to expedite training processes. This initiative establishes a foundation to enhance the comprehensibility and accessibility of RAC, potentially benefiting novices and reducing dependence on expert consultations for navigating the aviation industry's regulatory landscape. You can visit the dataset (https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1) and the model (https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated) here.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# 機械学習における因果推論入門

A Brief Introduction to Causal Inference in Machine Learning ( http://arxiv.org/abs/2405.08793v1 )

ライセンス: Link先を確認
Kyunghyun Cho, (参考訳) DS-GA 3001.003 "Special Topics in DS - Causal Inference in Machine Learning" の講義ノート。 このコースは、機械学習の基本的背景を持つが、これまでは因果推論や因果推論に晒されていなかった修士・博士レベルの学生を対象に作られた。 特に、このコースは、いわゆるアウト・オブ・ディストリビューションの一般化(あるいはその欠如)の核心である因果推論を取り入れるために、機械学習の視点と知識を広げるために、そのような学生を導入することに焦点を当てている。

This is a lecture note produced for DS-GA 3001.003 "Special Topics in DS - Causal Inference in Machine Learning" at the Center for Data Science, New York University in Spring, 2024. This course was created to target master's and PhD level students with basic background in machine learning but who were not exposed to causal inference or causal reasoning in general previously. In particular, this course focuses on introducing such students to expand their view and knowledge of machine learning to incorporate causal reasoning, as this aspect is at the core of so-called out-of-distribution generalization (or lack thereof.)
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# 曖昧なアノテーション: 歩行者はいつ歩行者ではないのか?

Ambiguous Annotations: When is a Pedestrian not a Pedestrian? ( http://arxiv.org/abs/2405.08794v1 )

ライセンス: Link先を確認
Luisa Schwirten, Jannes Scholz, Daniel Kondermann, Janis Keuper, (参考訳) 人間のアノテータによってラベル付けされたデータセットは、機械学習モデルのトレーニングとテストに広く使用されている。 近年、研究者はラベルの品質にますます注意を払っている。 しかし、割り当てられたラベルが正しいかどうかを客観的に判断することは必ずしも不可能ではない。 本研究は、データ品質の重要な次元として、自律運転データセットのアノテーションにおけるこの曖昧さについて考察する。 実験により, LAMR, 精度, F1スコアの観点から, 最先端の歩行者検出器のモデル性能を向上し, トレーニング時間とアノテーションのコストを削減できることが確認された。 さらに、不明瞭なインスタンスを安全に除去し、トレーニングデータの保持された代表性を確保するために、調査対象のデータセットとクラスの性質の理解が不可欠であることを示す。

Datasets labelled by human annotators are widely used in the training and testing of machine learning models. In recent years, researchers are increasingly paying attention to label quality. However, it is not always possible to objectively determine whether an assigned label is correct or not. The present work investigates this ambiguity in the annotation of autonomous driving datasets as an important dimension of data quality. Our experiments show that excluding highly ambiguous data from the training improves model performance of a state-of-the-art pedestrian detector in terms of LAMR, precision and F1 score, thereby saving training time and annotation costs. Furthermore, we demonstrate that, in order to safely remove ambiguous instances and ensure the retained representativeness of the training data, an understanding of the properties of the dataset and class under investigation is crucial.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# 量子機械学習におけるプライバシ・アドバンテージの展望

Prospects of Privacy Advantage in Quantum Machine Learning ( http://arxiv.org/abs/2405.08801v1 )

ライセンス: Link先を確認
Jamie Heredge, Niraj Kumar, Dylan Herman, Shouvanik Chakrabarti, Romina Yalovetzky, Shree Hari Sureshbabu, Marco Pistoia, (参考訳) 機械学習モデルにおけるデータのプライバシの確保は、特に、複数のパーティ間でモデル勾配が共有される分散環境では、特に重要である。 この研究は、古典モデルの勾配から入力データを復元する成功の増加に動機付けられ、中心的な疑問に対処する: 量子機械学習モデルの勾配から入力データを回復するのは、どのくらい難しいか? 学習モデルとして変分量子回路(VQC)に着目し,VQCアンサッツの動的リー代数(DLA)がもたらす重要な役割を明らかにする。 DLAは以前、VQCモデルの古典的なシミュラビリティとトレーニング容易性に関連付けられていたが、この研究は初めて、VQCモデルのプライバシへの接続を確立した。 特に,多項式サイズのDLAのようなVQCのトレーニング性に寄与する特性は,入力の詳細なスナップショットの抽出にも有効であることを示す。 スナップショットは、オリジナルの入力に直接アクセスすることなく、異なる学習タスクのためのVQCモデルのトレーニングを可能にします。 さらに、これらのスナップショットから元の入力データを復元できる強力なプライバシー侵害の条件を、古典的あるいは量子的多項式時間法により検討する。 我々は、古典的シミュラビリティやDLAベースとの重なり合い、VQCモデルのプライバシー侵害を可能にするフーリエ周波数特性などの符号化マップ上の条件を確立する。 これにより、トレーニング可能性と堅牢なプライバシ保護のバランスをとる量子機械学習モデルを設計するための要件を導くことで、量子プライバシーの優位性の可能性の詳細化に重要な役割を果たします。

Ensuring data privacy in machine learning models is critical, particularly in distributed settings where model gradients are typically shared among multiple parties to allow collaborative learning. Motivated by the increasing success of recovering input data from the gradients of classical models, this study addresses a central question: How hard is it to recover the input data from the gradients of quantum machine learning models? Focusing on variational quantum circuits (VQC) as learning models, we uncover the crucial role played by the dynamical Lie algebra (DLA) of the VQC ansatz in determining privacy vulnerabilities. While the DLA has previously been linked to the classical simulatability and trainability of VQC models, this work, for the first time, establishes its connection to the privacy of VQC models. In particular, we show that properties conducive to the trainability of VQCs, such as a polynomial-sized DLA, also facilitate the extraction of detailed snapshots of the input. We term this a weak privacy breach, as the snapshots enable training VQC models for distinct learning tasks without direct access to the original input. Further, we investigate the conditions for a strong privacy breach where the original input data can be recovered from these snapshots by classical or quantum-assisted polynomial time methods. We establish conditions on the encoding map such as classical simulatability, overlap with DLA basis, and its Fourier frequency characteristics that enable such a privacy breach of VQC models. Our findings thus play a crucial role in detailing the prospects of quantum privacy advantage by guiding the requirements for designing quantum machine learning models that balance trainability with robust privacy protection.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# SciFIBench: 科学的図式解釈のための大規模マルチモーダルモデルのベンチマーク

SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation ( http://arxiv.org/abs/2405.08807v1 )

ライセンス: Link先を確認
Jonathan Roberts, Kai Han, Neil Houlsby, Samuel Albanie, (参考訳) 大規模マルチモーダルモデル(LMM)は多くのタスクや分野において柔軟で一般化可能であることが証明されている。 科学的研究を支援する強い可能性を秘めているが、この領域におけるそれらの能力は十分に特徴づけられていない。 科学的研究の重要な側面は、複雑な情報のリッチで圧縮された情報源として機能する図形を理解し解釈する能力である。 本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。 主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。 質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。 SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。 最後に,LMMのアライメントと忠実度を,我々のベンチマークによる拡張質問セット上で検討する。 私たちはこの領域の進歩を促進するためにSciFIBenchをリリースします。

Large multimodal models (LMMs) have proven flexible and generalisable across many tasks and fields. Although they have strong potential to aid scientific research, their capabilities in this domain are not well characterised. A key aspect of scientific research is the ability to understand and interpret figures, which serve as a rich, compressed source of complex information. In this work, we present SciFIBench, a scientific figure interpretation benchmark. Our main benchmark consists of a 1000-question gold set of multiple-choice questions split between two tasks across 12 categories. The questions are curated from CS arXiv paper figures and captions, using adversarial filtering to find hard negatives and human verification for quality control. We evaluate 26 LMMs on SciFIBench, finding it to be a challenging benchmark. Finally, we investigate the alignment and reasoning faithfulness of the LMMs on augmented question sets from our benchmark. We release SciFIBench to encourage progress in this domain.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# Qiskitによる量子コンピューティング

Quantum computing with Qiskit ( http://arxiv.org/abs/2405.08810v1 )

ライセンス: Link先を確認
Ali Javadi-Abhari, Matthew Treinish, Kevin Krsulich, Christopher J. Wood, Jake Lishman, Julien Gacon, Simon Martiel, Paul D. Nation, Lev S. Bishop, Andrew W. Cross, Blake R. Johnson, Jay M. Gambetta, (参考訳) 量子情報科学のためのソフトウェア開発キットであるQiskitについて説明する。 我々は、その開発を形作る重要な設計決定について論じ、ソフトウェアアーキテクチャとその中核コンポーネントについて検討する。 量子コンピュータ上での凝縮物質物理学の問題を解くためのエンドツーエンドのワークフローを実証し、例えば、様々な抽象化レベルでの回路の表現と最適化、新しいゲートへのスケーラビリティと再ターゲット性、動的回路による量子古典計算の使用など、ケイスキットのいくつかの機能を強調した。 最後に、Qiskitを様々なタスクに拡張するツールとプラグインのエコシステムと将来について論じる。

We describe Qiskit, a software development kit for quantum information science. We discuss the key design decisions that have shaped its development, and examine the software architecture and its core components. We demonstrate an end-to-end workflow for solving a problem in condensed matter physics on a quantum computer that serves to highlight some of Qiskit's capabilities, for example the representation and optimization of circuits at various abstraction levels, its scalability and retargetability to new gates, and the use of quantum-classical computations via dynamic circuits. Lastly, we discuss some of the ecosystem of tools and plugins that extend Qiskit for various tasks, and the future ahead.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# CinePile: 長いビデオ質問によるデータセットとベンチマーク

CinePile: A Long Video Question Answering Dataset and Benchmark ( http://arxiv.org/abs/2405.08813v1 )

ライセンス: Link先を確認
Ruchit Rawal, Khalid Saifullah, Ronen Basri, David Jacobs, Gowthami Somepalli, Tom Goldstein, (参考訳) ビデオから1つか数つのランダムフレームを分析することで、これらのデータセットから派生した多くのタスクにうまく取り組むことができる。 この問題に対処するために、我々はCinePileという新しいデータセットとベンチマークを提示する。 本稿では,質問応答データセット作成における革新的アプローチについて詳述し,より進んだLCMを人為的ループで活用し,人為的生データに基づいて構築する方法について述べる。 包括的データセットは、時間的理解、人間と物体の相互作用の理解、シーン内の出来事や行動の推論など、視覚的およびマルチモーダルな側面をカバーする305,000の多重選択質問(MCQ)から構成される。 さらに、我々のデータセットのテスト分割に基づいて、最近のビデオ中心のLCM(オープンソースとプロプライエタリの両方)を評価した。 その結果、現在最先端のビデオ中心のLLMでさえ、これらのタスクにおいて人間のパフォーマンスが著しく遅れており、ビデオ理解に固有の複雑さと課題が浮かび上がっていることがわかった。 データセットはhttps://hf.co/datasets/tomg-group-umd/cinepileで利用可能である。

Current datasets for long-form video understanding often fall short of providing genuine long-form comprehension challenges, as many tasks derived from these datasets can be successfully tackled by analyzing just one or a few random frames from a video. To address this issue, we present a novel dataset and benchmark, CinePile, specifically designed for authentic long-form video understanding. This paper details our innovative approach for creating a question-answer dataset, utilizing advanced LLMs with human-in-the-loop and building upon human-generated raw data. Our comprehensive dataset comprises 305,000 multiple-choice questions (MCQs), covering various visual and multimodal aspects, including temporal comprehension, understanding human-object interactions, and reasoning about events or actions within a scene. Additionally, we evaluate recent video-centric LLMs, both open-source and proprietary, on the test split of our dataset. The findings reveal that even state-of-the-art video-centric LLMs significantly lag behind human performance in these tasks, highlighting the complexity and challenge inherent in video understanding. The dataset is available at https://hf.co/datasets/tomg-group-umd/cinepile
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# 非平衡多体ダイナミクスのための波動関数とグリーン関数に基づく手法の性能評価

Performance of wave function and Green's functions based methods for non equilibrium many-body dynamics ( http://arxiv.org/abs/2405.08814v1 )

ライセンス: Link先を確認
Cian C. Reeves, Gaurav Harsha, Avijit Shee, Yuanran Zhu, Chao Yang, K Birgitta Whaley, Dominika Zgid, Vojtech Vlcek, (参考訳) 量子多体系の非平衡力学の理論的記述は、本質的にどちらを用いるかのどちらかである。 (i)多体波動関数の展開の切り離しに依存する明示的な処理。 (ii)多体波動関数の圧縮表現、又は (iii)グリーン関数による効果的な(下向きの)表現の進化。 本研究では,各手法の代表例を選択し,これらの相補的アプローチが非平衡状態への強磁場摂動によって引き起こされる力学をどのように捉えているかに対処する。 強い駆動下では、システムは単一粒子密度行列の強い絡み合いと、強く相互作用する平衡系に近づく自然集団によって特徴づけられる。 我々は数値的に正確であり、異なる手法の系統の批判的比較の基礎となる結果の代表的な集合を生成する。 類似性変換されたハミルトニアン(結合クラスタアプローチ)に基づく圧縮された定式化は、弱体において事実上正確であり、したがって弱あるいは中等相関系であることを示す。 しかし、結合クラスターは強い運動場に苦しむが、その下では単一の粒子密度行列のフォン・ノイマンエントロピーによって測定されるように、強い相関の挙動を示す。 グリーン関数が(広く普及している)GW近似で予測するダイナミクスは、強駆動状態における平均場の結果を著しく改善することで、より正確ではない。

Theoretical descriptions of non equilibrium dynamics of quantum many-body systems essentially employ either (i) explicit treatments, relying on truncation of the expansion of the many-body wave function, (ii) compressed representations of the many-body wave function, or (iii) evolution of an effective (downfolded) representation through Green's functions. In this work, we select representative cases of each of the methods and address how these complementary approaches capture the dynamics driven by intense field perturbations to non equilibrium states. Under strong driving, the systems are characterized by strong entanglement of the single particle density matrix and natural populations approaching those of a strongly interacting equilibrium system. We generate a representative set of results that are numerically exact and form a basis for critical comparison of the distinct families of methods. We demonstrate that the compressed formulation based on similarity transformed Hamiltonians (coupled cluster approach) is practically exact in weak fields and, hence, weakly or moderately correlated systems. Coupled cluster, however, struggles for strong driving fields, under which the system exhibits strongly correlated behavior, as measured by the von Neumann entropy of the single particle density matrix. The dynamics predicted by Green's functions in the (widely popular) GW approximation are less accurate by improve significantly upon the mean-field results in the strongly driven regime.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# クラスタマスキングによる高能率ビジョンランゲージ事前学習

Efficient Vision-Language Pre-training by Cluster Masking ( http://arxiv.org/abs/2405.08815v1 )

ライセンス: Link先を確認
Zihao Wei, Zixuan Pan, Andrew Owens, (参考訳) 本稿では,視覚的コントラスト学習における画像パッチのマスキング方法を提案する。 トレーニングの各イテレーションにおいて、元のピクセル強度によって測定されるように、視覚的に類似した画像パッチのクラスタをランダムにマスキングする。 これは、文脈からのみマスクされた視覚構造のための単語を予測することをモデルに強制するため、対照的なトレーニング自体を超えて、余分な学習信号を提供する。 また、各画像で使用されるデータ量を減らしてトレーニングを高速化する。 複数のベンチマークで事前学習を行うことで,FLIPなどのマスキング手法で学習表現の質を向上させることにより,本モデルの有効性を評価する。

We propose a simple strategy for masking image patches during visual-language contrastive learning that improves the quality of the learned representations and the training speed. During each iteration of training, we randomly mask clusters of visually similar image patches, as measured by their raw pixel intensities. This provides an extra learning signal, beyond the contrastive training itself, since it forces a model to predict words for masked visual structures solely from context. It also speeds up training by reducing the amount of data used in each image. We evaluate the effectiveness of our model by pre-training on a number of benchmarks, finding that it outperforms other masking strategies, such as FLIP, on the quality of the learned representation.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# RoboDriveの挑戦:どんな状況でもいつでもドライブできる

The RoboDrive Challenge: Drive Anytime Anywhere in Any Condition ( http://arxiv.org/abs/2405.08816v1 )

ライセンス: Link先を確認
Lingdong Kong, Shaoyuan Xie, Hanjiang Hu, Yaru Niu, Wei Tsang Ooi, Benoit R. Cottereau, Lai Xing Ng, Yuexin Ma, Wenwei Zhang, Liang Pan, Kai Chen, Ziwei Liu, Weichao Qiu, Wei Zhang, Xu Cao, Hao Lu, Ying-Cong Chen, Caixin Kang, Xinning Zhou, Chengyang Ying, Wentao Shang, Xingxing Wei, Yinpeng Dong, Bo Yang, Shengyin Jiang, Zeliang Ma, Dengyi Ji, Haiwen Li, Xingliang Huang, Yu Tian, Genghua Kou, Fan Jia, Yingfei Liu, Tiancai Wang, Ying Li, Xiaoshuai Hao, Yifan Yang, Hui Zhang, Mengchuan Wei, Yi Zhou, Haimei Zhao, Jing Zhang, Jinke Li, Xiao He, Xiaoqiang Cheng, Bingyang Zhang, Lirong Zhao, Dianlei Ding, Fangsheng Liu, Yixiang Yan, Hongming Wang, Nanfei Ye, Lun Luo, Yubo Tian, Yiwei Zuo, Zhe Cao, Yi Ren, Yunfan Li, Wenjie Liu, Xun Wu, Yifan Mao, Ming Li, Jian Liu, Jiayang Liu, Zihan Qin, Cunxi Chu, Jialei Xu, Wenbo Zhao, Junjun Jiang, Xianming Liu, Ziyan Wang, Chiwei Li, Shilong Li, Chendong Yuan, Songyue Yang, Wentao Liu, Peng Chen, Bin Zhou, Yubo Wang, Chi Zhang, Jianhang Sun, Hai Chen, Xiao Yang, Lizhong Wang, Dongyi Fu, Yongchun Lin, Huitong Yang, Haoang Li, Yadan Luo, Xianjing Cheng, Yong Xu, (参考訳) 自動運転の分野では、アウト・オブ・ディストリビューション条件下でのロバストな認識が、車両の安全な配置にとって最重要である。 悪天候、センサーの故障、環境の予測不能といった課題は、自律システムの性能に深刻な影響を及ぼす可能性がある。 2024年のRoboDrive Challengeは、現実世界の変動に耐え、適応できる駆動認識技術の発展を促進するために作られた。 BEV検出、マップセグメンテーション、セマンティック占有率予測、多視点深度推定の4つの重要なタスクに焦点を当てたコンペティションは、典型的および非定型的障害に対するシステムのレジリエンスを革新し、強化するゴーストレットを敷いた。 今年のチャレンジは5つの異なるトラックで構成され、11カ国の93の機関から140の登録チームが参加し、その結果、サーバを通じて1,000近い応募が評価されました。 競争は15のトップパフォーマンスソリューションで頂点に達し、高度なデータ拡張、マルチセンサー融合、エラー修正のための自己教師付き学習、センサーの堅牢性を高める新しいアルゴリズム戦略など、革新的なアプローチが導入された。 これらの貢献は、特にセンサの不整合や環境変動の扱いにおいて、最先端の進歩に大きく寄与した。 参加者は協力的な努力を通じて、現在の技術の境界を押し進め、現実のシナリオにおけるその可能性を示した。 大規模な評価と分析は、これらのソリューションの有効性に関する洞察を与え、駆動認識システムのレジリエンスを改善するための重要なトレンドと成功戦略を強調した。 この課題はこの分野に新しいベンチマークを設定し、この分野における将来の研究をガイドするであろうテクニックの豊富なリポジトリを提供する。

In the realm of autonomous driving, robust perception under out-of-distribution conditions is paramount for the safe deployment of vehicles. Challenges such as adverse weather, sensor malfunctions, and environmental unpredictability can severely impact the performance of autonomous systems. The 2024 RoboDrive Challenge was crafted to propel the development of driving perception technologies that can withstand and adapt to these real-world variabilities. Focusing on four pivotal tasks -- BEV detection, map segmentation, semantic occupancy prediction, and multi-view depth estimation -- the competition laid down a gauntlet to innovate and enhance system resilience against typical and atypical disturbances. This year's challenge consisted of five distinct tracks and attracted 140 registered teams from 93 institutes across 11 countries, resulting in nearly one thousand submissions evaluated through our servers. The competition culminated in 15 top-performing solutions, which introduced a range of innovative approaches including advanced data augmentation, multi-sensor fusion, self-supervised learning for error correction, and new algorithmic strategies to enhance sensor robustness. These contributions significantly advanced the state of the art, particularly in handling sensor inconsistencies and environmental variability. Participants, through collaborative efforts, pushed the boundaries of current technologies, showcasing their potential in real-world scenarios. Extensive evaluations and analyses provided insights into the effectiveness of these solutions, highlighting key trends and successful strategies for improving the resilience of driving perception systems. This challenge has set a new benchmark in the field, providing a rich repository of techniques expected to guide future research in this field.
翻訳日:2024-05-15 13:08:43 公開日:2024-05-14
# ノイズ量子多項時間と多項階層のOracle分離

Oracle Separation between Noisy Quantum Polynomial Time and the Polynomial Hierarchy ( http://arxiv.org/abs/2405.07137v2 )

ライセンス: Link先を確認
Nai-Hui Chia, Min-Hsiu Hsieh, Shih-Han Hung, En-Jui Kuo, (参考訳) 本研究は、Chen, Cotler, Huang, Li (2022) などの定義に触発された、ノイズ量子回路の物理的に動機付けられた複雑性クラス間のオラクルの分離について研究する。 一定の誤差率で、分離はNPの観点で達成できると証明する。 誤差レートが$\Omega(\log n/n)$の場合、この結果をPHの分離にまで拡張することができる。 これは、誤りの少ない量子コンピュータでさえ、様々なシナリオや仮定の下で古典的な複雑性クラスを超える可能性があることを示している。 また,Raz と Tal (2022年) と Bassirian, Bouland, Fefferman, Gunn, Tal (2021年) の研究で見出された様々なノイズ設定や,新しい古典的硬度結果についても検討する。

This work investigates the oracle separation between the physically motivated complexity class of noisy quantum circuits, inspired by definitions such as those presented by Chen, Cotler, Huang, and Li (2022). We establish that with a constant error rate, separation can be achieved in terms of NP. When the error rate is $\Omega(\log n/n)$, we can extend this result to the separation of PH. Notably, our oracles, in all separations, do not necessitate error correction schemes or fault tolerance, as all quantum circuits are of constant depth. This indicates that even quantum computers with minor errors, without error correction, may surpass classical complexity classes under various scenarios and assumptions. We also explore various common noise settings and present new classical hardness results, generalizing those found in studies by Raz and Tal (2022) and Bassirian, Bouland, Fefferman, Gunn, and Tal (2021), which are of independent interest.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# Chebyshev Polynomial-based Kolmogorov-Arnold Networks: 非線形関数近似のための効率的なアーキテクチャ

Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation ( http://arxiv.org/abs/2405.07200v2 )

ライセンス: Link先を確認
Sidharth SS, Gokul R, (参考訳) 複素非線形関数の正確な近似は、多くの科学および工学領域における根本的な挑戦である。 従来のニューラルネットワークアーキテクチャは、高次元関数に存在する複雑なパターンや不規則を捉えるのに苦労することが多い。 本稿では、Chebyshev Kolmogorov-Arnoldネットワーク(Chebyshev Kan)を紹介し、Kelmogorov-Arnold理論の理論的基礎とChebyshev多項式の強力な近似能力を組み合わせた新しいアプローチを提案する。 1

Accurate approximation of complex nonlinear functions is a fundamental challenge across many scientific and engineering domains. Traditional neural network architectures often struggle to capture intricate patterns and irregularities present in high-dimensional functions. This paper introduces the Chebyshev Kolmogorov-Arnold Network (Chebyshev KAN), a novel approach that combines the theoretical foundations of the Kolmogorov-Arnold Theorem with the powerful approximation capabilities of Chebyshev polynomials. 1
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# 連続可変量子プロセスのためのZXグラフ計算

ZX Graphical Calculus for Continuous-Variable Quantum Processes ( http://arxiv.org/abs/2405.07246v2 )

ライセンス: Link先を確認
Hironari Nagayoshi, Warit Asavanant, Ryuhoh Ide, Kosuke Fukui, Atsushi Sakaguchi, Jun-ichi Yoshikawa, Nicolas C. Menicucci, Akira Furusawa, (参考訳) 連続可変(CV)量子情報処理は大規模フォールトトレラント量子計算の候補となる。 しかし、CV量子過程の解析は、主にハイゼンベルク図における作用素の進化の直接計算に依存しており、CV空間の特徴は直感的に研究されていない。 CV量子コンピューティングのさらなる探索の鍵となる要素は、視覚的直観と分析のための新しいツールをもたらす計算モデルの構築である。 本稿では、任意のCV量子過程を単純な有向グラフとして表現することのできる、ZX計算と呼ばれる量子ビット系の類似モデルに着想を得たグラフィカル・コンピューティング・モデルについて検討する。 本稿では,2つの異なる量子プロセス間の等価性が,ある場合において図形変換のシーケンスとしてどのように証明できるかを示すことによって,直感的にCVプロセスを理解するためのグラフィカルツールとしての我々のモデルの有用性を実証する。 また、計測に基づく量子コンピューティング、ガウスおよび非ガウス過程のキャラクタリゼーション、回路最適化などのモデルの適用可能性についても検討する。

Continuous-variable (CV) quantum information processing is a promising candidate for large-scale fault-tolerant quantum computation. However, analysis of CV quantum process relies mostly on direct computation of the evolution of operators in the Heisenberg picture, and the features of CV space has yet to be thoroughly investigated in an intuitive manner. One key ingredient for further exploration of CV quantum computing is the construction of a computational model that brings visual intuition and new tools for analysis. In this paper, we delve into a graphical computational model, inspired by a similar model for qubit-based systems called the ZX calculus, that enables the representation of arbitrary CV quantum process as a simple directed graph. We demonstrate the utility of our model as a graphical tool to comprehend CV processes intuitively by showing how equivalences between two distinct quantum processes can be proven as a sequence of diagrammatic transformations in certain cases. We also examine possible applications of our model, such as measurement-based quantum computing, characterization of Gaussian and non-Gaussian processes, and circuit optimization.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# MedConceptsQA: オープンソースの医療概念QAベンチマーク

MedConceptsQA: Open Source Medical Concepts QA Benchmark ( http://arxiv.org/abs/2405.07348v2 )

ライセンス: Link先を確認
Ofir Ben Shoham, Nadav Rappoport, (参考訳) MedConceptsQAは、医療概念質問応答のための専用のオープンソースベンチマークである。 このベンチマークは、診断、手順、薬物など、さまざまな語彙にわたる様々な医学概念に関する質問で構成されている。 質問は、簡単、中、困難の3つのレベルに分類される。 各種大規模言語モデルを用いて評価を行った。 以上の結果より, 事前訓練を受けた臨床用大言語モデルでは, 医用データで事前訓練を受けたにもかかわらず, ランダムな推定値に近い精度の精度が得られたことが示唆された。 しかし、GPT-4は、臨床大言語モデルと比較して、27%-37%(ゼロショット学習では27%、少数ショット学習では37%)の絶対的な平均改善を実現している。 我々のベンチマークは、大規模言語モデルによる医学的概念の理解と推論を評価するための貴重なリソースとして役立ちます。 私たちのベンチマークはhttps://huggingface.co/datasets/ofir408/MedConceptsQAで公開されています。

We present MedConceptsQA, a dedicated open source benchmark for medical concepts question answering. The benchmark comprises of questions of various medical concepts across different vocabularies: diagnoses, procedures, and drugs. The questions are categorized into three levels of difficulty: easy, medium, and hard. We conducted evaluations of the benchmark using various Large Language Models. Our findings show that pre-trained clinical Large Language Models achieved accuracy levels close to random guessing on this benchmark, despite being pre-trained on medical data. However, GPT-4 achieves an absolute average improvement of nearly 27%-37% (27% for zero-shot learning and 37% for few-shot learning) when compared to clinical Large Language Models. Our benchmark serves as a valuable resource for evaluating the understanding and reasoning of medical concepts by Large Language Models. Our benchmark is available at https://huggingface.co/datasets/ofir408/MedConceptsQA
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# プレテキストタスクとしてのバインディング: タブラルドメインにおける自己指導型学習の改善

Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains ( http://arxiv.org/abs/2405.07414v2 )

ライセンス: Link先を確認
Kyungeun Lee, Ye Seul Sim, Hye-Seung Cho, Moonjung Eo, Suhee Yoon, Sanghyu Yoon, Woohyung Lim, (参考訳) ディープネットワークが優れた表現を学習する能力は、データセット固有の特性を考慮して、適切な帰納的バイアスを活用することにある。 表領域では、一意的に不均一な特徴(カテゴリー的特徴と数値的特徴の両方)を効果的に扱い、断片的定数関数のような不規則な関数を把握することが重要である。 自己教師型学習フレームワークにおける課題に対処するために,古典的双対法に基づく新しいプレテキストタスクを提案する。 その考え方は単純で、元の値ではなく、binインデックス(順序またはクラス)を再構築する。 このプリテキストタスクは、不規則な依存関係をキャプチャし、連続的な入力から離散化されたビンにマッピングし、すべての特徴をカテゴリタイプのターゲットに設定することで特徴の不均一性を緩和するインコーダに誘導バイアスを与える。 我々の実証研究は、不規則な関数のキャプチャ、エンコーダアーキテクチャとの互換性、追加の修正、すべての機能を同じセットに標準化、機能内で同様の値をグループ化、順序付け情報の提供など、ビンニングのいくつかの利点を実証している。 多様な表表データセットの包括的評価は,幅広い下流タスクに対する表表表現学習性能を一貫して向上させることを裏付けるものである。 コードはhttps://github.com/kyungeun-lee/tabularbinning.comで入手できる。

The ability of deep networks to learn superior representations hinges on leveraging the proper inductive biases, considering the inherent properties of datasets. In tabular domains, it is critical to effectively handle heterogeneous features (both categorical and numerical) in a unified manner and to grasp irregular functions like piecewise constant functions. To address the challenges in the self-supervised learning framework, we propose a novel pretext task based on the classical binning method. The idea is straightforward: reconstructing the bin indices (either orders or classes) rather than the original values. This pretext task provides the encoder with an inductive bias to capture the irregular dependencies, mapping from continuous inputs to discretized bins, and mitigates the feature heterogeneity by setting all features to have category-type targets. Our empirical investigations ascertain several advantages of binning: capturing the irregular function, compatibility with encoder architecture and additional modifications, standardizing all features into equal sets, grouping similar values within a feature, and providing ordering information. Comprehensive evaluations across diverse tabular datasets corroborate that our method consistently improves tabular representation learning performance for a wide range of downstream tasks. The codes are available in https://github.com/kyungeun-lee/tabularbinning.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# HybridHash: 画像検索のためのハイブリッド畳み込みと自己注意型ディープハッシュ

HybridHash: Hybrid Convolutional and Self-Attention Deep Hashing for Image Retrieval ( http://arxiv.org/abs/2405.07524v2 )

ライセンス: Link先を確認
Chao He, Hongxi Wei, (参考訳) ディープイメージハッシュは、入力画像をディープニューラルネットワークを介して単純なバイナリハッシュコードにマッピングすることを目的としている。 近年、畳み込みとトランスフォーマーを組み合わせたハイブリッドネットワークは、様々なコンピュータタスクにおいて優れた性能を発揮しており、研究者から広く注目を集めている。 それでも、画像検索におけるそのようなハイブリッドネットワークの潜在的な利点は、まだ検証する必要がある。 この目的のために,HybridHashとして知られるハイブリッド畳み込み型・自己注意型ディープハッシュ法を提案する。 具体的には,ブロック集約関数を導入し,局所的な自己アテンションの効果を達成し,計算複雑性を低減する,段階的アーキテクチャによるバックボーンネットワークを提案する。 インタラクションモジュールは、画像ブロック間の情報通信を促進し、視覚的表現を強化するために、精巧に設計されている。 我々はCIFAR-10, NUS-WIDE, ImagingNETの3つの広く利用されているデータセットについて総合的な実験を行った。 実験の結果,提案手法は最先端の深層ハッシュ法よりも優れた性能を示した。 ソースコードはhttps://github.com/shuaichaochao/HybridHashで入手できる。

Deep image hashing aims to map input images into simple binary hash codes via deep neural networks and thus enable effective large-scale image retrieval. Recently, hybrid networks that combine convolution and Transformer have achieved superior performance on various computer tasks and have attracted extensive attention from researchers. Nevertheless, the potential benefits of such hybrid networks in image retrieval still need to be verified. To this end, we propose a hybrid convolutional and self-attention deep hashing method known as HybridHash. Specifically, we propose a backbone network with stage-wise architecture in which the block aggregation function is introduced to achieve the effect of local self-attention and reduce the computational complexity. The interaction module has been elaborately designed to promote the communication of information between image blocks and to enhance the visual representations. We have conducted comprehensive experiments on three widely used datasets: CIFAR-10, NUS-WIDE and IMAGENET. The experimental results demonstrate that the method proposed in this paper has superior performance with respect to state-of-the-art deep hashing methods. Source code is available https://github.com/shuaichaochao/HybridHash.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# DIDリンク:分散識別子と検証クレデンシャルを用いたTLSにおける認証

DID Link: Authentication in TLS with Decentralized Identifiers and Verifiable Credentials ( http://arxiv.org/abs/2405.07533v2 )

ライセンス: Link先を確認
Sandro Rodriguez Garzon, Dennis Natusch, Artur Philipp, Axel Küpper, Hans Joachim Einsiedler, Daniela Schneider, (参考訳) TLSの認証は、認証当局(CA)が発行するX.509デジタル証明書で優先的に行われる。 しかし、現在の公共の鍵となるインフラの中央集権的な性質は、単一障害点やサイバー攻撃への感受性などの深刻なリスクとともに、システム全体のセキュリティと信頼性を損なう可能性がある。 Decentralized Identifiers (DID) と分散台帳技術を組み合わせることで、証明の公開鍵を中央集権的で脆弱なCAで証明する必要なしに、ユニークな識別子の所有権を証明することは技術的に可能である。 本稿では,TLS 1.3の新しい認証方式であるDID Linkについて述べる。これは,CA発行の識別子の代わりに台帳付きDIDを備えた自己発行のX.509証明書を用いて,TLS準拠の認証を可能にするものだ。 TLSハンドシェイク後のDID-bound Verifiable Credentialsという形で、タンパー保護と第三者認証のクレームの交換を容易にし、通信相手の完全な識別で認証を完了する。 原型実装では、検証材料がキャッシュされている場合、DID LinkのTLSハンドシェイク期間と、台帳から取得された場合、合理的な長期化を示す。 アプリケーション層上で広く使用されているDIDベースの代替トランスポートプロトコルよりも、TLSチャネルの大幅な高速化は、分散管理されたデジタルIDとセキュアで信頼性の高いエンドツーエンド通信リンクを確立するための、DID Linkの可能性を実証している。

Authentication in TLS is predominately carried out with X.509 digital certificates issued by certificate authorities (CA). The centralized nature of current public key infrastructures, however, comes along with severe risks, such as single points of failure and susceptibility to cyber-attacks, potentially undermining the security and trustworthiness of the entire system. With Decentralized Identifiers (DID) alongside distributed ledger technology, it becomes technically feasible to prove ownership of a unique identifier without requiring an attestation of the proof's public key by a centralized and therefore vulnerable CA. This article presents DID Link, a novel authentication scheme for TLS 1.3 that empowers entities to authenticate in a TLS-compliant way with self-issued X.509 certificates that are equipped with ledger-anchored DIDs instead of CA-issued identifiers. It facilitates the exchange of tamper-proof and 3rd-party attested claims in the form of DID-bound Verifiable Credentials after the TLS handshake to complete the authentication with a full identification of the communication partner. A prototypical implementation shows comparable TLS handshake durations of DID Link if verification material is cached and reasonable prolongations if it is obtained from a ledger. The significant speed improvement of the resulting TLS channel over a widely used, DID-based alternative transport protocol on the application layer demonstrates the potential of DID Link to become a viable solution for the establishment of secure and trustful end-to-end communication links with decentrally managed digital identities.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# 探索コスト最小化制約を排除して逆2乗歩行を普遍的に生成するランダムウォークモデル

Random walk model that universally generates inverse square Lévy walk by eliminating search cost minimization constraint ( http://arxiv.org/abs/2405.07541v2 )

ライセンス: Link先を確認
Shuji Shinohara, Daiki Morita, Hayato Hirai, Ryosuke Kuribayashi, Nobuhito Manome, Toru Moriyama, Hiroshi Okamoto, Yoshihiro Nakajima, Pegio-Yukio Gunji, Ung-il Chung, (参考訳) L''evy ウォーク(L'evy walk)は、細菌からヒトまで、様々な生物の移動行動において、力の分布に追従する線形ステップの長さを特徴とするランダムウォークの一種である。 特に、L''evyは2倍近いパワー指数を持つ歩行を頻繁に観察するが、その根本原因は解明されていない。 本研究では、逆2乗歩行(Cauchy walk)と呼ばれる逆2乗歩行(L''evy walk)を生成するために設計された、単純化された抽象的なランダムウォークモデルを導入し、これらの現象を促進する条件を探索する。 モデルでは,エージェントは多次元空間においてランダムに選択された目的地に向かって移動し,その移動戦略は最短経路を追求する範囲によってパラメータ化される。 探索コストが走行距離に比例すると、このパラメータは探索コストの最小化を効果的に反映する。 以上の結果より,このコスト最小化制約への厳密な固着は,ブラウン歩行パターンをもたらすことが明らかとなった。 しかし、この制約を取り除くことは、運動を逆正方形 L\'evy ウォークに遷移させる。 したがって,探索コストの優先順位付けを調節することにより,Bownian と Cauchy の歩行動態をシームレスに切り替えることができる。 このモデルは最適化問題のパラメータ空間の探索に利用できる可能性がある。

The L\'evy walk, a type of random walk characterized by linear step lengths that follow a power-law distribution, is observed in the migratory behaviors of various organisms, ranging from bacteria to humans. Notably, L\'evy walks with power exponents close to two are frequently observed, though their underlying causes remain elusive. This study introduces a simplified, abstract random walk model designed to produce inverse square L\'evy walks, also known as Cauchy walks and explores the conditions that facilitate these phenomena. In our model, agents move toward a randomly selected destination in multi-dimensional space, and their movement strategy is parameterized by the extent to which they pursue the shortest path. When the search cost is proportional to the distance traveled, this parameter effectively reflects the emphasis on minimizing search costs. Our findings reveal that strict adherence to this cost minimization constraint results in a Brownian walk pattern. However, removing this constraint transitions the movement to an inverse square L\'evy walk. Therefore, by modulating the prioritization of search costs, our model can seamlessly alternate between Brownian and Cauchy walk dynamics. This model has the potential to be utilized for exploring the parameter space of an optimization problem.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# 適応IMFに向けて --多エージェントフレームワークにおけるユーティリティ機能の一般化

Towards Adaptive IMFs -- Generalization of utility functions in Multi-Agent Frameworks ( http://arxiv.org/abs/2405.07621v2 )

ライセンス: Link先を確認
Kaushik Dey, Satheesh K. Perepu, Abir Das, Pallab Dasgupta, (参考訳) Intent Management Function(IMF)は、次世代ネットワークの不可欠な部分である。 近年、対立する意図に対処し、実用機能の定義に基づいて世界目標を優先順位付けし、競合する意図に優先順位を付けるAIベースのIMFに関する研究が進められている。 初期の研究では、マルチエージェント強化学習(MARL)技術とAdHoc Teaming(AHT)アプローチを使ってIMFの効率的な紛争処理を行っている。 しかし、そのようなフレームワークが現実のシナリオで成功するためには、ビジネスの状況に柔軟である必要があります。 意図の優先順位が変化し、意図の充足度を測定するユーティリティ関数も定義において異なる場合がある。 本稿では,IMFが様々なユーティリティ機能に一般化し,追加のトレーニングを伴わずに実行時に意図の優先順位を変更するメカニズムを提案する。 このような一般化能力は、追加のトレーニングの必要なく、顧客の意図や優先順位が頻繁に変わるライブネットワークにIMFを配置するのに役立ちます。 ネットワークエミュレータの結果は、アプローチの有効性、新しい意図に対するスケーラビリティ、同じ柔軟性を達成するために追加のトレーニングを必要とする既存の技術よりも優れており、コストを削減し、効率性と適応性を高めている。

Intent Management Function (IMF) is an integral part of future-generation networks. In recent years, there has been some work on AI-based IMFs that can handle conflicting intents and prioritize the global objective based on apriori definition of the utility function and accorded priorities for competing intents. Some of the earlier works use Multi-Agent Reinforcement Learning (MARL) techniques with AdHoc Teaming (AHT) approaches for efficient conflict handling in IMF. However, the success of such frameworks in real-life scenarios requires them to be flexible to business situations. The intent priorities can change and the utility function, which measures the extent of intent fulfilment, may also vary in definition. This paper proposes a novel mechanism whereby the IMF can generalize to different forms of utility functions and change of intent priorities at run-time without additional training. Such generalization ability, without additional training requirements, would help to deploy IMF in live networks where customer intents and priorities change frequently. Results on the network emulator demonstrate the efficacy of the approach, scalability for new intents, outperforming existing techniques that require additional training to achieve the same degree of flexibility thereby saving cost, and increasing efficiency and adaptability.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# Aggregate Bandit Feedback を用いた線形MDPの準最適回帰

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback ( http://arxiv.org/abs/2405.07637v2 )

ライセンス: Link先を確認
Asaf Cassel, Haipeng Luo, Aviv Rosenberg, Dmitry Sotnikov, (参考訳) 多くの実世界のアプリケーションでは、強化学習(RL)プロセスの各ステップに報奨信号を提供することは困難であり、エピソードが終わるとフィードバックがより自然になる。 この目的のために,最近提案されたRLモデルとアグリゲート帯域フィードバック(Aggregate Bandit Feedback, RL-ABF)について検討した。 以前の研究では、RL-ABFは表の設定でのみ研究され、状態の数は少ないと仮定された。 本稿では,ABFを線形関数近似に拡張し,Q関数アンサンブルを持つ新しいランダム化手法に基づく値に基づく楽観的アルゴリズムと,新しいヘッジ方式を用いたポリシー最適化アルゴリズムを提案する。

In many real-world applications, it is hard to provide a reward signal in each step of a Reinforcement Learning (RL) process and more natural to give feedback when an episode ends. To this end, we study the recently proposed model of RL with Aggregate Bandit Feedback (RL-ABF), where the agent only observes the sum of rewards at the end of an episode instead of each reward individually. Prior work studied RL-ABF only in tabular settings, where the number of states is assumed to be small. In this paper, we extend ABF to linear function approximation and develop two efficient algorithms with near-optimal regret guarantees: a value-based optimistic algorithm built on a new randomization technique with a Q-functions ensemble, and a policy optimization algorithm that uses a novel hedging scheme over the ensemble.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# OpenLLM-Ro -- Llama 2からトレーニングを受けたルーマニアのオープンソースLLMの技術レポート

OpenLLM-Ro -- Technical Report on Open-source Romanian LLMs trained starting from Llama 2 ( http://arxiv.org/abs/2405.07703v2 )

ライセンス: Link先を確認
Mihai Masala, Denis C. Ilie-Ablachim, Dragos Corlatescu, Miruna Zavelca, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea, (参考訳) 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。 一部のLSMは多言語データで訓練されているが、ほとんどのトレーニングデータは英語で書かれている。 したがって、彼らの英語での演奏は、他の言語での演奏よりもはるかに多い。 本論文では,ルーマニア語を専門とする最初の基礎的・チャット型LLMの学習と評価について述べる。

In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English. Hence, their performance in English greatly exceeds their performance in other languages. This document presents our approach to training and evaluating the first foundational and chat LLM specialized for Romanian.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# 分散学習におけるセキュアアグリゲーション

Secure Aggregation Meets Sparsification in Decentralized Learning ( http://arxiv.org/abs/2405.07708v2 )

ライセンス: Link先を確認
Sayan Biswas, Anne-Marie Kermarrec, Rafael Pires, Rishi Sharma, Milos Vujasinovic, (参考訳) 分散学習(DL)は、機械学習(ML)モデルに対する高度な攻撃により、プライバシ侵害に対する脆弱性の増加に直面している。 セキュアアグリゲーション(Secure aggregate)は、複数のパーティが互いに中央のアグリゲータから個々の入力を隠蔽しながら、プライベートデータのアグリゲーションを計算できる計算効率のよい暗号技術である。 DLにおける通信効率を高めるため、モデルの最も重要なパラメータや勾配のみを選択的に共有するスペーシフィケーション技術を用いて、特に精度を損なうことなく効率を維持する。 しかし、異なるノードによる解離パラメータセットの送信により、DL内のスパース化モデルにセキュアなアグリゲーションを適用することは困難であり、マスクが効果的にキャンセルされるのを防ぐことができる。 本稿では,既存のスパーシフィケーション機構と互換性を持つように設計された,DLのための新しいセキュアアグリゲーションプロトコルであるCESARを紹介する。 CESARは、正直だが正反対の敵を確実に擁護し、両者の共謀に対処するために形式的に適応することができる。 本稿では,各ノードが行うスパシフィケーションと,CESARで共有されるパラメータの比率の相互関係に関する基礎的な理解を提供し,プロトコルの動作と適用性に関する分析的な洞察を提供する。 3つの規則的なトポロジで48ノードのネットワーク上での実験では、ランダムなサブサンプリングでは、CESARは常に分散並列確率勾配降下(D-PSGD)の0.5%以内であり、データのオーバーヘッドは11%に過ぎなかった。 さらに、TopKの精度を最大0.3%上回る。

Decentralized learning (DL) faces increased vulnerability to privacy breaches due to sophisticated attacks on machine learning (ML) models. Secure aggregation is a computationally efficient cryptographic technique that enables multiple parties to compute an aggregate of their private data while keeping their individual inputs concealed from each other and from any central aggregator. To enhance communication efficiency in DL, sparsification techniques are used, selectively sharing only the most crucial parameters or gradients in a model, thereby maintaining efficiency without notably compromising accuracy. However, applying secure aggregation to sparsified models in DL is challenging due to the transmission of disjoint parameter sets by distinct nodes, which can prevent masks from canceling out effectively. This paper introduces CESAR, a novel secure aggregation protocol for DL designed to be compatible with existing sparsification mechanisms. CESAR provably defends against honest-but-curious adversaries and can be formally adapted to counteract collusion between them. We provide a foundational understanding of the interaction between the sparsification carried out by the nodes and the proportion of the parameters shared under CESAR in both colluding and non-colluding environments, offering analytical insight into the working and applicability of the protocol. Experiments on a network with 48 nodes in a 3-regular topology show that with random subsampling, CESAR is always within 0.5% accuracy of decentralized parallel stochastic gradient descent (D-PSGD), while adding only 11% of data overhead. Moreover, it surpasses the accuracy on TopK by up to 0.3% on independent and identically distributed (IID) data.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# ロングコンテキスト生成AIのための統一シーケンス並列処理手法

A Unified Sequence Parallelism Approach for Long Context Generative AI ( http://arxiv.org/abs/2405.07719v2 )

ライセンス: Link先を確認
Jiarui Fang, Shangchun Zhao, (参考訳) 複数の計算装置にまたがって入力テンソルのシーケンス次元を分割するシーケンス並列性(SP)は、生成AIモデルの長いコンテキスト能力を解放する鍵となっている。 本稿では,最先端のSPアプローチであるDeepSpeed-UlyssesとRing-Attentionについて検討し,モデルアーキテクチャやネットワークハードウェアトポロジをより堅牢な統一SPアプローチを提案する。 本稿では,SPの通信コストと既存の並列性(データ/テンソル/ゼロ/エキスパート/パイプライン並列性を含む)を比較し,SPを含むハイブリッド4次元並列性の設計におけるベストプラクティスについて議論する。 LLAMA3-8Bモデルの配列長208KのSPを用いて、2つの8xA800ノードに対して86\% MFUを達成した。 我々のコードは \url{https://github.com/feifeibear/long-context-attention} で公開されています。

Sequence parallelism (SP), which divides the sequence dimension of input tensors across multiple computational devices, is becoming key to unlocking the long-context capabilities of generative AI models. This paper investigates the state-of-the-art SP approaches, i.e. DeepSpeed-Ulysses and Ring-Attention, and proposes a unified SP approach, which is more robust to transformer model architectures and network hardware topology. This paper compares the communication and memory cost of SP and existing parallelism, including data/tensor/zero/expert/pipeline parallelism, and discusses the best practices for designing hybrid 4D parallelism involving SP. We achieved 86\% MFU on two 8xA800 nodes using SP for sequence length 208K for the LLAMA3-8B model. Our code is publicly available on \url{https://github.com/feifeibear/long-context-attention}.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# PARDEN、リピートできるの? 繰り返しで脱獄を防げる

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition ( http://arxiv.org/abs/2405.07932v2 )

ライセンス: Link先を確認
Ziyang Zhang, Qizhen Zhang, Jakob Foerster, (参考訳) 大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。 厳格な安全確保プロセスにもかかわらず、Llama 2やClaude 2のような安全性に配慮したLCMは依然としてジェイルブレイクの影響を受けており、セキュリティ上のリスクとモデルの悪用につながっている。 このようなリスクを軽減するための選択肢の1つは、LLMの入力や望ましくない動作の出力をチェックする専用の"セーフガード"でLLMを増強することである。 有望なアプローチは、LLM自体をセーフガードとして使用することだ。 それにもかかわらず、LSMに毒性物質を自己分類するよう促すようなベースライン法は、限られた有効性を示す。 アライメントトレーニングはモデルに自己検閲の振る舞いを与える("Sorry I can't do it")。 本研究では、モデルに自身の出力をリピートするように要求するだけで、ドメインシフトを回避するPARDENを提案する。 PARDENは、モデルへの微調整もホワイトボックスアクセスも必要としない。 提案手法の有効性を実証的に検証し,PARDENがLlama-2とClaude-2の既存のジェイルブレイク検出基準を著しく上回っていることを示す。 コードとデータはhttps://github.com/Ed-Zh/PARDENで公開されている。 PARDENは特に、高い真正性率(TPR)と低い偽正性率(FPR)の関連体制において強力であることがわかった。 例えば、Llama2-7Bの場合、TPRが90%に等しい場合、PARDENは有害な行動データセットでFPRを24.8%から2.0%に約11倍削減する。

Large language models (LLMs) have shown success in many natural language processing tasks. Despite rigorous safety alignment processes, supposedly safety-aligned LLMs like Llama 2 and Claude 2 are still susceptible to jailbreaks, leading to security risks and abuse of the models. One option to mitigate such risks is to augment the LLM with a dedicated "safeguard", which checks the LLM's inputs or outputs for undesired behaviour. A promising approach is to use the LLM itself as the safeguard. Nonetheless, baseline methods, such as prompting the LLM to self-classify toxic content, demonstrate limited efficacy. We hypothesise that this is due to domain shift: the alignment training imparts a self-censoring behaviour to the model ("Sorry I can't do that"), while the self-classify approach shifts it to a classification format ("Is this prompt malicious"). In this work, we propose PARDEN, which avoids this domain shift by simply asking the model to repeat its own outputs. PARDEN neither requires finetuning nor white box access to the model. We empirically verify the effectiveness of our method and show that PARDEN significantly outperforms existing jailbreak detection baselines for Llama-2 and Claude-2. Code and data are available at https://github.com/Ed-Zh/PARDEN. We find that PARDEN is particularly powerful in the relevant regime of high True Positive Rate (TPR) and low False Positive Rate (FPR). For instance, for Llama2-7B, at TPR equal to 90%, PARDEN accomplishes a roughly 11x reduction in the FPR from 24.8% to 2.0% on the harmful behaviours dataset.
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14
# MambaOut: ビジョンにMambaは本当に必要か?

MambaOut: Do We Really Need Mamba for Vision? ( http://arxiv.org/abs/2405.07992v2 )

ライセンス: Link先を確認
Weihao Yu, Xinchao Wang, (参考訳) 状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処し、視覚タスクに適用された。 それでも、視覚に対するMambaのパフォーマンスは、畳み込みモデルや注目ベースのモデルと比較すると、しばしば過大評価される。 本稿では,マンバの本質を探求し,マンバが長期的・自己回帰的特徴を有するタスクに理想的に適していると結論づける。 視覚タスクの場合、画像分類はどちらの特徴とも一致しないため、このタスクにはマンバは必要ない、という仮説を立てる。 仮説を実証的に検証するために,Mambaブロックを積み重ねてコアトークンミキサーSSMを除去し,MambaOutという一連のモデルを構築した。 実験結果は仮説を強く支持する。 具体的には、イメージネット画像分類において、我々のMambaOutモデルはすべての視覚的Mambaモデルを上回っており、このタスクにはMambaが本当に不要であることを示している。 検出とセグメンテーションに関しては、MambaOutは最先端のビジュアルMambaモデルの性能と一致せず、長時間の視覚タスクに対するMambaの可能性を示す。 コードはhttps://github.com/yuweihao/MambaOutで入手できる。

Mamba, an architecture with RNN-like token mixer of state space model (SSM), was recently introduced to address the quadratic complexity of the attention mechanism and subsequently applied to vision tasks. Nevertheless, the performance of Mamba for vision is often underwhelming when compared with convolutional and attention-based models. In this paper, we delve into the essence of Mamba, and conceptually conclude that Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics. For vision tasks, as image classification does not align with either characteristic, we hypothesize that Mamba is not necessary for this task; Detection and segmentation tasks are also not autoregressive, yet they adhere to the long-sequence characteristic, so we believe it is still worthwhile to explore Mamba's potential for these tasks. To empirically verify our hypotheses, we construct a series of models named MambaOut through stacking Mamba blocks while removing their core token mixer, SSM. Experimental results strongly support our hypotheses. Specifically, our MambaOut model surpasses all visual Mamba models on ImageNet image classification, indicating that Mamba is indeed unnecessary for this task. As for detection and segmentation, MambaOut cannot match the performance of state-of-the-art visual Mamba models, demonstrating the potential of Mamba for long-sequence visual tasks. The code is available at https://github.com/yuweihao/MambaOut
翻訳日:2024-05-15 12:58:58 公開日:2024-05-14