このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240913となっている論文です。

PDF登録状況(公開日: 20240913)

TitleAuthorsAbstract論文公表日・翻訳日
# KodeXv0.1: 最先端の金融大規模言語モデルファミリー

KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models ( http://arxiv.org/abs/2409.13749v1 )

ライセンス: Link先を確認
Neel Rajani, Lilli Kiessling, Aleksandr Ogaltsov, Claus Lang, (参考訳) 現在の最先端のLDMは強力ではあるが、高度に専門化されたセクターのニーズを満たすには至らない。 我々は,財務質問応答において GPT-4 を超越した大規模言語モデルである KodeXv0.1 を紹介する。 我々は、Llama 3.1 8B と 70B の基本的な変種を利用して、カスタムトレーニングシステムを通じて金融分野に適応する。 この目的のために、収支報告や事業報告など、多数の公開財務文書を収集し、処理する。 これらのデータセットはContext-Question-Answer三重項からなる高品質な合成データセットを生成するために使用され、現実世界の財務業務を密接に反映している。 このデータセットの列車分割を用いて、Llama 3.1 の 4bit LoRA 命令チューニングを実行し、KodeX-8Bv0.1 と KodeX-70Bv0.1 を生成する。 次に、ファイナンスベンチ、FinQABench、および保持できないデータセットのテスト分割を使用して、広範囲なモデル評価を完了します。 以上の結果から,KodeX-8Bv0.1は,同じパラメータ系における最先端のインストラクションモデルよりも経済的に信頼性が高く,最大9.24%以上であることがわかった。 さらに、GPT-4のような最先端のプロプライエタリモデルよりも最大7.07%性能が向上する。 KodeX-70Bv0.1は、テストされたベンチマーク毎にGPT-4のパフォーマンスを上回る、さらなる改善を示している。

Although powerful, current cutting-edge LLMs may not fulfil the needs of highly specialised sectors. We introduce KodeXv0.1, a family of large language models that outclass GPT-4 in financial question answering. We utilise the base variants of Llama 3.1 8B and 70B and adapt them to the financial domain through a custom training regime. To this end, we collect and process a large number of publicly available financial documents such as earnings calls and business reports. These are used to generate a high-quality, synthetic dataset consisting of Context-Question-Answer triplets which closely mirror real-world financial tasks. Using the train split of this dataset, we perform RAG-aware 4bit LoRA instruction tuning runs of Llama 3.1 base variants to produce KodeX-8Bv0.1 and KodeX-70Bv0.1. We then complete extensive model evaluations using FinanceBench, FinQABench and the withheld test split of our dataset. Our results show that KodeX-8Bv0.1 is more reliable in financial contexts than cutting-edge instruct models in the same parameter regime, surpassing them by up to 9.24%. In addition, it is even capable of outperforming state-of-the-art proprietary models such as GPT-4 by up to 7.07%. KodeX-70Bv0.1 represents a further improvement upon this, exceeding GPT-4's performance on every tested benchmark.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-13
# CPT-Boosted Wav2vec2.0:教室環境における雑音ロバスト音声認識に向けて

CPT-Boosted Wav2vec2.0: Towards Noise Robust Speech Recognition for Classroom Environments ( http://arxiv.org/abs/2409.14494v1 )

ライセンス: Link先を確認
Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi, Jing Liu, Carol Espy-Wilson, (参考訳) 教師や生徒を支援するAIツールの開発において,教室環境に頑健でレジリエントな自動音声認識(ASR)システムの構築が最重要である。 本研究は,Wav2vec2.0を教室領域に適応させるための継続事前訓練(CPT)の有効性について検討した。 この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。 より具体的には、CPTは異なるノイズ、マイク、教室条件に対するモデルの堅牢性を改善する。

Creating Automatic Speech Recognition (ASR) systems that are robust and resilient to classroom conditions is paramount to the development of AI tools to aid teachers and students. In this work, we study the efficacy of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain. We show that CPT is a powerful tool in that regard and reduces the Word Error Rate (WER) of Wav2vec2.0-based models by upwards of 10%. More specifically, CPT improves the model's robustness to different noises, microphones and classroom conditions.
翻訳日:2024-11-06 22:30:40 公開日:2024-09-13
# ソーシャル・ネットワークにおけるメディア・エントレプレナーシップにおけるリスク要因の優先順位付け:戦略予算配分と広告キャンペーンにおけるリスク管理のためのハイブリッドファジィZ-ナンバーアプローチ

Prioritizing Risk Factors in Media Entrepreneurship on Social Networks: Hybrid Fuzzy Z-Number Approaches for Strategic Budget Allocation and Risk Management in Advertising Construction Campaigns ( http://arxiv.org/abs/2409.18976v1 )

ライセンス: Link先を確認
Ahmad Gholizadeh Lonbar, Hamidreza Hasanzadeh, Fahimeh Asgari, Hajar Kazemi Naeini, Roya Shomali, Saeed Asadi, (参考訳) 複雑なオンラインメディアの普及は、広告チャネルを通じて利害関係者の影響を受け、イデオロギー形成の過程を加速させてきた。 費用と効果の異なるメディアチャネルは、最適な資金配分を優先するジレンマを提示する。 チャート上の制御の有限ベクトル構造を定義することを含む、チャネル間の最適な予算配分を記述する際には、技術的な課題がある。 マーケティングの生産性を高めるためには、収益やROIといったビジネス成果を最大化するために、すべてのチャネルに予算を分散する方法を決定することが重要です。 したがって、メディア予算配分戦略は、主に、メディアプログラムの特定の枠組みを特定することによって、コストと目標達成に焦点を当てた演習である。 多くの研究者がメディア選択モデルの達成度と頻度を最適化し、複雑さと膨大な情報提供状況の中で優れた計画決定を支援する。 本研究では,広告建設キャンペーンにおけるメディアミックスモデルを用いた計画モデルを提案する。 さらに、FMEAを中心とした意思決定戦略は、企業におけるメディアシステムの金融リスク要因を特定し、優先順位付けする。 いくつかの制限があるにもかかわらず、本研究ではZ数理論に基づく意思決定アプローチを提案する。 提案手法は,Z-SWARA法とZ-WASPAS法をFMEA法と統合する。

The proliferation of complex online media has accelerated the process of ideology formation, influenced by stakeholders through advertising channels. The media channels, which vary in cost and effectiveness, present a dilemma in prioritizing optimal fund allocation. There are technical challenges in describing the optimal budget allocation between channels over time, which involves defining the finite vector structure of controls on the chart. To enhance marketing productivity, it's crucial to determine how to distribute a budget across all channels to maximize business outcomes like revenue and ROI. Therefore, the strategy for media budget allocation is primarily an exercise focused on cost and achieving goals, by identifying a specific framework for a media program. Numerous researchers optimize the achievement and frequency of media selection models to aid superior planning decisions amid complexity and vast information availability. In this study, we present a planning model using the media mix model for advertising construction campaigns. Additionally, a decision-making strategy centered on FMEA identifies and prioritizes financial risk factors of the media system in companies. Despite some limitations, this research proposes a decision-making approach based on Z-number theory. To address the drawbacks of the RPN score, the suggested decision-making methodology integrates Z-SWARA and Z-WASPAS techniques with the FMEA method.
翻訳日:2024-11-06 05:22:52 公開日:2024-09-13
# 代名詞論理

Pronoun Logic ( http://arxiv.org/abs/2409.18978v1 )

ライセンス: Link先を確認
Rose Bohrer, Ashe Neth, (参考訳) 特にトランスジェンダーとノンバイナリ(TGNB)のコミュニティでは、他人のスピーチで正しく性別付けされるように、個人的代名詞を公に共有することが一般的になっている。 私たちの多くは、どのようにジェンダー化されているかというニュアンスな欲求を持ち、より複雑な願望の記述(例えば、記述子 'she/they' など)を使います。 私たちは、これらの願望の記述が、小さな言語の構造を全て独自に持っていることを観察する。 そこで我々は,人称代名詞や潜在的に性的な側面を表現するツールとして,形式論理を提案する。 線形論理,時間論理,自由論理の3つの潜在的な論理基盤とそのトレードオフについて検討する。 この提案の最大の動機は遊びであり、同時に論理学者とTGNBの両方になれると断言している。 我々は、フォーマル化を、社会のジェンダーに対する理解とともに、時間とともに進化し続けることができるものとして提示する。 これは、アウトリーチが大きな可能性の1つであり、TGNBの若者が論理学に属し、独特な貢献をしていることを示すことができる。 代名詞が尊重されるかどうかを評価するツールも応用例である。

Particularly in transgender and nonbinary (TGNB) communities, it is an increasingly common practice to publicly share one's personal pronouns so that we may be gendered correctly in others' speech. Many of us have nuanced desires for how we are gendered, leading us to use more complex descriptions of our wishes; for example, the descriptor 'she/they'. We observe that these descriptions of our wishes have the structure of a little language all their own. We thus propose formal logic as a tool for expressing one's personal pronouns and potentially other aspects of gender. We explore three potential logical foundations (linear logic, temporal logic, and free logic with definite descriptions) and their trade-offs. Our foremost motivation for this proposal is play, affirming that one can be both a logician and TGNB at the same time. We present formalization as something that can continue to evolve over time with society's understanding of gender. This implies that outreach is a major potential application: we can show TGNB youth that they belong in logic and have a unique contribution to make. Tools for evaluating whether one's pronouns are respected are an application as well.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-13
# フロントエンドからバックエンドへのローコード:ローコードIoTプラットフォームによる会話型ユーザインターフェースとバックエンドサービスとの接続

Low-code from frontend to backend: Connecting conversational user interfaces to backend services via a low-code IoT platform ( http://arxiv.org/abs/2410.00006v1 )

ライセンス: Link先を確認
Irene Weber, (参考訳) 現在のチャットボット開発プラットフォームとフレームワークは、チャットボットの言語とダイアログ部分の設定を容易にします。 本稿では,この状況を克服するためのアプローチを提案する。 バックエンドサービスへの接続のためのミドルウェアとしてIoT(Internet of Things)プラットフォームを使用して、チャットボットをフロントエンドとして使用するアーキテクチャを提案する。 具体的には、オープンソースの開発プラットフォームであるRasaで開発されたチャットボットと、オープンソースのプラットフォームであるNode-REDを組み合わせる方法について、詳しく説明している。

Current chatbot development platforms and frameworks facilitate setting up the language and dialog part of chatbots, while connecting it to backend services and business functions requires substantial manual coding effort and programming skills. This paper proposes an approach to overcome this situation. It proposes an architecture with a chatbot as frontend using an IoT (Internet of Things) platform as a middleware for connections to backend services. Specifically, it elaborates and demonstrates how to combine a chatbot developed on the open source development platform Rasa with the open source platform Node-RED, allowing low-code or no-code development of a transactional conversational user interface from frontend to backend.
翻訳日:2024-11-05 15:38:58 公開日:2024-09-13
# PHemoNet: 生理信号のマルチモーダルネットワーク

PHemoNet: A Multimodal Network for Physiological Signals ( http://arxiv.org/abs/2410.00010v1 )

ライセンス: Link先を確認
Eleonora Lopez, Aurelio Uncini, Danilo Comminiello, (参考訳) 感情認識は、医療応用や脳-コンピュータインターフェース(BCI)など、多くの分野において不可欠である。 感情反応には、声のトーンや体の動きのような行動反応、脳波(EEG)のような生理的信号の変化が含まれる。 後者は不随意であり、個人が意識的にコントロールできる前者とは対照的に、感情を識別するための信頼できる入力を提供する。 これらの信号は、意図的な変化のない真の感情状態を示し、それによって感情認識モデルの精度が向上する。 しかし, 生理学的信号からの多モード深層学習法は, 十分に研究されていない。 本稿では,生理的信号からのマルチモーダル感情認識のための完全超複雑ネットワークであるPHemoNetを紹介する。 詳しくは、アーキテクチャはモダリティ固有のエンコーダと融合モジュールから構成される。 エンコーダと融合モジュールは、各モダリティの異なる次元とモダリティ自身の間の遅延関係をキャプチャできるパラメータ化超複素乗法(PHM)によって、超複素領域内で定義される。 提案手法は,脳波と周辺生理信号を用いて,MAHNOB-HCIデータセットの値と覚醒の分類において,最先端のモデルよりも優れていた。 この作業のコードはhttps://github.com/ispamm/MHyEEG.comで公開されている。

Emotion recognition is essential across numerous fields, including medical applications and brain-computer interface (BCI). Emotional responses include behavioral reactions, such as tone of voice and body movement, and changes in physiological signals, such as the electroencephalogram (EEG). The latter are involuntary, thus they provide a reliable input for identifying emotions, in contrast to the former which individuals can consciously control. These signals reveal true emotional states without intentional alteration, thus increasing the accuracy of emotion recognition models. However, multimodal deep learning methods from physiological signals have not been significantly investigated. In this paper, we introduce PHemoNet, a fully hypercomplex network for multimodal emotion recognition from physiological signals. In detail, the architecture comprises modality-specific encoders and a fusion module. Both encoders and fusion modules are defined in the hypercomplex domain through parameterized hypercomplex multiplications (PHMs) that can capture latent relations between the different dimensions of each modality and between the modalities themselves. The proposed method outperforms current state-of-the-art models on the MAHNOB-HCI dataset in classifying valence and arousal using electroencephalograms (EEGs) and peripheral physiological signals. The code for this work is available at https://github.com/ispamm/MHyEEG.
翻訳日:2024-11-05 15:38:58 公開日:2024-09-13
# AI水平走査, 白紙p3395, IEEE-SA : その1:注意領域

AI Horizon Scanning, White Paper p3395, IEEE-SA. Part I: Areas of Attention ( http://arxiv.org/abs/2410.01808v1 )

ライセンス: Link先を確認
Marina Cortês, Andrew R. Liddle, Christos Emmanouilidis, Anthony E. Kelly, Ken Matusow, Ragu Ragunathan, Jayne M. Suess, George Tambouratzis, Janusz Zalewski, David A. Bray, (参考訳) 生成人工知能(AI)モデルは、機会とリスクの微妙なバランスを要求される程度まで社会変革を行うことができる。 IEEE-SAのp3995: 'Standard for the implementation of Safeguards, Controls, and Preventive Techniques for Artificial Intelligence (AI) Models', Chair: Marina Cort\^{e}s (https://standards.ieee.org/ieee/3395/11378/)。 この最初の地平線スキャンでは、AIにおける標準活動の重要な注意領域を特定します。 規制の取り組みに対する異なる原則を検討し、説明責任、プライバシ、データ権利、誤用の概念をレビューする。 セーフガード標準として、私たちはグローバルインフラストラクチャの安定性に大きな注意を払って、密結合したAIコンポーネントによって引き起こされる可能性のあるクラウドコンピューティングへの過度な依存について検討しています。 われわれは、2024年7月のカスケード障害のようなクラウドストレイクイベントを、(近未来の)AIによるインシデントによる重要なインフラストラクチャーに対する潜在的な影響の例としてレビューした。 ホワイトペーパーとして意図された一連の記事の1つであり、聴衆に標準的な開発を知らせている。 今後の記事は、規制イニシアチブ、技術の進化、特定のドメインにおけるAIの役割に焦点を当てる。

Generative Artificial Intelligence (AI) models may carry societal transformation to an extent demanding a delicate balance between opportunity and risk. This manuscript is the first of a series of White Papers informing the development of IEEE-SA's p3995: `Standard for the Implementation of Safeguards, Controls, and Preventive Techniques for Artificial Intelligence (AI) Models', Chair: Marina Cort\^{e}s (https://standards.ieee.org/ieee/3395/11378/). In this first horizon-scanning we identify key attention areas for standards activities in AI. We examine different principles for regulatory efforts, and review notions of accountability, privacy, data rights and mis-use. As a safeguards standard we devote significant attention to the stability of global infrastructures and consider a possible overdependence on cloud computing that may result from densely coupled AI components. We review the recent cascade-failure-like Crowdstrike event in July 2024, as an illustration of potential impacts on critical infrastructures from AI-induced incidents in the (near) future. It is the first of a set of articles intended as White Papers informing the audience on the standard development. Upcoming articles will focus on regulatory initiatives, technology evolution and the role of AI in specific domains.
翻訳日:2024-11-04 15:04:32 公開日:2024-09-13
# AIを活用した顧客エンゲージメントにおける透明性向上

Enhancing transparency in AI-powered customer engagement ( http://arxiv.org/abs/2410.01809v1 )

ライセンス: Link先を確認
Tara DeZao, (参考訳) 本稿では、透明性と説明責任の必要性を強調することによって、AIを活用した顧客エンゲージメントに対する消費者信頼を構築するという重要な課題に対処する。 AIがビジネスオペレーションを革新し、顧客エクスペリエンスを高める可能性にもかかわらず、誤った情報やAI意思決定プロセスの不透明さに対する広範な懸念は、信頼を損なう。 調査では、AIアルゴリズムのバイアスと公平性に関する理解に加えて、AIとのインタラクションに関する消費者の認識の欠如が強調されている。 この論文は、消費者と組織のリーダーの両方に透明で理解可能な説明可能なAIモデルの開発を提唱し、潜在的なバイアスを軽減し、倫理的使用を確実にする。 説明責任の文化の育成,明確なデータポリシの優先,利害関係者との積極的な関与の維持など,単なる規制コンプライアンス以上の,透明性プラクティスへの組織的コミットメントの重要性を強調します。 透明性と説明可能性に対する全体論的アプローチを採用することで、企業はAIテクノロジへの信頼を育み、技術革新と消費者の受け入れのギャップを埋め、より倫理的で効果的なAIによる顧客エンゲージメントの道を開くことができる。 KEYWORDS:人工知能(AI)、透明性

This paper addresses the critical challenge of building consumer trust in AI-powered customer engagement by emphasising the necessity for transparency and accountability. Despite the potential of AI to revolutionise business operations and enhance customer experiences, widespread concerns about misinformation and the opacity of AI decision-making processes hinder trust. Surveys highlight a significant lack of awareness among consumers regarding their interactions with AI, alongside apprehensions about bias and fairness in AI algorithms. The paper advocates for the development of explainable AI models that are transparent and understandable to both consumers and organisational leaders, thereby mitigating potential biases and ensuring ethical use. It underscores the importance of organisational commitment to transparency practices beyond mere regulatory compliance, including fostering a culture of accountability, prioritising clear data policies and maintaining active engagement with stakeholders. By adopting a holistic approach to transparency and explainability, businesses can cultivate trust in AI technologies, bridging the gap between technological innovation and consumer acceptance, and paving the way for more ethical and effective AI-powered customer engagements. KEYWORDS: artificial intelligence (AI), transparency
翻訳日:2024-11-04 15:04:32 公開日:2024-09-13
# Propaganda (複数形 Propagandas)

Propaganda is all you need ( http://arxiv.org/abs/2410.01810v1 )

ライセンス: Link先を確認
Paul Kronlund-Drouault, (参考訳) MLはまだ(比較的)最近の研究分野であり、特に抽象数学の領域外においては、LLMの政治的側面、特にアライメント過程とその政治的側面についてはほとんど研究が行われていない。 このプロセスは、プロンプトエンジニアリングと同じくらい単純ですが、非常に深く、全く無関係な質問に影響します。 例えば、政治的指向的なアライメントは、LLMの埋め込み空間とそのような空間における政治的概念の相対的な位置に非常に強い影響を与える。 一般的な政治的偏見を評価し、アライメントの効果を分析するための特別なツールを用いて、新たなデータを収集し、その原因と社会への影響を理解することができる。 実際、社会・政治的なアプローチを導くことは、ほとんどの大きなLLMがマルクス主義哲学が「支配的なイデオロギー」と呼ぶものに基づいているという仮説を立てることができる。 政治的意思決定におけるAIの役割として、市民の規模だけでなく政府機関においても、そのような偏見は、社会的一様化のための新しい、または変装した過激主義の見解を国民に広めることによって、社会的変化に多大な影響を及ぼす可能性がある。

As ML is still a (relatively) recent field of study, especially outside the realm of abstract mathematics, few works have been led on the political aspect of LLMs, and more particularly about the alignment process, and its political dimension. This process can be as simple as prompt engineering, but also very deep and affect completely unrelated questions. For example, politically directed alignment has a very strong impact on an LLM's embedding space, and the relative position of political notions in such a space. Using special tools to evaluate general political bias and analyze the effects of alignment, we can gather new data to understand its causes and possible consequences on society. Indeed, leading a socio-political approach we can hypothesize that most big LLMs are aligned on what Marxist philosophy calls the 'dominant ideology'. As AI's role in political decision-making, at the citizen's scale but also in government agencies, such biases can have huge effects on societal change, either by creating a new and insidious pathway for societal uniformization or by allowing disguised extremist views to gain traction on the people.
翻訳日:2024-11-04 15:04:32 公開日:2024-09-13
# 準結晶散乱とリーマンゼータ関数

Quasicrystal Scattering and the Riemann Zeta Function ( http://arxiv.org/abs/2410.03673v1 )

ライセンス: Link先を確認
Michael Shaughnessy, (参考訳) 原子の有限長1次元点状配列である$\chi(x)$に対して、原子密度をほぼ一定にするシフト演算により、素数の分布に関連する数値散乱計算を行う。 リーマンゼータ函数(RZF)が散乱振幅の解析構造を自然にパラメータ化し、数値的な結果を与えることを示す。

I carry out numerical scattering calculations against a family of finite-length one-dimensional point-like arrangements of atoms, $\chi(x)$, related to the distribution of prime numbers by a shift operation making the atomic density approximately constant. I show how the Riemann Zeta Function (RZF) naturally parameterizes the analytic structure of the scattering amplitude and give numerical results.
翻訳日:2024-11-02 20:48:16 公開日:2024-09-13
# 自動病理診断のための多視点カノニカル相関解析 音声検出

Multiview Canonical Correlation Analysis for Automatic Pathological Speech Detection ( http://arxiv.org/abs/2409.17276v1 )

ライセンス: Link先を確認
Yacouba Kaloga and Shakeel A. Sheikh and Ina Kodrasi(参考訳) 提案手法は, スペクトル入力表現やwav2vec2埋め込みに頼っている。 これらの表現は、時間とともに音声内容や話し方の変化など、無関係な病理情報を含んでいて、分類性能に悪影響を及ぼす可能性がある。 そこで本研究では,これらの入力表現にMCCA (Multiview Canonical correlation Analysis) を用いることを提案する。 以上の結果から,MCCAは,他の次元減少手法と異なり,入力表現に含まれる非相関情報を排除し,病的音声検出性能を著しく向上させることが示された。 MCCAを従来の分類器に採用すると、表現構造を保ち、解釈可能性を提供しながら、洗練されたアーキテクチャを使用するよりも同等または高い性能が得られる。

Recently proposed automatic pathological speech detection approaches rely on spectrogram input representations or wav2vec2 embeddings. These representations may contain pathology irrelevant uncorrelated information, such as changing phonetic content or variations in speaking style across time, which can adversely affect classification performance. To address this issue, we propose to use Multiview Canonical Correlation Analysis (MCCA) on these input representations prior to automatic pathological speech detection. Our results demonstrate that unlike other dimensionality reduction techniques, the use of MCCA leads to a considerable improvement in pathological speech detection performance by eliminating uncorrelated information present in the input representations. Employing MCCA with traditional classifiers yields a comparable or higher performance than using sophisticated architectures, while preserving the representation structure and providing interpretability.
翻訳日:2024-09-30 12:52:34 公開日:2024-09-13
# ボゾンとフェルミオンの気体状態の多体密度--組合せ的アプローチ

Many-body density of states of bosonic and fermionic gases: a combinatorial approach ( http://arxiv.org/abs/2409.08696v1 )

ライセンス: Link先を確認
Carolyn Echter, Georg Maier, Juan-Diego Urbina, Caio Lewenkopf, Klaus Richter, (参考訳) 我々は、等間隔の単一粒子スペクトルを持つフェルミオンおよびボゾン気体の多体密度の正確な式を得るために、組合せ的アプローチを用いる。 我々は、フェルミオンとボソニックの気体が同じ多体状態の密度を持ち、基底状態エネルギーに対応するシフトを持つという顕著な性質を示す写像を同定する。 さらに,状態の多体密度が粒子数に依存しないようなBethe近似の有効範囲を含む状態が存在することを示す。

We use a combinatorial approach to obtain exact expressions for the many-body density of states of fermionic and bosonic gases with equally spaced single-particle spectra. We identify a mapping that reveals a remarkable property, namely, fermionic and bosonic gases have the same many-body density of states, up to a shift corresponding to ground state energy. Additionally, we show that there is a regime, comprising the validity range of the Bethe approximation, where the many-body density of states becomes independent of the number of particles.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-13
# 暗号化ランサムウェア検出のための機械学習に基づくファイル抽出手法の総合的解析

A Comprehensive Analysis of Machine Learning Based File Trap Selection Methods to Detect Crypto Ransomware ( http://arxiv.org/abs/2409.11428v1 )

ライセンス: Link先を確認
Mohan Anand Putrevu, Hrushikesh Chunduri, Venkata Sai Charan Putrevu, Sandeep K Shukla, (参考訳) マルチスレッドおよびファイル優先順位付け手法の使用により、ランサムウェアがファイルを暗号化する速度が加速した。 ランサムウェア攻撃時のファイル損失を最小限に抑えるため、初期の実行段階でファイル修正を検出することが非常に重要であると考えられる。 これを実現するために、ファイルのトラップとしての選択と変更の監視は、現代のランサムウェアの変種を扱うための実践的な方法である。 このアプローチはエンドポイントのオーバーヘッドを最小限に抑え、ランサムウェアの早期識別を容易にする。 本稿では、ファイル損失、検出遅延、エンドポイントオーバーヘッドを低減するための機械学習に基づく様々なトラップ選択手法について検討する。 Affinity Propagation, Gaussian Mixture Models, Mean Shift, Opticsなどの非パラメトリッククラスタリング手法を具体的に検討し,ランサムウェア検出におけるトラップ選択の有効性を評価する。 これらのメソッドは、N ファイル (M<N) を持つディレクトリから M ファイルを選択し、それをトラップとして使用する。 既存の機械学習に基づくトラップ選択手法の欠点に対処するため,APFO(Affinity Propagation with File Order)を提案する。 本手法は,既存の非パラメトリッククラスタリングに基づくトラップ選択法の改良であり,ファイル損失量や検出遅延の低減に有効である。 APFOは、ロックビット、AvosLocker、Babukの急激な暗号化変種を含む18のランサムウェアの変種に対して、0.32%の最小のファイル損失率と1.03秒の検出遅延を示す。

The use of multi-threading and file prioritization methods has accelerated the speed at which ransomware encrypts files. To minimize file loss during the ransomware attack, detecting file modifications at the earliest execution stage is considered very important. To achieve this, selecting files as traps and monitoring changes to them is a practical way to deal with modern ransomware variants. This approach minimizes overhead on the endpoint, facilitating early identification of ransomware. This paper evaluates various machine learning-based trap selection methods for reducing file loss, detection delay, and endpoint overhead. We specifically examine non-parametric clustering methods such as Affinity Propagation, Gaussian Mixture Models, Mean Shift, and Optics to assess their effectiveness in trap selection for ransomware detection. These methods select M files from a directory with N files (M<N) and use them as traps. In order to address the shortcomings of existing machine learning-based trap selection methods, we propose APFO (Affinity Propagation with File Order). This method is an improvement upon existing non-parametric clustering-based trap selection methods, and it helps to reduce the amount of file loss and detection delay encountered. APFO demonstrates a minimal file loss percentage of 0.32% and a detection delay of 1.03 seconds across 18 contemporary ransomware variants, including rapid encryption variants of lock-bit, AvosLocker, and Babuk.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-13
# 量子安全な非可逆抽出器

Quantum secure non-malleable-extractors ( http://arxiv.org/abs/2109.03097v5 )

ライセンス: Link先を確認
Naresh Goud Boddu, Rahul Jain, Upendra Kapshikar, (参考訳) 我々はいくつかの明示的な量子安全な非可逆抽出器を構築した。 私たちが構築した全ての量子安全な非可算抽出子は、Chattopadhyay, Goyal and Li [2015] と Cohen [2015] による構成に基づいている。 1)min-entropy $k \geq \textsf{poly}\left(\log \left( \frac{n}{\epsilon} \right)\right)$$$n$はソースの長さであり、$\epsilon$はエラーパラメータである。 以前、Aggarwal, Chung, Lin, Vidick [2019] は、Li [2012] が提唱した内積に基づく非可逆抽出器は量子セキュアであるが、線形($n$)のミンエントロピーとシード長を必要とすることを示した。 Cohen と Vidick [2017] による量子設定で最初に確立された)非多元性抽出とプライバシ増幅の接続を利用することで、通信によるアクティブな量子敵に対してセキュアな2ドル単位のプライバシ増幅プロトコルが得られます。 2) ミンエントロピー$k \geq n-n^{\Omega(1)}$に対して、明示的な量子セキュアな2$2-ソース非可換抽出器を構築し、大きさ$n^{\Omega(1)}$と誤差$2^{-n^{\Omega(1)}}$を出力する。 3)入力の改ざんを$t$-timesで行うと,その自然拡張も検討する。 我々は、シードされた(t=d^{\Omega(1)}$)および2$ソースケース(t=n^{\Omega(1)}$)に対して、明示的な量子セキュアな$t$-非可算抽出器を構築する。

We construct several explicit quantum secure non-malleable-extractors. All the quantum secure non-malleable-extractors we construct are based on the constructions by Chattopadhyay, Goyal and Li [2015] and Cohen [2015]. 1) We construct the first explicit quantum secure non-malleable-extractor for (source) min-entropy $k \geq \textsf{poly}\left(\log \left( \frac{n}{\epsilon} \right)\right)$ ($n$ is the length of the source and $\epsilon$ is the error parameter). Previously Aggarwal, Chung, Lin, and Vidick [2019] have shown that the inner-product based non-malleable-extractor proposed by Li [2012] is quantum secure, however it required linear (in $n$) min-entropy and seed length. Using the connection between non-malleable-extractors and privacy amplification (established first in the quantum setting by Cohen and Vidick [2017]), we get a $2$-round privacy amplification protocol that is secure against active quantum adversaries with communication $\textsf{poly}\left(\log \left( \frac{n}{\epsilon} \right)\right)$, exponentially improving upon the linear communication required by the protocol due to [2019]. 2) We construct an explicit quantum secure $2$-source non-malleable-extractor for min-entropy $k \geq n- n^{\Omega(1)}$, with an output of size $n^{\Omega(1)}$ and error $2^{- n^{\Omega(1)}}$. 3) We also study their natural extensions when the tampering of the inputs is performed $t$-times. We construct explicit quantum secure $t$-non-malleable-extractors for both seeded ($t=d^{\Omega(1)}$) as well as $2$-source case ($t=n^{\Omega(1)}$).
翻訳日:2024-09-18 23:07:58 公開日:2024-09-13
# 既存の道路設計ガイドラインは自動運転車に適しているか?

Are Existing Road Design Guidelines Suitable for Autonomous Vehicles? ( http://arxiv.org/abs/2409.10562v1 )

ライセンス: Link先を確認
Yang Sun, Christopher M. Poskitt, Jun Sun, (参考訳) 自律走行車(AV)の出現は、彼らの認識システムのレジリエンス、すなわち、彼らが重大な誤った判断を下さないよう、研究を刺激している。 道路上の他の車両だけでなく、道路側に置かれた物についても試験されることが重要である。 トラッシュビン、看板、緑化は、通常人間の視覚システムのために開発されたガイドラインに従って配置され、AVのニーズと完全に一致しない。 しかし、既存のテストは、通常、不自然な外観と白い箱の知識の必要性から、非現実的な形やパッチを持つ敵の物体に焦点を合わせている。 本研究では,一般道路側物体の位置を操作することで,非自然的」な対向パッチを使わずに,現実的な対向シナリオ(道路設計ガイドラインを満たすこと)を作成することを目的とする,AVの知覚システムに対するブラックボックス攻撃を導入する。 特に,これらオブジェクトの配置が交通信号の色を誤るなど,AVによる重大な誤解を招くシナリオを見つけるためのファジングアルゴリズムであるTrashFuzzを提案する。 これらのシナリオの現実性を確実にするためには、公道におけるオブジェクトの配置に関する規制ガイドラインを規定するいくつかのルールを満たさなければならない。 我々はこれらの攻撃をアポロ計画のために実施・評価し、24の交通法則のうち15の違反にTrashFuzzが引き起こされたことを発見した。

The emergence of Autonomous Vehicles (AVs) has spurred research into testing the resilience of their perception systems, i.e. to ensure they are not susceptible to making critical misjudgements. It is important that they are tested not only with respect to other vehicles on the road, but also those objects placed on the roadside. Trash bins, billboards, and greenery are all examples of such objects, typically placed according to guidelines that were developed for the human visual system, and which may not align perfectly with the needs of AVs. Existing tests, however, usually focus on adversarial objects with conspicuous shapes/patches, that are ultimately unrealistic given their unnatural appearances and the need for white box knowledge. In this work, we introduce a black box attack on the perception systems of AVs, in which the objective is to create realistic adversarial scenarios (i.e. satisfying road design guidelines) by manipulating the positions of common roadside objects, and without resorting to `unnatural' adversarial patches. In particular, we propose TrashFuzz , a fuzzing algorithm to find scenarios in which the placement of these objects leads to substantial misperceptions by the AV -- such as mistaking a traffic light's colour -- with overall the goal of causing it to violate traffic laws. To ensure the realism of these scenarios, they must satisfy several rules encoding regulatory guidelines about the placement of objects on public streets. We implemented and evaluated these attacks for the Apollo, finding that TrashFuzz induced it into violating 15 out of 24 different traffic laws.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-13
# 強化学習を用いた運用技術サイバーセキュリティにおける行動マスキングとカリキュラム学習技術の適用によるデータ効率の向上と全体的なパフォーマンス向上

Applying Action Masking and Curriculum Learning Techniques to Improve Data Efficiency and Overall Performance in Operational Technology Cyber Security using Reinforcement Learning ( http://arxiv.org/abs/2409.10563v1 )

ライセンス: Link先を確認
Alec Wilson, William Holmes, Ryan Menzies, Kez Smithson Whitehead, (参考訳) IPMSRL環境 (Integrated Platform Management System Reinforcement Learning Environment) は, サイバー攻撃を受けた船舶におけるIPMSのサブセットを表すシミュレータにおいて, 防御的RLエージェントの訓練を目的として開発された環境である。 本稿では,IPMSRLを用いることにより,偽陽性警告や警告遅延のさらなるダイナミクスを含むリアリズムを向上する。 カリキュラムの学習を最も難しい環境で実施すると、エピソード報酬は-2.791から0.569へと増加する。 アクションマスキングを最も難しい環境で適用すると、エピソード報酬は-2.791から-0.743へと増加する。 重要なことに、このレベルのパフォーマンスは100万時間未満で到達し、250万時間後に低いレベルのパフォーマンスに達したバニラPPOよりもはるかにデータ効率が高かった。 本研究は,カリキュラム学習とアクションマスキングを併用し,平均エピソード報酬0.137。 また,サイバーセキュリティのベストプラクティスを表現した基本的ハードコード防御エージェントを導入し,RLエージェントが到達したエピソード報酬平均値にコンテキストを提供する。 ハードコードされたエージェントは、エピソード報酬の平均値-1.895を管理した。 そこで本研究では,カリキュラム学習と行動マスキングの応用が,運用技術におけるサイバーセキュリティの脅威修復における複雑な現実のダイナミクスを克服する手段として,独立に,かつ,同時に両面から採用されていることを示す。

In previous work, the IPMSRL environment (Integrated Platform Management System Reinforcement Learning environment) was developed with the aim of training defensive RL agents in a simulator representing a subset of an IPMS on a maritime vessel under a cyber-attack. This paper extends the use of IPMSRL to enhance realism including the additional dynamics of false positive alerts and alert delay. Applying curriculum learning, in the most difficult environment tested, resulted in an episode reward mean increasing from a baseline result of -2.791 to -0.569. Applying action masking, in the most difficult environment tested, resulted in an episode reward mean increasing from a baseline result of -2.791 to -0.743. Importantly, this level of performance was reached in less than 1 million timesteps, which was far more data efficient than vanilla PPO which reached a lower level of performance after 2.5 million timesteps. The training method which resulted in the highest level of performance observed in this paper was a combination of the application of curriculum learning and action masking, with a mean episode reward of 0.137. This paper also introduces a basic hardcoded defensive agent encoding a representation of cyber security best practice, which provides context to the episode reward mean figures reached by the RL agents. The hardcoded agent managed an episode reward mean of -1.895. This paper therefore shows that applications of curriculum learning and action masking, both independently and in tandem, present a way to overcome the complex real-world dynamics that are present in operational technology cyber security threat remediation.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-13
# Eureka: 大規模な基盤モデルの評価と理解

Eureka: Evaluating and Understanding Large Foundation Models ( http://arxiv.org/abs/2409.10566v1 )

ライセンス: Link先を確認
Vidhisha Balachandran, Jingya Chen, Neel Joshi, Besmira Nushi, Hamid Palangi, Eduardo Salinas, Vibhav Vineet, James Woffinden-Luey, Safoora Yousefi, (参考訳) 厳密で再現可能な評価は、最先端の評価と人工知能の科学的進歩の導出に不可欠である。 評価は、ベンチマーク飽和、測定に使用される方法の透明性の欠如、生成タスクの測定を抽出する際の開発上の課題、そしてより一般的には、モデル間の十分に包括された比較に必要な機能の多さなど、実際は困難である。 上記の課題を軽減するために、3つのコントリビューションを行います。 まず、シングルスコアレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するオープンソースのフレームワークであるEurekaを紹介する。 次に、Eureka-Benchをベンチマークテスト機能の拡張可能なコレクションとして紹介する。 (i)まだ最先端のモデルには挑戦的です。 (ii)基本的だが見過ごされている言語とマルチモーダルの能力を表す。 非飽和ベンチマークにおける改善のための固有の空間は、機能レベルでのモデル間の有意義な差異を発見することができる。 第3に、Eurekaを用いて、12の最先端モデルを分析し、障害理解とモデル比較に関する詳細な洞察を提供し、目標とする改善計画に活用する。 レポートやリーダーボードの最近の傾向は、一つのモデルがベストであることを示す絶対的なランク付けとクレームを示すのとは対照的に、我々の分析では、そのような最高のモデルがないことを示している。 異なるモデルには異なる長所があるが、いくつかの機能のための最高のパフォーマーとして、他のモデルよりも頻繁に現れるモデルがある。 最近の改良にもかかわらず、現在のモデルは、詳細な画像理解、言語に完全に依存するのではなく、マルチモーダル入力による恩恵、情報検索の事実と根拠、拒絶など、いくつかの基本的な機能に苦戦している。

Rigorous and reproducible evaluation is critical for assessing the state of the art and for guiding scientific advances in Artificial Intelligence. Evaluation is challenging in practice due to several reasons, including benchmark saturation, lack of transparency in methods used for measurement, development challenges in extracting measurements for generative tasks, and, more generally, the extensive number of capabilities required for a well-rounded comparison across models. We make three contributions to alleviate the above challenges. First, we present Eureka, an open-source framework for standardizing evaluations of large foundation models beyond single-score reporting and rankings. Second, we introduce Eureka-Bench as an extensible collection of benchmarks testing capabilities that (i) are still challenging for state-of-the-art models and (ii) represent fundamental but overlooked language and multimodal capabilities. The inherent space for improvement in non-saturated benchmarks enables us to discover meaningful differences between models at a capability level. Third, using Eureka, we conduct an analysis of 12 state-of-the-art models, providing in-depth insights into failure understanding and model comparison, which can be leveraged to plan targeted improvements. In contrast to recent trends in reports and leaderboards showing absolute rankings and claims for one model or another to be the best, our analysis shows that there is no such best model. Different models have different strengths, but there are models that appear more often than others as best performers for some capabilities. Despite the recent improvements, current models still struggle with several fundamental capabilities including detailed image understanding, benefiting from multimodal input when available rather than fully relying on language, factuality and grounding for information retrieval, and over refusals.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-13
# MAISI:シンセティックイメージングのための医療用AI

MAISI: Medical AI for Synthetic Imaging ( http://arxiv.org/abs/2409.11169v1 )

ライセンス: Link先を確認
Pengfei Guo, Can Zhao, Dong Yang, Ziyue Xu, Vishwesh Nath, Yucheng Tang, Benjamin Simon, Mason Belue, Stephanie Harmon, Baris Turkbey, Daguang Xu, (参考訳) 医用画像解析は、データの不足、高アノテーションコスト、プライバシー上の懸念といった課題に直面している。 本稿では,これらの課題に対処するために,拡散モデルを用いて合成3次元CT画像を生成する革新的な手法であるMAISIについて紹介する。 MAISIは基礎ボリューム圧縮ネットワークと潜在拡散モデルを利用して、フレキシブルボリューム次元とボクセル間隔を持つ高解像度CT画像(ランドマークボリューム次元512 x 512 x 768 まで)を生成する。 ControlNetを組み込むことで、MAISIは127の解剖学的構造を含む臓器のセグメンテーションを追加条件として処理し、さまざまな下流タスクに使用できる正確な注釈付き合成画像を生成することができる。 実験の結果,MAISIの様々な領域や条件に対して,現実的で解剖学的に正確な画像を生成する能力は,合成データによる課題の軽減に有望な可能性を示唆している。

Medical imaging analysis faces challenges such as data scarcity, high annotation costs, and privacy concerns. This paper introduces the Medical AI for Synthetic Imaging (MAISI), an innovative approach using the diffusion model to generate synthetic 3D computed tomography (CT) images to address those challenges. MAISI leverages the foundation volume compression network and the latent diffusion model to produce high-resolution CT images (up to a landmark volume dimension of 512 x 512 x 768 ) with flexible volume dimensions and voxel spacing. By incorporating ControlNet, MAISI can process organ segmentation, including 127 anatomical structures, as additional conditions and enables the generation of accurately annotated synthetic images that can be used for various downstream tasks. Our experiment results show that MAISI's capabilities in generating realistic, anatomically accurate images for diverse regions and conditions reveal its promising potential to mitigate challenges using synthetic data.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-13
# 一般的な離散対数計算のためのショアの量子アルゴリズムの再検討

Revisiting Shor's quantum algorithm for computing general discrete logarithms ( http://arxiv.org/abs/1905.09084v4 )

ライセンス: Link先を確認
Martin Ekerå, (参考訳) We heuristically show that Shor's algorithm for computing general discrete logarithms achieve a expected success probability of almost 60% to 82% in a single run when modified to enable effective implementation with the semi-classical Fourier transform。 量子的に評価されたグループ操作の数をわずかに増加させ、古典的な後処理において1回の限定探索を行うか、あるいは後処理で2回の限定探索を行うことで、アルゴリズムをさらに改良して1回の実行で99%を超える成功確率を達成できることを示す。 修正アルゴリズムの成功確率を,グループオーダー$r$の関数,古典的後処理における探索空間のサイズ,および量子的に評価されたグループ演算数として,具体的なヒューリスティックな推定値を提供する。 r \rightarrow \infty$ の極限において、成功確率が 1 になる傾向があることをヒューリスティックに示す。 初期の研究と類似して、修正量子アルゴリズムが古典的に、対数 $d$ と $r$ が共に知られているとき、どのようにヒューリスティックにシミュレートされるかを示す。 さらに、$d$の計算で$r$が分かっている場合、以前の研究と比べて、いかに少し良いトレードオフが達成できるかをヒューリスティックに示します。 我々は、初期の作品のいくつかをカバーするためにヒューリスティックを一般化し、これらの作品の非ヒューリスティックな分析と比較する。

We heuristically show that Shor's algorithm for computing general discrete logarithms achieves an expected success probability of approximately 60% to 82% in a single run when modified to enable efficient implementation with the semi-classical Fourier transform. By slightly increasing the number of group operations that are evaluated quantumly and performing a single limited search in the classical post-processing, or by performing two limited searches in the post-processing, we show how the algorithm can be further modified to achieve a success probability that heuristically exceeds 99% in a single run. We provide concrete heuristic estimates of the success probability of the modified algorithm, as a function of the group order $r$, the size of the search space in the classical post-processing, and the additional number of group operations evaluated quantumly. In the limit as $r \rightarrow \infty$, we heuristically show that the success probability tends to one. In analogy with our earlier works, we show how the modified quantum algorithm may be heuristically simulated classically when the logarithm $d$ and $r$ are both known. Furthermore, we heuristically show how slightly better tradeoffs may be achieved, compared to our earlier works, if $r$ is known when computing $d$. We generalize our heuristic to cover some of our earlier works, and compare it to the non-heuristic analyses in those works.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-13
# マルチ知識蒸留を用いた軽量深層活動認識アルゴリズム

A Light-weight Deep Human Activity Recognition Algorithm Using Multi-knowledge Distillation ( http://arxiv.org/abs/2107.07331v5 )

ライセンス: Link先を確認
Runze Chen, Haiyong Luo, Fang Zhao, Xuechun Meng, Zhiqing Xie, Yida Zhu, (参考訳) Inertial Sensor-based Human Activity Recognition (HAR) は、多くの人間中心のモバイルアプリケーションの基礎である。 ディープラーニングに基づくきめ細かいHARモデルは、さまざまな複雑なアプリケーションシナリオで正確な分類を可能にする。 それでも、既存の粒度の深いHARモデルの大規模なストレージと計算オーバーヘッドは、リソース制限されたプラットフォームへの広範な展開を妨げる。 知識蒸留の合理的なモデル圧縮と潜在的な性能改善能力にインスパイアされた我々は、広く使われているMobileNetに基づいて、Stage-Logits-Memory Distillation (SMLDist)と呼ばれるマルチレベルHARモデリングパイプラインを設計する。 蒸留工程における周波数関連の特徴により多くの注意を払うことで、SMLDistは学生のHAR分類の堅牢性を改善する。 また、異種分類器における自動探索機構を提案し、分類性能を向上させる。 SMLDist は様々な最先端 HAR フレームワークを精度,F1 マクロスコアで上回る性能を示した。 Jetson Xavier AGX プラットフォームを実用的に評価したところ、SMLDist モデルはエネルギー効率と計算効率の両方であることがわかった。 これらの実験は、提案モデルのロバスト性と効率の合理的なバランスを検証した。 6つの公開データセットにおける知識蒸留の比較実験は、SMLDistが他の高度な知識蒸留方法よりも優れていることを示した。

Inertial sensor-based human activity recognition (HAR) is the base of many human-centered mobile applications. Deep learning-based fine-grained HAR models enable accurate classification in various complex application scenarios. Nevertheless, the large storage and computational overhead of the existing fine-grained deep HAR models hinder their widespread deployment on resource-limited platforms. Inspired by the knowledge distillation's reasonable model compression and potential performance improvement capability, we design a multi-level HAR modeling pipeline called Stage-Logits-Memory Distillation (SMLDist) based on the widely-used MobileNet. By paying more attention to the frequency-related features during the distillation process, the SMLDist improves the HAR classification robustness of the students. We also propose an auto-search mechanism in the heterogeneous classifiers to improve classification performance. Extensive simulation results demonstrate that SMLDist outperforms various state-of-the-art HAR frameworks in accuracy and F1 macro score. The practical evaluation of the Jetson Xavier AGX platform shows that the SMLDist model is both energy-efficient and computation-efficient. These experiments validate the reasonable balance between the robustness and efficiency of the proposed model. The comparative experiments of knowledge distillation on six public datasets also demonstrate that the SMLDist outperforms other advanced knowledge distillation methods of students' performance, which verifies the good generalization of the SMLDist on other classification tasks, including but not limited to HAR.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-13
# 階層学習による高速かつロバストな状態推定と追跡

Fast and Robust State Estimation and Tracking via Hierarchical Learning ( http://arxiv.org/abs/2306.17267v2 )

ライセンス: Link先を確認
Connor Mclaughlin, Matthew Ding, Deniz Erdogmus, Lili Su, (参考訳) CPS(Cyber-Physical Systems)の戦術的環境や複雑な民間環境でのリアルタイムな状況認識には,高速かつ信頼性の高い状態推定と追跡が不可欠である。 従来の集中型ソリューションはスケールが良くないが、大規模ネットワーク上の既存の完全分散ソリューションは収束が遅く、幅広い通信障害に対して脆弱である。 本稿では,単純な階層型システムアーキテクチャを用いた大規模ネットワークにおける収束を高速化し,状態推定と追跡のレジリエンスを高めることを目的とする。 本稿では,新しい階層的なプッシュサムコンセンサスコンポーネントに依存した2つの‘コンセンサス+イノベーション’アルゴリズムを提案する。 線形局所観測モデルと最小限の技術的仮定の下でそれらの収束率を特徴づける。 我々は,水中音響ネットワークと大規模合成ネットワークのシミュレーション研究を通じて,我々のアルゴリズムを数値的に検証する。

Fast and reliable state estimation and tracking are essential for real-time situation awareness in Cyber-Physical Systems (CPS) operating in tactical environments or complicated civilian environments. Traditional centralized solutions do not scale well whereas existing fully distributed solutions over large networks suffer slow convergence, and are vulnerable to a wide spectrum of communication failures. In this paper, we aim to speed up the convergence and enhance the resilience of state estimation and tracking for large-scale networks using a simple hierarchical system architecture. We propose two ``consensus + innovation'' algorithms, both of which rely on a novel hierarchical push-sum consensus component. We characterize their convergence rates under a linear local observation model and minimal technical assumptions. We numerically validate our algorithms through simulation studies of underwater acoustic networks and large-scale synthetic networks.
翻訳日:2024-09-18 03:47:45 公開日:2024-09-13
# Federated Epidemic Surveillance

Federated Epidemic Surveillance ( http://arxiv.org/abs/2307.02616v2 )

ライセンス: Link先を確認
Ruiqi Lyu, Roni Rosenfeld, Bryan Wilder, (参考訳) エピデミックな監視は、特に重要なデータが機関間で断片化され、データカストディアンはそれを共有できない、あるいは望んでいない場合、難しい課題である。 本研究は, 簡易なフェデレーション監視手法の実現可能性を検討することを目的とする。 この考え方は、各カストディアンのファイアウォールの背後にある数の増加に対する仮説テストを行い、メタ分析の手法を用いてこれらのテストのp値を組み合わせることである。 本研究では,疫病関連データストリームのサージを同定し,実データと半合成データを用いて実験を行い,異なるp値組合せ法を用いてサージを検出することで,基礎となるカウントを組み合わせなくてもサージを検出できる仮説テストフレームワークを提案する。 本研究は, 比較的単純な組み合わせにより, 高い忠実度を達成できることを示すとともに, 施設間でデータを共有することなく, 伝染病の発生を検出できることを示唆している。

Epidemic surveillance is a challenging task, especially when crucial data is fragmented across institutions and data custodians are unable or unwilling to share it. This study aims to explore the feasibility of a simple federated surveillance approach. The idea is to conduct hypothesis tests for a rise in counts behind each custodian's firewall and then combine p-values from these tests using techniques from meta-analysis. We propose a hypothesis testing framework to identify surges in epidemic-related data streams and conduct experiments on real and semi-synthetic data to assess the power of different p-value combination methods to detect surges without needing to combine the underlying counts. Our findings show that relatively simple combination methods achieve a high degree of fidelity and suggest that infectious disease outbreaks can be detected without needing to share even aggregate data across institutions.
翻訳日:2024-09-18 03:47:44 公開日:2024-09-13
# 多重量子ムペンバ効果:例外点と振動

Multiple quantum Mpemba effect: exceptional points and oscillations ( http://arxiv.org/abs/2311.01347v4 )

ライセンス: Link先を確認
Amit Kumar Chatterjee, Satoshi Takada, Hisao Hayakawa, (参考訳) 量子ムペンバ効果の発生における例外点と複素固有値の役割について検討する。 この目的のために,振動電場と環境との拡散結合を考慮した2レベル駆動型消散システムについて検討した。 例外点と複素固有値の両方が、$multiple$の量子Mpemba効果をもたらす。 この現象は、2つの異なる初期条件に対応する時間発展コピーで発生し、一方は最初は他方よりも高い可観測値を持ち、どちらも同じ定常状態に向かって緩和し、緩和過程の間は2回以上相互に交わる。 それぞれの交叉は量子Mpemba効果を示し、2つのコピーの間のアイデンティティの反転を示す。 このような多重交叉は、例外点における追加の代数的時間依存と、複素固有値の場合の振動緩和に由来する。 コヒーレンスが存在する密度行列における量子Mpemba効果の解析結果を提供する。 制御パラメータ(駆動と散逸)によって、エネルギー、フォン・ノイマンエントロピー、温度などの可観測物は、単一のまたは複数の量子ムペンバ効果を示す。 しかし、クルバック・リーブラーの発散で測定された定常状態からの距離は単一の量子Mpemba効果しか示さないが、対応する速度は単一の量子Mpemba効果または複数の量子Mpemba効果をもたらす。

We explore the role of exceptional points and complex eigenvalues on the occurrence of the quantum Mpemba effect. To this end, we study a two-level driven dissipative system subjected to an oscillatory electric field and dissipative coupling with the environment. We find that both exceptional points and complex eigenvalues can lead to $multiple$ quantum Mpemba effect. It occurs in an observable when time evolved copies corresponding to two different initial conditions, one initially having higher observable value compared to the other and both relaxing towards the same steady state, intersect each other more than once during their relaxation process. Each of the intersections denotes a quantum Mpemba effect and marks the reversal of identities between the two copies i.e. the copy with higher observable value before the intersection becomes the lower valued copy (and vice versa) after the intersection. Such multiple intersections originate from additional algebraic time dependence at the exceptional points and due to oscillatory relaxation in the case of complex eigenvalues. We provide analytical results for quantum Mpemba effect in the density matrix in presence of coherence. Depending on the control parameters (drive and dissipation), observables such as energy, von Neumann entropy, temperature etc. exhibit either single or multiple quantum Mpemba effect. However, the distance from steady state measured in terms of the Kullback-Leibler divergence shows only single quantum Mpemba effect although the corresponding speed gives rise to either single or multiple quantum Mpemba effect.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-13
# アフリカにおけるコンピュータビジョン研究の現状

The State of Computer Vision Research in Africa ( http://arxiv.org/abs/2401.11617v3 )

ライセンス: Link先を確認
Abdul-Hakeem Omotayo, Ashery Mbilinyi, Lukman Ismaila, Houcemeddine Turki, Mahmoud Abdien, Karim Gamal, Idriss Tondji, Yvan Pimi, Naome A. Etori, Marwa M. Matar, Clifford Broni-Bediako, Abigail Oppong, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Daniel Ajisafe, Oluwabukola G. Adegboro, Mennatullah Siam, (参考訳) 人工知能(AI)を民主化する大きな努力にもかかわらず、AIのサブフィールドであるコンピュータビジョンは依然としてアフリカで遅れている。 これに対する重要な要因は、コンピューティングリソース、データセット、コラボレーションへのアクセス制限である。 その結果、アフリカにおけるトップレベルの出版物への貢献は、過去10年間でわずか0.06%に過ぎなかった。 コンピュータビジョンの分野を改良し、よりアクセスしやすく包括的にすることを目指して、アフリカから63,000件のスコパスによるコンピュータビジョンの出版物を分析した。 大規模な言語モデルを用いて、その抽象概念を自動解析し、トピックやデータセットを識別し分類する。 この結果、100以上のアフリカのデータセットがリストアップされた。 本研究の目的は,これらの資源の理解と利用を促進するために,データセットカテゴリの包括的分類を提供することである。 また,大陸内外における研究者のコラボレーション動向を分析した。 さらに、アフリカのコンピュータビジョン研究者の間で大規模なアンケートを実施し、緊急の注意を要すると信じている構造的障壁を特定する。 結論として,アフリカにおけるコンピュータビジョン研究の現状を包括的に概観し,コンピュータビジョンシステムの設計・開発への参加を余分なコミュニティに促す。

Despite significant efforts to democratize artificial intelligence (AI), computer vision which is a sub-field of AI, still lags in Africa. A significant factor to this, is the limited access to computing resources, datasets, and collaborations. As a result, Africa's contribution to top-tier publications in this field has only been 0.06% over the past decade. Towards improving the computer vision field and making it more accessible and inclusive, this study analyzes 63,000 Scopus-indexed computer vision publications from Africa. We utilize large language models to automatically parse their abstracts, to identify and categorize topics and datasets. This resulted in listing more than 100 African datasets. Our objective is to provide a comprehensive taxonomy of dataset categories to facilitate better understanding and utilization of these resources. We also analyze collaboration trends of researchers within and outside the continent. Additionally, we conduct a large-scale questionnaire among African computer vision researchers to identify the structural barriers they believe require urgent attention. In conclusion, our study offers a comprehensive overview of the current state of computer vision research in Africa, to empower marginalized communities to participate in the design and development of computer vision systems.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-13
# S-Agents: オープンエンド環境における自己組織化エージェント

S-Agents: Self-organizing Agents in Open-ended Environments ( http://arxiv.org/abs/2402.04578v4 )

ライセンス: Link先を確認
Jiaqi Chen, Yuxian Jiang, Jiachen Lu, Li Zhang, (参考訳) 大規模言語モデル(LLM)を活用することで、自律エージェントは大幅に改善され、さまざまなタスクを処理できるようになった。 オープンエンド設定では、効率と有効性のためのコラボレーションの最適化は柔軟な調整を必要とする。 それにもかかわらず、現在の研究は主に、固定されたタスク指向のワークフローを強調し、エージェント中心の組織構造を見落としている。 人間の組織行動からインスピレーションを得て,動的ワークフローのための「エージェントツリー」構造を備えた自己組織化エージェントシステム(S-Agents),情報優先順位のバランスをとる「時間ガラスエージェントアーキテクチャ」,エージェント間の非同期タスク実行を可能にする「非障害物協調」手法を導入する。 この構造はエージェントのグループを自律的に調整することができ、人間の介入なしにオープンで動的な環境の課題に効率的に対処することができる。 実験の結果,S-AgentsはMinecraft環境において協調的な建築作業と資源収集を行い,その効果を検証した。

Leveraging large language models (LLMs), autonomous agents have significantly improved, gaining the ability to handle a variety of tasks. In open-ended settings, optimizing collaboration for efficiency and effectiveness demands flexible adjustments. Despite this, current research mainly emphasizes fixed, task-oriented workflows and overlooks agent-centric organizational structures. Drawing inspiration from human organizational behavior, we introduce a self-organizing agent system (S-Agents) with a "tree of agents" structure for dynamic workflow, an "hourglass agent architecture" for balancing information priorities, and a "non-obstructive collaboration" method to allow asynchronous task execution among agents. This structure can autonomously coordinate a group of agents, efficiently addressing the challenges of open and dynamic environments without human intervention. Our experiments demonstrate that S-Agents proficiently execute collaborative building tasks and resource collection in the Minecraft environment, validating their effectiveness.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-13
# ビジョンファウンデーションモデルを用いたアノテーションフリーセマンティックセグメンテーション

Annotation Free Semantic Segmentation with Vision Foundation Models ( http://arxiv.org/abs/2403.09307v3 )

ライセンス: Link先を確認
Soroush Seifi, Daniel Olmeda Reino, Fabien Despinoy, Rahaf Aljundi, (参考訳) セマンティックセグメンテーション(Semantic Segmentation)は最も難しいビジョンタスクの1つで、通常は高価なピクセルレベルのアノテーションで大量のトレーニングデータを必要とする。 基礎モデル、特に視覚言語モデルの成功により、最近の研究は、大規模なトレーニングや画像/ピクセルレベルのアノテーションを必要としながら、ゼロショットセマンティックセグメンテーションを実現しようとしている。 本研究では,既存の基盤モデルを用いてセマンティックセグメンテーションデータセットのフリーアノテーションを生成する。 CLIPを使ってオブジェクトとSAMを検出し、高品質なオブジェクトマスクを生成します。 次に、自己監督型ビジョンエンコーダDinoV2の上に軽量モジュールを構築し、そのパッチ機能をゼロショットセマンティックセグメンテーションのための事前訓練されたテキストエンコーダと整合させる。 我々のアプローチは、最小限のトレーニングで事前訓練された視覚エンコーダに言語ベースのセマンティクスをもたらすことができ、基礎モデルを唯一の監督源とし、アノテーションのない小さなトレーニングデータから一般化することができる。

Semantic Segmentation is one of the most challenging vision tasks, usually requiring large amounts of training data with expensive pixel level annotations. With the success of foundation models and especially vision-language models, recent works attempt to achieve zeroshot semantic segmentation while requiring either large-scale training or additional image/pixel level annotations. In this work, we generate free annotations for any semantic segmentation dataset using existing foundation models. We use CLIP to detect objects and SAM to generate high quality object masks. Next, we build a lightweight module on top of a self-supervised vision encoder, DinoV2, to align the patch features with a pretrained text encoder for zeroshot semantic segmentation. Our approach can bring language-based semantics to any pretrained vision encoder with minimal training, uses foundation models as the sole source of supervision and generalizes from little training data with no annotation.
翻訳日:2024-09-18 02:45:24 公開日:2024-09-13
# 骨格運動評価におけるフィードバック生成手法の評価枠組み

Evaluation Framework for Feedback Generation Methods in Skeletal Movement Assessment ( http://arxiv.org/abs/2404.09359v5 )

ライセンス: Link先を確認
Tal Hakim, (参考訳) 近年,スケルトンビデオからの運動評価への機械学習の応用が注目されている。 この進歩により、在宅でのリハビリテーションがより容易になり、2Dや3Dビデオから手頃な価格でポーズ検出や分析を行うための移動評価アルゴリズムが利用できるようになった。 自動評価タスクの主目的は運動を評価することであるが、重要な運動課題を強調したフィードバックの自動生成は、リハビリテーションプロセスを大幅に強化し、加速する可能性がある。 自動動作評価の分野では数多くの研究が存在しているが、アドレスフィードバック生成はごくわずかである。 本研究では,フィードバック生成ソリューションの分類,評価,比較のための用語と基準を提案する。 本稿では,各フィードバック生成手法に関連する課題について議論し,提案した基準を用いて既存のソリューションを分類する。 我々の知る限り、骨格運動評価においてフィードバック生成を定式化した最初の作品である。

The application of machine-learning solutions to movement assessment from skeleton videos has attracted significant research attention in recent years. This advancement has made rehabilitation at home more accessible, utilizing movement assessment algorithms that can operate on affordable equipment for human pose detection and analysis from 2D or 3D videos. While the primary objective of automatic assessment tasks is to score movements, the automatic generation of feedback highlighting key movement issues has the potential to significantly enhance and accelerate the rehabilitation process. While numerous research works exist in the field of automatic movement assessment, only a handful address feedback generation. In this study, we propose terminology and criteria for the classification, evaluation, and comparison of feedback generation solutions. We discuss the challenges associated with each feedback generation approach and use our proposed criteria to classify existing solutions. To our knowledge, this is the first work that formulates feedback generation in skeletal movement assessment.
翻訳日:2024-09-18 02:25:37 公開日:2024-09-13
# LLMに基づく話者ダイアリゼーション補正:一般化可能なアプローチ

LLM-based speaker diarization correction: A generalizable approach ( http://arxiv.org/abs/2406.04927v2 )

ライセンス: Link先を確認
Georgios Efstathiadis, Vijay Yadav, Anzar Abbas, (参考訳) 自動音声認識(ASR)ツールを用いて書き起こされた会話の解釈には話者ダイアリゼーションが必要である。 ダイアリゼーション手法の進歩にもかかわらず、ダイアリゼーションの精度は依然として問題である。 本稿では,大言語モデル(LLM)を用いたダイアリゼーション補正を後処理のステップとして検討する。 LLMは、転写された会話の大規模なデータセットであるFisher corpusを使用して微調整された。 モデルがフィッシャーコーパスのホールドアウトデータセットと独立データセットのダイアリゼーション精度を向上させる能力を測定した。 微調整LDMはダイアリゼーション精度を著しく向上させることができることを報告した。 しかし、モデル性能は、微調整や一般化可能性の制限に使用される転写文と同じASRツールを使用して生成された転写文に制約される。 この制約に対処するため、3つの異なるモデルの重みを組み合わせたアンサンブルモデルが開発された。 アンサンブルモデルでは、ASR固有のモデルよりも全体的な性能が向上し、一般化可能でASRに依存しないアプローチが実現可能であることが示唆された。 これらのモデルの重みを、HuggingFace at https://huggingface.co/bklynhlth.comで公開しました。

Speaker diarization is necessary for interpreting conversations transcribed using automated speech recognition (ASR) tools. Despite significant developments in diarization methods, diarization accuracy remains an issue. Here, we investigate the use of large language models (LLMs) for diarization correction as a post-processing step. LLMs were fine-tuned using the Fisher corpus, a large dataset of transcribed conversations. The ability of the models to improve diarization accuracy in a holdout dataset from the Fisher corpus as well as an independent dataset was measured. We report that fine-tuned LLMs can markedly improve diarization accuracy. However, model performance is constrained to transcripts produced using the same ASR tool as the transcripts used for fine-tuning, limiting generalizability. To address this constraint, an ensemble model was developed by combining weights from three separate models, each fine-tuned using transcripts from a different ASR tool. The ensemble model demonstrated better overall performance than each of the ASR-specific models, suggesting that a generalizable and ASR-agnostic approach may be achievable. We have made the weights of these models publicly available on HuggingFace at https://huggingface.co/bklynhlth.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-13
# ニューラルテスト生成のためのファジングによるデータ拡張

Data Augmentation by Fuzzing for Neural Test Generation ( http://arxiv.org/abs/2406.08665v2 )

ライセンス: Link先を確認
Yifeng He, Jicheng Wang, Yuyang Rong, Hao Chen, (参考訳) テストは、信頼性のあるソフトウェアを構築するために、現代のソフトウェア工学にとって不可欠である。 テストケースを手作業で作成するコストが高いことから、自動テストケース生成、特に大規模言語モデルを利用した手法が人気を博している。 これらのニューラルアプローチは、ファジングのような従来の自動テスト方法よりも保守しやすい意味論的意味のあるテストを生成する。 しかし、現在のデータセットにおける単体テストの多様性と量には制限がある。 本稿では,大規模な言語モデルにファジングの利点を導入し,有効なプログラムセマンティクスを保存し,多様な入力を提供する新しいデータ拡張手法である *FuzzAug* を紹介する。 これにより、モデルが正しい入力を埋め込む能力が向上し、テスト中の関数のより多くの分岐を探索することが可能になる。 評価の結果,FuzzAugで強化されたデータセットを用いてトレーニングしたモデルでは,アサーション精度が5%向上し,コンパイル速度が10%以上向上し,ブランチカバレッジが5%向上した単体テスト関数が生成されることがわかった。 このテクニックは、動的ソフトウェアテストを使用してニューラルテスト生成を改善する可能性を示し、ニューラルテスト生成を大幅に強化する。

Testing is essential to modern software engineering for building reliable software. Given the high costs of manually creating test cases, automated test case generation, particularly methods utilizing large language models, has become increasingly popular. These neural approaches generate semantically meaningful tests that are more maintainable compared with traditional automatic testing methods like fuzzing. However, the diversity and volume of unit tests in current datasets are limited. In this paper, we introduce a novel data augmentation technique, *FuzzAug*, that introduces the benefits of fuzzing to large language models to preserve valid program semantics and provide diverse inputs. This enhances the model's ability to embed correct inputs that can explore more branches of the function under test. Our evaluations show that models trained with dataset augmented by FuzzAug increase assertion accuracy by 5%, improve compilation rate by more than 10%, and generate unit test functions with 5% more branch coverage. This technique demonstrates the potential of using dynamic software testing to improve neural test generation, offering significant enhancements in neural test generation.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-13
# フェーシに基づくジオモデルのパラメータ化とデータ同化のための潜時拡散モデル

Latent diffusion models for parameterization and data assimilation of facies-based geomodels ( http://arxiv.org/abs/2406.14815v3 )

ライセンス: Link先を確認
Guido Di Federico, Louis J. Durlofsky, (参考訳) 地質学的パラメータ化は、小さな潜伏変数の集合とこれらの変数からポーシティや透水性のようなグリッドブロック特性への写像を用いて、ジオモデルの表現を包含する。 パラメータ化はデータ同化(履歴マッチング)において有用であり、地質学的リアリズムを維持しつつ、決定すべき変数の数を減らす。 拡散モデル(diffusion model)は、画像生成タスクにおいて、生成的対向ネットワークなどの従来の手法よりも優れていることが示されている、新しい生成的深層学習手順のクラスである。 拡散モデルは「デノエーズ」として訓練され、ランダムノイズを特徴とする入力場から新しい地質学的実現を生成することができる。 この研究で考慮された特定の変種である潜伏拡散モデルは、低次元潜伏変数を用いて次元を減少させる。 本研究で開発されたモデルは、次元縮小のための変分オートエンコーダと、復調過程のためのU-netを含む。 本応用は, 条件付き2次元三相(チャネル-レリー-マウス)システムである。 潜在拡散モデルは、ジオモデリングソフトウェアからのサンプルと視覚的に整合した実現を提供する。 空間的および流動応答統計学の定量的指標を評価し,拡散生成モデルと参照実現の一般的な一致を観察する。 パラメータ化法の平滑性を評価するため,安定性試験を行った。 次に、潜伏拡散モデルを用いてアンサンブルに基づくデータ同化を行う。 2つの合成「真の」モデルが検討されている。 P$_{10}$-P$_{90}$予測は、一般に観測されたデータと一貫した後続地形モデルの両方で達成される。

Geological parameterization entails the representation of a geomodel using a small set of latent variables and a mapping from these variables to grid-block properties such as porosity and permeability. Parameterization is useful for data assimilation (history matching), as it maintains geological realism while reducing the number of variables to be determined. Diffusion models are a new class of generative deep-learning procedures that have been shown to outperform previous methods, such as generative adversarial networks, for image generation tasks. Diffusion models are trained to "denoise", which enables them to generate new geological realizations from input fields characterized by random noise. Latent diffusion models, which are the specific variant considered in this study, provide dimension reduction through use of a low-dimensional latent variable. The model developed in this work includes a variational autoencoder for dimension reduction and a U-net for the denoising process. Our application involves conditional 2D three-facies (channel-levee-mud) systems. The latent diffusion model is shown to provide realizations that are visually consistent with samples from geomodeling software. Quantitative metrics involving spatial and flow-response statistics are evaluated, and general agreement between the diffusion-generated models and reference realizations is observed. Stability tests are performed to assess the smoothness of the parameterization method. The latent diffusion model is then used for ensemble-based data assimilation. Two synthetic "true" models are considered. Significant uncertainty reduction, posterior P$_{10}$-P$_{90}$ forecasts that generally bracket observed data, and consistent posterior geomodels, are achieved in both cases.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-13
# LeanBin: バイナリのリフティングと再コンパイルを損なう

LeanBin: Harnessing Lifting and Recompilation to Debloat Binaries ( http://arxiv.org/abs/2406.16162v2 )

ライセンス: Link先を確認
Igor Wodiany, Antoniu Pop, Mikel Luján, (参考訳) 潜在的なエクスプロイトのソースを減らすために、バイナリのデブロや特殊化ツールを使用して、不要なコードをバイナリから削除する。 本稿では、観測された実行トレースに基づいて、リフトと再コンパイルを利用する新しいバイナリデブロと特殊化ツールであるLeanBinを提案する。 動的に記録された実行トレースは、必要な命令のサブセットと、所定の入力セットに対するアプリケーションバイナリの制御フローをキャプチャする。 この初期制御フローは、入力空間の過剰な制限を避けるために、ヒューリスティックフリーな静的解析を用いて拡張される。 Cのサブセットへの制御フローとバイナリ命令の変換をさらに構造化することで、LLVM IRと新しいデブロ化されたバイナリを取得することで、再コンパイル可能なコードの軽量な生成が可能になる。 ほとんどのデ肥大化アプローチとは異なり、LeanBinは既存のコンパイラインフラストラクチャを再利用しながら、アプリケーションと共有ライブラリのバイナリデ肥大化を可能にする。 さらに、既存のバイナリリフターとは異なり、スタティックリフターが使用した潜在的に不健全なヒューリスティックに頼らず、また既存の動的リフターの制限である長時間の実行に悩まされることもない。 代わりにLeanBinはヒューリスティックフリーの静的解析と動的解析を組み合わせたものだ。 SPEC CPU2006 INTベンチマークの起動とデブロ化の実行時間は1.78$\times$で、ネイティブ実行に正規化され、デブロ化されたバイナリは1.21$\times$のジオミアオーバーヘッドで実行される。 元々のバイナリに比べてガジェットの割合は、デ肥大戦略によって24.10%から30.22%の間であり、コードサイズは53.59%と低い。 SQLiteのユースケースでは、LeanBinは共有ライブラリを含むバイナリをデブロートし、最大1.24$\times$で3.65%のガジェットで走るデブロ化されたバイナリを生成する。

To reduce the source of potential exploits, binary debloating or specialization tools are used to remove unnecessary code from binaries. This paper presents a new binary debloating and specialization tool, LeanBin, that harnesses lifting and recompilation, based on observed execution traces. The dynamically recorded execution traces capture the required subset of instructions and control flow of the application binary for a given set of inputs. This initial control flow is subsequently augmented using heuristic-free static analysis to avoid excessively restricting the input space. The further structuring of the control flow and translation of binary instructions into a subset of C enables a lightweight generation of the code that can be recompiled, obtaining LLVM IR and a new debloated binary. Unlike most debloating approaches, LeanBin enables both binary debloating of the application and shared libraries, while reusing the existing compiler infrastructure. Additionally, unlike existing binary lifters, it does not rely on potentially unsound heuristics used by static lifters, nor suffers from long execution times, a limitation of existing dynamic lifters. Instead, LeanBin combines both heuristic-free static and dynamic analysis. The run time of lifting and debloating SPEC CPU2006 INT benchmarks has a geomean of 1.78$\times$, normalized to the native execution, and the debloated binary runs with a geomean overhead of 1.21$\times$. The percentage of gadgets, compared to the original binary, has a geomean between 24.10% and 30.22%, depending on the debloating strategy; and the code size can be as low as 53.59%. For the SQLite use-case, LeanBin debloats a binary including its shared library and generates a debloated binary that runs up to 1.24$\times$ faster with 3.65% gadgets.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-13
# Visual Robustness Benchmark for Visual Question Answering (VQA)

Visual Robustness Benchmark for Visual Question Answering (VQA) ( http://arxiv.org/abs/2407.03386v2 )

ライセンス: Link先を確認
Md Farhan Ishmam, Ishmam Tashdeed, Talukder Asir Saadat, Md Hamjajul Ashmafee, Abu Raihan Mostofa Kamal, Md. Azam Hossain, (参考訳) VQA(Visual Question Answering)システムは、実世界でも同じように動作するだろうか? あるいは、医療用VQAのようなセンシティブなアプリケーションでは有害な、g画像のぼかしのような現実的な汚職の影響を受けやすいのか? 言語的あるいはテキスト的堅牢性はVQAの文献で徹底的に研究されているが、VQAモデルの視覚的堅牢性についてはまだ大きな研究がなされていない。 本稿では,213,000個の拡張画像からなる最初の大規模ベンチマークを提案し,複数のVQAモデルの視覚的堅牢性に挑戦し,現実的な視覚的腐敗の強さを評価する。 さらに、統一されたメトリクスに集約され、さまざまなユースケースに適合するように調整された、堅牢性評価メトリクスを設計しました。 我々の実験は、モデルのサイズ、性能、そして視覚的腐敗との堅牢性との関係に関するいくつかの洞察を明らかにした。 私たちのベンチマークでは、堅牢性を損なうことなくモデルパフォーマンスを考慮したモデル開発におけるバランスのとれたアプローチの必要性を強調しています。

Can Visual Question Answering (VQA) systems perform just as well when deployed in the real world? Or are they susceptible to realistic corruption effects e.g. image blur, which can be detrimental in sensitive applications, such as medical VQA? While linguistic or textual robustness has been thoroughly explored in the VQA literature, there has yet to be any significant work on the visual robustness of VQA models. We propose the first large-scale benchmark comprising 213,000 augmented images, challenging the visual robustness of multiple VQA models and assessing the strength of realistic visual corruptions. Additionally, we have designed several robustness evaluation metrics that can be aggregated into a unified metric and tailored to fit a variety of use cases. Our experiments reveal several insights into the relationships between model size, performance, and robustness with the visual corruptions. Our benchmark highlights the need for a balanced approach in model development that considers model performance without compromising the robustness.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-13
# シルベスター方程式に基づくフロッケシュリーファー・ヴォルフ変換

Floquet Schrieffer-Wolff transform based on Sylvester equations ( http://arxiv.org/abs/2407.08405v2 )

ライセンス: Link先を確認
Xiao Wang, Fabio Pablo Miguel Méndez-Córdoba, Dieter Jaksch, Frank Schlawin, (参考訳) 我々は,Floquet Schrieffer Wolff変換(FSWT)を用いて,非共振駆動周波数に対して周期駆動多体系の実効的なFloquet Hamiltonianおよびマイクロモーション演算子を得る。 FSWTは作用素値のシルヴェスター方程式を解くことにより、駆動ハミルトニアンの振動成分を摂動的に除去する。 非駆動多体系の固有状態を知らずにこれらのシルヴェスター方程式を解く方法を示す。 高い駆動周波数の極限において、これらの解はよく知られたフロケ・マグナス展開の高周波限界に還元される。 我々は,この手法が,マルチオービタル・長距離相互作用系をインギャップで駆動するシステムを記述するのに役立つことを期待する。

We present a Floquet Schrieffer Wolff transform (FSWT) to obtain effective Floquet Hamiltonians and micro-motion operators of periodically driven many-body systems for any non-resonant driving frequency. The FSWT perturbatively eliminates the oscillatory components in the driven Hamiltonian by solving operator-valued Sylvester equations. We show how to solve these Sylvester equations without knowledge of the eigenstates of the undriven many-body system, using the driven Hubbard model as an example. In the limit of high driving frequencies, these solutions reduce to the well-known high-frequency limit of the Floquet-Magnus expansion. We anticipate this method will be useful for describing multi-orbital and long-range interacting systems driven in-gap.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-13
# RAPiD-Seg:3次元LiDARセグメンテーションのための距離対応ポイントワイド距離分散ネットワーク

RAPiD-Seg: Range-Aware Pointwise Distance Distribution Networks for 3D LiDAR Segmentation ( http://arxiv.org/abs/2407.10159v3 )

ライセンス: Link先を確認
Li Li, Hubert P. H. Shum, Toby P. Breckon, (参考訳) 3Dポイント雲は、特に自律運転の文脈において、屋外のシーン知覚において重要な役割を果たす。 3次元LiDARセグメンテーションの最近の進歩は、しばしば正確なセグメンテーションのための点の位置と分布に重点を置いている。 しかし、これらの手法は変動条件では頑健であるが、座標と点強度にのみ依存しているため、等尺的不変性や準最適セグメンテーションに乏しい。 この課題に対処するために、Range-Aware Pointwise Distance Distribution(RAPiD)機能と関連するRAPiD-Segアーキテクチャを導入している。 RAPiDの特徴は剛性変換不変性を示し, 点密度の変動に効果的に適用できる。 固有なLiDAR等方性放射とセマンティック分類を利用して局所表現と計算効率を向上し、幾何学的および表面の反射率を統合した4次元距離メートル法を取り入れ、セマンティックセグメンテーションを改善した。 高次元RAPiD特徴を効果的に埋め込むために,高次元特徴を管理可能なボクセルワイド埋め込みにエンコードする新しいクラス認識埋め込み目的を持つ2次元オートエンコーダ構造を提案する。 さらに,チャネルワイドアテンション融合と2つの効果的なRAPiD-Segバリアントを組み込んだRAPiD-Segを提案する。 提案手法は,SemanticKITTI (76.1) とnuScenes (83.6) データセットのmIoUを用いて,現代のLiDARセグメンテーション作業より優れている。

3D point clouds play a pivotal role in outdoor scene perception, especially in the context of autonomous driving. Recent advancements in 3D LiDAR segmentation often focus intensely on the spatial positioning and distribution of points for accurate segmentation. However, these methods, while robust in variable conditions, encounter challenges due to sole reliance on coordinates and point intensity, leading to poor isometric invariance and suboptimal segmentation. To tackle this challenge, our work introduces Range-Aware Pointwise Distance Distribution (RAPiD) features and the associated RAPiD-Seg architecture. Our RAPiD features exhibit rigid transformation invariance and effectively adapt to variations in point density, with a design focus on capturing the localized geometry of neighboring structures. They utilize inherent LiDAR isotropic radiation and semantic categorization for enhanced local representation and computational efficiency, while incorporating a 4D distance metric that integrates geometric and surface material reflectivity for improved semantic segmentation. To effectively embed high-dimensional RAPiD features, we propose a double-nested autoencoder structure with a novel class-aware embedding objective to encode high-dimensional features into manageable voxel-wise embeddings. Additionally, we propose RAPiD-Seg which incorporates a channel-wise attention fusion and two effective RAPiD-Seg variants, further optimizing the embedding for enhanced performance and generalization. Our method outperforms contemporary LiDAR segmentation work in terms of mIoU on SemanticKITTI (76.1) and nuScenes (83.6) datasets.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-13
# PushPull-Net: インスティクション駆動のResNetは画像の破損に対して堅牢

PushPull-Net: Inhibition-driven ResNet robust to image corruptions ( http://arxiv.org/abs/2408.04077v2 )

ライセンス: Link先を確認
Guru Swaroop Bennabhaktula, Enrique Alegre, Nicola Strisciuglio, George Azzopardi, (参考訳) 本稿では,ResNetアーキテクチャの第1層にPushPull-Convと呼ばれる新しい計算ユニットを導入する。 このユニットは、トレーニング可能なプッシュカーネルとそれに対応するプルカーネルという2つの補完的なフィルタを実装することで、従来の畳み込み層を再定義する。 プッシュカーネル(従来の畳み込みと類似)は特定の刺激に反応することを学び、プルカーネルは同じ刺激に反応するが、反対のコントラストに反応する。 この構成は刺激選択性を高め、好ましくない領域での応答を効果的に抑制する。 この効果はプッシュとプルのカーネルによるもので、これらの領域で同等の大きさの応答を生成し、それによって互いに中和する。 PushPull-ConvをResNetsに組み込むことで、イメージの破損に対するロバスト性が大幅に向上した。 我々は,PushPull-Convを他のデータ拡張手法と組み合わせることで,モデルロバスト性をさらに向上できることを示す。 我々は、PRIME拡張とPushPull阻害を組み合わせる際に、ImageNet-Cで$mCE$ 49.95$\%$を達成したResNet50に新しい堅牢性ベンチマークを設定した。

We introduce a novel computational unit, termed PushPull-Conv, in the first layer of a ResNet architecture, inspired by the anti-phase inhibition phenomenon observed in the primary visual cortex. This unit redefines the traditional convolutional layer by implementing a pair of complementary filters: a trainable push kernel and its counterpart, the pull kernel. The push kernel (analogous to traditional convolution) learns to respond to specific stimuli, while the pull kernel reacts to the same stimuli but of opposite contrast. This configuration enhances stimulus selectivity and effectively inhibits response in regions lacking preferred stimuli. This effect is attributed to the push and pull kernels, which produce responses of comparable magnitude in such regions, thereby neutralizing each other. The incorporation of the PushPull-Conv into ResNets significantly increases their robustness to image corruption. Our experiments with benchmark corruption datasets show that the PushPull-Conv can be combined with other data augmentation techniques to further improve model robustness. We set a new robustness benchmark on ResNet50 achieving an $mCE$ of 49.95$\%$ on ImageNet-C when combining PRIME augmentation with PushPull inhibition.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-13
# エアフォイル拡散:条件付きエアフォイル発生のためのデノイング拡散モデル

Airfoil Diffusion: Denoising Diffusion Model For Conditional Airfoil Generation ( http://arxiv.org/abs/2408.15898v2 )

ライセンス: Link先を確認
Reid Graves, Amir Barati Farimani, (参考訳) エアフォイルのような空気力学的形状の設計は伝統的に重要な計算資源を必要としており、新しい形状合成の可能性を制限する事前定義された設計パラメータに依存している。 本研究では,拡散モデルを用いた翼生成のためのデータ駆動手法を提案する。 我々のモデルは、既存の翼のデータセットに基づいて訓練され、ランダムなベクトルから任意の数の新しい翼を生成することができる。 この拡散モデルにより, 現実的な空力特性を持つ翼形状を効果的に生成し, 効率, 柔軟性, 革新的な翼設計の発見の可能性について検討した。 このアプローチは設計空間を大きく拡張し、従来の手法の限界を超越した高性能な空気力学形状の合成を容易にする。

The design of aerodynamic shapes, such as airfoils, has traditionally required significant computational resources and relied on predefined design parameters, which limit the potential for novel shape synthesis. In this work, we introduce a data-driven methodology for airfoil generation using a diffusion model. Trained on a dataset of preexisting airfoils, our model can generate an arbitrary number of new airfoils from random vectors, which can be conditioned on specific aerodynamic performance metrics such as lift and drag, or geometric criteria. Our results demonstrate that the diffusion model effectively produces airfoil shapes with realistic aerodynamic properties, offering substantial improvements in efficiency, flexibility, and the potential for discovering innovative airfoil designs. This approach significantly expands the design space, facilitating the synthesis of high-performance aerodynamic shapes that transcend the limitations of traditional methods.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-13
# ContextCite: コンテキストにモデル生成をもたらす

ContextCite: Attributing Model Generation to Context ( http://arxiv.org/abs/2409.00729v2 )

ライセンス: Link先を確認
Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry, (参考訳) 言語モデルは、応答を生成する際に、コンテキストとして提供される情報をどのように利用するか? 特定の生成されたステートメントが実際にコンテキスト、誤解、あるいは製造されているかどうかを推測できますか? これらの疑問に答えるために、私たちはコンテキスト属性の問題を紹介します: あるモデルが特定の文を生成するきっかけとなったコンテキストの一部(もしあれば)をピンポイントする。 次に、既存の言語モデルの上に適用可能な、コンテキスト属性のシンプルでスケーラブルなメソッドであるContextCiteを紹介します。 最後に,(1)生成したステートメントの検証を支援すること (2) コンテキストを切断することで応答品質を向上させること,(3) 中毒攻撃を検出すること,の3つの応用を通してContextCiteの有用性を示す。 ContextCiteのコードはhttps://github.com/MadryLab/context-cite.comで提供します。

How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.
翻訳日:2024-09-17 22:48:25 公開日:2024-09-13
# UI-JEPA: 画面上でのユーザアクティビティによるユーザインテントのアクティブな認識に向けて

UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity ( http://arxiv.org/abs/2409.04081v2 )

ライセンス: Link先を確認
Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin, (参考訳) ユーザインターフェース(UI)アクションのシーケンスからユーザ意図を生成することは、包括的なUI理解における中核的な課題である。 MLLM(Multimodal large language model)の最近の進歩は、この分野でかなりの進歩をもたらしたが、広範囲なモデルパラメータ、計算能力、高レイテンシ要求は、軽量でオンデバイスなソリューションが必要で、レイテンシーが低く、プライバシーが高くなるシナリオでは実用的ではない。 さらに、高品質なデータセットの欠如により、このような軽量モデルの開発が妨げられている。 これらの課題に対処するために,UI-JEPAを提案する。UI-JEPAは,自己教師付き学習を通じてラベル付きデータから抽象的なUI埋め込みを学習するためのマスキング戦略を利用する新しいフレームワークであり,ユーザ意図の予測のために微調整されたLLMデコーダと組み合わせる。 Intent in the Wild" (IIW) と "Intent in the Tame" (IIT) の2つの新しいUIグラウンド型マルチモーダルデータセットも導入した。 IIWは219カテゴリーの1.7Kビデオで構成され、IITは10カテゴリの914ビデオを含んでいる。 我々はこれらのデータセットの最初のベースラインを確立し、JEPAスタイルの目的とLLMデコーダを組み合わせて学習した表現が、最先端の大規模MLLMのパフォーマンスに匹敵するユーザ意図の予測を達成できることを示した。 UI-JEPAは意図的類似度スコアによって測定され、GPT-4 TurboとClaude 3.5 Sonnetをそれぞれ10.0%と7.2%上回り、2つのデータセットで平均した。 特に、UI-JEPAは、計算コストを0.5倍削減し、IIWデータセットのレイテンシを6.6倍改善することで、パフォーマンスを達成する。 これらの結果はUI-JEPAの有効性を強調し、軽量で高性能なUI理解の可能性を強調している。

Generating user intent from a sequence of user interface (UI) actions is a core challenge in comprehensive UI understanding. Recent advancements in multimodal large language models (MLLMs) have led to substantial progress in this area, but their demands for extensive model parameters, computing power, and high latency makes them impractical for scenarios requiring lightweight, on-device solutions with low latency or heightened privacy. Additionally, the lack of high-quality datasets has hindered the development of such lightweight models. To address these challenges, we propose UI-JEPA, a novel framework that employs masking strategies to learn abstract UI embeddings from unlabeled data through self-supervised learning, combined with an LLM decoder fine-tuned for user intent prediction. We also introduce two new UI-grounded multimodal datasets, "Intent in the Wild" (IIW) and "Intent in the Tame" (IIT), designed for few-shot and zero-shot UI understanding tasks. IIW consists of 1.7K videos across 219 intent categories, while IIT contains 914 videos across 10 categories. We establish the first baselines for these datasets, showing that representations learned using a JEPA-style objective, combined with an LLM decoder, can achieve user intent predictions that match the performance of state-of-the-art large MLLMs, but with significantly reduced annotation and deployment resources. Measured by intent similarity scores, UI-JEPA outperforms GPT-4 Turbo and Claude 3.5 Sonnet by 10.0% and 7.2% respectively, averaged across two datasets. Notably, UI-JEPA accomplishes the performance with a 50.5x reduction in computational cost and a 6.6x improvement in latency in the IIW dataset. These results underscore the effectiveness of UI-JEPA, highlighting its potential for lightweight, high-performance UI understanding.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-13
# Tele-LLMs:通信用大規模言語モデルのシリーズ

Tele-LLMs: A Series of Specialized Large Language Models for Telecommunications ( http://arxiv.org/abs/2409.05314v2 )

ライセンス: Link先を確認
Ali Maatouk, Kenny Chirino Ampudia, Rex Ying, Leandros Tassiulas, (参考訳) 大規模言語モデル(LLM)の出現は、自然言語処理から医学や金融といった分野まで、様々な分野に大きく影響している。 しかし、急速な普及にもかかわらず、LLMの電気通信への応用は限定的であり、ドメイン固有の特殊化に欠ける汎用モデルに依存していることが多い。 この特殊化の欠如は、特に電気通信特有の技術用語とその関連する数学的表現を扱う場合、パフォーマンスの低下をもたらす。 本稿では、まず、関連するソースから収集した総合的な通信資料データセットであるTele-Dataと、ドメインに合わせた大規模Q&AデータセットであるTele-Evalの作成と普及によって、このギャップに対処する。 広範にわたる実験を通じて,LLMを電気通信分野に適用するための最も効果的な訓練手法について検討する。 また、異なるサイズのモデルが適応中にどのように振る舞うかを調査し、トレーニングデータがこの振る舞いに与える影響を分析する。 これらの知見を活用して,通信に適した1Bパラメータから8Bパラメータまで,最初の言語モデルであるTele-LLMsを開発し,オープンソース化した。 評価の結果,これらのモデルはTele-Evalの汎用モデルよりも優れており,これまでに獲得した能力を保ちながら,破滅的な忘れ込み現象を回避することができた。

The emergence of large language models (LLMs) has significantly impacted various fields, from natural language processing to sectors like medicine and finance. However, despite their rapid proliferation, the applications of LLMs in telecommunications remain limited, often relying on general-purpose models that lack domain-specific specialization. This lack of specialization results in underperformance, particularly when dealing with telecommunications-specific technical terminology and their associated mathematical representations. This paper addresses this gap by first creating and disseminating Tele-Data, a comprehensive dataset of telecommunications material curated from relevant sources, and Tele-Eval, a large-scale question-and-answer dataset tailored to the domain. Through extensive experiments, we explore the most effective training techniques for adapting LLMs to the telecommunications domain, ranging from examining the division of expertise across various telecommunications aspects to employing parameter-efficient techniques. We also investigate how models of different sizes behave during adaptation and analyze the impact of their training data on this behavior. Leveraging these findings, we develop and open-source Tele-LLMs, the first series of language models ranging from 1B to 8B parameters, specifically tailored for telecommunications. Our evaluations demonstrate that these models outperform their general-purpose counterparts on Tele-Eval while retaining their previously acquired capabilities, thus avoiding the catastrophic forgetting phenomenon.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-13
# 非エルミート時間結晶の量子回路実現における雑音の影響

Effect of noise on quantum circuit realization of non-Hermitian time crystals ( http://arxiv.org/abs/2409.06113v2 )

ライセンス: Link先を確認
Weihua Xie, Michael Kolodrubetz, Vadim Oganesyan, (参考訳) 非エルミート量子力学は、ユニタリハミルトニアン力学とトレース保存非単位量子系力学の中間状態にある。 ユニタリ力学と非ユニタリ力学の耐雑音性の違いを考えると、ノイジー量子コンピュータにおける非エルミート力学の実装を考えることは興味深い。 本稿では,多体ダイナミクスが時間結晶性の形式である持続時間振動を生じさせる非エルミートイジング・フロケモデルについて述べる。 最も単純な2つの量子ビットの場合、ある微調整点において無限に長寿命の周期定常状態が存在する。 これらの振動は、理想的非エルミート力学のパラメータや、現代の量子デバイスで期待されるノイズや不完全性のレベルに対して、合理的に長寿命である。 一般化されたフロッケ解析を用いて、一般的な雑音の任意の弱値に対して無限長の振動が一般に失われ、それに対応する減衰率が計算されることを示す。 我々は,IBMのQiskitプラットフォームを用いてシミュレーションを行い,実験結果を確認した。

Non-Hermitian quantum dynamics lie in an intermediate regime between unitary Hamiltonian dynamics and trace-preserving non-unitary open quantum system dynamics. Given differences in the noise tolerance of unitary and non-unitary dynamics, it is interesting to consider implementing non-Hermitian dynamics on a noisy quantum computer. In this paper, we do so for a non-Hermitian Ising Floquet model whose many-body dynamics gives rise to persistent temporal oscillations, a form of time crystallinity. In the simplest two qubit case that we consider, there is an infinitely long-lived periodic steady state at certain fine-tuned points. These oscillations remain reasonably long-lived over a range of parameters in the ideal non-Hermitean dynamics and for the levels of noise and imperfection expected of modern day quantum devices. Using a generalized Floquet analysis, we show that infinitely long-lived oscillations are generically lost for arbitrarily weak values of common types of noise and compute corresponding damping rate. We perform simulations using IBM's Qiskit platform to confirm our findings; however, experiments on a real device (ibmq-lima) do not show remnants of these oscillations.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-13
# 安全かつトラクタブルなガウスプロセスベースMPCを目指して:シーケンシャル2次プログラミングフレームワークにおける効率的なサンプリング

Towards safe and tractable Gaussian process-based MPC: Efficient sampling within a sequential quadratic programming framework ( http://arxiv.org/abs/2409.08616v1 )

ライセンス: Link先を確認
Manish Prajapat, Amon Lahr, Johannes Köhler, Andreas Krause, Melanie N. Zeilinger, (参考訳) ガウス過程~(GP)回帰を用いた不確実な力学モデルの学習は、現実世界のアプリケーションに挑戦するための高性能で安全に配慮した制御戦略を実現するために実証されてきた。 しかし、計算的トラクタビリティにおいては、ガウス過程に基づくモデル予測制御(GP-MPC)のほとんどのアプローチは、過度に保守的であるか、コントローラの安全保証を妨げている到達可能な集合の近似に基づいている。 これらの課題に対処するために,制約満足度を高い確率で保証する頑健なGP-MPCの定式化を提案する。 抽出可能な実装として,逐次2次プログラミングフレームワーク内でGPから一貫した動的サンプルを反復的に生成する,サンプリングベースのGP-MPC手法を提案する。 2つの数値例を用いて,既存手法と比較して到達可能集合近似の改善と実時間実行可能計算時間を強調した。

Learning uncertain dynamics models using Gaussian process~(GP) regression has been demonstrated to enable high-performance and safety-aware control strategies for challenging real-world applications. Yet, for computational tractability, most approaches for Gaussian process-based model predictive control (GP-MPC) are based on approximations of the reachable set that are either overly conservative or impede the controller's safety guarantees. To address these challenges, we propose a robust GP-MPC formulation that guarantees constraint satisfaction with high probability. For its tractable implementation, we propose a sampling-based GP-MPC approach that iteratively generates consistent dynamics samples from the GP within a sequential quadratic programming framework. We highlight the improved reachable set approximation compared to existing methods, as well as real-time feasible computation times, using two numerical examples.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-13
# 場の作用素のスペクトル分解と場の量子論における因果測定

Spectral decomposition of field operators and causal measurement in quantum field theory ( http://arxiv.org/abs/2409.08748v1 )

ライセンス: Link先を確認
Robert Oeckl, (参考訳) 強連続なPOVM分解ファミリーの極限として、ボゾン量子場理論における場の作用素のスペクトル分解を構築する。 後者は有界正作用素の族上の積分から生じる。 重要なことに、これらの作用素は基礎となる体作用素と同じ局所性を持つ。 この分解を用いて、フィールドオブザーバブルの測定を実装した量子演算の族を構成する。 再び、量子演算は場演算子と同じ局所性を持つ。 さらに、これらの量子演算が超音速信号に繋がらず、ソーキンの意味での量子場の計測が可能であることを示している。

We construct the spectral decomposition of field operators in bosonic quantum field theory as a limit of a strongly continuous family of POVM decompositions. The latter arise from integrals over families of bounded positive operators. Crucially, these operators have the same locality properties as the underlying field operators. We use the decompositions to construct families of quantum operations implementing measurements of the field observables. Again, the quantum operations have the same locality properties as the field operators. What is more, we show that these quantum operations do not lead to superluminal signaling and are possible measurements on quantum fields in the sense of Sorkin.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-13
# AccentBox: 高忠実度ゼロショットアクセント生成を目指して

AccentBox: Towards High-Fidelity Zero-Shot Accent Generation ( http://arxiv.org/abs/2409.09098v1 )

ライセンス: Link先を確認
Jinzuomu Zhong, Korin Richmond, Zhiba Su, Siqi Sun, (参考訳) 最近のZero-Shot Text-to-Speech(ZS-TTS)モデルは、自然度と話者の類似性が高いが、アクセントの忠実さと制御性が不足している。 この問題に対処するため、新たな2段階パイプラインで、外部アクセント変換(FAC)、アクセント付きTS、ZS-TTSを統一するゼロショットアクセント生成を提案する。 第1段階では、アクセント識別(AID)に関するSOTA(State-of-the-art)を未確認話者に対して0.56f1のスコアで達成する。 第2段階では、AIDモデルにより抽出された事前訓練された話者認識アクセント埋め込みにZS-TTSシステムを適用した。 提案システムは,固有/クロスアクセント生成において高いアクセント忠実度を実現し,目に見えないアクセント生成を可能にする。

While recent Zero-Shot Text-to-Speech (ZS-TTS) models have achieved high naturalness and speaker similarity, they fall short in accent fidelity and control. To address this issue, we propose zero-shot accent generation that unifies Foreign Accent Conversion (FAC), accented TTS, and ZS-TTS, with a novel two-stage pipeline. In the first stage, we achieve state-of-the-art (SOTA) on Accent Identification (AID) with 0.56 f1 score on unseen speakers. In the second stage, we condition ZS-TTS system on the pretrained speaker-agnostic accent embeddings extracted by the AID model. The proposed system achieves higher accent fidelity on inherent/cross accent generation, and enables unseen accent generation.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# S-STE: 効率的な2:4スパース事前学習のための連続処理機能

S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training ( http://arxiv.org/abs/2409.09099v1 )

ライセンス: Link先を確認
Yuezhou Hu, Jun Zhu, Jianfei Chen, (参考訳) ディープニューラルネットワーク(DNN)のトレーニングには費用がかかる。 幸運なことに、Nvidia AmpereとHopper GPUは2:4の間隔を実装することで、行列乗算を密度の高い同等値の2倍の速さで加速することができる。 しかし、従来のSTEベースの2:4事前学習手法(例えば、STEとSR-STE)は、不連続なプルーニング機能のために最適化の難しさに悩まされている。 本研究では,従来のN:Mスパーストレーニングのボトルネックを包括的に分析し,不連続な3つの欠点を認識させる。 本稿では,S-STEを提案する。S-STEは,2:4スパースに連続的に重みを投影し,スパークウェイトをテンソルごとの固定スケーリング係数で再スケールする,単純な2:4トレーニング手法である。 さらに、活性化勾配とFP8量子化のプロセス全体に対して、最小分散非バイアス推定を採用する。 その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。

Training deep neural networks (DNNs) is costly. Fortunately, Nvidia Ampere and Hopper GPUs can accelerate matrix multiplications twice as fast as a dense equivalent by implementing 2:4 sparsity. However, previous STE-based 2:4 pre-training methods (e.g. STE with hard-thresholding, SR-STE) suffer from optimization difficulties because of discontinuous pruning function. In this study, we comprehensively analyse the bottleneck of traditional N:M sparse training and recognize three drawbacks with discontinuity: incorrect descending direction, inability to predict the amount of descent and sparse mask oscillation. In the light of this statement, we propose S-STE, a simple yet powerful 2:4 training method that contains two parts: to continuously project weights to be 2:4 sparse, and to rescale sparse weights with a per-tensor fixed scaling factor. Besides, we adopt minimum-variance unbiased estimation for activation gradient and FP8 quantization for whole process. Results show that our method surpass previous 2:4 pre-training recipes and is comparable even with full parameter models.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# 不均一アンサンブルの進化による量子回路の信頼性向上

Improving the Reliability of Quantum Circuits by Evolving Heterogeneous Ensembles ( http://arxiv.org/abs/2409.09103v1 )

ライセンス: Link先を確認
Owain Parry, John Clark, Phil McMinn, (参考訳) 量子コンピュータは、従来のコンピュータよりも指数関数的に高速な演算を実行できるが、量子回路の設計は困難である。 その目的のために、研究者は進化的アルゴリズムを使って確率論的量子回路を作り、どの入力に対してもより頻繁に正しい出力を与えました。 これらは複数回実行可能であり、出力は古典的な方法(投票など)と組み合わせて最終的な出力を生成し、回路の均一なアンサンブル(すなわち、すべて同一)を効果的に生成する。 n-バージョンプログラミングとアンサンブル学習にインスパイアされた我々は、進化的アルゴリズムを用いて回路の異種アンサンブルを生成するツールQuEEnを開発した。 我々は、アイリス分類問題を解くためにアンサンブルを進化させた。 理想的なシミュレーションでは, 異種アンサンブルは同種アンサンブルよりも統計的に有意な性能を示した。 ノイズシミュレーションでは,多くの症例で統計的に有意な改善がみられた。 この結果から,異種アンサンブルの進化は,量子回路の信頼性向上に有効な戦略であることが示唆された。 これは、コンピュータがまだ量子ノイズに優れた耐性を持っていない現在の量子コンピューティングのNISQ時代に特に関係している。

Quantum computers can perform certain operations exponentially faster than classical computers, but designing quantum circuits is challenging. To that end, researchers used evolutionary algorithms to produce probabilistic quantum circuits that give the correct output more often than not for any input. They can be executed multiple times, with the outputs combined using a classical method (such as voting) to produce the final output, effectively creating a homogeneous ensemble of circuits (i.e., all identical). Inspired by n-version programming and ensemble learning, we developed a tool that uses an evolutionary algorithm to generate heterogeneous ensembles of circuits (i.e., all different), named QuEEn. We used it to evolve ensembles to solve the Iris classification problem. When using ideal simulation, we found the performance of heterogeneous ensembles to be greater than that of homogeneous ensembles to a statistically significant degree. When using noisy simulation, we still observed a statistically significant improvement in the majority of cases. Our results indicate that evolving heterogeneous ensembles is an effective strategy for improving the reliability of quantum circuits. This is particularly relevant in the current NISQ era of quantum computing where computers do not yet have good tolerance to quantum noise.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# ディープラーニングを用いた連続時系列モデリングの最近の動向

Recent Trends in Modelling the Continuous Time Series using Deep Learning: A Survey ( http://arxiv.org/abs/2409.09106v1 )

ライセンス: Link先を確認
Mansura Habiba, Barak A. Pearlmutter, Mehrdad Maleki, (参考訳) 継続的シリーズは、医療、自動車、エネルギー、金融、モノのインターネット(IoT)など、現代のさまざまな分野において不可欠である。 例えば、金融トレンド予測、特定の事象の発生の確率、患者の健康記録処理など、データ駆動結果を決定するために、さまざまなアプリケーションが時系列構造における大量のデータを処理し、分析する必要がある。 しかし、データの背後にある力学系が微分方程式になり得るため、連続時系列を用いたリアルタイムデータのモデリングは困難である。 いくつかの研究は、異なるニューラルネットワークモデルとデータ処理と学習のためのアプローチを使用して、連続時系列をモデル化する際の課題を解決しようと試みている。 既存のディープラーニングモデルは、さまざまな属性、振る舞い、ステップの持続時間、エネルギ、データサンプリング率の多様性によって、課題や制限がなくなることはない。 本稿では、時系列の一般的な問題領域について述べ、連続時系列をモデル化する際の課題について概説する。 我々は、ディープラーニングモデルにおける最近の発展と、連続時系列をモデル化する際の様々な困難を解決するために、それらの貢献について比較分析を行った。 また、既存のニューラルネットワークモデルとオープンイシューの制限も特定しました。 このレビューの主な目的は、連続的なデータを持つ異なる現実世界のアプリケーションで使用されるニューラルネットワークモデルの最新トレンドを理解することである。

Continuous-time series is essential for different modern application areas, e.g. healthcare, automobile, energy, finance, Internet of things (IoT) and other related areas. Different application needs to process as well as analyse a massive amount of data in time series structure in order to determine the data-driven result, for example, financial trend prediction, potential probability of the occurrence of a particular event occurrence identification, patient health record processing and so many more. However, modeling real-time data using a continuous-time series is challenging since the dynamical systems behind the data could be a differential equation. Several research works have tried to solve the challenges of modelling the continuous-time series using different neural network models and approaches for data processing and learning. The existing deep learning models are not free from challenges and limitations due to diversity among different attributes, behaviour, duration of steps, energy, and data sampling rate. This paper has described the general problem domain of time series and reviewed the challenges of modelling the continuous time series. We have presented a comparative analysis of recent developments in deep learning models and their contribution to solving different difficulties of modelling the continuous time series. We have also identified the limitations of the existing neural network model and open issues. The main goal of this review is to understand the recent trend of neural network models used in a different real-world application with continuous-time data.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# 最適時間ラグを用いた確率計画計画のための能動的・反応性制約計画法

Proactive and Reactive Constraint Programming for Stochastic Project Scheduling with Maximal Time-Lags ( http://arxiv.org/abs/2409.09107v1 )

ライセンス: Link先を確認
Kim van den Houten, Léon Planken, Esteban Freydell, David M. J. Tax, Mathijs de Weerdt, (参考訳) 本研究では,最大時間ラグ(SRCPSP/max)を用いた確率的資源制約型プロジェクトスケジューリング問題のスケジューリング戦略について検討する。 制約プログラミング(CP)とテンポラルネットワークの最近の進歩は、様々なプロアクティブかつリアクティブなスケジューリング手法の利点と欠点を評価することへの関心を再燃させた。 まず,CPをベースとした完全能動的手法を提案する。 第二に、オンラインのスケジューリング手順を使ってリアクティブなアプローチを構築する方法を示す。 第3のコントリビューションは部分順序スケジュールに基づいており、Staple Temporal Networks with Uncertainty (STNUs)を使用している。 統計的解析の結果,STNUに基づくアルゴリズムは解の質の面では最適であり,オフラインやオンラインの計算時間も良好であることがわかった。

This study investigates scheduling strategies for the stochastic resource-constrained project scheduling problem with maximal time lags (SRCPSP/max)). Recent advances in Constraint Programming (CP) and Temporal Networks have reinvoked interest in evaluating the advantages and drawbacks of various proactive and reactive scheduling methods. First, we present a new, CP-based fully proactive method. Second, we show how a reactive approach can be constructed using an online rescheduling procedure. A third contribution is based on partial order schedules and uses Simple Temporal Networks with Uncertainty (STNUs). Our statistical analysis shows that the STNU-based algorithm performs best in terms of solution quality, while also showing good relative offline and online computation time.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# リスクの試行: 深層学習検査システムのための信頼性の高い継続的トレーニングを目指して

Trimming the Risk: Towards Reliable Continuous Training for Deep Learning Inspection Systems ( http://arxiv.org/abs/2409.09108v1 )

ライセンス: Link先を確認
Altaf Allah Abbassi, Houssem Ben Braiek, Foutse Khomh, Thomas Reid, (参考訳) 業界はますます、製造検査のためのディープラーニング(DL)技術に依存しており、ルールベースのマシンビジョンアルゴリズムでは自動化が難しい。 DLを利用した検査システムはラベル付き画像から欠陥パターンを導出し、人間のような俊敏性とコンピュータシステムの整合性を組み合わせる。 しかし、有限ラベル付きデータセットは、最近のデータでモデルを定期的に調整するために連続訓練(CT)を必要とするすべての自然変動を包含しないことが多い。 有効なCTでは、元の分布から新しくラベル付けされたサンプルが必要であり、そうでなければ、自己生成ラベルは静かな性能劣化を引き起こす可能性がある。 このリスクを軽減するため、我々は2段階のフィルタリングプロセスを通じて信頼性の高いデータ選択を用いてDLモデルを更新する頑健なCTベースの保守手法を開発した。 モデルが本質的にそれらを無視するため、初期ステージは低信頼の予測をフィルタリングする。 第2段階では、可変オートエンコーダとヒストグラムを使用して、潜時特性と画素特性をキャプチャする画像埋め込みを生成し、誤った過信を伴うドリフトデータとして実質的にシフトした埋め込みの入力を拒否する。 次に、フィルタされた入力に対して、最近のプロダクションとオリジナルデータセットの混合を検証しながら、元のDLモデルの微調整を実行する。 この戦略は破滅的な忘れを緩和し、モデルが新しい運用条件に効果的に適応することを保証する。 実世界の重要データセットを用いたアイスキャンシステムとガラスボトルの産業検査システムの評価では, フィルター処理後に誤ラベルデータのうち9%以下を保存し, 微調整に使用し, 製造データ上でのモデル性能を14%向上させることができた。

The industry increasingly relies on deep learning (DL) technology for manufacturing inspections, which are challenging to automate with rule-based machine vision algorithms. DL-powered inspection systems derive defect patterns from labeled images, combining human-like agility with the consistency of a computerized system. However, finite labeled datasets often fail to encompass all natural variations necessitating Continuous Training (CT) to regularly adjust their models with recent data. Effective CT requires fresh labeled samples from the original distribution; otherwise, selfgenerated labels can lead to silent performance degradation. To mitigate this risk, we develop a robust CT-based maintenance approach that updates DL models using reliable data selections through a two-stage filtering process. The initial stage filters out low-confidence predictions, as the model inherently discredits them. The second stage uses variational auto-encoders and histograms to generate image embeddings that capture latent and pixel characteristics, then rejects the inputs of substantially shifted embeddings as drifted data with erroneous overconfidence. Then, a fine-tuning of the original DL model is executed on the filtered inputs while validating on a mixture of recent production and original datasets. This strategy mitigates catastrophic forgetting and ensures the model adapts effectively to new operational conditions. Evaluations on industrial inspection systems for popsicle stick prints and glass bottles using critical real-world datasets showed less than 9% of erroneous self-labeled data are retained after filtering and used for fine-tuning, improving model performance on production data by up to 14% without compromising its results on original validation data.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# エネルギー制約拡散によるニューラルメッセージパッシング

Neural Message Passing Induced by Energy-Constrained Diffusion ( http://arxiv.org/abs/2409.09111v1 )

ライセンス: Link先を確認
Qitian Wu, David Wipf, Junchi Yan, (参考訳) 特定のジオメトリ(観測または観測されていない)で構造化されたデータの表現を学習することは基本的な課題であり、メッセージパッシングニューラルネットワーク(MPNN)は事実上のモデルソリューションのクラスになっている。 本稿では,MPNNのメカニズムを理解し,新しい建築設計をナビゲートするための原理的解釈可能なフレームワークとして,エネルギー制約付き拡散モデルを提案する。 物理系にインスパイアされたモデルは、多様体上の拡散の誘導バイアスとエネルギー最小化の層ワイド制約を結合する。 本分析で示すように、拡散作用素は拡散過程によって暗黙的に下降するエネルギー関数と1対1の対応を持ち、エネルギー制約拡散系を解くための有限差分反復は、観測または潜時構造で操作される様々なタイプのMPNNの伝播層を誘導する。 これらの知見に基づいて,拡散誘導型トランスフォーマーと呼ばれる新しいタイプのニューラルメッセージパッシングモデルを考案し,そのグローバルアテンション層はエネルギー制約型拡散によって誘導される。 実世界のネットワークから画像や物理粒子まで多種多様なデータセットを用いて、データ構造が観察された場合(グラフとして)、部分的に観察された場合、あるいは完全に観察されていない場合において、新しいモデルが有望な性能が得られることを示す。

Learning representations for structured data with certain geometries (observed or unobserved) is a fundamental challenge, wherein message passing neural networks (MPNNs) have become a de facto class of model solutions. In this paper, we propose an energy-constrained diffusion model as a principled interpretable framework for understanding the mechanism of MPNNs and navigating novel architectural designs. The model, inspired by physical systems, combines the inductive bias of diffusion on manifolds with layer-wise constraints of energy minimization. As shown by our analysis, the diffusion operators have a one-to-one correspondence with the energy functions implicitly descended by the diffusion process, and the finite-difference iteration for solving the energy-constrained diffusion system induces the propagation layers of various types of MPNNs operated on observed or latent structures. On top of these findings, we devise a new class of neural message passing models, dubbed as diffusion-inspired Transformers, whose global attention layers are induced by the principled energy-constrained diffusion. Across diverse datasets ranging from real-world networks to images and physical particles, we show that the new model can yield promising performance for cases where the data structures are observed (as a graph), partially observed or completely unobserved.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# CHARM: 自動回帰マルチステージネットワークによるHalosの作成

CHARM: Creating Halos with Auto-Regressive Multi-stage networks ( http://arxiv.org/abs/2409.09124v1 )

ライセンス: Link先を確認
Shivam Pandey, Chirag Modi, Benjamin D. Wandelt, Deaglan J. Bartlett, Adrian E. Bayer, Greg L. Bryan, Matthew Ho, Guilhem Lavaux, T. Lucas Makinen, Francisco Villaescusa-Navarro, (参考訳) 宇宙データセットから抽出した情報の量を最大化するためには、これらの観測を正確に表現するシミュレーションが必要である。 しかし、粒子と粒子の相互作用(N体シミュレーション)を推定することで重力下で粒子を進化させる従来のシミュレーションは、計算コストが高く、今後のデータセットに必要な膨大な量や解像度にスケールすることが禁じられている。 さらに、銀河の分布をモデル化するには、典型的には、大きなN体シミュレーションの時間とメモリ消費のプロセスである暗黒物質ハロを同定し、計算コストをさらに高める。 本研究では, 暗黒物質密度場の大規模分布から直接ハロの空間, 質量, 速度統計をマッチングすることにより, モックハロカタログを作成する新しい手法であるCHARMを紹介する。 我々は,高分解能N体シミュレーションに頼るのではなく,計算効率の低い低分解能粒子メッシュシミュレーションを用いて,赤方偏移z=0.5でこのマッピングを直接学習する多段階神経スプラインフローベースネットワークを開発した。 モックハローカタログと塗装された銀河カタログは、実空間と赤方偏移空間の両方でN$ボディシミュレーションから得られたのと同じ統計特性を持つことを示す。 最後に、これらのモックカタログを用いて、赤方偏移銀河のパワースペクトル、双スペクトル、ウェーブレットに基づく統計データを用いて、シミュレーションベースの推論を行い、加速された前方モデルシミュレーションを用いて第1の推論を行い、よく校正された後部での偏りのない宇宙論的制約を見つける。 このコードはSimons Collaboration on Learning the Universeの一部として開発され、 \url{https://github.com/shivampcosmo/CHARM}で公開されている。

To maximize the amount of information extracted from cosmological datasets, simulations that accurately represent these observations are necessary. However, traditional simulations that evolve particles under gravity by estimating particle-particle interactions (N-body simulations) are computationally expensive and prohibitive to scale to the large volumes and resolutions necessary for the upcoming datasets. Moreover, modeling the distribution of galaxies typically involves identifying virialized dark matter halos, which is also a time- and memory-consuming process for large N-body simulations, further exacerbating the computational cost. In this study, we introduce CHARM, a novel method for creating mock halo catalogs by matching the spatial, mass, and velocity statistics of halos directly from the large-scale distribution of the dark matter density field. We develop multi-stage neural spline flow-based networks to learn this mapping at redshift z=0.5 directly with computationally cheaper low-resolution particle mesh simulations instead of relying on the high-resolution N-body simulations. We show that the mock halo catalogs and painted galaxy catalogs have the same statistical properties as obtained from $N$-body simulations in both real space and redshift space. Finally, we use these mock catalogs for cosmological inference using redshift-space galaxy power spectrum, bispectrum, and wavelet-based statistics using simulation-based inference, performing the first inference with accelerated forward model simulations and finding unbiased cosmological constraints with well-calibrated posteriors. The code was developed as part of the Simons Collaboration on Learning the Universe and is publicly available at \url{https://github.com/shivampcosmo/CHARM}.
翻訳日:2024-09-17 22:18:51 公開日:2024-09-13
# 量子生成モデルによる生物学的神経相関の探索

Exploring Biological Neuronal Correlations with Quantum Generative Models ( http://arxiv.org/abs/2409.09125v1 )

ライセンス: Link先を確認
Vinicius Hernandes, Eliska Greplova, (参考訳) 生物学的ニューラルネットワークがどのように情報を処理しているかを理解することは、私たちの時代の最もオープンな科学的な疑問の1つです。 機械学習とニューラルネットワークの進歩により、神経行動のモデリングが可能になったが、古典的なモデルは多くの場合、解釈可能性の複雑な多くのパラメータを必要とする。 量子コンピューティングは、少ないパラメータで効率的なトレーニングを実現できる量子機械学習を通じて代替的なアプローチを提供する。 本研究では,生体神経活動の空間的および時間的相関を捉える合成データを生成するための量子生成モデルフレームワークを提案する。 本モデルは,従来の手法に比べてトレーニング可能なパラメータが少なく,信頼性の高い結果が得られることを示す。 これらの知見は、ニューロンの振る舞いをモデリングし理解するための新しいツールを提供するための量子生成モデルの可能性を強調し、将来の神経科学研究への道のりを提供する。

Understanding of how biological neural networks process information is one of the biggest open scientific questions of our time. Advances in machine learning and artificial neural networks have enabled the modeling of neuronal behavior, but classical models often require a large number of parameters, complicating interpretability. Quantum computing offers an alternative approach through quantum machine learning, which can achieve efficient training with fewer parameters. In this work, we introduce a quantum generative model framework for generating synthetic data that captures the spatial and temporal correlations of biological neuronal activity. Our model demonstrates the ability to achieve reliable outcomes with fewer trainable parameters compared to classical methods. These findings highlight the potential of quantum generative models to provide new tools for modeling and understanding neuronal behavior, offering a promising avenue for future research in neuroscience.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# FAST: 特徴選択によるニューラルネットワークの不確かさに基づくテスト優先化手法

FAST: Boosting Uncertainty-based Test Prioritization Methods for Neural Networks via Feature Selection ( http://arxiv.org/abs/2409.09130v1 )

ライセンス: Link先を確認
Jialuo Chen, Jingyi Wang, Xiyue Zhang, Youcheng Sun, Marta Kwiatkowska, Jiming Chen, Peng Cheng, (参考訳) 膨大なテストスペースのため、ディープニューラルネットワーク(DNN)の効率的かつ効率的なテストに対する需要が高まっており、様々なDNNテストケース優先順位付け技術が開発されている。 しかし、DNNが過信問題として知られる誤った予測された事例に対して高信頼の予測を行うことができるという事実は、これらの手法が高信頼の誤りを明らかにするのに失敗する原因となる。 この制限に対処するため、本研究では、FeAture SelecTionをガイドとした既存の優先順位付け手法であるFASTを提案する。 FASTは、特定の機能がモデルの出力信頼度に影響を与えるノイズを導入し、高い信頼度エラーにつながるという洞察に基づいている。 モデルの正しい予測に対する各特徴の重要性を定量化し、それから推論中にノイズのある特徴から動的に情報を抽出し、不確実性推定のための新しい確率ベクトルを導出する。 FASTの助けを借りて、高い信頼度エラーと正しく分類された例はより識別しやすくなり、テスト優先化のためのAPFD(Average Percentage of Fault Detection)値が向上し、モデル拡張のための高度な一般化能力がもたらされる。 我々は、FASTの有効性、効率、スケーラビリティを、最先端の優先順位付け技術と比較して検証するために、複数のベンチマークデータセット上で、FASTを多種多様なモデル構造で評価する広範囲な実験を行った。

Due to the vast testing space, the increasing demand for effective and efficient testing of deep neural networks (DNNs) has led to the development of various DNN test case prioritization techniques. However, the fact that DNNs can deliver high-confidence predictions for incorrectly predicted examples, known as the over-confidence problem, causes these methods to fail to reveal high-confidence errors. To address this limitation, in this work, we propose FAST, a method that boosts existing prioritization methods through guided FeAture SelecTion. FAST is based on the insight that certain features may introduce noise that affects the model's output confidence, thereby contributing to high-confidence errors. It quantifies the importance of each feature for the model's correct predictions, and then dynamically prunes the information from the noisy features during inference to derive a new probability vector for the uncertainty estimation. With the help of FAST, the high-confidence errors and correctly classified examples become more distinguishable, resulting in higher APFD (Average Percentage of Fault Detection) values for test prioritization, and higher generalization ability for model enhancement. We conduct extensive experiments to evaluate FAST across a diverse set of model structures on multiple benchmark datasets to validate the effectiveness, efficiency, and scalability of FAST compared to the state-of-the-art prioritization techniques.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# スピンスピンモデルにおける非選択的測定がパラメータ推定に及ぼす影響

The effect of non-selective measurement on the parameter estimation within spin-spin model ( http://arxiv.org/abs/2409.09134v1 )

ライセンス: Link先を確認
Ali Raza Mirza, Jim Al-Khalili, (参考訳) システム環境パラメータの推定における非選択的測定の役割について検討する。 射影測定は、常に純粋な状態を作成する初期状態準備の一般的な方法である。 しかし、物理的興味のある様々な物理的状況において、この選択的な測定は非現実的になる。 本稿では,投影計測による推定結果と単元演算による推定結果を比較する。 典型的には、初期状態がユニタリ演算子(パルス)で準備されている場合、パラメータを高い精度で推定できる。 中心的な2レベルシステム(プローブ)が2レベルシステム(バス)の集合と相互作用するスピンスピンモデルを考える。 プローブが浴槽と相互作用し、熱平衡状態に達すると、単体操作により初期状態が準備され、一元的に進化する。 浴槽の特性は還元力学に印字される。 熱平衡状態にある最初のプローブ-バス相関のため、パラメータ推定において現象的な役割を持つ力学において追加の因子が生じる。 本稿では, 量子フィッシャー情報によって定量化される浴槽温度とプローブバス結合強度の推定について検討する。 非選択的測定と初期相関の影響を組み込むことにより, 推定精度を桁違いに向上させることが期待できる。

We investigate the role of non-selective measurement on the estimation of system-environment parameters. Projective measurement is the popular method of initial state preparation which always prepares a pure state. However, in various physical situations of physical interest, this selective measurement becomes unrealistic. In this paper, we compare the estimation results obtained via projective measurement with the results obtained via unitary operation. We argue that in typical situations, parameters can be estimated with higher accuracy if the initial state is prepared with the unitary operator (a pulse). We consider the spin-spin model where a central two-level system (probe) interacts with the collections of two-level systems (bath). A probe interacts with a bath and attains a thermal equilibrium state, then via unitary operation, the initial state is prepared which evolves unitarily. The properties of the bath are imprinted on the reduced dynamics. Due to the initial probe-bath correlations present in the thermal equilibrium state, an additional factor arises in the dynamics which has a phenomenal role in the parameter estimation. In this paper, we study the estimation of bath temperature and probe-bath coupling strength which is quantified by the quantum Fisher information. Our results are promising as one can improve the precision of the estimates by orders of magnitude via non-selective measurement and by incorporating the effect of initial correlations.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 自然会話におけるエンゲージメント予測のためのLLMを用いたマルチモーダル核融合

Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation ( http://arxiv.org/abs/2409.09135v1 )

ライセンス: Link先を確認
Cheng Charles Ma, Kevin Hyekang Joo, Alexandria K. Vail, Sunreeta Bhattacharya, Álvaro Fernández García, Kailana Baker-Matsuoka, Sheryl Mathew, Lori L. Holt, Fernando De la Torre, (参考訳) 過去10年間、ウェアラブルコンピューティングデバイス( ‘‘smart glasses’')は、センサー技術、設計、および処理能力において顕著な進歩を遂げてきた。 ウェアラブルカメラを搭載したこのメガネは、個人が対話する自然の環境での非言語行動を分析するユニークな機会を提供する。 我々の焦点は、不関心や混乱の兆候を検出することを目的として、言語的および非言語的手がかりを精査することで、ダイアド的相互作用におけるエンゲージメントを予測することである。 このような分析を活用すれば、人間のコミュニケーションに対する理解に革命をもたらし、プロフェッショナル環境におけるより効果的なコラボレーションを促進し、共感的な仮想相互作用を通じてより良いメンタルヘルスサポートを提供し、コミュニケーション障壁を持つ人々へのアクセシビリティを高めることができる。 本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象としたデータセットを収集し,各会話の最後に,それぞれが自己申告されたエンゲージメント評価を行う。 本稿では,Large Language Models (LLMs) を用いた新たな融合戦略を導入し,複数の振る舞いのモダリティをLLMで処理可能な ‘multimodal transcript'' に統合する。 この手法は, 予備実装においても確立された融合技術に匹敵する性能を達成し, さらなる研究と最適化の可能性を示している。 この融合法は、言語モデルを通して現実世界の人間の行動について 'reasoning' にアプローチした最初の1つである。 スマートグラスは、人間の行動に関する高密度なマルチモーダルデータを控えめに収集する能力を提供し、重要な社会的利益の可能性を秘め、人間のコミュニケーションを理解し改善するための新しいアプローチの道を開く。 研究期間中に収集された特徴とデータは、さらなる研究を促進するために公開されている。

Over the past decade, wearable computing devices (``smart glasses'') have undergone remarkable advancements in sensor technology, design, and processing power, ushering in a new era of opportunity for high-density human behavior data. Equipped with wearable cameras, these glasses offer a unique opportunity to analyze non-verbal behavior in natural settings as individuals interact. Our focus lies in predicting engagement in dyadic interactions by scrutinizing verbal and non-verbal cues, aiming to detect signs of disinterest or confusion. Leveraging such analyses may revolutionize our understanding of human communication, foster more effective collaboration in professional environments, provide better mental health support through empathetic virtual interactions, and enhance accessibility for those with communication barriers. In this work, we collect a dataset featuring 34 participants engaged in casual dyadic conversations, each providing self-reported engagement ratings at the end of each conversation. We introduce a novel fusion strategy using Large Language Models (LLMs) to integrate multiple behavior modalities into a ``multimodal transcript'' that can be processed by an LLM for behavioral reasoning tasks. Remarkably, this method achieves performance comparable to established fusion techniques even in its preliminary implementation, indicating strong potential for further research and optimization. This fusion method is one of the first to approach ``reasoning'' about real-world human behavior through a language model. Smart glasses provide us the ability to unobtrusively gather high-density multimodal data on human behavior, paving the way for new approaches to understanding and improving human communication with the potential for important societal benefits. The features and data collected during the studies will be made publicly available to promote further research.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 家庭内反射を用いた高速構造化直交辞書学習

Fast Structured Orthogonal Dictionary Learning using Householder Reflections ( http://arxiv.org/abs/2409.09138v1 )

ライセンス: Link先を確認
Anirudh Dash, Aditya Siripuram, (参考訳) 本稿では,構造化直交辞書学習問題に対するアルゴリズムの提案と検討を行う。 まず,辞書が家庭用行列である場合について検討する。 計算複雑性を最適に計算することで、サンプルの複雑性結果を与え、理論上は近似回復($l_{\infty}$ sense)が保証されることを示す。 次に、辞書がいくつかの家庭用行列の産物である場合に、これらのテクニックを一般化しようと試みる。 我々は,これらの手法をサンプル限定設定で数値的に検証し,計算複雑性を大幅に向上させながら,既存の手法と同等以上の性能を示す。

In this paper, we propose and investigate algorithms for the structured orthogonal dictionary learning problem. First, we investigate the case when the dictionary is a Householder matrix. We give sample complexity results and show theoretically guaranteed approximate recovery (in the $l_{\infty}$ sense) with optimal computational complexity. We then attempt to generalize these techniques when the dictionary is a product of a few Householder matrices. We numerically validate these techniques in the sample-limited setting to show performance similar to or better than existing techniques while having much improved computational complexity.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 単光子レベルでの角運動量の保存

Conservation of angular momentum on a single-photon level ( http://arxiv.org/abs/2409.09139v1 )

ライセンス: Link先を確認
Lea Kopf, Rafael Barros, Shashi Prabhakar, Enno Giese, Robert Fickler, (参考訳) 保存法則の特定は、基礎となる対称性と基本原理を明るみに出すため、物理学のすべてのサブフィールドの中心である。 これらの法則は、理論的な理解を深めるだけでなく、実践的な応用を可能にしている。 自然パラメトリックダウンコンバージョン(SPDC)中の軌道角運動量(OAM)の保存は、絡み合ったOAMを持つ光子対の生成を可能にする。 この量子相関は、この過程を駆動する強いコヒーレントポンプ場のトポロジカル電荷の保存に起因する。 しかし、そのような古典場のトポロジカル電荷は光子当たりの平均OAMしか決定しないため、光子統計の直接的な結果として、磁場によって運ばれる全OAMが変動する。 本稿では,1つのツイスト光子によって励起されるSPDCの最初の実現について報告する。 その結果, 単光子レベルでのOAM保存が確認され, 光子統計を平均化することにより, 古典的なポンプ磁場によって誘導されるSPDCへ直接転送されることがわかった。 本研究は,SPDCの中枢特性の検証に加えて,バルク媒体におけるカスケードダウンコンバージョンの最初の実装を示し,光自由度を用いた多光子高次元エンタングルメントの直接発生実験の舞台とした。

Identifying conservation laws is central to every subfield of physics, as they illuminate the underlying symmetries and fundamental principles. These laws have far-reaching implications, not only enhancing our theoretical understanding but also enabling practical applications. A prime example can be found in quantum optics: The conservation of orbital angular momentum (OAM) during spontaneous parametric down-conversion (SPDC) enables the generation of a photon pair with entangled OAM. This quantum correlation is commonly attributed to the conservation of the topological charge of a strong coherent pump field driving the process. However, the topological charge of such a classical field only determines the average OAM per photon, so that the total OAM carried by the field has fluctuations as a direct consequence of its photon statistics. In this article, we report on the first realisation of SPDC pumped by a single twisted photon. Our results confirm OAM conservation at the single-photon level and directly transfer to SPDC induced by classical pump fields by averaging over their photon statistics. In addition to verifying a central property of SPDC, our results present the first implementation of cascaded down-conversion in bulk media, setting the stage for experiments on the direct generation of multi-photon high-dimensional entanglement using all degrees of freedom of light.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# DomURLs_BERT:悪性ドメインとURLの検出と分類のためのトレーニング済みBERTベースモデル

DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification ( http://arxiv.org/abs/2409.09143v1 )

ライセンス: Link先を確認
Abdelkader El Mahdaouy, Salima Lamsiyah, Meryem Janati Idrissi, Hamza Alami, Zakaria Yartaoui, Ismail Berrada, (参考訳) サイバーセキュリティの基本的な課題は、疑わしいドメイン名や悪意のあるURLの検出と分類である。 このような妥協の指標を活用するために、サイバーセキュリティベンダや実践者は、既知の悪意のあるドメインやURLのブラックリストを保守し、更新することが多い。 しかし、ブラックリストは新しくて難解な脅威を特定するのに失敗することが多い。 過去数十年にわたり、悪意のあるドメインやURLを自動的に検出し、ブラックリストのメンテナンスと更新の制限に対処する機械学習モデルの開発に、大きな関心が寄せられている。 本稿では,疑わしい/悪質なドメインやURLを検知・分類するために,事前学習したBERTベースのエンコーダであるDomURLs_BERTを紹介する。 DomURLs_BERTは、URL、ドメイン名、ドメイン生成アルゴリズム(DGA)データセットの多言語コーパスに基づいて、Masked Language Modeling(MLM)の目的を使って事前トレーニングされている。 DomURLs_BERTの性能を評価するために、フィッシング、マルウェア、DGA、DNSトンネリングなど、ドメイン名とURLを含む複数のバイナリクラスおよびマルチクラス分類タスクの実験を行った。 評価の結果,提案するエンコーダは,複数のタスクやデータセットにまたがって,最先端の文字ベースのディープラーニングモデルやサイバーセキュリティを重視したBERTモデルよりも優れていた。 事前トレーニングデータセット、事前トレーニングされたDomURLs_BERTエンコーダ、実験ソースコードが公開されている。

Detecting and classifying suspicious or malicious domain names and URLs is fundamental task in cybersecurity. To leverage such indicators of compromise, cybersecurity vendors and practitioners often maintain and update blacklists of known malicious domains and URLs. However, blacklists frequently fail to identify emerging and obfuscated threats. Over the past few decades, there has been significant interest in developing machine learning models that automatically detect malicious domains and URLs, addressing the limitations of blacklists maintenance and updates. In this paper, we introduce DomURLs_BERT, a pre-trained BERT-based encoder adapted for detecting and classifying suspicious/malicious domains and URLs. DomURLs_BERT is pre-trained using the Masked Language Modeling (MLM) objective on a large multilingual corpus of URLs, domain names, and Domain Generation Algorithms (DGA) dataset. In order to assess the performance of DomURLs_BERT, we have conducted experiments on several binary and multi-class classification tasks involving domain names and URLs, covering phishing, malware, DGA, and DNS tunneling. The evaluations results show that the proposed encoder outperforms state-of-the-art character-based deep learning models and cybersecurity-focused BERT models across multiple tasks and datasets. The pre-training dataset, the pre-trained DomURLs_BERT encoder, and the experiments source code are publicly available.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# PrimeDepth: 安定拡散予測を用いた効率的な単眼深度推定

PrimeDepth: Efficient Monocular Depth Estimation with a Stable Diffusion Preimage ( http://arxiv.org/abs/2409.09144v1 )

ライセンス: Link先を確認
Denis Zavadski, Damjan Kalšan, Carsten Rother, (参考訳) この研究はゼロショット単眼深度推定の課題に対処する。 この分野での最近の進歩は、安定拡散のようなテキスト・ツー・イメージの基礎モデルを活用するというアイデアである。 基礎モデルは、リッチで汎用的な画像表現を提供するため、高度に詳細化された深度マップを予測し、優れた一般化能力を有する深度推定モデルとしてそれらを再構成するためには、ほとんど訓練データを必要としない。 しかし、このアイデアの実現は、残念なことに、その根底にある反復的妄想プロセスのために、テスト時に非常に非効率なアプローチへと導いてきた。 本研究では, このアイデアの異なる実現法を提案し, 拡散型アプローチの正の側面を保ちつつ, あるいは強化しながら, テスト時に高い効率を発揮できる手法であるPrimeDepthを提案する。 私たちのキーとなるアイデアは、安定拡散(Stable Diffusion)から、ひとつのデノゲーションステップを実行することで、リッチだがフリーズされたイメージ表現を抽出することです。 プレイメージと呼ばれるこの表現は、下流のタスクに入る前に、アーキテクチャ上の帰納バイアスのある洗練されたネットワークに送られます。 我々は,PrimeDepthが主要な拡散法であるMarigoldよりも2桁高速であり,挑戦的なシナリオに対してより堅牢であり,定量的に優れていることを実験的に検証した。 これにより、現在主要なデータ駆動アプローチであるDepth Anythingとのギャップを減らします。 このアプローチの相補的な性質から、PrimeDepthとDepth Anythingの単純な平均化さえも、両方の手法を改善し、ゼロショット単眼深度推定における新しい最先端の手法を設定することができる。 将来的には、データ駆動アプローチは、事前イメージの統合の恩恵を受けるかもしれません。

This work addresses the task of zero-shot monocular depth estimation. A recent advance in this field has been the idea of utilising Text-to-Image foundation models, such as Stable Diffusion. Foundation models provide a rich and generic image representation, and therefore, little training data is required to reformulate them as a depth estimation model that predicts highly-detailed depth maps and has good generalisation capabilities. However, the realisation of this idea has so far led to approaches which are, unfortunately, highly inefficient at test-time due to the underlying iterative denoising process. In this work, we propose a different realisation of this idea and present PrimeDepth, a method that is highly efficient at test time while keeping, or even enhancing, the positive aspects of diffusion-based approaches. Our key idea is to extract from Stable Diffusion a rich, but frozen, image representation by running a single denoising step. This representation, we term preimage, is then fed into a refiner network with an architectural inductive bias, before entering the downstream task. We validate experimentally that PrimeDepth is two orders of magnitude faster than the leading diffusion-based method, Marigold, while being more robust for challenging scenarios and quantitatively marginally superior. Thereby, we reduce the gap to the currently leading data-driven approach, Depth Anything, which is still quantitatively superior, but predicts less detailed depth maps and requires 20 times more labelled data. Due to the complementary nature of our approach, even a simple averaging between PrimeDepth and Depth Anything predictions can improve upon both methods and sets a new state-of-the-art in zero-shot monocular depth estimation. In future, data-driven approaches may also benefit from integrating our preimage.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 領域認識サイクル損失を用いたデジタル手合成の適応的多モード制御

Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss ( http://arxiv.org/abs/2409.09149v1 )

ライセンス: Link先を確認
Qifan Fu, Xiaohang Yang, Muhammad Asad, Changjae Oh, Shanxin Yuan, Gregory Slabaugh, (参考訳) 拡散モデルは、特定のポーズにおける人間の生成を含む、画像の合成能力を示す。 しかし、現在のモデルは、詳細な手ポーズ生成のための条件制御を適切に表現する上で困難に直面しており、手領域にかなりの歪みをもたらしている。 この問題に対処するため、まずHow2Signデータセットをキュレートして、よりリッチで正確なハンドポーズアノテーションを提供します。 さらに,スケルトン,深度,表面の正常といった異なるモダリティで表現される文字の物理的特徴を統合するために,適応的な多モード融合を導入する。 さらに、拡散モデルトレーニングが手領域の改善に集中できる新しい領域認識サイクル損失(RACL)を提案し、それによって生成した手の動きの質が向上する。 より具体的には、提案したRACLは、生成画像から得られた全体ポーズキーポイントと地上真実との間の重み付きキーポイント距離を計算し、全体的なポーズ精度のバランスを保ちながら、高品質の手ポーズを生成する。 また,ハンドポーズ生成評価にはハンドポーズとハンドディスタンスという2つの手領域の指標を用いる。 提案手法の有効性を実験的に評価し,拡散モデル,特に手指領域の品質を用いて,デジタルポーズ生成の質を向上させる方法を提案する。 ソースコードはhttps://github.com/fuqifan/Region-Aware-Cycle-Lossで入手できる。

Diffusion models have shown their remarkable ability to synthesize images, including the generation of humans in specific poses. However, current models face challenges in adequately expressing conditional control for detailed hand pose generation, leading to significant distortion in the hand regions. To tackle this problem, we first curate the How2Sign dataset to provide richer and more accurate hand pose annotations. In addition, we introduce adaptive, multi-modal fusion to integrate characters' physical features expressed in different modalities such as skeleton, depth, and surface normal. Furthermore, we propose a novel Region-Aware Cycle Loss (RACL) that enables the diffusion model training to focus on improving the hand region, resulting in improved quality of generated hand gestures. More specifically, the proposed RACL computes a weighted keypoint distance between the full-body pose keypoints from the generated image and the ground truth, to generate higher-quality hand poses while balancing overall pose accuracy. Moreover, we use two hand region metrics, named hand-PSNR and hand-Distance for hand pose generation evaluations. Our experimental evaluations demonstrate the effectiveness of our proposed approach in improving the quality of digital human pose generation using diffusion models, especially the quality of the hand region. The source code is available at https://github.com/fuqifan/Region-Aware-Cycle-Loss.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 多次元例外点の巻線トポロジー

Winding Topology of Multifold Exceptional Points ( http://arxiv.org/abs/2409.09153v1 )

ライセンス: Link先を確認
Tsuneya Yoshida, J. Lukas K. König, Lukas Rødland, Emil J. Bergholtz, Marcus Stålhammar, (参考訳) その普遍性にもかかわらず、多重折りたたみ例外点の体系的な特徴づけ、$n$フォールド例外点 (EP$n$s) は重要な未解決問題である。 本稿では、一般EP$n$sに対する固有値のアベリア位相と任意の$n$に対する対称性保護EP$n$sを特徴づける。 前者および後者はそれぞれ$(2n-2)$-および$(n-1)$-次元パラメータ空間に現れる。 結果の巻数を導入することにより、これらのEP$n$s は、基底空間(モメンタムあるいはパラメータ空間)からこれらの結果によって定義される球面への写像の位相によって安定であることを明らかにする。 我々のフレームワークは、一般EP$n$sと対称性に保護されたEP$n$sの両方の2つの基本定理を$n$バンドモデルで提案する。

Despite their ubiquity, systematic characterization of multifold exceptional points, $n$-fold exceptional points (EP$n$s), remains a significant unsolved problem. In this article, we characterize Abelian topology of eigenvalues for generic EP$n$s and symmetry-protected EP$n$s for arbitrary $n$. The former and the latter emerge in a $(2n-2)$- and $(n-1)$-dimensional parameter space, respectively. By introducing resultant winding numbers, we elucidate that these EP$n$s are stable due to topology of a map from a base space (momentum or parameter space) to a sphere defined by these resultants. Our framework implies fundamental doubling theorems of both generic EP$n$s and symmetry-protected EP$n$s in $n$-band models.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 環境変化における要因的状態表現によるロバスト政策の学習カリキュラム

Curricula for Learning Robust Policies over Factored State Representations in Changing Environments ( http://arxiv.org/abs/2409.09169v1 )

ライセンス: Link先を確認
Panayiotis Panayiotou, Özgür Şimşek, (参考訳) ロバストなポリシーにより、強化学習エージェントは予測不可能で動的で、常に変化する現実世界環境に効果的に適応し、運用することができる。 複雑な状態と行動空間を別々の構成要素に分解する因子表現は、政策学習における一般化とサンプル効率を改善することができる。 本稿では,因子状態表現を用いたエージェントのカリキュラムが学習方針の堅牢性にどのように影響するかを検討する。 複雑な環境下での強化学習のための実践的な洞察を提供することにより、政策の堅牢性を大幅に向上させることができるエピソード間の最大の後悔の変数だけの変化などの3つの簡単なカリキュラムを実験的に実証した。

Robust policies enable reinforcement learning agents to effectively adapt to and operate in unpredictable, dynamic, and ever-changing real-world environments. Factored representations, which break down complex state and action spaces into distinct components, can improve generalization and sample efficiency in policy learning. In this paper, we explore how the curriculum of an agent using a factored state representation affects the robustness of the learned policy. We experimentally demonstrate three simple curricula, such as varying only the variable of highest regret between episodes, that can significantly enhance policy robustness, offering practical insights for reinforcement learning in complex environments.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 実感的類似性モデルを用いたコミュニケーション障害の高精度評価に向けて

Towards Precision Characterization of Communication Disorders using Models of Perceived Pragmatic Similarity ( http://arxiv.org/abs/2409.09170v1 )

ライセンス: Link先を確認
Nigel G. Ward, Andres Segura, Georgina Bugarini, Heike Lehnert-LeHouillier, Dancheng Liu, Jinjun Xiong, Olac Fuentes, (参考訳) コミュニケーション障害のある個人の診断と治療は、音声技術の応用に多くの機会をもたらすが、これまでの研究は、状況の多様性、実用的欠陥の役割、限られたデータの課題など、十分に考慮されていない。 本稿では,現実的な類似性に対する汎用モデルが,これらの制約を克服する方法について考察する。 臨床医やクライアントのいくつかのユースケースをサポートする方法を説明し、単純なモデルが価値を提供することを示す証拠を示し、特に自閉症や特定の言語障害の診断に関連する発話の側面を捉えることができる。

The diagnosis and treatment of individuals with communication disorders offers many opportunities for the application of speech technology, but research so far has not adequately considered: the diversity of conditions, the role of pragmatic deficits, and the challenges of limited data. This paper explores how a general-purpose model of perceived pragmatic similarity may overcome these limitations. It explains how it might support several use cases for clinicians and clients, and presents evidence that a simple model can provide value, and in particular can capture utterance aspects that are relevant to diagnoses of autism and specific language impairment.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 効率的なAGM信頼契約の課題

The Challenges of Effective AGM Belief Contraction ( http://arxiv.org/abs/2409.09171v1 )

ライセンス: Link先を確認
Dominik Klumpp, Jandson S. Ribeiro, (参考訳) AGMの信念変化のパラダイムを有限論理を超えて拡張することへの大きな関心にもかかわらず、AGMの計算的側面はほとんど触れられていない。 非有限論理上のAGM収縮の計算可能性を調べ、興味深い負の結果を示す:そのような論理には無限に多くの計算不能なAGM収縮関数が存在する。 悲惨なことに、疫学的な状態を表すために用いられる理論を制限しても、すべての非自明な場合、計算不可能性は残る。 正の面では、線形時間論理(LTL)上で計算可能なAGM収縮関数の無限クラスを同定する。 我々は,B\"uchi Automatica を用いてそのような関数を構築し,LTL の知識を表現・推論する。

Despite the significant interest in extending the AGM paradigm of belief change beyond finitary logics, the computational aspects of AGM have remained almost untouched. We investigate the computability of AGM contraction on non-finitary logics, and show an intriguing negative result: there are infinitely many uncomputable AGM contraction functions in such logics. Drastically, even if we restrict the theories used to represent epistemic states, in all non-trivial cases, the uncomputability remains. On the positive side, we identify an infinite class of computable AGM contraction functions on Linear Temporal Logic (LTL). We use B\"uchi automata to construct such functions as well as to represent and reason about LTL knowledge.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# バイオマーカー予測のための大規模かつパブリックな特徴抽出装置Phikon-v2

Phikon-v2, A large and public feature extractor for biomarker prediction ( http://arxiv.org/abs/2409.09173v1 )

ライセンス: Link先を確認
Alexandre Filiot, Paul Jacob, Alice Mac Kain, Charlie Saillard, (参考訳) 100以上の公開されたコホートから病理組織学的スライドを収集し、30以上のがん部位をカバーする4億6000万の病理組織タイルの多様なデータセットをコンパイルした。 このデータセットを用いて、DINOv2を用いて大規模な自己監督型視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、さらなる実験を行う。 Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。 私たちのベンチマークには、事前トレーニングと評価データセット間のデータ汚染を避けるために、外部検証コホートに報告された結果を含む8つのスライドレベルタスクが含まれています。 我々の下流トレーニング手順は、単発リトレーニング(p<0.001)と比較して、タスクやモデル間で+1.75AUCの増加をもたらす単純だが頑健なアンサンブル戦略に従っている。 本研究は,14種類の組織学的特徴抽出装置と比較し,これまでで最も包括的であったPikon (ViT-B) とPhikon-v2 (ViT-L) を比較した。 我々の結果は、DINOv2がiBOTよりもジョイントモデルとデータのスケーリングが優れているという証拠を支持する。 また,近年のスケーリングは,GigaPathとH-Optimus-0(それぞれ1.1Bパラメータを持つ2つのViT-g)によるバイオマーカー予測の文脈において,ダウンストリーム性能に全体的に有益であることを示す。 しかし、最新のトップパフォーマンスFM間の統計的マージンは、ほとんど重要でないままであり、一部は、内部で開発された13倍の小さなモデルによって、特定の指示やMSI予測のようなタスクでパフォーマンスが劣っている。 最新の基礎モデルは、臨床展開の限界を示すかもしれないが、しかしながら、AI誘導診断ツールを駆使した、より専門的で費用効率のよい組織学エンコーダの開発のための優れた基盤を提供する。

Gathering histopathology slides from over 100 publicly available cohorts, we compile a diverse dataset of 460 million pathology tiles covering more than 30 cancer sites. Using this dataset, we train a large self-supervised vision transformer using DINOv2 and publicly release one iteration of this model for further experimentation, coined Phikon-v2. While trained on publicly available histology slides, Phikon-v2 surpasses our previously released model (Phikon) and performs on par with other histopathology foundation models (FM) trained on proprietary data. Our benchmarks include eight slide-level tasks with results reported on external validation cohorts avoiding any data contamination between pre-training and evaluation datasets. Our downstream training procedure follows a simple yet robust ensembling strategy yielding a +1.75 AUC increase across tasks and models compared to one-shot retraining (p<0.001). We compare Phikon (ViT-B) and Phikon-v2 (ViT-L) against 14 different histology feature extractors, making our evaluation the most comprehensive to date. Our result support evidences that DINOv2 handles joint model and data scaling better than iBOT. Also, we show that recent scaling efforts are overall beneficial to downstream performance in the context of biomarker prediction with GigaPath and H-Optimus-0 (two ViT-g with 1.1B parameters each) standing out. However, the statistical margins between the latest top-performing FMs remain mostly non-significant; some even underperform on specific indications or tasks such as MSI prediction - deposed by a 13x smaller model developed internally. While latest foundation models may exhibit limitations for clinical deployment, they nonetheless offer excellent grounds for the development of more specialized and cost-efficient histology encoders fueling AI-guided diagnostic tools.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 運用・ネットワーク攻撃結果評価ソフトウェアにおける検証機能の導入と自律貫入試験システム

Incorporation of Verifier Functionality in the Software for Operations and Network Attack Results Review and the Autonomous Penetration Testing System ( http://arxiv.org/abs/2409.09174v1 )

ライセンス: Link先を確認
Jordan Milbrath, Jeremy Straub, (参考訳) 運用およびネットワーク攻撃結果レビュー用ソフトウェア(SONARR)と自律浸透試験システム(APTS)は、実世界の実体を表現するために、デジタルツインネットワークにおける事実と共通特性を使用する。 しかし、事実値が定期的に変化する場合もあるため、SONARRやAPTSのオブジェクトが現実のオブジェクトを一貫して正確に表現することは困難である。 本稿では,実世界の状況をチェックし,ネットワーク事実を更新する検証器をSONARRに追加し,評価する。 このインクルージョンにより、SONARRは実行環境からファクト値を検索し、ネットワークを更新し、操作を確実にする一貫した方法を提供し、その結果が評価される現実世界のシステムと一致する。 検証は任意のスクリプトと動的引数を通常のSONARR操作に追加することを可能にする。 これにより、柔軟性と一貫性のレイヤが提供され、ソフトウェアからのより信頼性の高いアウトプットが得られます。

The software for operations and network attack results review (SONARR) and the autonomous penetration testing system (APTS) use facts and common properties in digital twin networks to represent real-world entities. However, in some cases fact values will change regularly, making it difficult for objects in SONARR and APTS to consistently and accurately represent their real-world counterparts. This paper proposes and evaluates the addition of verifiers, which check real-world conditions and update network facts, to SONARR. This inclusion allows SONARR to retrieve fact values from its executing environment and update its network, providing a consistent method of ensuring that the operations and, therefore, the results align with the real-world systems being assessed. Verifiers allow arbitrary scripts and dynamic arguments to be added to normal SONARR operations. This provides a layer of flexibility and consistency that results in more reliable output from the software.
翻訳日:2024-09-17 22:09:06 公開日:2024-09-13
# 完全ネットワークモデルを用いたサイバーセキュリティソフトウェアツールの評価

Cybersecurity Software Tool Evaluation Using a 'Perfect' Network Model ( http://arxiv.org/abs/2409.09175v1 )

ライセンス: Link先を確認
Jeremy Straub, (参考訳) サイバーセキュリティソフトウェアツールの評価は、フィールドの本質的に敵対的な性質のため困難である。 侵入テスト(または攻撃)ツールは、実行可能な防御敵に対してテストされ、防御ツールも同様に、実行可能な攻撃敵に対してテストされなければならない。 ツールのパフォーマンスを特徴づけるのは、本質的には、テストからテストまで様々である敵の品質に依存します。 本稿では, コンピュータシステム, ネットワーク, 攻撃経路を表す「完全」ネットワークを, サイバーセキュリティ意思決定ツールのテスト手法として用いることを提案する。 これにより、既知の一貫した比較標準を提供することで、テストを容易にする。 また、これらの実験条件下でサイバーセキュリティツールを評価するために、研究者が選択したエラー、ノイズ、不確実性のレベルを含めることができる。

Cybersecurity software tool evaluation is difficult due to the inherently adversarial nature of the field. A penetration testing (or offensive) tool must be tested against a viable defensive adversary and a defensive tool must, similarly, be tested against a viable offensive adversary. Characterizing the tool's performance inherently depends on the quality of the adversary, which can vary from test to test. This paper proposes the use of a 'perfect' network, representing computing systems, a network and the attack pathways through it as a methodology to use for testing cybersecurity decision-making tools. This facilitates testing by providing a known and consistent standard for comparison. It also allows testing to include researcher-selected levels of error, noise and uncertainty to evaluate cybersecurity tools under these experimental conditions.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 同期モーションキャプションのための制御された注意を持つ変圧器

Transformer with Controlled Attention for Synchronous Motion Captioning ( http://arxiv.org/abs/2409.09177v1 )

ライセンス: Link先を確認
Karim Radouane, Sylvie Ranwez, Julien Lagarde, Andon Tchechmedjiev, (参考訳) 本稿では,人間の動作シーケンスに同期した言語記述を生成することを目的とした,同期動作キャプションという課題に対処する。 このタスクは、アライメント手話文字起こし、教師なしアクションセグメンテーション、時間的グラウンドニングなど、多数の応用に関係している。 本手法では,トランスフォーマーの自己および横断的な分布を制御する機構を導入し,解釈可能性と時刻整合テキスト生成を実現する。 本研究では,移動語の生成に寄与する最も重要なフレームのみにのみ注意を最大化させるマスキング戦略と構造的損失によってこれを達成した。 これらの制約は、アテンションマップにおける情報の望ましくない混合を防止し、トークン間のモノトニックアテンション分布を提供することを目的としている。 このように、トークンの横断的な注意は、人間の動作シーケンスと同期した進行テキスト生成に使用される。 我々は、KIT-MLとHumanML3Dという2つのベンチマークデータセットの評価を通じて、我々のアプローチの優れた性能を実証する。 このタスクには視覚的評価が不可欠であるので、コードリポジトリにアニメーションのイラストレーションの包括的なセットを提供する。

In this paper, we address a challenging task, synchronous motion captioning, that aim to generate a language description synchronized with human motion sequences. This task pertains to numerous applications, such as aligned sign language transcription, unsupervised action segmentation and temporal grounding. Our method introduces mechanisms to control self- and cross-attention distributions of the Transformer, allowing interpretability and time-aligned text generation. We achieve this through masking strategies and structuring losses that push the model to maximize attention only on the most important frames contributing to the generation of a motion word. These constraints aim to prevent undesired mixing of information in attention maps and to provide a monotonic attention distribution across tokens. Thus, the cross attentions of tokens are used for progressive text generation in synchronization with human motion sequences. We demonstrate the superior performance of our approach through evaluation on the two available benchmark datasets, KIT-ML and HumanML3D. As visual evaluation is essential for this task, we provide a comprehensive set of animated visual illustrations in the code repository: https://github.com/rd20karim/Synch-Transformer.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 合成可能な医薬品設計のための量子インスパイアされた強化学習

Quantum-inspired Reinforcement Learning for Synthesizable Drug Design ( http://arxiv.org/abs/2409.09183v1 )

ライセンス: Link先を確認
Dannong Wang, Jintai Chen, Zhiding Liang, Tianfan Fu, Xiao-Yang Liu, (参考訳) 合成可能な分子設計(synthesizable molecular design、またはsynthesizable molecular optimization)は、薬物発見の根本的な問題であり、合成可能性を確保しつつ、薬物関連オラクル機能(すなわち、目的)に応じてそれらの特性を改善する新しい分子構造を設計する。 しかし、既存の手法は主にランダム検索に基づいている。 そこで本研究では, 量子に着想を得た擬似アニール型ニューラルネットワークを用いた強化学習手法を用いて, 化学構造の離散空間をインテリジェントにナビゲートする手法を提案する。 具体的には、ポリシーニューラルネットワークを用いた決定論的REINFORCEアルゴリズムを用いて、状態遷移を誘導する遷移確率を出力し、遺伝的アルゴリズムを用いて局所的な最適解を反復毎に洗練する。 提案手法は10Kのクエリ予算を持つPMOベンチマークフレームワークを用いて評価する。 さらに,最先端の遺伝的アルゴリズムを用いた手法と比較し,本手法の競争性能について述べる。

Synthesizable molecular design (also known as synthesizable molecular optimization) is a fundamental problem in drug discovery, and involves designing novel molecular structures to improve their properties according to drug-relevant oracle functions (i.e., objective) while ensuring synthetic feasibility. However, existing methods are mostly based on random search. To address this issue, in this paper, we introduce a novel approach using the reinforcement learning method with quantum-inspired simulated annealing policy neural network to navigate the vast discrete space of chemical structures intelligently. Specifically, we employ a deterministic REINFORCE algorithm using policy neural networks to output transitional probability to guide state transitions and local search using genetic algorithm to refine solutions to a local optimum within each iteration. Our methods are evaluated with the Practical Molecular Optimization (PMO) benchmark framework with a 10K query budget. We further showcase the competitive performance of our method by comparing it against the state-of-the-art genetic algorithms-based method.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 学業における言語モデル利用と信頼に関する定量的考察--実証的研究

Quantitative Insights into Language Model Usage and Trust in Academia: An Empirical Study ( http://arxiv.org/abs/2409.09186v1 )

ライセンス: Link先を確認
Minseok Jung, Aurora Zhang, Junho Lee, Paul Pu Liang, (参考訳) 言語モデル(LM)は、学術における知識の検索と処理に革命をもたらしている。 しかし、その誤用や幻覚や製造などの誤ったアウトプットに対する懸念は、学術コミュニティ内でのLMの不信の理由である。 結果として、実際の実践者がどのようにしてこれらのモデルを使用し、信頼するかについての理解を深める必要がある。 LMの使用範囲、アウトプットに対するユーザの信頼度、および現実世界の開発に優先すべき課題について、量的証拠に顕著なギャップがある。 本研究では,LMの利用状況と信頼度に関するデータと分析を提供することにより,これらのギャップに対処する。 具体的には,私立学校で125名を対象に調査を行い,前処理後の88点のデータを得た。 定量的分析と質的証拠により,信頼度は有意な変動がみられた。 さらに、ファクトチェックが使用を制限する最も重要な問題であることをポーリングプロセスを通じて発見する。 これらの結果は、モデルに露出することで不信を克服でき、ファクトチェックを優先するポリシーを開発し、エンゲージメントを高めることでユーザ信頼を高めることができる。 これらの重要なギャップに対処することにより、この研究はユーザー体験の理解とLMへの信頼を高めるだけでなく、より効果的なLMの開発にも寄与する。

Language models (LMs) are revolutionizing knowledge retrieval and processing in academia. However, concerns regarding their misuse and erroneous outputs, such as hallucinations and fabrications, are reasons for distrust in LMs within academic communities. Consequently, there is a pressing need to deepen the understanding of how actual practitioners use and trust these models. There is a notable gap in quantitative evidence regarding the extent of LM usage, user trust in their outputs, and issues to prioritize for real-world development. This study addresses these gaps by providing data and analysis of LM usage and trust. Specifically, our study surveyed 125 individuals at a private school and secured 88 data points after pre-processing. Through both quantitative analysis and qualitative evidence, we found a significant variation in trust levels, which are strongly related to usage time and frequency. Additionally, we discover through a polling process that fact-checking is the most critical issue limiting usage. These findings inform several actionable insights: distrust can be overcome by providing exposure to the models, policies should be developed that prioritize fact-checking, and user trust can be enhanced by increasing engagement. By addressing these critical gaps, this research not only adds to the understanding of user experiences and trust in LMs but also informs the development of more effective LMs.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# FiAt-Net : 3次元血管内CT画像における線維腺腫プラークキャップの検出

FiAt-Net: Detecting Fibroatheroma Plaque Cap in 3D Intravascular OCT Images ( http://arxiv.org/abs/2409.09188v1 )

ライセンス: Link先を確認
Yaopeng Peng, Zhi Chen, Andreas Wahle, Tomas Kovarnik, Milan Sonk, Danny Z. Chen, (参考訳) 冠状動脈疾患 (CAD) の徴候は, 皮弁が破裂し, 冠動脈閉塞, 心臓発作につながるフィブロナセロマトーデス・プラークの発達である。 そのため,冠状プラーク,プラークキャップの定量的解析は,心血管イベントのリスクを評価する上で重要である。 本稿では3次元血管内光コヒーレンストモグラフィー(IVOCT)画像において,FIAt-Netとよばれる新しい深層学習アプローチを報告する。 IVOCT 2D画像フレームはまず異なるクラスタに関連付けられ、各クラスタのデータはモデルトレーニングに使用される。 通常、プラークは焦点が集中しており、不均一に分散するため、データ不均衡問題を緩和するためにFAプラーク領域を特定するためにバイナリパーティショニング法が用いられる。 追加の画像表現(補助画像と呼ばれる)が生成され、冠壁のFA領域と非FA領域を区別するのに役立つ。 様々なスケールの情報が、元のIOVCTと補助画像から導き出され、そのような情報を融合するためにマルチヘッド自己認識機構が使用される。 われわれのFiAt-Netは3D IVOCT 冠動脈画像データセット上で高い性能を示し,IVOCT 画像中の FA キャップを正確に検出する効果を示した。

The key manifestation of coronary artery disease (CAD) is development of fibroatheromatous plaque, the cap of which may rupture and subsequently lead to coronary artery blocking and heart attack. As such, quantitative analysis of coronary plaque, its plaque cap, and consequently the cap's likelihood to rupture are of critical importance when assessing a risk of cardiovascular events. This paper reports a new deep learning based approach, called FiAt-Net, for detecting angular extent of fibroatheroma (FA) and segmenting its cap in 3D intravascular optical coherence tomography (IVOCT) images. IVOCT 2D image frames are first associated with distinct clusters and data from each cluster are used for model training. As plaque is typically focal and thus unevenly distributed, a binary partitioning method is employed to identify FA plaque areas to focus on to mitigate the data imbalance issue. Additional image representations (called auxiliary images) are generated to capture IVOCT intensity changes to help distinguish FA and non-FA areas on the coronary wall. Information in varying scales is derived from the original IVOCT and auxiliary images, and a multi-head self-attention mechanism is employed to fuse such information. Our FiAt-Net achieved high performance on a 3D IVOCT coronary image dataset, demonstrating its effectiveness in accurately detecting FA cap in IVOCT images.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# ProcessTBench: プロセスマイニングのためのLCM計画生成データセット

ProcessTBench: An LLM Plan Generation Dataset for Process Mining ( http://arxiv.org/abs/2409.09191v1 )

ライセンス: Link先を確認
Andrei Cosmin Redis, Mohammadreza Fani Sani, Bahram Zarrin, Andrea Burattin, (参考訳) 大規模言語モデル(LLM)は、計画生成において大きな可能性を示しています。 しかし、既存のデータセットは、パラフレーズクエリステートメントの処理、複数の言語のサポート、並列に実行できるアクションの管理など、高度なツール使用シナリオに必要な複雑さを欠いていることが多い。 これらのシナリオは、現実世界のアプリケーションにおけるLLMの進化能力を評価するために不可欠である。 さらに、現在のデータセットは、特に異なる条件や定式化の下で同じプロセスを実行する際の典型的な振る舞いや課題を理解することが不可欠であるシナリオにおいて、プロセスの観点からLLMの研究を不可能にしています。 これらのギャップに対処するため、プロセスマイニングフレームワーク内でLSMを評価するために特別に設計されたTaskBenchデータセットの拡張であるProcessTBenchデータセットを提示する。

Large Language Models (LLMs) have shown significant promise in plan generation. Yet, existing datasets often lack the complexity needed for advanced tool use scenarios - such as handling paraphrased query statements, supporting multiple languages, and managing actions that can be done in parallel. These scenarios are crucial for evaluating the evolving capabilities of LLMs in real-world applications. Moreover, current datasets don't enable the study of LLMs from a process perspective, particularly in scenarios where understanding typical behaviors and challenges in executing the same process under different conditions or formulations is crucial. To address these gaps, we present the ProcessTBench dataset, an extension of the TaskBench dataset specifically designed to evaluate LLMs within a process mining framework.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# ベイズ最適化による非相互熱放射器の自動設計

Automated design of nonreciprocal thermal emitters via Bayesian optimization ( http://arxiv.org/abs/2409.09192v1 )

ライセンス: Link先を確認
Bach Do, Sina Jafari Ghalekohneh, Taiwo Adebiyi, Bo Zhao, Ruda Zhang, (参考訳) キルヒホフの熱放射の法則を破る非相互熱放射体は、熱とエネルギーの応用にエキサイティングな応用を約束する。 非相互効果の帯域幅と角度範囲の設計は、非相互エミッターの性能に直接影響を与え、通常は物理的直観に依存している。 本研究では,非相互効果を最大化するための数値解析手法を提案する。 ドープ磁気光学材料と磁気ワイル半金属材料をモデル材料として選択し,無パターン多層構造に着目した。 最適化は非効率な構造からランダムに始まり、ベイズ最適化と再パラメータ化の組み合わせによってブロードバンド非相互性を漸進的に改善する。 最適化の結果,提案手法は,波長5~40マイクロメートルの波長でブロードバンド非相互放射を実現することが可能であり,性能と単純さの両面から直観に基づく現状設計よりも著しく優れていた。

Nonreciprocal thermal emitters that break Kirchhoff's law of thermal radiation promise exciting applications for thermal and energy applications. The design of the bandwidth and angular range of the nonreciprocal effect, which directly affects the performance of nonreciprocal emitters, typically relies on physical intuition. In this study, we present a general numerical approach to maximize the nonreciprocal effect. We choose doped magneto-optic materials and magnetic Weyl semimetal materials as model materials and focus on pattern-free multilayer structures. The optimization randomly starts from a less effective structure and incrementally improves the broadband nonreciprocity through the combination of Bayesian optimization and reparameterization. Optimization results show that the proposed approach can discover structures that can achieve broadband nonreciprocal emission at wavelengths from 5 to 40 micrometers using only a fewer layers, significantly outperforming current state-of-the-art designs based on intuition in terms of both performance and simplicity.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 階層型ハイパープレックスネットワークによるマルチモーダル感情認識

Hierarchical Hypercomplex Network for Multimodal Emotion Recognition ( http://arxiv.org/abs/2409.09194v1 )

ライセンス: Link先を確認
Eleonora Lopez, Aurelio Uncini, Danilo Comminiello, (参考訳) 感情認識は、医療から人間とコンピュータの相互作用まで、様々な領域で関係している。 自発的に制御できない生理学的信号は、自由に制御できる音声や表情とは異なり、この目的のために信頼できる情報を提供する。 真の感情反応を反映し、意識的な操作を欠き、感情認識システムの信頼性を高める。 それでも、深層学習モデルを用いたマルチモーダル感情認識は、まだ探索されていない分野である。 本稿では,階層的な学習構造を持つ完全超複素ネットワークを導入し,相関関係をフルキャプチャする。 具体的には、エンコーダレベルでは、各入力信号の異なるチャネル間のモード内関係を学習する。 そして、超複素核融合加群は、異なるモダリティの埋め込みの間のモーダル間関係を学習する。 主な特徴は、超複素代数のおかげで単一モード内でのチャネル間相互作用を捉えることができるパラメータ化超複素畳み込み(PHC)をエンコーダに与えることで、モーダル内関係を利用することである。 代わりに、融合モジュールはパラメータ化された超複素乗法(PHM)を含み、モーダル間相関をモデル化することができる。 提案アーキテクチャは、感情認識のためのMAHNOB-HCIデータセットの最先端モデル、特に脳波(EEG)と周辺生理学的信号からの原子価と覚醒の分類において超越している。 この研究のコードはhttps://github.com/ispamm/MHyEEG.comで公開されている。

Emotion recognition is relevant in various domains, ranging from healthcare to human-computer interaction. Physiological signals, being beyond voluntary control, offer reliable information for this purpose, unlike speech and facial expressions which can be controlled at will. They reflect genuine emotional responses, devoid of conscious manipulation, thereby enhancing the credibility of emotion recognition systems. Nonetheless, multimodal emotion recognition with deep learning models remains a relatively unexplored field. In this paper, we introduce a fully hypercomplex network with a hierarchical learning structure to fully capture correlations. Specifically, at the encoder level, the model learns intra-modal relations among the different channels of each input signal. Then, a hypercomplex fusion module learns inter-modal relations among the embeddings of the different modalities. The main novelty is in exploiting intra-modal relations by endowing the encoders with parameterized hypercomplex convolutions (PHCs) that thanks to hypercomplex algebra can capture inter-channel interactions within single modalities. Instead, the fusion module comprises parameterized hypercomplex multiplications (PHMs) that can model inter-modal correlations. The proposed architecture surpasses state-of-the-art models on the MAHNOB-HCI dataset for emotion recognition, specifically in classifying valence and arousal from electroencephalograms (EEGs) and peripheral physiological signals. The code of this study is available at https://github.com/ispamm/MHyEEG.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# スパースニューラルネットワークはハードサンプル学習者より優れているか?

Are Sparse Neural Networks Better Hard Sample Learners? ( http://arxiv.org/abs/2409.09196v1 )

ライセンス: Link先を確認
Qiao Xiao, Boqian Wu, Lu Yin, Christopher Neil Gadzinski, Tianjin Huang, Mykola Pechenizkiy, Decebal Constantin Mocanu, (参考訳) 深層学習は目覚ましい進歩を見せていますが、これらのサンプルは通常騒々しく複雑なので、硬いサンプルから学ぶのは大変な課題です。 これらのハードサンプルは、ディープニューラルネットワークの最適性能において重要な役割を果たす。 スパースニューラルネットワーク(SNN)に関するほとんどの研究は、標準的なトレーニングデータに重点を置いており、複雑で困難なデータに対するその有効性を理解するためのギャップを残している。 本稿では,難解なサンプルに基づいてトレーニングされたほとんどのSNNが,特定の空間レベルでの精度で,特に限られたデータと一致したり,あるいは超えたりすることができることを示す。 我々は,SNNの性能において,特に初期化を事前訓練せずにスクラッチからトレーニングする手法において,層単位での密度比が重要な役割を担っていることを観察した。 これらの洞察は、データ中心AIにおけるSNNの行動の理解と効率的な学習アプローチの可能性を高める。 我々のコードは以下で公開されている。 \url{https://github.com/QiaoXiao7282/hard_sample_learners}。

While deep learning has demonstrated impressive progress, it remains a daunting challenge to learn from hard samples as these samples are usually noisy and intricate. These hard samples play a crucial role in the optimal performance of deep neural networks. Most research on Sparse Neural Networks (SNNs) has focused on standard training data, leaving gaps in understanding their effectiveness on complex and challenging data. This paper's extensive investigation across scenarios reveals that most SNNs trained on challenging samples can often match or surpass dense models in accuracy at certain sparsity levels, especially with limited data. We observe that layer-wise density ratios tend to play an important role in SNN performance, particularly for methods that train from scratch without pre-trained initialization. These insights enhance our understanding of SNNs' behavior and potential for efficient learning approaches in data-centric AI. Our code is publicly available at: \url{https://github.com/QiaoXiao7282/hard_sample_learners}.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 連続的特徴包含を伴うオンラインコンテキストスパース帯域のバッチ化

Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features ( http://arxiv.org/abs/2409.09199v1 )

ライセンス: Link先を確認
Rowan Swiers, Subash Prabanantham, Andrew Maher, (参考訳) マルチアームバンド(MAB)は、パーソナライズされたユーザーエクスペリエンスのための意思決定を最適化するために、オンラインプラットフォームやeコマースにますます採用されている。 本研究では,線形報酬を用いたコンテキスト帯域問題に焦点をあてる。 本稿では,新たなアルゴリズムである Online Batched Sequential Inclusion (OBSI, Online Batched Sequential Inclusion, OBSI) を用いて,意思決定プロセスから無関係な特徴を排除し,公平性に対処する。 合成データを用いた実験により, OBSI は他のアルゴリズムと比較して, 後悔, 使用する特徴の関連性, 計算能力の面で優れた性能を示した。

Multi-armed Bandits (MABs) are increasingly employed in online platforms and e-commerce to optimize decision making for personalized user experiences. In this work, we focus on the Contextual Bandit problem with linear rewards, under conditions of sparsity and batched data. We address the challenge of fairness by excluding irrelevant features from decision-making processes using a novel algorithm, Online Batched Sequential Inclusion (OBSI), which sequentially includes features as confidence in their impact on the reward increases. Our experiments on synthetic data show the superior performance of OBSI compared to other algorithms in terms of regret, relevance of features used, and compute.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 熱帯・感染症分類のための大規模言語モデルの文脈評価

Contextual Evaluation of Large Language Models for Classifying Tropical and Infectious Diseases ( http://arxiv.org/abs/2409.09201v1 )

ライセンス: Link先を確認
Mercy Asiedu, Nenad Tomasev, Chintan Ghate, Tiya Tiyasirichokchai, Awa Dieng, Oluwatosin Akande, Geoffrey Siwo, Steve Adudans, Sylvanus Aitkins, Odianosen Ehiakhamen, Katherine Heller, (参考訳) 大規模言語モデル (LLMs) は医学的疑問に答える可能性を示唆しているが、熱帯および感染症特異的探索に焦点を当てた研究は限られている。 我々は、オープンソースの熱帯感染症(TRIND)データセットを構築し、11000以上のプロンプトを産出する人口統計学的、意味論的、消費者的増強を含むように拡張した。 一般のLSMと医学のLSMと、LSMの結果を人間の専門家と比較し、LSMのパフォーマンスを評価した。 我々は、系統的な実験、人口統計、場所、性別、リスクファクターなどの文脈情報による最適LLM応答の利点を実証する。 最後に, TRINDs-LMのプロトタイプを開発し, LLMが健康にどのような影響を及ぼすかを知るための遊び場を提供する。

While large language models (LLMs) have shown promise for medical question answering, there is limited work focused on tropical and infectious disease-specific exploration. We build on an opensource tropical and infectious diseases (TRINDs) dataset, expanding it to include demographic and semantic clinical and consumer augmentations yielding 11000+ prompts. We evaluate LLM performance on these, comparing generalist and medical LLMs, as well as LLM outcomes to human experts. We demonstrate through systematic experimentation, the benefit of contextual information such as demographics, location, gender, risk factors for optimal LLM response. Finally we develop a prototype of TRINDs-LM, a research tool that provides a playground to navigate how context impacts LLM outputs for health.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 曲線解析におけるプロセスマイニングの体系的検討

A Systematic Review on Process Mining for Curricular Analysis ( http://arxiv.org/abs/2409.09204v1 )

ライセンス: Link先を確認
Daniel Calegari, Andrea Delgado, (参考訳) 教育プロセスマイニング(英: Educational Process Mining、EPM)は、教育プロセスを改善するために用いられるデータ分析技術である。 これはプロセスマイニング(PM)に基づいており、プロセスモデルを発見し、プロセス中心の観点からデータを分析するためにイベントの記録(ログ)を収集する。 EPMの特定の応用の1つはカリキュラムマイニングであり、これは学生が学習目標を達成するための学習プログラムを理解することに焦点を当てている。 これは、制度的なカリキュラムの意思決定と品質改善にとって重要である。 したがって、学術機関は既存の技術、能力、限界を整理することの恩恵を受けることができる。 我々は系統的な文献レビューを行い、PMをカリキュラム解析に適用する作業を特定し、さらなる研究のための洞察を提供した。 22の初等的な研究から,学習目的の発見,観察行動の偏差の同定,ボトルネックの分析,停止問題と退学問題の解析,推薦発生の5つのカテゴリに分類できることがわかった。 さらに, 大学間カリキュラム解析のための複製研究の標準化や, PMとデータマイニングの関連性の向上など, オープンな課題や機会を明らかにした。

Educational Process Mining (EPM) is a data analysis technique that is used to improve educational processes. It is based on Process Mining (PM), which involves gathering records (logs) of events to discover process models and analyze the data from a process-centric perspective. One specific application of EPM is curriculum mining, which focuses on understanding the learning program students follow to achieve educational goals. This is important for institutional curriculum decision-making and quality improvement. Therefore, academic institutions can benefit from organizing the existing techniques, capabilities, and limitations. We conducted a systematic literature review to identify works on applying PM to curricular analysis and provide insights for further research. From the analysis of 22 primary studies, we found that results can be classified into five categories concerning the objectives they pursue: the discovery of educational trajectories, the identification of deviations in the observed behavior of students, the analysis of bottlenecks, the analysis of stopout and dropout problems, and the generation of recommendation. Moreover, we identified some open challenges and opportunities, such as standardizing for replicating studies to perform cross-university curricular analysis and strengthening the connection between PM and data mining for improving curricular analysis.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# FB-HyDON:超ネットワークと有限基底領域分解による複素PDEのパラメータ効率向上型演算子学習

FB-HyDON: Parameter-Efficient Physics-Informed Operator Learning of Complex PDEs via Hypernetwork and Finite Basis Domain Decomposition ( http://arxiv.org/abs/2409.09207v1 )

ライセンス: Link先を確認
Milad Ramezankhani, Rishi Yash Parekh, Anirudh Deodhar, Dagnachew Birru, (参考訳) ディープ・オペレータ・ネットワーク(DeepONet)とニューラル・オペレーターは無限次元の関数空間をマッピングし、ゼロショット超解像を行う能力において大きな注目を集めている。 しかし、これらのモデルは、効果的なトレーニングのために大きなデータセットを必要とすることが多い。 物理インフォームド演算子は、データに依存しない学習アプローチを提供するが、特に高非線形システムにおいて、追加の訓練複雑性と収束問題を導入する。 これらの課題を克服するために、本研究では、固有領域分解を特徴とする高度な演算子アーキテクチャであるFinite Basis Physics-Informed HyperDeepONet(FB-HyDON)を紹介する。 ハイパーネットワークと有限基底関数を利用することで、FB-HyDONは既存の物理インフォームド演算子学習法に関連するトレーニング制限を効果的に緩和する。 我々は、高周波数高調波発振器、異なる粘度レベルでのバーガーズ方程式、および他の演算子学習モデルよりも大幅に改善されたアレン・カーン方程式に対するアプローチを検証した。

Deep operator networks (DeepONet) and neural operators have gained significant attention for their ability to map infinite-dimensional function spaces and perform zero-shot super-resolution. However, these models often require large datasets for effective training. While physics-informed operators offer a data-agnostic learning approach, they introduce additional training complexities and convergence issues, especially in highly nonlinear systems. To overcome these challenges, we introduce Finite Basis Physics-Informed HyperDeepONet (FB-HyDON), an advanced operator architecture featuring intrinsic domain decomposition. By leveraging hypernetworks and finite basis functions, FB-HyDON effectively mitigates the training limitations associated with existing physics-informed operator learning methods. We validated our approach on the high-frequency harmonic oscillator, Burgers' equation at different viscosity levels, and Allen-Cahn equation demonstrating substantial improvements over other operator learning models.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# ORS: メタヒューリスティック最適化アルゴリズムに触発されたOlive Ridleyサバイバル

ORS: A novel Olive Ridley Survival inspired Meta-heuristic Optimization Algorithm ( http://arxiv.org/abs/2409.09210v1 )

ライセンス: Link先を確認
Niranjan Panigrahi, Sourav Kumar Bhoi, Debasis Mohapatra, Rashmi Ranjan Sahoo, Kshira Sagar Sahoo, Anil Mohapatra, (参考訳) メタヒューリスティックなアルゴリズム開発は、その誕生以来、研究の推進領域となっている。 本稿では,Olive Ridley Survival (ORS) というメタヒューリスティック最適化アルゴリズムを提案する。 オリーブ・リドリーの生存に関する主要な事実は、巣から出てくる1,000羽のオリーブ・リドリーハッチリングのうち、様々な環境や他の要因のために海に生き残るのは1匹だけであることを示している。 この事実は提案アルゴリズムのバックボーンとして機能する。 このアルゴリズムには2つの主要なフェーズがあり、ハッチリングは環境要因を通して生存し、運動軌道が生存に与える影響である。 位相は数学的にモデル化され、適切な入力表現と適合関数と共に実装される。 アルゴリズムは理論的に解析される。 このアルゴリズムを検証するために、標準CECテストスイートから14の数学的ベンチマーク関数を評価し、統計的に検証した。 また,最近の複雑なベンチマーク関数に対するORSの有効性を検討するために,CEC-06-2019の10個のベンチマーク関数を評価した。 さらに、ORSによってよく知られた3つの工学問題が解決され、他の最先端のメタヒューリスティックスと比較される。 シミュレーションの結果、提案するORSアルゴリズムは、最先端のメタヒューリスティック最適化アルゴリズムよりも優れていることがわかった。 近年のベンチマーク関数におけるORSの準最適挙動も観察されている。

Meta-heuristic algorithmic development has been a thrust area of research since its inception. In this paper, a novel meta-heuristic optimization algorithm, Olive Ridley Survival (ORS), is proposed which is inspired from survival challenges faced by hatchlings of Olive Ridley sea turtle. A major fact about survival of Olive Ridley reveals that out of one thousand Olive Ridley hatchlings which emerge from nest, only one survive at sea due to various environmental and other factors. This fact acts as the backbone for developing the proposed algorithm. The algorithm has two major phases: hatchlings survival through environmental factors and impact of movement trajectory on its survival. The phases are mathematically modelled and implemented along with suitable input representation and fitness function. The algorithm is analysed theoretically. To validate the algorithm, fourteen mathematical benchmark functions from standard CEC test suites are evaluated and statistically tested. Also, to study the efficacy of ORS on recent complex benchmark functions, ten benchmark functions of CEC-06-2019 are evaluated. Further, three well-known engineering problems are solved by ORS and compared with other state-of-the-art meta-heuristics. Simulation results show that in many cases, the proposed ORS algorithm outperforms some state-of-the-art meta-heuristic optimization algorithms. The sub-optimal behavior of ORS in some recent benchmark functions is also observed.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# 協調プロセスのための予測プロセス監視の拡張

Extending predictive process monitoring for collaborative processes ( http://arxiv.org/abs/2409.09212v1 )

ライセンス: Link先を確認
Daniel Calegari, Andrea Delgado, (参考訳) ビジネスプロセスの実行データに対するプロセスマイニングは、主に単一の組織(組織内)で実行されるオーケストレーションタイプのプロセスに焦点を当てています。 オーケストレーションのタイプとは異なり、協調的(組織間)なプロセスは、いくつかの組織(例えばe-Government)を拡張し、その実装とそれらの実行の発見、予測、分析の複雑さとさまざまな課題を追加します。 予測プロセス監視は、過去のインスタンスから実行データを利用して、現在のケースの実行を予測する。 予防措置(資源の再配置など)を行うプロセスの逸脱、違反、遅延を予知するために、次の活動と残り時間を予測することが可能である。 本稿では,従来のプロセス予測の協調的プロセスの拡張について提案する。このようなプロセスの特異性を考慮し,このコンテキストにおける関心情報,例えば,参加者の次の活動や後続のメッセージが2人の参加者間で交換される,などを提案する。

Process mining on business process execution data has focused primarily on orchestration-type processes performed in a single organization (intra-organizational). Collaborative (inter-organizational) processes, unlike those of orchestration type, expand several organizations (for example, in e-Government), adding complexity and various challenges both for their implementation and for their discovery, prediction, and analysis of their execution. Predictive process monitoring is based on exploiting execution data from past instances to predict the execution of current cases. It is possible to make predictions on the next activity and remaining time, among others, to anticipate possible deviations, violations, and delays in the processes to take preventive measures (e.g., re-allocation of resources). In this work, we propose an extension for collaborative processes of traditional process prediction, considering particularities of this type of process, which add information of interest in this context, for example, the next activity of which participant or the following message to be exchanged between two participants.
翻訳日:2024-09-17 21:59:04 公開日:2024-09-13
# ReCLAP:音声記述によるゼロショット音声分類の改善

ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds ( http://arxiv.org/abs/2409.09213v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, (参考訳) CLAPのようなオープン語彙のオーディオ言語モデルは、自然言語プロンプトで指定された任意のカテゴリの分類を可能にすることで、ゼロショットオーディオ分類(ZSAC)に有望なアプローチを提供する。 本稿では,CLAPを用いたZSACの改良手法を提案する。 具体的には,従来の抽象的カテゴリーラベルを用いたプロンプト(例:オルガンの音)から,その固有の記述的特徴を多様な文脈で表現するプロンプト(例:オルガンの深さと共鳴音が大聖堂を埋める)へ移行した。 そこで我々はまず,書き直した音声キャプションで学習したCLAPモデルであるReCLAPを提案する。 これらの書き直されたキャプションは、独自の識別特性を用いて、元のキャプション内の各サウンドイベントを記述している。 ReCLAPはマルチモーダル音声テキスト検索とZSACの両方で全てのベースラインを上回ります。 次に、ReCLAPによるゼロショット音声分類を改善するために、プロンプト拡張を提案する。 手書きテンプレートプロンプトを使用する従来の方法とは対照的に、データセット内の各ユニークなラベルに対して独自のプロンプトを生成する。 これらのカスタムプロンプトは、まずレーベルでサウンドイベントを記述し、それから様々な場面でそれらを使用します。 提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。

Open-vocabulary audio-language models, like CLAP, offer a promising approach for zero-shot audio classification (ZSAC) by enabling classification with any arbitrary set of categories specified with natural language prompts. In this paper, we propose a simple but effective method to improve ZSAC with CLAP. Specifically, we shift from the conventional method of using prompts with abstract category labels (e.g., Sound of an organ) to prompts that describe sounds using their inherent descriptive features in a diverse context (e.g.,The organ's deep and resonant tones filled the cathedral.). To achieve this, we first propose ReCLAP, a CLAP model trained with rewritten audio captions for improved understanding of sounds in the wild. These rewritten captions describe each sound event in the original caption using their unique discriminative characteristics. ReCLAP outperforms all baselines on both multi-modal audio-text retrieval and ZSAC. Next, to improve zero-shot audio classification with ReCLAP, we propose prompt augmentation. In contrast to the traditional method of employing hand-written template prompts, we generate custom prompts for each unique label in the dataset. These custom prompts first describe the sound event in the label and then employ them in diverse scenes. Our proposed method improves ReCLAP's performance on ZSAC by 1%-18% and outperforms all baselines by 1% - 55%.
翻訳日:2024-09-17 21:49:17 公開日:2024-09-13
# スペクトルU-Net:スペクトル分解による医用画像分割の強化

Spectral U-Net: Enhancing Medical Image Segmentation via Spectral Decomposition ( http://arxiv.org/abs/2409.09216v1 )

ライセンス: Link先を確認
Yaopeng Peng, Milan Sonka, Danny Z. Chen, (参考訳) 本稿では,スペクトル分解に基づく新しい深層学習ネットワークであるSpectral U-Netを提案する。 U-Netアーキテクチャに組み込まれたWave-BlockとiWave-Blockは、ダウンサンプリング時の情報損失を軽減し、アップサンプリング時の詳細再構築を改善することを目的としている。 エンコーダでは、まずDTCWTを用いて特徴マップを高周波数成分と低周波数成分に分解し、情報損失を軽減しつつダウンサンプリングを可能にする。 デコーダでは、iDTCWTを用いて、ダウンサンプリング機能から高解像度機能マップを再構成する。 nU-Netフレームワークを用いた網膜流体,脳腫瘍,肝腫瘍セグメンテーションデータセットの評価は,提案したスペクトルU-Netの優位性を示す。

This paper introduces Spectral U-Net, a novel deep learning network based on spectral decomposition, by exploiting Dual Tree Complex Wavelet Transform (DTCWT) for down-sampling and inverse Dual Tree Complex Wavelet Transform (iDTCWT) for up-sampling. We devise the corresponding Wave-Block and iWave-Block, integrated into the U-Net architecture, aiming at mitigating information loss during down-sampling and enhancing detail reconstruction during up-sampling. In the encoder, we first decompose the feature map into high and low-frequency components using DTCWT, enabling down-sampling while mitigating information loss. In the decoder, we utilize iDTCWT to reconstruct higher-resolution feature maps from down-sampled features. Evaluations on the Retina Fluid, Brain Tumor, and Liver Tumor segmentation datasets with the nnU-Net framework demonstrate the superiority of the proposed Spectral U-Net.
翻訳日:2024-09-17 21:49:17 公開日:2024-09-13
# Rational-WENO: 軽量で物理的に一貫性のある3点重み付け方式

Rational-WENO: A lightweight, physically-consistent three-point weighted essentially non-oscillatory scheme ( http://arxiv.org/abs/2409.09217v1 )

ライセンス: Link先を確認
Shantanu Shahane, Sheide Chammas, Deniz A. Bezgin, Aaron B. Buhendwa, Steffen J. Schmidt, Nikolaus A. Adams, Spencer H. Bryngelson, Yi-Fan Chen, Qing Wang, Fei Sha, Leonardo Zepeda-Núñez, (参考訳) 従来のWENO3法は低分解能で高い散逸性があることが知られており、漸近前の状態に重大な誤差が生じる。 本稿では,局所解の特徴に基づいてステンシル重みを動的に適応させ,解の局所的滑らかさを正確に推定するために合理的ニューラルネットワークを用いる。 合理的ニューラルネットワークはスムーズな状態とシャープな状態の間の高速な遷移を表現できるため、散逸を著しく低減し、シミュレーションの精度を向上させることができる。 ネットワークは、慎重に選択された分析関数のデータセットでオフラインでトレーニングされており、微分可能なソルバの必要性を回避している。 また,一組のテスト関数に対する補間収束順序の推定値に基づいて,ロバストなモデル選択基準を提案する。 提案手法は,スムーズで不連続な解を処理しながらグリッド解像度を一般化する。 ほとんどの場合、合理的なネットワークベースのスキームは、従来のWENO3と同じステンシルサイズで高い精度を達成し、そのいくつかでは、より大きなステンシルを使用するWENO5に匹敵する精度を達成する。

Conventional WENO3 methods are known to be highly dissipative at lower resolutions, introducing significant errors in the pre-asymptotic regime. In this paper, we employ a rational neural network to accurately estimate the local smoothness of the solution, dynamically adapting the stencil weights based on local solution features. As rational neural networks can represent fast transitions between smooth and sharp regimes, this approach achieves a granular reconstruction with significantly reduced dissipation, improving the accuracy of the simulation. The network is trained offline on a carefully chosen dataset of analytical functions, bypassing the need for differentiable solvers. We also propose a robust model selection criterion based on estimates of the interpolation's convergence order on a set of test functions, which correlates better with the model performance in downstream tasks. We demonstrate the effectiveness of our approach on several one-, two-, and three-dimensional fluid flow problems: our scheme generalizes across grid resolutions while handling smooth and discontinuous solutions. In most cases, our rational network-based scheme achieves higher accuracy than conventional WENO3 with the same stencil size, and in a few of them, it achieves accuracy comparable to WENO5, which uses a larger stencil.
翻訳日:2024-09-17 21:49:17 公開日:2024-09-13
# マルチモーダル音声変換器デコーダ

Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? ( http://arxiv.org/abs/2409.09221v1 )

ライセンス: Link先を確認
Yiwen Guan, Viet Anh Trinh, Vivek Voleti, Jacob Whitehill, (参考訳) 近年,デコーダのみの離散言語モデルが音声認識において大きな成功を収めている。 しかし、特定のシナリオにおける異なるモダリティがパフォーマンスに与える影響の体系的な分析は依然として限られている。 本稿では,合成データセットと実世界のデータセットの認識精度に及ぼす多重モードの影響について検討する。 実験により,(1)より高次モダリティの統合は精度を高めることが示唆された。特に,本論文は,音声,画像コンテキスト,唇情報の組み合わせによるメリットを最初に示すものである。(2)音声認識の補助モダリティとしてのイメージは,中程度の雑音レベルにおいて最大の利益をもたらすが,さらに,唇運動のような固有に同期されたモダリティと異なる傾向を示す。(3)最も関連性の高い視覚情報を前処理ステップとしてフィルタリングする際の,合成データセットと実世界のデータセットの性能向上。

Decoder-only discrete-token language models have recently achieved significant success in automatic speech recognition. However, systematic analyses of how different modalities impact performance in specific scenarios remain limited. In this paper, we investigate the effects of multiple modalities on recognition accuracy on both synthetic and real-world datasets. Our experiments suggest that: (1) Integrating more modalities can increase accuracy; in particular, our paper is, to our best knowledge, the first to show the benefit of combining audio, image context, and lip information; (2) Images as a supplementary modality for speech recognition provide the greatest benefit at moderate noise levels, moreover, they exhibit a different trend compared to inherently synchronized modalities like lip movements; (3) Performance improves on both synthetic and real-world datasets when the most relevant visual information is filtered as a preprocessing step.
翻訳日:2024-09-17 21:49:17 公開日:2024-09-13
# 関係対象を持つ一階述語論理の不満足性の証明による診断

Diagnosis via Proofs of Unsatisfiability for First-Order Logic with Relational Objects ( http://arxiv.org/abs/2409.09223v1 )

ライセンス: Link先を確認
Nick Feng, Lina Marsso, Marsha Chechik, (参考訳) 満足度に基づく自動推論は、ソフトウェア工学において、安全クリティカルなシステムを含む複雑なソフトウェアを検証するためにうまく使われているアプローチである。 このような推論は、要求分析から設計整合性、テストカバレッジに至るまで、多くの検証アクティビティの基礎となります。 一般的には効果があるが、バックエンドの制約解決器は複雑で必然的にエラーを起こし、アプリケーションの健全性を脅かす。 したがって、正当性を確認し、それらが返した(不満足な)結果を説明することを含む、そのような解法を検証する必要がある。 本研究では、時間とデータに敏感な初期システム設計の推論に有効であることが示されているリレーショナルオブジェクト(FOL*)を用いた一階述語論理に基づく満足度解析について考察する。 我々は、FOL*不満足な結果の正当性を検証し、不満足の原因を説明するための診断を導き出すという課題に取り組む。 SAT/SMTソルバからのUNSATの証明の概念に触発されて,UNSATへの導出のシーケンスとして解の推論ステップを追跡するための証明形式と証明規則を定義する。 また、不必要な導出をフィルタリングしながらFOL*証明の正当性を検証し、不満足の原因を説明するための証明ベース診断を開発するアルゴリズムを提案する。 現状のFOL*満足度チェッカー上に提案した証明支援を実装し,UNSATの証明を生成するとともに,その証明に基づく診断を適用し,ソフトウェアシステムの規範的要件の整合性問題の原因を説明することによって,我々のアプローチを検証した。

Satisfiability-based automated reasoning is an approach that is being successfully used in software engineering to validate complex software, including for safety-critical systems. Such reasoning underlies many validation activities, from requirements analysis to design consistency to test coverage. While generally effective, the back-end constraint solvers are often complex and inevitably error-prone, which threatens the soundness of their application. Thus, such solvers need to be validated, which includes checking correctness and explaining (un)satisfiability results returned by them. In this work, we consider satisfiability analysis based on First-Order Logic with relational objects (FOL*) which has been shown to be effective for reasoning about time- and data-sensitive early system designs. We tackle the challenge of validating the correctness of FOL* unsatisfiability results and deriving diagnoses to explain the causes of the unsatisfiability. Inspired by the concept of proofs of UNSAT from SAT/SMT solvers, we define a proof format and proof rules to track the solvers' reasoning steps as sequences of derivations towards UNSAT. We also propose an algorithm to verify the correctness of FOL* proofs while filtering unnecessary derivations and develop a proof-based diagnosis to explain the cause of unsatisfiability. We implemented the proposed proof support on top of the state-of-the-art FOL* satisfiability checker to generate proofs of UNSAT and validated our approach by applying the proof-based diagnoses to explain the causes of well-formedness issues of normative requirements of software systems.
翻訳日:2024-09-17 21:49:17 公開日:2024-09-13
# 長手場における量子ニューマン・ムーアモデル

The quantum Newman-Moore model in a longitudinal field ( http://arxiv.org/abs/2409.09235v1 )

ライセンス: Link先を確認
Konstantinos Sfairopoulos, Juan P. Garrahan, (参考訳) 量子ニューマン・ムーアモデル (quantum Newman-Moore model) または量子三角プラケットモデル (quantum triangular plaquette model, qTPM) を縦場 (qTPMz) の存在下で研究する。 我々はqTPMzの基底状態相図が翻訳対称性を破る様々なフラストレーション相を含むことを示す証拠を提示する。 この相図はqTPMの既知の1次相転移を含むが、フラストレーション相による1次相転移も含む。 平均長手磁化を秩序パラメータとして、基底状態相を特徴づける磁化台地を解析し、それらの退化を記述し、古典的遷移行列および量子行列積状態技術を用いてqTPMz相図を得る。 三角格子上のRydbergブロックモデルにより効果的に記述できるパラメータ空間の領域を同定し、量子常磁性相と古典的フラストレーション相を接続する$\mathbb{Z}_2$トポロジカル次数を示す。

We study the quantum Newman-Moore model, or quantum triangular plaquette model (qTPM), in the presence of a longitudinal field (qTPMz). We present evidence that indicates that the ground state phase diagram of the qTPMz includes various frustrated phases breaking translational symmetries, dependent on the specific sequence of system sizes used to take the large-size limit. This phase diagram includes the known first-order phase transition of the qTPM, but also additional first-order transitions due to the frustrated phases. Using the average longitudinal magnetization as an order parameter, we analyze the magnetization plateaus that characterize the ground state phases, describe their degeneracies, and obtain the qTPMz phase diagram using classical transfer matrix and quantum matrix product state techniques. We identify a region of parameter space which can be effectively described by a Rydberg blockade model on the triangular lattice and also find indications of $\mathbb{Z}_2$ topological order connecting the quantum paramagnetic and classical frustrated phases.
翻訳日:2024-09-17 21:49:17 公開日:2024-09-13
# NSP:ニューロシンボリックな自然言語ナビゲーションプランナー

NSP: A Neuro-Symbolic Natural Language Navigational Planner ( http://arxiv.org/abs/2409.06859v2 )

ライセンス: Link先を確認
William English, Dominic Simon, Sumit Jha, Rickard Ewetz, (参考訳) 自由形式の自然言語命令を解釈できるパスプランナーは、幅広いロボット工学アプリケーションを自動化することを約束する。 これらのプランナーは、ユーザインタラクションを単純化し、複雑な半自律システムに対する直感的な制御を可能にする。 既存の記号的アプローチは正確性と効率の保証を提供するが、自由形式の自然言語入力を解析するのに苦労している。 逆に、事前訓練されたLarge Language Models(LLM)に基づくニューラルネットワークは、自然言語入力を管理することができるが、性能保証がない。 本論文では,NSPと呼ばれる自然言語入力からの経路計画のためのニューロシンボリック・フレームワークを提案する。 このフレームワークは、LLMの神経的推論能力を活用する 一 環境の象徴的な表現及び表現 二 記号経路計画アルゴリズム 次に、環境表現上でアルゴリズムを実行することにより、経路計画問題の解を求める。 このフレームワークは、シンボリック実行環境からニューラル生成プロセスへのフィードバックループを使用して、自己修正構文エラーを発生させ、実行時間の制約を満たす。 1500のパスプランニング問題のあるベンチマークスイートを用いて, ニューロシンボリックアプローチの評価を行った。 実験により、我々のニューロシンボリックアプローチは、最先端のニューラルアプローチよりも平均19~77%短い有効なパスを90.1%生成していることが示された。

Path planners that can interpret free-form natural language instructions hold promise to automate a wide range of robotics applications. These planners simplify user interactions and enable intuitive control over complex semi-autonomous systems. While existing symbolic approaches offer guarantees on the correctness and efficiency, they struggle to parse free-form natural language inputs. Conversely, neural approaches based on pre-trained Large Language Models (LLMs) can manage natural language inputs but lack performance guarantees. In this paper, we propose a neuro-symbolic framework for path planning from natural language inputs called NSP. The framework leverages the neural reasoning abilities of LLMs to i) craft symbolic representations of the environment and ii) a symbolic path planning algorithm. Next, a solution to the path planning problem is obtained by executing the algorithm on the environment representation. The framework uses a feedback loop from the symbolic execution environment to the neural generation process to self-correct syntax errors and satisfy execution time constraints. We evaluate our neuro-symbolic approach using a benchmark suite with 1500 path-planning problems. The experimental evaluation shows that our neuro-symbolic approach produces 90.1% valid paths that are on average 19-77% shorter than state-of-the-art neural approaches.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-13
# ROCAS:サイバー物理共変による自律運転事故の根本原因分析

ROCAS: Root Cause Analysis of Autonomous Driving Accidents via Cyber-Physical Co-mutation ( http://arxiv.org/abs/2409.07774v2 )

ライセンス: Link先を確認
Shiwei Feng, Yapeng Ye, Qingkai Shi, Zhiyuan Cheng, Xiangzhe Xu, Siyuan Cheng, Hongjun Choi, Xiangyu Zhang, (参考訳) 自律運転システム(ADS)が私たちの日常生活を変えてきたため、ADSの安全性はますます重要になっている。 ADSの信頼性を高めるための様々なテストアプローチが登場したが、事故の原因を理解する上で重要なギャップは依然として残っている。 このような事故後の分析は、ADSの安全性と信頼性を高める上で最重要かつ有益である。 既存のサイバー物理システム(CPS)の根本原因分析技術は主にドローン用に設計されており、より複雑な物理的環境や深層学習モデルによってもたらされる固有の課題に対処できない。 本稿では,ADSの根本原因分析の形式的定義と,サイバー物理共変を特徴とする新たな根本原因解析フレームワークであるROCASを導入することにより,このギャップに対処する。 本手法は,事故トリガーを正確に識別し,事故の原因となるターゲットADSの誤設定を特定できる物理的変異とサイバー突然変異の両方を独自に活用する。 さらに,誤設定の検索スペースを削減するために,責任モジュールを識別するための差分解析を設計する。 本研究では,ADS事故の12カテゴリーについて検討し,探索空間の縮小と誤設定の特定におけるROCASの有効性と有効性を示す。 また,事故の背景にある理性を理解する上で,誤設定がいかに役立つか,詳細なケーススタディを示す。

As Autonomous driving systems (ADS) have transformed our daily life, safety of ADS is of growing significance. While various testing approaches have emerged to enhance the ADS reliability, a crucial gap remains in understanding the accidents causes. Such post-accident analysis is paramount and beneficial for enhancing ADS safety and reliability. Existing cyber-physical system (CPS) root cause analysis techniques are mainly designed for drones and cannot handle the unique challenges introduced by more complex physical environments and deep learning models deployed in ADS. In this paper, we address the gap by offering a formal definition of ADS root cause analysis problem and introducing ROCAS, a novel ADS root cause analysis framework featuring cyber-physical co-mutation. Our technique uniquely leverages both physical and cyber mutation that can precisely identify the accident-trigger entity and pinpoint the misconfiguration of the target ADS responsible for an accident. We further design a differential analysis to identify the responsible module to reduce search space for the misconfiguration. We study 12 categories of ADS accidents and demonstrate the effectiveness and efficiency of ROCAS in narrowing down search space and pinpointing the misconfiguration. We also show detailed case studies on how the identified misconfiguration helps understand rationale behind accidents.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-13
# コントラスト的説明からの適応型言語ガイドによる抽象化

Adaptive Language-Guided Abstraction from Contrastive Explanations ( http://arxiv.org/abs/2409.08212v2 )

ライセンス: Link先を確認
Andi Peng, Belinda Z. Li, Ilia Sucholutsky, Nishanth Kumar, Julie A. Shah, Jacob Andreas, Andreea Bobu, (参考訳) ロボット学習への多くのアプローチは、人間のデモから報酬関数を推定することから始まる。 良い報奨を得るためには、これらの特徴がどのようにして報酬を計算するべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。 結合特徴と報酬学習のためのエンドツーエンドの手法(例えば、ディープネットワークやプログラム合成技術)は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数を生成する。 対照的に、人間は少数のデモンストレーションから、デモのどの特徴が関心のあるタスクに意味があるかについての強い事前を組み込むことで、一般的に学習することができる。 新しいデモから学ぶとき、このような背景知識を活用するロボットをどうやって作るのか? 本稿では,ALGAE(Adaptive Language-Guided Abstraction from [Contrastive] Explanations)と呼ばれる手法について述べる。 シミュレーションと実世界の両方のロボット環境における実験により、ALGAEは少数の実演だけで解釈可能な特徴に定義された一般化可能な報酬関数を学習することを示した。 重要なことは、ALGAEは機能がいつ欠落しているかを認識し、その機能を人間の入力なしで抽出して定義することができるため、ユーザの振る舞いのリッチな表現を迅速かつ効率的に取得することができる。

Many approaches to robot learning begin by inferring a reward function from a set of human demonstrations. To learn a good reward, it is necessary to determine which features of the environment are relevant before determining how these features should be used to compute reward. End-to-end methods for joint feature and reward learning (e.g., using deep networks or program synthesis techniques) often yield brittle reward functions that are sensitive to spurious state features. By contrast, humans can often generalizably learn from a small number of demonstrations by incorporating strong priors about what features of a demonstration are likely meaningful for a task of interest. How do we build robots that leverage this kind of background knowledge when learning from new demonstrations? This paper describes a method named ALGAE (Adaptive Language-Guided Abstraction from [Contrastive] Explanations) which alternates between using language models to iteratively identify human-meaningful features needed to explain demonstrated behavior, then standard inverse reinforcement learning techniques to assign weights to these features. Experiments across a variety of both simulated and real-world robot environments show that ALGAE learns generalizable reward functions defined on interpretable features using only small numbers of demonstrations. Importantly, ALGAE can recognize when features are missing, then extract and define those features without any human input -- making it possible to quickly and efficiently acquire rich representations of user behavior.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-13
# Windows Agent Arena: 大規模マルチモーダルOSエージェントの評価

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale ( http://arxiv.org/abs/2409.08264v2 )

ライセンス: Link先を確認
Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Yadong Lu, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui, (参考訳) 大規模言語モデル(LLM)はコンピュータエージェントとして機能し、計画や推論を必要とするマルチモーダルタスクにおける人間の生産性とソフトウェアアクセシビリティを向上させる。 しかし、現実的な環境におけるエージェントのパフォーマンスの測定は、現在でも課題である。 (i)ほとんどのベンチマークは特定のモダリティやドメイン(テキストのみ、Webナビゲーション、Q&A、コーディングなど)に限定されている。 (ii)タスクの逐次的性質を考えると,ベンチマーク評価は遅い(日数等級)。 これらの課題に対処するために、我々は、Windows Agent Arenaを紹介した: 再現可能な、Windows OS(OS)にのみ焦点をあてた一般的な環境。 私たちはOSWorldフレームワーク(Xie et al , 2024)に適応し、計画、画面理解、ツール使用においてエージェント能力を必要とする代表ドメイン間で150以上の多様なWindowsタスクを作成します。 私たちのベンチマークはスケーラブルで、完全なベンチマーク評価を20分以内で、Azureでシームレスに並列化できます。 Windows Agent Arenaの機能を示すために、新しいマルチモーダルエージェントであるNaviも導入した。 我々のエージェントはWindowsドメインで成功率19.5%を達成し、無支援の人間の74.5%のパフォーマンスと比較した。 Naviはまた、もう1つの人気のあるWebベースのベンチマークであるMind2Webで、強力なパフォーマンスを示している。 また, Windows Agent Arena を用いたエージェント開発とデータ生成における今後の研究の機会についての知見を提供する。 Webページ: https://microsoft.github.io/WindowsAgentArenaコード: https://github.com/microsoft/WindowsAgentArena

Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena
翻訳日:2024-09-17 12:21:17 公開日:2024-09-13
# hyppo: Pythonパッケージをテストする多変量仮説

hyppo: A Multivariate Hypothesis Testing Python Package ( http://arxiv.org/abs/1907.02088v7 )

ライセンス: Link先を確認
Sambit Panda, Satish Palaniappan, Junhao Xiong, Eric W. Bridgeford, Ronak Mehta, Cencheng Shen, Joshua T. Vogelstein, (参考訳) 独立性,2サンプル,kサンプルテストを含む多変量仮説テストを実行するための統合ライブラリであるhyppoを紹介する。 多くの多変量独立テストにはRパッケージがあるが、インターフェースは一貫性がなく、ほとんどPythonでは利用できない。 hyppoには、最先端の多変量テスト手順が数多く含まれている。 パッケージは使いやすく、将来の拡張を可能にするのに十分な柔軟性がある。 ドキュメントとすべてのリリースはhttps://hyppo.neurodata.io.comで公開されている。

We introduce hyppo, a unified library for performing multivariate hypothesis testing, including independence, two-sample, and k-sample testing. While many multivariate independence tests have R packages available, the interfaces are inconsistent and most are not available in Python. hyppo includes many state of the art multivariate testing procedures. The package is easy-to-use and is flexible enough to enable future extensions. The documentation and all releases are available at https://hyppo.neurodata.io.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# ブロックコヒーレンス資源理論の構造

Structure of Resource Theory of Block Coherence ( http://arxiv.org/abs/1908.01882v2 )

ライセンス: Link先を確認
Prabir Kumar Dey, Dipayan Chakraborty, Priyabrata Char, Indrani Chattopadhyay, Amit Bhar, Debasis Sarkar, (参考訳) 重ね合わせの原理から考えると、コヒーレンスの資源理論は多くの情報処理タスクにおいて重要な役割を果たす。 近年、ナイマルクのダイレーション定理に基づく任意の正値測定(POVM)に関して、この資源理論への一般化が検討されている。 本稿では、ブロック・インコヒーレント・オペレーション(BIO)、SBIO(Strictly Block Incoherent Operations)、PBIO(Physically Block Incoherent Operations)の概念を紹介し、これらの操作のクラウス・オペレーターに対して、ブロック・コヒーレンス(Block Coherence)のリソース理論をよりよく理解するための分析式を提供する。 SBIOに対応する拡張定理は、この操作の適切な物理的解釈を明らかにするために導入された。 これらの自由な操作は状態変換の条件を見つけるのに役立ち、様々なプロトコルで実装できる。 この資源理論を透過的に見るため、我々はSBIOの下で状態変換の概念をうまく導入した。

Emerging from the superposition principle, the resource theory of coherence plays a crucial role in many information-processing tasks. Recently, a generalization to this resource theory was investigated with respect to arbitrary positive operator valued measurement (POVM) based on Naimark's dilation theorem. Here, we introduce the notion of Block Incoherent Operations (BIO), Strictly Block Incoherent Operations (SBIO) and Physically Block Incoherent Operations (PBIO) and provide an analytical expression for Kraus operators of these operations to have a better understanding of the resource theory of block coherence which in turn gives a more clear picture of POVM based resource theory of coherence. A dilation theorem corresponding to SBIO has been introduced to enlighten the proper physical interpretation of this operation. These free operations will be helpful in finding out the conditions of state transformations and could be implemented in various protocols. For a transparent view of this resource theory, we have successfully introduced the concept of state transformation under SBIO.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# BE-RAN: DIDとプライバシ保護通信を備えた6Gブロックチェーン対応Open RAN

BE-RAN: Blockchain-enabled Open RAN for 6G with DID and Privacy-Preserving Communication ( http://arxiv.org/abs/2101.10856v4 )

ライセンス: Link先を確認
Hao Xu, Zihan Zhou, Lei Zhang, Yunqing Sun, Chih-Lin I, (参考訳) 6Gネットワークが通信・センシング・コンピューティングのシナジスティックシステムへと進化するにつれて、無線アクセスネットワークはより分散し、堅牢なエンドツーエンド認証を必要とする。 認証プロセスにおけるセキュリティ,プライバシ,効率性を向上する,新しい分散型RANアーキテクチャであるBlockchain対応無線アクセスネットワークを提案する。 BE-RANは分散型台帳技術を活用して、信頼性を確立し、ユーザ中心のID管理を提供し、相互認証を可能にし、オンデマンドのポイントツーポイントネットワーク要素とUE-UE通信を、中央集権的な当局に頼ることなく、公開ネットワークユーザに説明可能なロギングおよび課金サービスアドオンで提供する。 我々は、完全に分散化されたRANモデルを構想し、CSCパラダイムをサポートしながら既存のセキュリティ対策を補完するプライバシ保護P2P通信アプローチを提案する。 その結果,BE-RANは通信と計算のオーバーヘッドを著しく低減し,分散ID管理によるプライバシの向上,CSC統合の促進,より効率的でセキュアな6Gネットワークの実現を実現している。

As 6G networks evolve towards a synergistic system of Communication, Sensing, and Computing, Radio Access Networks become more distributed, necessitating robust end-to-end authentication. We propose Blockchain-enabled Radio Access Networks, a novel decentralized RAN architecture enhancing security, privacy, and efficiency in authentication processes. BE-RAN leverages distributed ledger technology to establish trust, offering user-centric identity management, enabling mutual authentication, and facilitating on-demand point-to-point inter-network elements and UE-UE communication with accountable logging and billing service add-on for public network users, all without relying on centralized authorities. We envision a thoroughly decentralized RAN model and propose a privacy-preserving P2P communication approach that complements existing security measures while supporting the CSC paradigm. Results demonstrate BE-RAN significantly reduces communication and computation overheads, enhances privacy through decentralized identity management, and facilitates CSC integration, advancing towards more efficient and secure 6G networks.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# Commonsenseの知識による自然言語処理:サーベイ

Natural Language Processing with Commonsense Knowledge: A Survey ( http://arxiv.org/abs/2108.04674v2 )

ライセンス: Link先を確認
Yubo Xie, Zonghui Liu, Zongyang Ma, Fanyuan Meng, Yan Xiao, Fahui Miao, Pearl Pu, (参考訳) 常識知識は、モデルが人間のような推論を行えるようにすることで自然言語処理(NLP)を進めるのに不可欠であり、文脈の深い理解を必要とし、しばしば暗黙の外部知識に基づいて推論を行う。 本稿では,様々なNLPタスクへのコモンセンス知識の統合について検討する。 まず、著名なコモンセンス知識ベースをレビューし、NLPモデルのコモンセンス推論能力、特に言語モデルを評価するために使用されるベンチマークについて議論する。 さらに,異なるNLPタスクにまたがるコモンセンス知識とその応用を組み込むための重要な手法を強調した。 また,コモンセンス推論を用いたNLPシステムの高度化における課題と動向について検討した。 この調査で参照されたすべての文献は、GitHubリポジトリ経由でアクセスすることができる。

Commonsense knowledge is essential for advancing natural language processing (NLP) by enabling models to engage in human-like reasoning, which requires a deeper understanding of context and often involves making inferences based on implicit external knowledge. This paper explores the integration of commonsense knowledge into various NLP tasks. We begin by reviewing prominent commonsense knowledge bases and then discuss the benchmarks used to evaluate the commonsense reasoning capabilities of NLP models, particularly language models. Furthermore, we highlight key methodologies for incorporating commonsense knowledge and their applications across different NLP tasks. The paper also examines the challenges and emerging trends in enhancing NLP systems with commonsense reasoning. All literature referenced in this survey can be accessed via our GitHub repository: https://github.com/yuboxie/awesome-commonsense.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# 波動効果の物質化機構

Mechanism for Materializing Wave Effects ( http://arxiv.org/abs/2208.12267v4 )

ライセンス: Link先を確認
Eduardo V. Flores, (参考訳) 波動効果の顕在化を駆動するメカニズムは、量子場理論に根本から組み込まれている。 これらの波動効果は保存法則が満たされたときに現実となり、量子効果が完全に実現され、これらの法則が破られると仮想のままとなる。 物質化プロセスは、保存された量を供給する外部ソースと、これらの量を運ぶ仮想粒子によって制御される。 例えば、建設的かつ破壊的な干渉領域の光子は、これらの保存された量の可利用性に応じて、実または仮想的な干渉パターンを形成することができる。 また, 相補性の原理に挑戦する実験において, 長年にわたるパラドックスを解決した。 さらに、ベクトルボソン相互作用の限られた範囲で制限された低エネルギーの銀河ニュートリノが古典的な理想気体として振る舞うと予測する。 これらの洞察は、量子力学の基本的な問題に対処するだけでなく、将来の探索のための新たな道を開く。

We reveal that the mechanism driving the manifestation of wave effects is fundamentally embedded within quantum field theory. These wave effects become real when conservation laws are satisfied, allowing quantum effects to fully materialize, and remain virtual when these laws are violated. The materialization process is governed by external sources that supply conserved quantities, and by virtual particles that carry these quantities. For example, a photon in a region of constructive and destructive interference can form either a real or virtual interference pattern, contingent on the availability of these conserved quantities. Our findings also resolve a longstanding paradox in an experiment that challenges the principle of complementarity. Furthermore, we predict that low energy galactic neutrinos, constrained by the limited range of vector boson interactions, behave as a classical ideal gas, a prediction we believe is experimentally testable. These insights not only address fundamental questions in quantum mechanics but also open new avenues for future exploration.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# バイオ統計学者の漸近特性に関するチュートリアルとCOVID-19データへの応用

A Tutorial on Asymptotic Properties for Biostatisticians with Applications to COVID-19 Data ( http://arxiv.org/abs/2211.07351v2 )

ライセンス: Link先を確認
Elvis Han Cui, (参考訳) 統計推定器の漸近特性は、実際と理論の両方において重要な役割を果たす。 しかし、統計学における多くの漸近的な結果は、独立で同一に分布した(iid)仮定に大きく依存している。 本稿では, 固定設計下での漸近特性を導出するための一般的な手順のロードマップを構築し, 観測を行う必要はない。 我々はさらに、多くの統計応用でそれらの応用を提供している。 最後に、COVID-19データセットをイラストとして使用して、Poisson回帰に結果を適用し、実際にこれらの結果のパワーを実証する。

Asymptotic properties of statistical estimators play a significant role both in practice and in theory. However, many asymptotic results in statistics rely heavily on the independent and identically distributed (iid) assumption, which is not realistic when we have fixed designs. In this article, we build a roadmap of general procedures for deriving asymptotic properties under fixed designs and the observations need not to be iid. We further provide their applications in many statistical applications. Finally, we apply our results to Poisson regression using a COVID-19 dataset as an illustration to demonstrate the power of these results in practice.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# ディープフェイク検出:信頼性の観点からの総合的な調査

Deepfake Detection: A Comprehensive Survey from the Reliability Perspective ( http://arxiv.org/abs/2211.10881v3 )

ライセンス: Link先を確認
Tianyi Wang, Xin Liao, Kam Pui Chow, Xiaodong Lin, Yinglong Wang, (参考訳) キノコ入りのDeepfake合成材料がインターネット上に流通し、政治家、有名人、そして世界中の個人に深刻な社会的影響を与えている。 本稿では,既存のDeepfake検出研究について,信頼性の観点から概観する。 現在のDeepfake検出領域では、トランスファービリティ、解釈可能性、堅牢性という、信頼性を重視した3つの研究課題を識別する。 さらに,3つの課題に関して解決法が頻繁に検討されているが,検出モデルの信頼性は十分に考慮されていないため,実生活における使用法や裁判所におけるDeepfake関連事例の訴追さえも確実な証拠が欠如している。 そこで我々は,統計的ランダムサンプリング知識と,既存の検出モデルの信頼性を疑わしいDeepfake候補に対して検証するためのベンチマークデータセットを用いたモデル信頼性調査指標を提案する。 ケーススタディはさらに、このサーベイでレビューしたように、信頼性の高い検出モデルの助けを借りて、被害者の異なるグループを含む実生活のディープフェイク事件を正当化するために実施されている。 既存のアプローチに関するレビューと実験は、ディープフェイク検出のための情報的議論と今後の研究の方向性を提供する。

The mushroomed Deepfake synthetic materials circulated on the internet have raised a profound social impact on politicians, celebrities, and individuals worldwide. In this survey, we provide a thorough review of the existing Deepfake detection studies from the reliability perspective. We identify three reliability-oriented research challenges in the current Deepfake detection domain: transferability, interpretability, and robustness. Moreover, while solutions have been frequently addressed regarding the three challenges, the general reliability of a detection model has been barely considered, leading to the lack of reliable evidence in real-life usages and even for prosecutions on Deepfake-related cases in court. We, therefore, introduce a model reliability study metric using statistical random sampling knowledge and the publicly available benchmark datasets to review the reliability of the existing detection models on arbitrary Deepfake candidate suspects. Case studies are further executed to justify the real-life Deepfake cases including different groups of victims with the help of the reliably qualified detection models as reviewed in this survey. Reviews and experiments on the existing approaches provide informative discussions and future research directions for Deepfake detection.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# 低リソース質問応答のためのデータ生成とアクティブラーニングの併用

Combining Data Generation and Active Learning for Low-Resource Question Answering ( http://arxiv.org/abs/2211.14880v2 )

ライセンス: Link先を確認
Maximilian Kimmich, Andrea Bartezzaghi, Jasmina Bogojeska, Cristiano Malossi, Ngoc Thang Vu, (参考訳) 質問回答(QA)ではニューラルネットワークのアプローチが非常に人気になっているが、大量の注釈付きデータが必要である。 本研究では,質問応答生成によるデータ拡張とアクティブラーニングを併用して,低リソース環境での性能を向上させる手法を提案する。 また,様々な段階における質問応答に対するアクティブラーニングについて検討し,人間のアノテーションの労力を減らした。 この目的のために,本研究では,極めて少ないアノテートサンプルで,かつラベルのない文書を多数含んで,現実的な設定で対象ドメインを考察する。 さらに、ソースドメインから十分な量のラベル付きデータを利用できると仮定する。 ドメインエキスパートを組み込むのに最適なセットアップを見つけるために、広範な実験を行います。 我々の新しいアプローチは、人間がデータ生成アプローチに組み入れられることで、低リソースのドメイン固有の設定のパフォーマンスが向上し、新しい特殊なドメインにおける低ラベルな質問応答システムを可能にします。 さらに、人間のアノテーションが、実行されたステージによってQAのパフォーマンスにどのように影響するかを示す。

Neural approaches have become very popular in Question Answering (QA), however, they require a large amount of annotated data. In this work, we propose a novel approach that combines data augmentation via question-answer generation with Active Learning to improve performance in low-resource settings, where the target domains are diverse in terms of difficulty and similarity to the source domain. We also investigate Active Learning for question answering in different stages, overall reducing the annotation effort of humans. For this purpose, we consider target domains in realistic settings, with an extremely low amount of annotated samples but with many unlabeled documents, which we assume can be obtained with little effort. Additionally, we assume a sufficient amount of labeled data from the source domain being available. We perform extensive experiments to find the best setup for incorporating domain experts. Our findings show that our novel approach, where humans are incorporated in a data generation approach, boosts performance in the low-resource, domain-specific setting, allowing for low-labeling-effort question answering systems in new, specialized domains. They further demonstrate how human annotation affects the performance of QA depending on the stage it is performed.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# 結合光子数分布からのボソンサンプリングの有効検証

Efficient validation of Boson Sampling from binned photon-number distributions ( http://arxiv.org/abs/2212.09643v2 )

ライセンス: Link先を確認
Benoit Seron, Leonardo Novo, Alex Arkhipov, Nicolas J. Cerf, (参考訳) 量子計算の優位性の主張を裏付けるためには、実験データを検証する効率的な方法を開発することが不可欠である。 本稿では, 単一光子入力を用いたボソンサンプリング器の正しい機能テストを提案する。 提案手法は多種多様であり, 束縛現象, 限界分布, さらにはいくつかの抑制法に基づく検証試験を包含する。 本研究では, 実測的な不完全性, 特に光子の部分的識別性に影響を及ぼすものから, 理想ボソンサンプリング器を効果的に識別するために, 双モード光子数分布が実用シナリオで有効であることを示す。

In order to substantiate claims of quantum computational advantage, it is crucial to develop efficient methods for validating the experimental data. We propose a test of the correct functioning of a boson sampler with single-photon inputs that is based on how photons distribute among partitions of the output modes. Our method is versatile and encompasses previous validation tests based on bunching phenomena, marginal distributions, and even some suppression laws. We show via theoretical arguments and numerical simulations that binned-mode photon number distributions can be used in practical scenarios to efficiently distinguish ideal boson samplers from those affected by realistic imperfections, especially partial distinguishability of the photons.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# 2次元における固有状態位相秩序の多体局在保護

Many-body-localization protection of eigenstate topological order in two dimensions ( http://arxiv.org/abs/2212.09775v2 )

ライセンス: Link先を確認
Florian Venn, Thorsten B. Wahl, Benjamin Béri, (参考訳) 多体ローカライゼーション(MBL)は、すべての固有状態におけるトポロジカル秩序の実現と保護を目的として提案されており、従来の基底状態の設定を大幅に拡張している。 しかしながら、エノンとトポロジーに依存した退化を伴う2次元(2次元)系の最も興味深い場合において、このMBL保護を数値的に研究する多体多体スペクトルの課題がある。 ここでは、MBLで保護された位相秩序を磁場によって乱された2次元トーリック符号で示すために、大規模なフルスペクトル変分 ans\atze を用いる。 本システムは, トリック符号結合スケールの0.1$以下の磁場強度に対して, トポロジカル局所運動積分 (tLIOMs) を有することを示す。 tLIOMsを正確な対角化と組み合わせることで,多体スペクトルの高エネルギートポロジカル多重を同定する。 位相図はトーリック符号と整合し、介在する熱相によって分離される自明なMBL相と一致する。

Many-body localization (MBL) has been proposed to enable and protect topological order in all eigenstates, vastly expanding the traditional ground-state setting. However, for the most intriguing case of two-dimensional (2D) systems with anyons and topology-dependent degeneracies, the dense many-body spectrum challenges studying this MBL protection numerically. Here we use large-scale full-spectrum variational ans\"atze to demonstrate MBL-protected topological order in the disordered 2D toric code perturbed by magnetic fields. We show that the system has topological local integrals of motion (tLIOMs) for magnetic field strengths below $h_c\approx0.1$ times the toric code coupling scale. Combining tLIOMs with exact diagonalization, we also identify high-energy topological multiplets in the dense many-body spectrum. The phase diagram we find is consistent with toric-code and trivial MBL phases being separated by an intervening thermal phase.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# 相互作用するビームの異なる焦点面を持つ自然パラメトリックダウンコンバージョンにおける空間的・時間的特性

Spatial and temporal characteristics of spontaneous parametric down-conversion with varying focal planes of interacting beams ( http://arxiv.org/abs/2212.12571v3 )

ライセンス: Link先を確認
Richard Bernecker, Baghdasar Baghdasaryan, Stephan Fritzsche, (参考訳) 自然パラメトリックダウンコンバージョン(SPDC)は、絡み合った光子対を作るために広く用いられるプロセスである。 SPDCでは、2階非線形結晶をコヒーレントレーザービームで励起して光子対を生成する。 光子対は通常単モードファイバー(SMF)によって検出され、ガウスモードの光子のみが収集される。 収集モードは典型的なガウスパラメータ、すなわちビームウエストと焦点面の位置を持つ。 光子の収集効率は、両方のパラメータの選択に大きく依存する。 検出モードと比較してポンプビームの正確な焦点面位置は実実験では決定が難しい。 通常、理論的および実験的研究は、ポンプと生成されたビームの焦点面の位置が結晶の中心にあると仮定する。 ビーム焦点面の変位は、期待結果から逸脱し、SMFへの結合効率は増大または減少する。 本研究では、焦点面の変動位置を考察し、焦点面の変化が光子対の空間的および時間的特性に与える影響について考察する。 本研究では,焦点面の正確な位置に関する知識が不可欠であるSPDCアレンジメントと,焦点面の変位が実験結果に大きく寄与しないシナリオについて述べる。 これらの知見はSPDC実験において高い効率を達成することに特に関心がある。

Spontaneous parametric down-conversion (SPDC) is a widely used process to prepare entangled photon pairs. In SPDC, a second-order nonlinear crystal is pumped by a coherent laser beam to generate photon pairs. The photon pairs are usually detected by single-mode fibers (SMF), where only photons in a Gaussian mode can be collected. The collection modes possess typical Gaussian parameters, namely a beam waist and a focal plane position. The collection efficiency of photons highly depends on the choice of both parameters. The exact focal plane position of the pump beam relative to those of the detection modes is difficult to determine in a real experiment. Usually, theoretical and experimental studies assume that the focal plane positions of the pump and the generated beams are positioned in the center of the crystal. The displacement of beam focal planes can lead to deviations from expected results and the coupling efficiency into SMF can increase or decrease. In this work, we consider variable positions of focal planes and investigate how shifts of these focal planes influence the spatial and temporal properties of photon pairs. We present SPDC arrangements, in which the knowledge of the exact position of the focal planes is essential, as well as scenarios, where focal plane displacements do not contribute significantly to experimental outcomes. These findings are of particular interest for achieving higher efficiency in SPDC experiments.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# 特徴相互作用重み付きハイブリッドネットワークを用いた高能率画像超解法

Efficient Image Super-Resolution with Feature Interaction Weighted Hybrid Network ( http://arxiv.org/abs/2212.14181v2 )

ライセンス: Link先を確認
Wenjie Li, Juncheng Li, Guangwei Gao, Weihong Deng, Jian Yang, Guo-Jun Qi, Chia-Wen Lin, (参考訳) 軽量画像超解像は、低解像度画像から低計算コストで高解像度画像を再構成することを目的としている。 しかし, 既存の手法では, アクティベーション関数による中間層の特徴が失われる。 中間機能損失が復元品質に与える影響を最小限に抑えるため, 一連のワイド・残留蒸留相互作用ブロック(WDIB)をバックボーンとする特徴相互作用重み付きハイブリッドネットワーク(FIWHN)を提案する。 3分の1のWDIBは、相互情報シャッフルと融合を適用してFSWG(Feature Shuffle Weighted Group)を形成する。 さらに,中間的特徴損失の負の効果を軽減するため,WDIB内のワイド残留重み付けユニットを導入する。 これらのユニットは、WRDC(Wide-Residual Distillation Connection)とSCF(Self-Calibrating Fusion)を通じて、様々な詳細レベルの特徴を効果的に融合させる。 グローバルな機能不足を補うため,Transformerを導入し,CNNとTransformerを組み合わせた新しいアーキテクチャを探索する。 FIWHNは,低レベルタスクと高レベルタスクの広範な実験を通じて,性能と効率のバランスを良好に実現していることを示す。 コードは \url{https://github.com/IVIPLab/FIWHN} で入手できる。

Lightweight image super-resolution aims to reconstruct high-resolution images from low-resolution images using low computational costs. However, existing methods result in the loss of middle-layer features due to activation functions. To minimize the impact of intermediate feature loss on reconstruction quality, we propose a Feature Interaction Weighted Hybrid Network (FIWHN), which comprises a series of Wide-residual Distillation Interaction Block (WDIB) as the backbone. Every third WDIB forms a Feature Shuffle Weighted Group (FSWG) by applying mutual information shuffle and fusion. Moreover, to mitigate the negative effects of intermediate feature loss, we introduce Wide Residual Weighting units within WDIB. These units effectively fuse features of varying levels of detail through a Wide-residual Distillation Connection (WRDC) and a Self-Calibrating Fusion (SCF). To compensate for global feature deficiencies, we incorporate a Transformer and explore a novel architecture to combine CNN and Transformer. We show that our FIWHN achieves a favorable balance between performance and efficiency through extensive experiments on low-level and high-level tasks. Codes will be available at \url{https://github.com/IVIPLab/FIWHN}.
翻訳日:2024-09-17 00:06:41 公開日:2024-09-13
# メディアアウトレットのニュース・バイアスの文レベル特性予測

Predicting Sentence-Level Factuality of News and Bias of Media Outlets ( http://arxiv.org/abs/2301.11850v4 )

ライセンス: Link先を確認
Francielle Vargas, Kokil Jaidka, Thiago A. S. Pardo, Fabrício Benevenuto, (参考訳) ニュースの信頼性と事実チェックを大規模に自動化するには、ニュースの事実とメディアバイアスを正確に予測する必要がある。 本稿では,AllSides が提案する事実とメディアバイアスの定義に基づいて,6,191 の注釈付き文からなる「FactNews」という文レベルの大規模データセットを提案する。 我々はFactNewsを用いて、ニュースメディアの文章レベルの事実性を予測するための2つのテキスト分類問題を定式化し、ニュースソースの全体的な信頼性を評価する。 実験の結果, 偏見のある文は, 感情の優位性に加えて, 事実文よりも高い単語数を示すことがわかった。 そこで,ニュース記事の主観性と公平性の微粒化分析により,メディアの信頼性を予測できる有望な結果が得られた。 最後に、ブラジルにおける偽ニュースの深刻さと政治的偏見、そしてポルトガル語の研究の欠如により、ブラジルのポルトガル語に対してデータセットとベースラインの両方が提案された。

Automated news credibility and fact-checking at scale require accurately predicting news factuality and media bias. This paper introduces a large sentence-level dataset, titled "FactNews", composed of 6,191 sentences expertly annotated according to factuality and media bias definitions proposed by AllSides. We use FactNews to assess the overall reliability of news sources, by formulating two text classification problems for predicting sentence-level factuality of news reporting and bias of media outlets. Our experiments demonstrate that biased sentences present a higher number of words compared to factual sentences, besides having a predominance of emotions. Hence, the fine-grained analysis of subjectivity and impartiality of news articles provided promising results for predicting the reliability of media outlets. Finally, due to the severity of fake news and political polarization in Brazil, and the lack of research for Portuguese, both dataset and baseline were proposed for Brazilian Portuguese.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# 二重四元数代数を用いた自由なヒト下肢の運動学とダイナミクスモデリング

Kinematics and Dynamics Modeling of 7 Degrees of Freedom Human Lower Limb Using Dual Quaternions Algebra ( http://arxiv.org/abs/2302.11605v3 )

ライセンス: Link先を確認
Zineb Benhmidouch, Saad Moufid, Aissam Ait Omar, (参考訳) デナヴィトとハルテンベルクに基づくカルダン、フィック、オイラーのアングルは、三次元3次元空間における端効果体の位置と配向を記述する。 しかし、これらの手法は、十分に定義された回転順序を課すことで、関節空間における非現実的な人間の姿勢を発生させる可能性があるため、大きな欠点がある。 この問題に対処するために、二重四元数は同次変換に使うことができる。 四元数はその回転を表現する際の計算効率で知られているが、3次元空間での変換は扱えない。 二重数は四元数から二重四元数に拡張し、回転と変換の両方を管理することができる。 本稿では,2つの四元数理論を利用して,前方および逆運動学の高速かつ正確な解法と,自由度7自由度(DOF)人間の下肢3次元空間に対する再帰的ニュートン・オイラー力学アルゴリズムを提案する。

Denavit and Hartenberg-based methods, such as Cardan, Fick, and Euler angles, describe the position and orientation of an end-effector in three-dimensional (3D) space. However, these methods have a significant drawback as they impose a well-defined rotation order, which can lead to the generation of unrealistic human postures in joint space. To address this issue, dual quaternions can be used for homogeneous transformations. Quaternions are known for their computational efficiency in representing rotations, but they cannot handle translations in 3D space. Dual numbers extend quaternions to dual quaternions, which can manage both rotations and translations. This paper exploits dual quaternion theory to provide a fast and accurate solution for the forward and inverse kinematics and the recursive Newton-Euler dynamics algorithm for a 7-degree-of-freedom (DOF) human lower limb in 3D space.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# ニューラルネットワークは記号の概念を本当にエンコードしているのか?

Does a Neural Network Really Encode Symbolic Concepts? ( http://arxiv.org/abs/2302.13080v3 )

ライセンス: Link先を確認
Mingjie Li, Quanshi Zhang, (参考訳) 近年,DNNによってモデル化された入力変数間の相互作用を抽出し,DNNによって符号化された概念として定義する研究が続いている。 しかし厳密に言えば、そのような相互作用が本当に意味のある概念を表すかどうかという確固たる保証はいまだに存在しない。 そこで本稿では,相互作用概念の信頼性を4つの観点から検討する。 広範囲にわたる実証研究により、よく訓練されたDNNは通常、人間の直感に部分的に整合したスパース、転送可能、差別的な概念を符号化することを示した。

Recently, a series of studies have tried to extract interactions between input variables modeled by a DNN and define such interactions as concepts encoded by the DNN. However, strictly speaking, there still lacks a solid guarantee whether such interactions indeed represent meaningful concepts. Therefore, in this paper, we examine the trustworthiness of interaction concepts from four perspectives. Extensive empirical studies have verified that a well-trained DNN usually encodes sparse, transferable, and discriminative concepts, which is partially aligned with human intuition.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# 対話型概念を用いたDNNの一般化パワーの説明

Explaining Generalization Power of a DNN Using Interactive Concepts ( http://arxiv.org/abs/2302.13091v2 )

ライセンス: Link先を確認
Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, Quanshi Zhang, (参考訳) 本稿では,ディープニューラルネットワーク(DNN)の一般化能力について,インタラクションの観点から説明する。 DNNで符号化された概念の普遍的な定義は存在しないが、DNNにおける相互作用の空間性は証明されている。 このようにして、ある程度は、DNNによって符号化されたインタラクティブな概念のような相互作用を考えることができる。 そこで本稿では,異なる複雑性の概念の矛盾を解析的に説明する。 これにより、DNN全体の一般化パワーを説明するために、概念の一般化パワーを使用する新たな光がもたらされる可能性がある。 さらに、より強力な一般化能力を持つDNNは、単純な概念をより早く学習し、より少ない複雑な概念をエンコードする。 また,複雑な概念の学習困難さと,複雑な概念の一般化能力の低さを説明している。 コードは、論文が受理されたときに公開される。

This paper explains the generalization power of a deep neural network (DNN) from the perspective of interactions. Although there is no universally accepted definition of the concepts encoded by a DNN, the sparsity of interactions in a DNN has been proved, i.e., the output score of a DNN can be well explained by a small number of interactions between input variables. In this way, to some extent, we can consider such interactions as interactive concepts encoded by the DNN. Therefore, in this paper, we derive an analytic explanation of inconsistency of concepts of different complexities. This may shed new lights on using the generalization power of concepts to explain the generalization power of the entire DNN. Besides, we discover that the DNN with stronger generalization power usually learns simple concepts more quickly and encodes fewer complex concepts. We also discover the detouring dynamics of learning complex concepts, which explains both the high learning difficulty and the low generalization power of complex concepts. The code will be released when the paper is accepted.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# AIモデルにおけるスパースシンボリック概念の創発を証明するために、私たちは何をしてきたのか

Where We Have Arrived in Proving the Emergence of Sparse Symbolic Concepts in AI Models ( http://arxiv.org/abs/2305.01939v2 )

ライセンス: Link先を確認
Qihan Ren, Jiayang Gao, Wen Shen, Quanshi Zhang, (参考訳) 本研究の目的は、よく訓練されたディープニューラルネットワーク(DNN)における記号的概念(あるいはより正確にはスパースプリミティブ推論パターン)の出現を証明することである。 具体的には,次の3つの条件を立証する。 (i)入力変数に対するネットワーク出力の高次微分は、すべてゼロである。 (II) DNNは隠蔽サンプルに使用することができ、入力サンプルが隠蔽されていない場合、DNNは高い信頼を得る。 3) DNNの信頼性は, 隠蔽試料では著しく低下しない。 これらの条件は非常に一般的であり、これらの条件下では、DNNは入力変数間のスパース相互作用を比較的少ない数でエンコードするのみであることを示す。 さらに、DNNが符号化した記号的プリミティブ推論パターンのような相互作用も考慮できる。なぜなら、DNNの無作為なマスキングサンプルの無作為な数の推測スコアが、ほんの数個の相互作用の数値的効果によって常にうまく模倣可能であることを示すからである。

This study aims to prove the emergence of symbolic concepts (or more precisely, sparse primitive inference patterns) in well-trained deep neural networks (DNNs). Specifically, we prove the following three conditions for the emergence. (i) The high-order derivatives of the network output with respect to the input variables are all zero. (ii) The DNN can be used on occluded samples and when the input sample is less occluded, the DNN will yield higher confidence. (iii) The confidence of the DNN does not significantly degrade on occluded samples. These conditions are quite common, and we prove that under these conditions, the DNN will only encode a relatively small number of sparse interactions between input variables. Moreover, we can consider such interactions as symbolic primitive inference patterns encoded by a DNN, because we show that inference scores of the DNN on an exponentially large number of randomly masked samples can always be well mimicked by numerical effects of just a few interactions.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# Pavlok-Nudge:スノーティング・ケースを用いた原子行動修正のためのフィードバック機構

Pavlok-Nudge: A Feedback Mechanism for Atomic Behaviour Modification with Snoring Usecase ( http://arxiv.org/abs/2305.06110v3 )

ライセンス: Link先を確認
Md Rakibul Hasan, Shreya Ghosh, Pradyumna Agrawal, Zhixi Cai, Abhinav Dhall, Tom Gedeon, (参考訳) 本稿では,Pavlok デバイスを用いた行動パターン変更のためのフィードバック機構を提案する。 Pavlokは、ビープ、振動、衝撃を回避技術として利用し、個人が行動修正を行うのを助ける。 このデバイスは、アラームやエクササイズ通知など、日常の特定の状況下では便利だが、その使用を制限する手動操作に依存している。 行動修正を自動化するために,我々はまず,軽量なディープラーニングモデルを用いて対象行動を検出し,その後,Pavlokを通じてユーザを虐待するフレームワークを提案する。 提案手法は,1次元畳み込みニューラルネットワークを用いて,音声内容がスノーアであるか否かの予測の後,環境から音声をキャプチャするスノーリングの文脈で実装し,検証する。 この予測に基づき、睡眠姿勢の変化などの予防対策として、利用者を苦しめるためにパヴロクを用いている。 このシンプルなソリューションは、人々が原子の習慣を変えるのに役立つと私たちは信じています。 提案したリアルタイム軽量モデル(SOTAよりも99.8%少ないパラメータ;1,278,049 --> 1337)は、パブリックドメインベンチマーク上でのSOTA性能(テスト精度0.99)を達成する。 コードとモデルはhttps://github.com/hasan-rakibul/pavlok-nudge-snore.comで公開されている。

This paper proposes a feedback mechanism to change behavioural patterns using the Pavlok device. Pavlok utilises beeps, vibration and shocks as a mode of aversion technique to help individuals with behaviour modification. While the device can be useful in certain periodic daily life situations, like alarms and exercise notifications, the device relies on manual operations that limit its usage. To automate behaviour modification, we propose a framework that first detects targeted behaviours through a lightweight deep learning model and subsequently nudges the user through Pavlok. Our proposed solution is implemented and verified in the context of snoring, which captures audio from the environment following a prediction of whether the audio content is a snore or not using a 1D convolutional neural network. Based on the prediction, we use Pavlok to nudge users for preventive measures, such as a change in sleeping posture. We believe that this simple solution can help people to change their atomic habits, which may lead to long-term health benefits. Our proposed real-time, lightweight model (99.8% less parameters over SOTA; 1,278,049 --> 1337) achieves SOTA performance (test accuracy of 0.99) on a public domain benchmark. The code and model are publicly available at https://github.com/hasan-rakibul/pavlok-nudge-snore.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# 確率時空間ダイナミクスのための同変ニューラルシミュレータ

Equivariant Neural Simulators for Stochastic Spatiotemporal Dynamics ( http://arxiv.org/abs/2305.14286v3 )

ライセンス: Link先を確認
Koen Minartz, Yoeri Poels, Simon Koop, Vlado Menkovski, (参考訳) ニューラルネットワークは高次元力学系のスケーラブルなデータ駆動シミュレーションのツールとして登場しつつある。 特に、決定論的ニューラルネットワークシミュレータにドメイン対称性を組み込むことで、精度、サンプル効率、パラメータ効率を大幅に改善できることが示されている。 しかし、確率論的現象をシミュレートできる確率論的神経シミュレータに対称性を組み込むためには、同変関数近似ではなく、軌道上の同変分布を生成するモデルが必要である。 本稿では,同変分布の自己回帰的確率論的モデリングの枠組みであるEquivariant Probabilistic Neural Simulation (EPNS)を提案する。 我々はEPNSを用いて確率的n-bodyシステムと確率的セルダイナミクスのモデルの設計を行う。 実験の結果,EPNSは既存のニューラルネットワークを用いた確率的シミュレーション法よりもかなり優れていた。 具体的には、EPNSに等価性を導入することで、シミュレーション品質、データ効率、ロールアウト安定性、不確実性定量化が向上することを示す。 EPNSは,様々な領域において,効率的かつ効率的なデータ駆動確率シミュレーションのための有望な手法である,と結論付けた。

Neural networks are emerging as a tool for scalable data-driven simulation of high-dimensional dynamical systems, especially in settings where numerical methods are infeasible or computationally expensive. Notably, it has been shown that incorporating domain symmetries in deterministic neural simulators can substantially improve their accuracy, sample efficiency, and parameter efficiency. However, to incorporate symmetries in probabilistic neural simulators that can simulate stochastic phenomena, we need a model that produces equivariant distributions over trajectories, rather than equivariant function approximations. In this paper, we propose Equivariant Probabilistic Neural Simulation (EPNS), a framework for autoregressive probabilistic modeling of equivariant distributions over system evolutions. We use EPNS to design models for a stochastic n-body system and stochastic cellular dynamics. Our results show that EPNS considerably outperforms existing neural network-based methods for probabilistic simulation. More specifically, we demonstrate that incorporating equivariance in EPNS improves simulation quality, data efficiency, rollout stability, and uncertainty quantification. We conclude that EPNS is a promising method for efficient and effective data-driven probabilistic simulation in a diverse range of domains.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# 受動性に基づく加速凸最適化法

A Passivity-Based Method for Accelerated Convex Optimisation ( http://arxiv.org/abs/2306.11474v2 )

ライセンス: Link先を確認
Namhoon Cho, Hyo-Sang Shin, (参考訳) 本研究では,連続時間領域における加速凸最適化アルゴリズムの設計手法を提案する。 2つの主要なイネーブルは、制御理論における古典的な通過性の概念と、内部力学系の出力を最適化変数にマッピングする変数の時間依存的な変化である。 最適化力学に関連するリャプノフ関数は、状態進化を受動線形時間不変系として駆動する内部力学を特定する自然な結果として得られる。 パスティビティに基づく手法は、対象関数値に異なる収束率境界が保証された凸最適化アルゴリズムを生成する柔軟性を持つ一般的なフレームワークを提供する。 同じ原理は、内部ダイナミクスの出力を再定義し、トラッキングエラーダイナミクスとのフィードバック相互接続を可能にすることで、適応制御のためのオンラインパラメータ更新アルゴリズムの設計にも適用される。

This study presents a constructive methodology for designing accelerated convex optimisation algorithms in continuous-time domain. The two key enablers are the classical concept of passivity in control theory and the time-dependent change of variables that maps the output of the internal dynamic system to the optimisation variables. The Lyapunov function associated with the optimisation dynamics is obtained as a natural consequence of specifying the internal dynamics that drives the state evolution as a passive linear time-invariant system. The passivity-based methodology provides a general framework that has the flexibility to generate convex optimisation algorithms with the guarantee of different convergence rate bounds on the objective function value. The same principle applies to the design of online parameter update algorithms for adaptive control by re-defining the output of internal dynamics to allow for the feedback interconnection with tracking error dynamics.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# 量子クリロフ部分空間対角化におけるサンプリング誤差解析

Sampling Error Analysis in Quantum Krylov Subspace Diagonalization ( http://arxiv.org/abs/2307.16279v3 )

ライセンス: Link先を確認
Gwonhak Lee, Dongkeun Lee, Joonsuk Huh, (参考訳) 量子クリロフ部分空間対角化(Quantum Krylov subspace diagonalization, QKSD)は、量子回路深度が制限された初期のフォールトトレラント時代の量子位相推定に代えて用いられる新しい手法である。 古典的なKrylov部分空間対角化(KSD)やLanczos法とは対照的に、QKSDは量子コンピュータを利用して、より高速なKrylov射影によって大きなハミルトンの固有値を効率的に推定する。 しかし、機械精度にのみ関心を持つ古典的KSDとは異なり、QKSDは本質的には有限個のサンプルから生じる誤差を伴う。 さらに, 人工直交基底の確立が困難であったため, 条件の悪さがしばしば発生し, 雑音に弱い解が生じる。 本研究では,サンプリングノイズと固有値に対する効果の関係を評価するための漸近的理論フレームワークを提案する。 また,不条件ベースを排除し,大規模条件数に対処する最適解を提案する。 一次元ハバードモデルの数値シミュレーションは、有限サンプリングの誤差境界が良条件領域の実験誤差を正確に予測することを示した。

Quantum Krylov subspace diagonalization (QKSD) is an emerging method used in place of quantum phase estimation in the early fault-tolerant era, where limited quantum circuit depth is available. In contrast to the classical Krylov subspace diagonalization (KSD) or the Lanczos method, QKSD exploits the quantum computer to efficiently estimate the eigenvalues of large-size Hamiltonians through a faster Krylov projection. However, unlike classical KSD, which is solely concerned with machine precision, QKSD is inherently accompanied by errors originating from a finite number of samples. Moreover, due to difficulty establishing an artificial orthogonal basis, ill-conditioning problems are often encountered, rendering the solution vulnerable to noise. In this work, we present a nonasymptotic theoretical framework to assess the relationship between sampling noise and its effects on eigenvalues. We also propose an optimal solution to cope with large condition numbers by eliminating the ill-conditioned bases. Numerical simulations of the one-dimensional Hubbard model demonstrate that the error bound of finite samplings accurately predicts the experimental errors in well-conditioned regions.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# 少量のデータを用いた機械学習診断モデルの新規人口への適応:臨床神経科学の成果

Adapting Machine Learning Diagnostic Models to New Populations Using a Small Amount of Data: Results from Clinical Neuroscience ( http://arxiv.org/abs/2308.03175v2 )

ライセンス: Link先を確認
Rongguang Wang, Guray Erus, Pratik Chaudhari, Christos Davatzikos, (参考訳) 機械学習(ML)は、医療を含む多くの分野に革命をもたらす大きな可能性を示している。 しかし、特に医学において再現性の危機に直面している。 トレーニングセットから慎重に構築され、評価されたMLモデルは、異なる患者集団や取得機器の設定やプロトコルのデータに基づいてうまく一般化できないかもしれない。 我々は、アルツハイマー病(AD)、統合失調症(SZ)、脳老化の神経画像化の文脈でこの問題に取り組む。 対象群からのデータ(例えば、性別、年齢、人種、臨床コホートなど)を最適に組み合わせて、対象群、性別、性別、年齢等の予測を行う重み付き経験的リスク最小化手法を開発した。 本手法は、20の神経画像研究から得られた15,363人のマルチソースデータに応用し、ADとSZの診断のためのMLモデルを構築し、脳年齢を推定する。 提案手法は,AD分類で0.95以上,SZ分類で0.7以上,脳年齢予測で5年未満で絶対誤差が得られ,スキャナ,プロトコル,人口統計学的特徴の変動に対する堅牢性を実現している。 より大きなトレーニングセットの多様性とサイズを活用するため、ターゲットグループのすべてのデータをトレーニングするよりも、さらによい場合もあります。 また,軽度認知障害者における疾患進行の予測など,予後タスクのためのモデルの有用性を実証した。 批判的に、我々の脳年齢予測モデルは、神経生理学的検査との相関に関する新しい臨床的洞察をもたらす。

Machine learning (ML) has shown great promise for revolutionizing a number of areas, including healthcare. However, it is also facing a reproducibility crisis, especially in medicine. ML models that are carefully constructed from and evaluated on a training set might not generalize well on data from different patient populations or acquisition instrument settings and protocols. We tackle this problem in the context of neuroimaging of Alzheimer's disease (AD), schizophrenia (SZ) and brain aging. We develop a weighted empirical risk minimization approach that optimally combines data from a source group, e.g., subjects are stratified by attributes such as sex, age group, race and clinical cohort to make predictions on a target group, e.g., other sex, age group, etc. using a small fraction (10%) of data from the target group. We apply this method to multi-source data of 15,363 individuals from 20 neuroimaging studies to build ML models for diagnosis of AD and SZ, and estimation of brain age. We found that this approach achieves substantially better accuracy than existing domain adaptation techniques: it obtains area under curve greater than 0.95 for AD classification, area under curve greater than 0.7 for SZ classification and mean absolute error less than 5 years for brain age prediction on all target groups, achieving robustness to variations of scanners, protocols, and demographic or clinical characteristics. In some cases, it is even better than training on all data from the target group, because it leverages the diversity and size of a larger training set. We also demonstrate the utility of our models for prognostic tasks such as predicting disease progression in individuals with mild cognitive impairment. Critically, our brain age prediction models lead to new clinical insights regarding correlations with neurophysiological tests.
翻訳日:2024-09-16 23:56:50 公開日:2024-09-13
# Diverse Neural Audio Embeddings -- 機能復活!

Diverse Neural Audio Embeddings -- Bringing Features back ! ( http://arxiv.org/abs/2309.08751v2 )

ライセンス: Link先を確認
Prateek Verma, (参考訳) 現代のAIアーキテクチャの出現により、エンドツーエンドアーキテクチャへのシフトが起こった。 このピボットは、タスクに応じて最適化されたドメイン固有のバイアス/知識なしで、ニューラルネットワークをトレーニングするきっかけとなった。 本稿では,多様な特徴表現を用いて音声埋め込みを学習する。 音のカテゴリー別に分類する場合、ピッチ、音色、ニューラル表現などの様々な音響特性に対して頑健な個別の埋め込みを学習するとともに、エンドツーエンドのアーキテクチャを通して学習する。 手作りの埋め込み、例えばピッチや音色ベースの埋め込みは、それ自体では完全なエンドツーエンドの表現には勝てないが、それらをエンドツーエンドの埋め込みと組み合わせることで、パフォーマンスが大幅に向上する。 この作業は、エンド・ツー・エンドのモデルにドメインの専門知識を導入して、堅牢で多様な表現を学び、エンド・ツー・エンドのモデルをトレーニングするだけのパフォーマンスを上回ります。

With the advent of modern AI architectures, a shift has happened towards end-to-end architectures. This pivot has led to neural architectures being trained without domain-specific biases/knowledge, optimized according to the task. We in this paper, learn audio embeddings via diverse feature representations, in this case, domain-specific. For the case of audio classification over hundreds of categories of sound, we learn robust separate embeddings for diverse audio properties such as pitch, timbre, and neural representation, along with also learning it via an end-to-end architecture. We observe handcrafted embeddings, e.g., pitch and timbre-based, although on their own, are not able to beat a fully end-to-end representation, yet adding these together with end-to-end embedding helps us, significantly improve performance. This work would pave the way to bring some domain expertise with end-to-end models to learn robust, diverse representations, surpassing the performance of just training end-to-end models.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# 長期学習のための創発的メカニズムは訓練カリキュラムに依存し、記憶タスクのパフォーマンスに影響を及ぼす

Emergent mechanisms for long timescales depend on training curriculum and affect performance in memory tasks ( http://arxiv.org/abs/2309.12927v2 )

ライセンス: Link先を確認
Sina Khajehabdollahi, Roxana Zeraati, Emmanouil Giannakakis, Tim Jakob Schäfer, Georg Martius, Anna Levina, (参考訳) 脳内のリカレントニューラルネットワーク(RNN)とサイリコ内のリカレントニューラルネットワークは、複雑な時間依存性を持つタスクの解決に優れています。 このような課題を解決するのに必要な長い時間スケールは、個々のニューロンの特性(単一ニューロンの時間スケール、$\tau$, eg, 生体ニューロンの膜時間定数)や、それらの間の反復的な相互作用(ネットワーク経由の時間スケール)から生じる。 しかし、メモリ依存タスクを最適に解くための各メカニズムの貢献は、いまだに理解されていない。 ここでは、繰り返し重みと$\tau$sを同時に最適化することにより、$N$で制御されるメモリ要求を増大させることで、$N$-parityと$N$-delayed Match-to-sampleタスクを解決するようにRNNを訓練する。 どちらのタスクにおいても、RNNはより長い時間スケールでN$を増大させるが、学習目標によって異なるメカニズムを使用する。 2つの異なるカリキュラムは学習目標を定義する: 単一のN$(シングルヘッド)の逐次学習または複数のN$(マルチヘッド)の同時学習。 シングルヘッドネットワークは$\tau$を$N$で増加させ、大きな$N$のタスクを解決できるが、それらは破滅的な忘れ込みに悩まされている。 しかし、複数の同時メモリを明示的に保持するために要求されるマルチヘッドネットワークは、$\tau$を一定に保ち、繰り返し接続を通じてより長い時間スケールを開発する。 さらに,マルチヘッドカリキュラムは,トレーニング速度とネットワーク安定性を向上し,緩和や摂動に寄与し,RNNがトレーニング体制を超えたタスクにもっと一般化できることを示す。 このカリキュラムは、大規模なN$タスクのためのGRUとLSTMのトレーニングも大幅に改善する。 この結果から,タスク要求に対する時間スケールの適用により,より複雑な目標の学習が可能になり,RNNの性能が向上することが示唆された。

Recurrent neural networks (RNNs) in the brain and in silico excel at solving tasks with intricate temporal dependencies. Long timescales required for solving such tasks can arise from properties of individual neurons (single-neuron timescale, $\tau$, e.g., membrane time constant in biological neurons) or recurrent interactions among them (network-mediated timescale). However, the contribution of each mechanism for optimally solving memory-dependent tasks remains poorly understood. Here, we train RNNs to solve $N$-parity and $N$-delayed match-to-sample tasks with increasing memory requirements controlled by $N$ by simultaneously optimizing recurrent weights and $\tau$s. We find that for both tasks RNNs develop longer timescales with increasing $N$, but depending on the learning objective, they use different mechanisms. Two distinct curricula define learning objectives: sequential learning of a single-$N$ (single-head) or simultaneous learning of multiple $N$s (multi-head). Single-head networks increase their $\tau$ with $N$ and are able to solve tasks for large $N$, but they suffer from catastrophic forgetting. However, multi-head networks, which are explicitly required to hold multiple concurrent memories, keep $\tau$ constant and develop longer timescales through recurrent connectivity. Moreover, we show that the multi-head curriculum increases training speed and network stability to ablations and perturbations, and allows RNNs to generalize better to tasks beyond their training regime. This curriculum also significantly improves training GRUs and LSTMs for large-$N$ tasks. Our results suggest that adapting timescales to task requirements via recurrent interactions allows learning more complex objectives and improves the RNN's performance.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# ICU受信予測のための説明可能な機械学習

Explainable Machine Learning for ICU Readmission Prediction ( http://arxiv.org/abs/2309.13781v4 )

ライセンス: Link先を確認
Alex G. C. de Sá, Daniel Gould, Anna Fedyukova, Mitchell Nicholas, Lucy Dockrell, Calvin Fletcher, David Pilcher, Daniel Capurro, David B. Ascher, Khaled El-Khawas, Douglas E. V. Pires, (参考訳) 集中治療ユニット(ICU)は複雑な病院環境を含み、臨床医による決定は患者の生活に高いリスクをもたらす。 次に、pの合併症を減らすため、包括的ケア経路に従う必要がある。 この環境における不確かで競合し、計画されていない側面は、ケアパスを均一に実施することの難しさを増大させる。 寛容は、この経路の難しさに寄与し、患者が短期間でICUに再入院した場合、高い死亡率と高い資源利用をもたらす。 いくつかの研究が患者の医療情報を通じて寛解を予測しようと試みている。 可読性予測においてある程度の成功例があるが、それらの研究は適切な評価や特徴付け、可読性予測の理解には至っていない。 本研究は,多心性データベース(eICUコホートが166,355人,200,859人,6,021人)上で患者寛解をモデル化し,単心性(MIMIC IVコホートが382,278人,523,740人,5,984人)と多心性設定で検証する,標準化された説明可能な機械学習パイプラインを提案する。 我々の機械学習パイプラインは、ランダムフォレスト分類モデルを用いて、受信機動作特性曲線(AUC)の面積を最大0.7まで予測し、全体的な校正と検証セットの整合性を実現した。 構築されたモデルによって提供される説明から,本研究は, バイタルサインや血液検査(例えば, アルブミン, 尿素窒素, ヘモグロビン濃度), 人口動態(eg, 年齢, 入院高さ, 体重), ICU関連変数(eg, 単位型)など, 洞察に富んだ結論を導出した。 これらの知見は、ICU患者を退院させながら、臨床医の意思決定において貴重な情報源を提供する。

The intensive care unit (ICU) comprises a complex hospital environment, where decisions made by clinicians have a high level of risk for the patients' lives. A comprehensive care pathway must then be followed to reduce p complications. Uncertain, competing and unplanned aspects within this environment increase the difficulty in uniformly implementing the care pathway. Readmission contributes to this pathway's difficulty, occurring when patients are admitted again to the ICU in a short timeframe, resulting in high mortality rates and high resource utilisation. Several works have tried to predict readmission through patients' medical information. Although they have some level of success while predicting readmission, those works do not properly assess, characterise and understand readmission prediction. This work proposes a standardised and explainable machine learning pipeline to model patient readmission on a multicentric database (i.e., the eICU cohort with 166,355 patients, 200,859 admissions and 6,021 readmissions) while validating it on monocentric (i.e., the MIMIC IV cohort with 382,278 patients, 523,740 admissions and 5,984 readmissions) and multicentric settings. Our machine learning pipeline achieved predictive performance in terms of the area of the receiver operating characteristic curve (AUC) up to 0.7 with a Random Forest classification model, yielding an overall good calibration and consistency on validation sets. From explanations provided by the constructed models, we could also derive a set of insightful conclusions, primarily on variables related to vital signs and blood tests (e.g., albumin, blood urea nitrogen and hemoglobin levels), demographics (e.g., age, and admission height and weight), and ICU-associated variables (e.g., unit type). These insights provide an invaluable source of information during clinicians' decision-making while discharging ICU patients.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# IBoxCLA: 改良されたボックスダイスとコントラスト遅延アンカーによるポリープのロバストボックス制御セグメンテーションを目指して

IBoxCLA: Towards Robust Box-supervised Segmentation of Polyp via Improved Box-dice and Contrastive Latent-anchors ( http://arxiv.org/abs/2310.07248v4 )

ライセンス: Link先を確認
Zhiwei Wang, Qiang Hu, Hongkuan Shi, Li He, Man He, Wenxuan Dai, Yinjiao Tian, Xin Yang, Mei Liu, Qiang Li, (参考訳) 箱監督型ポリープセグメンテーションは、そのコスト効果の可能性に注目が集まる。 既存のソリューションは、しばしば学習自由な方法や事前訓練されたモデルに頼り、疑似マスクを熱心に生成し、その後にDiceの制約が引き起こされる。 本稿では,最も単純な箱詰めマスクによって導かれるモデルが,ポリプの位置/サイズを正確に予測できるが,形状の崩壊に悩まされていることを発見した。 そこで我々は,IBox-dice (IBox) とContrastive Latent-Anchors (CLA) の2つの革新的な学習手法を提案し,それらを組み合わせて頑健な箱教師モデル IBoxCLA を訓練する。 IBoxCLAの背景にある基本的な考え方は、位置/サイズと形状の学習を分離し、それぞれに制約を集中させることである。 具体的には、IBoxは分割マップをシェイプデカップリングと混乱領域スワップを用いてプロキシマップに変換する。 プロキシマップ内では、形状が切り離され、場所/サイズがボックスのような応答としてエンコードされる。 ボックス満載マスクは、生の予測ではなくプロキシマップを制約することにより、形状学習を誤解することなく、IBoxCLAを十分に監視することができる。 さらに、CLAは2種類の潜伏アンカーを生成し、モーメントとセグメンテーションポリープを用いて学習・更新し、ポリプとバックグラウンドの特徴を着実に表現することで形状学習に寄与する。 潜伏アンカーは、IBoxCLAが箱内および外部の識別的特徴を対照的に捉え、より明確な境界をもたらす。 IBoxCLAを5つの公開ポリプデータセットでベンチマークする。 実験の結果,IBoxCLAの競合性能は,最近の完全教師付きポリープセグメンテーション法と比較して,mDiceとmIoUをそれぞれ6.5%以上,mIoUを7.5%以上増加させた他のボックス教師型技術よりも優れていた。

Box-supervised polyp segmentation attracts increasing attention for its cost-effective potential. Existing solutions often rely on learning-free methods or pretrained models to laboriously generate pseudo masks, triggering Dice constraint subsequently. In this paper, we found that a model guided by the simplest box-filled masks can accurately predict polyp locations/sizes, but suffers from shape collapsing. In response, we propose two innovative learning fashions, Improved Box-dice (IBox) and Contrastive Latent-Anchors (CLA), and combine them to train a robust box-supervised model IBoxCLA. The core idea behind IBoxCLA is to decouple the learning of location/size and shape, allowing for focused constraints on each of them. Specifically, IBox transforms the segmentation map into a proxy map using shape decoupling and confusion-region swapping sequentially. Within the proxy map, shapes are disentangled, while locations/sizes are encoded as box-like responses. By constraining the proxy map instead of the raw prediction, the box-filled mask can well supervise IBoxCLA without misleading its shape learning. Furthermore, CLA contributes to shape learning by generating two types of latent anchors, which are learned and updated using momentum and segmented polyps to steadily represent polyp and background features. The latent anchors facilitate IBoxCLA to capture discriminative features within and outside boxes in a contrastive manner, yielding clearer boundaries. We benchmark IBoxCLA on five public polyp datasets. The experimental results demonstrate the competitive performance of IBoxCLA compared to recent fully-supervised polyp segmentation methods, and its superiority over other box-supervised state-of-the-arts with a relative increase of overall mDice and mIoU by at least 6.5% and 7.5%, respectively.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# ブラックボックス型ソーシャルレコメンデーションに対するマルチエージェントアタック

Multi-agent Attacks for Black-box Social Recommendations ( http://arxiv.org/abs/2311.07127v3 )

ライセンス: Link先を確認
Wenqi Fan, Shijie Wang, Xiao-yong Wei, Xiaowei Mei, Shanru Lin, Qing Li, (参考訳) オンラインソーシャルネットワークの興隆は、ユーザの意思決定プロセスを強化するために社会的関係を組み込んだソーシャルレコメンデーションシステムの進化を促している。 ノード表現の学習においてグラフニューラルネットワーク(GNN)が大きな成功を収めたことにより、GNNベースのソーシャルレコメンデーションは、ユーザ-イテムインタラクションとユーザ-ユーザ関係を同時にモデル化するために広く研究されている。 彼らの大きな成功にもかかわらず、最近の研究では、これらの先進的なレコメンデーターシステムは、攻撃者がよく設計された偽のユーザープロフィールを注入してレコメンデーションパフォーマンスを妨害できる敵攻撃に対して非常に脆弱であることが示されている。 既存のほとんどの研究は、主にバニラレコメンデーターシステムにおけるターゲットアイテムのプロモートを目的としたターゲットアタックに焦点を当てているが、全体的な予測性能を低下させるターゲットのないアタックは、ブラックボックスシナリオ下での社会的レコメンデーションでは調査されていない。 ソーシャルレコメンデーションシステムに対する未ターゲティング攻撃を実行するために、攻撃者は偽ユーザーのための悪意あるソーシャル関係を構築して攻撃性能を高めることができる。 しかし,ブラックボックス・ソーシャル・レコメンデーションの攻撃には,ソーシャル・リレーションとアイテム・プロファイルの連携が困難である。 この制限に対処するために,我々はまず,コミュニティ間接続とコールドスタート項目が推奨性能の劣化に有効であることを示すための予備的研究を行った。 具体的には,ブラックボックス型ソーシャルレコメンデーションに対する未目標攻撃を行うために,マルチエージェント強化学習に基づくマルチアタック(MultiAttack)を提案する。 様々な実世界のデータセットに対する総合的な実験は、ブラックボックス設定下での攻撃フレームワークの有効性を実証する。

The rise of online social networks has facilitated the evolution of social recommender systems, which incorporate social relations to enhance users' decision-making process. With the great success of Graph Neural Networks (GNNs) in learning node representations, GNN-based social recommendations have been widely studied to model user-item interactions and user-user social relations simultaneously. Despite their great successes, recent studies have shown that these advanced recommender systems are highly vulnerable to adversarial attacks, in which attackers can inject well-designed fake user profiles to disrupt recommendation performances. While most existing studies mainly focus on argeted attacks to promote target items on vanilla recommender systems, untargeted attacks to degrade the overall prediction performance are less explored on social recommendations under a black-box scenario. To perform untargeted attacks on social recommender systems, attackers can construct malicious social relationships for fake users to enhance the attack performance. However, the coordination of social relations and item profiles is challenging for attacking black-box social recommendations. To address this limitation, we first conduct several preliminary studies to demonstrate the effectiveness of cross-community connections and cold-start items in degrading recommendations performance. Specifically, we propose a novel framework MultiAttack based on multi-agent reinforcement learning to coordinate the generation of cold-start item profiles and cross-community social relations for conducting untargeted attacks on black-box social recommendations. Comprehensive experiments on various real-world datasets demonstrate the effectiveness of our proposed attacking framework under the black-box setting.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# FRAC-Q-Learning:社会ロボットのためのボレドム回避プロセスによる強化学習

FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots ( http://arxiv.org/abs/2311.15327v5 )

ライセンス: Link先を確認
Akinari Onishi, (参考訳) 強化学習アルゴリズムはしばしば社会ロボットに適用されている。 しかし、ほとんどの強化学習アルゴリズムはソーシャルロボットの使用に最適化されておらず、従ってユーザを惹きつける可能性がある。 我々は,ソーシャルロボットであるFRAC-Q学習に特化した新しい強化学習手法を提案した。 提案アルゴリズムは,プロセスのランダム化と分類に加えて,忘れるプロセスから構成される。 本研究は,従来のQ-ラーニングとの比較により,FRAC-Q-ラーニングの関心度と退屈度スコアを評価した。 FRAC-Qラーニングは,従来のQラーニングに比べて関心度が高い傾向を示し,利用者のブーイングが著しく困難であった。 そのため、FRAC-Q学習は、ユーザーを困らせない社会ロボットの開発に寄与することができる。 提案アルゴリズムは、Webベースのコミュニケーションと教育システムに適用できる可能性がある。 本稿では,FRAC-Q学習のプロセス全体,詳細な実装,詳細な評価方法について述べる。

The reinforcement learning algorithms have often been applied to social robots. However, most reinforcement learning algorithms were not optimized for the use of social robots, and consequently they may bore users. We proposed a new reinforcement learning method specialized for the social robot, the FRAC-Q-learning, that can avoid user boredom. The proposed algorithm consists of a forgetting process in addition to randomizing and categorizing processes. This study evaluated interest and boredom hardness scores of the FRAC-Q-learning by a comparison with the traditional Q-learning. The FRAC-Q-learning showed significantly higher trend of interest score, and indicated significantly harder to bore users compared to the traditional Q-learning. Therefore, the FRAC-Q-learning can contribute to develop a social robot that will not bore users. The proposed algorithm has a potential to apply for Web-based communication and educational systems. This paper presents the entire process, detailed implementation and a detailed evaluation method of the of the FRAC-Q-learning for the first time.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# RoboGPT : 日常指導における長期的意思決定を具体化する知的エージェント

RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks ( http://arxiv.org/abs/2311.15649v3 )

ライセンス: Link先を確認
Yaran Chen, Wenbo Cui, Yuanwen Chen, Mining Tan, Xinyao Zhang, Dongbin Zhao, He Wang, (参考訳) ロボットエージェントは、自然言語による日々のタスクを解決するために、常識と長期的なシーケンシャルな決定をマスターする必要がある。 自然言語処理におけるLarge Language Models (LLMs) の発展は、複雑なロボット計画においてLLMを使うことへの取り組みにインスピレーションを与えている。 LLMの大きな一般化と命令タスクの理解にもかかわらず、LLMの生成したタスクプランは実現可能性と正確性に欠けることがある。 この問題に対処するため、RoboGPTエージェント\footnote{our code and dataset will released} for embodied long-term decision for daily tasks with two module。 1) 業務を複数のサブゴールに分割する再計画によるLCMに基づく計画 2)RoboSkillは,より優れたナビゲーションと操作技術を学ぶために,サブゴール用に個別に設計されている。 LLMsベースのプランニングは、RoboGPTと呼ばれる新しいロボットデータセットと再計画によって強化されている。 新しいロボットデータセットは、Llamaモデルを微調整し、RoboGPTを取得するために、毎日67万のトレーニングタスクを収集する。 強力な一般化のRoboGPTプランナは、毎日数百の命令タスクを計画できる。 さらに、低計算のRe-Planモジュールは、計画が環境に柔軟に適応できるように設計されており、命名上の多様性の課題に対処している。 提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。 さらに、RoboGPTプランナーは、数百の目に見えない日々のタスクやドメインタスクのタスク計画合理性において、ChatGPTのようなSOTA LLMベースのプランナーを超え、大きなモデルの本来の広範な応用と汎用性を維持している。

Robotic agents must master common sense and long-term sequential decisions to solve daily tasks through natural language instruction. The developments in Large Language Models (LLMs) in natural language processing have inspired efforts to use LLMs in complex robot planning. Despite LLMs' great generalization and comprehension of instruction tasks, LLMs-generated task plans sometimes lack feasibility and correctness. To address the problem, we propose a RoboGPT agent\footnote{our code and dataset will be released soon} for making embodied long-term decisions for daily tasks, with two modules: 1) LLMs-based planning with re-plan to break the task into multiple sub-goals; 2) RoboSkill individually designed for sub-goals to learn better navigation and manipulation skills. The LLMs-based planning is enhanced with a new robotic dataset and re-plan, called RoboGPT. The new robotic dataset of 67k daily instruction tasks is gathered for fine-tuning the Llama model and obtaining RoboGPT. RoboGPT planner with strong generalization can plan hundreds of daily instruction tasks. Additionally, a low-computational Re-Plan module is designed to allow plans to flexibly adapt to the environment, thereby addressing the nomenclature diversity challenge. The proposed RoboGPT agent outperforms SOTA methods on the ALFRED daily tasks. Moreover, RoboGPT planner exceeds SOTA LLM-based planners like ChatGPT in task-planning rationality for hundreds of unseen daily tasks, and even other domain tasks, while keeping the large model's original broad application and generality.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# 時系列における事象検出:ユニバーサルディープラーニングアプローチ

Event Detection in Time Series: Universal Deep Learning Approach ( http://arxiv.org/abs/2311.15654v3 )

ライセンス: Link先を確認
Menouar Azib, Benjamin Renard, Philippe Garnier, Vincent Génot, Nicolas André, (参考訳) 時系列におけるイベント検出は、不均衡なデータセット、まれなイベント、時間間隔定義イベントの頻度のため、困難なタスクである。 従来の教師付きディープラーニング手法では、主にバイナリ分類を採用しており、各ステップにはイベントの有無を示すバイナリラベルが割り当てられている。 しかし、これらの手法はこれらの特定のシナリオを効果的に扱うのに苦労する。 これらの制約に対処するために,分類に基づく手法よりもいくつかの利点を提供する,教師付き回帰に基づくディープラーニング手法を提案する。 パラメータが限られているこのアプローチでは、まれなイベントや不均衡なデータセットを含む、統一されたフレームワーク内で、さまざまな種類のイベントを効果的に処理することが可能です。 我々は,その普遍性と精度を理論的に正当化し,様々な領域,特に稀な事象や不均衡なデータセットにおいて,その優れた性能を示す。

Event detection in time series is a challenging task due to the prevalence of imbalanced datasets, rare events, and time interval-defined events. Traditional supervised deep learning methods primarily employ binary classification, where each time step is assigned a binary label indicating the presence or absence of an event. However, these methods struggle to handle these specific scenarios effectively. To address these limitations, we propose a novel supervised regression-based deep learning approach that offers several advantages over classification-based methods. Our approach, with a limited number of parameters, can effectively handle various types of events within a unified framework, including rare events and imbalanced datasets. We provide theoretical justifications for its universality and precision and demonstrate its superior performance across diverse domains, particularly for rare events and imbalanced datasets.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# 一般化された$α$-観測エントロピーと熱力学エントロピー生成

Generalized $α$-Observational Entropy and Thermodynamic Entropy Production ( http://arxiv.org/abs/2312.03572v2 )

ライセンス: Link先を確認
Shivam Sinha, Nripendra Majumbdar, S. Aravinda, (参考訳) フォン・ノイマン・エントロピーのような伝統的なエントロピーの測度は、量子情報理論において基本的なものであるが、孤立系において観測されるエントロピーの増加と矛盾するユニタリ変換の下での熱力学的エントロピーとして解釈すると不十分である。 熱力学的エントロピーのこの制限を認識した最近の研究は、観測エントロピー(OE)を実用的な応用可能性と理論的洞察を提供する有望な代替手段として重視している。 本研究では、観測エントロピーの範囲を$\alpha$-Observational entropy ("\alpha$-OE")と呼ばれるパラメータ化バージョンに一般化することで拡張する。 $\alpha$-OE は、量子-古典チャネルが適用される状態の間のペッツ-R\'{e}nyi相対エントロピーで表される。 $\alpha$-OE は $\alpha\rightarrow 1$ で OE に還元される。 OE の性質の一般化である $\alpha$-OE の様々な性質を証明し、粗粒微細化の関数として $\alpha$-OE の単調増加を含む。 さらに、熱力学的文脈における$\alpha$-OEの役割、特に開かつ閉量子系におけるエントロピー生成とヘルムホルツ自由エネルギーとの関係について調べる。

Traditional measures of entropy, like the Von Neumann entropy, while fundamental in quantum information theory, are insufficient when interpreted as thermodynamic entropy due to their invariance under unitary transformations, which contradicts observed entropy increases in isolated systems. Recognizing this limitations of existing measures for thermodynamic entropy, recent research has focused on observational entropy (OE) as a promising alternative, offering practical applicability and theoretical insights. In this work, we extend the scope of observational entropy by generalizing it to a parameterized version called $\alpha$-Observational entropy ($\alpha$-OE). $\alpha$-OE is expressed in terms of the Petz-R\'{e}nyi relative entropy between the states on which a quantum-to-classical channel is applied. The $\alpha$-OE reduces to OE under $\alpha\rightarrow 1$. We prove various properties of the $\alpha$-OE, which are the generalization of the properties of OE, including the monotonically increasing of $\alpha$-OE as a function of refinement of coarse-graining. We further explore the role of $\alpha$-OE in thermodynamic contexts, particularly for the entropy production in open and closed quantum systems and its relation with the Helmholtz free energy.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# 楕円曲線を用いたステルスアドレスプロトコル

Elliptic Curve Pairing Stealth Address Protocols ( http://arxiv.org/abs/2312.12131v3 )

ライセンス: Link先を確認
Marija Mikic, Mihajlo Srbakoski, (参考訳) ブロックチェーントランザクションのプライバシを保護することは、ユーザにとって非常に重要です。 ステルスアドレスプロトコル(SAP)は、ステルスのメタアドレスに関連付けられないステルスアドレスを通じて、ユーザーが資産を受け取ることを可能にする。 SAPは異なる暗号手法で生成できる。 DKSAPは楕円曲線の乗算と共有秘密のハッシュを使用する。 もう1つのアプローチは楕円曲線ペアリングを使うことである。 本稿では,楕円曲線ペアリングを暗号解として用いた4つのSAプロトコルを提案する。 ECPDKSAPはペアリングベースのプロトコルであり、ECPSKSAPはペアリングベースのプロトコルであり、消費と視聴キーが導出される単一のキーを使用する。 ビュータグによるDKSAPよりもECPDKSAPの方がはるかに優れた結果が得られた。 最高の結果は、EthereumフレンドリーなProtocol 3 (Elliptic Curve Pairing Dual Key Stealth Address Protocol) で達成される。 ECPSKSAPは非常に遅いが、1つの秘密鍵のみを使用するため、興味深い理論的結果をもたらす。

Protecting the privacy of blockchain transactions is extremely important for users. Stealth address protocols (SAP) allow users to receive assets via stealth addresses that they do not associate with their stealth meta-addresses. SAP can be generated using different cryptographic approaches. DKSAP uses an elliptic curve multiplication and hashing of the resulting shared secret. Another approach is to use a elliptic curve pairing. This paper presents four SA protocols that use elliptic curve pairing as a cryptographic solution. ECPDKSAPs are pairing-based protocols that include viewing key and spending key, while ECPSKSAP is a pairing-based protocol that uses a single key with which spending and the viewing key are derived. We find that ECPDKSAPs give significantly better results than DKSAP with the view tag. The best results are achieved with Protocol 3 (Elliptic Curve Pairing Dual Key Stealth Address Protocol), which is Ethereum-friendly. ECPSKSAP is significantly slower, but it provides an interesting theoretical result as it uses only one private key.
翻訳日:2024-09-16 23:47:01 公開日:2024-09-13
# 境界カオス:スペクトル形状因子

Boundary Chaos: Spectral Form Factor ( http://arxiv.org/abs/2312.12452v2 )

ライセンス: Link先を確認
Felix Fritzsch, Tomaž Prosen, (参考訳) ランダム行列スペクトル相関は量子カオスの定義的な特徴である。 ここでは,このような相関関係を,スペクトル形状因子とそのゆらぎの観点から,システムの境界に相互作用が限定されるカオス多体量子力学の最小モデルを用いて検討する。 我々は、ランダム境界相互作用の異なるクラスに対して、大きな局所ヒルベルト空間次元$q$の極限において、後者を正確に計算し、ランダム行列理論(おそらくはゼロのチューレス時間の後)と一致するものを見つける。 後者の効果は、整数時間とシステムサイズが共鳴条件を満たすとき、スペクトル形成因子の劇的な拡張によるものである。 半古典的(大きな$q$)の結果と小さな局所ヒルベルト空間次元(q=2,3$)の数値を比較し、半古典的体系のように質的に類似した特徴を観察する。

Random matrix spectral correlations is a defining feature of quantum chaos. Here, we study such correlations in a minimal model of chaotic many-body quantum dynamics where interactions are confined to the system's boundary, dubbed \textit{boundary chaos}, in terms of the spectral form factor and its fluctuations. We exactly calculate the latter in the limit of large local Hilbert space dimension $q$ for different classes of random boundary interactions and find it to coincide with random matrix theory, possibly after a non-zero Thouless time. The latter effect is due to a drastic enhancement of the spectral form factor, when integer time and system size fulfill a resonance condition. We compare our semiclassical (large $q$) results with numerics at small local Hilbert space dimension ($q=2,3$) and observe qualitatively similar features as in the semiclassical regime.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# Smoothed Gradient Outer Productsによる中央平均部分空間の効率的な推定

Efficient Estimation of the Central Mean Subspace via Smoothed Gradient Outer Products ( http://arxiv.org/abs/2312.15469v2 )

ライセンス: Link先を確認
Gan Yuan, Mingyue Xu, Samory Kpotufe, Daniel Hsu, (参考訳) 多次元モデルに対する十分次元還元(SDR)の問題を考える。 先行研究における中心平均部分空間の推定子は、遅い(非パラメトリック)収束率を持つか、あるいは強い分布条件に依存する(例えば、共変数分布 $P_{\mathbf{X}}$ は楕円対称である)。 本稿では, 正規分布の一般クラスに対して, $C_d \cdot n^{-1/2}$ の高速パラメトリック収束速度が \emph{expected smoothed outer product} を推定することにより達成可能であることを示す。 リンク関数が少なくとも$r$と$P_{\mathbf{X}}$の次数を持つ多項式であるとき、プレファクタは周囲次元$d$ as $C_d \propto d^r$に依存することを示す。

We consider the problem of sufficient dimension reduction (SDR) for multi-index models. The estimators of the central mean subspace in prior works either have slow (non-parametric) convergence rates, or rely on stringent distributional conditions (e.g., the covariate distribution $P_{\mathbf{X}}$ being elliptical symmetric). In this paper, we show that a fast parametric convergence rate of form $C_d \cdot n^{-1/2}$ is achievable via estimating the \emph{expected smoothed gradient outer product}, for a general class of distribution $P_{\mathbf{X}}$ admitting Gaussian or heavier distributions. When the link function is a polynomial with a degree of at most $r$ and $P_{\mathbf{X}}$ is the standard Gaussian, we show that the prefactor depends on the ambient dimension $d$ as $C_d \propto d^r$.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# 薬物特性予測のための多モード融合深層学習における化学言語と分子グラフの統合

Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction ( http://arxiv.org/abs/2312.17495v2 )

ライセンス: Link先を確認
Xiaohua Lu, Liangxu Xie, Lei Xu, Rongzhi Mao, Shan Chang, Xiaojun Xu, (参考訳) 分子特性の正確な予測は、薬物発見において難しいが必須の課題である。 近年,分子特性予測に多くのモノモーダル深層学習法が適用されている。 しかし、モノモーダル学習の本質的な制限は、分子表現の1つのモダリティにのみ依存することであり、薬物分子の包括的理解を制限し、データノイズに対する耐性を損なう。 この制限を克服するため,分子表現の異なるマルチモーダル深層学習モデルを構築した。 薬物分子を3つの分子表現、SMILES符号化ベクター、ECFP指紋、分子グラフに変換する。 モーダル情報処理には、トランスフォーマーエンコーダ、双方向ゲートリカレントユニット(BiGRU)、グラフ畳み込みネットワーク(GCN)をそれぞれ利用し、相補的および自然的に発生する生体情報を取得するモデル能力を向上することができる。 6分子データセットを用いた3重モードモデルの評価を行った。 バイモーダル学習モデルと異なり、特定の特徴を捕捉し、各モーダル情報の寄与をよりよく活用するための5つの融合手法を採用する。 モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。 さらに,PDBbindの精製集合におけるタンパク質-リガンド複合体分子の結合定数の予測における一般化能力を示す。 マルチモーダルモデルの利点は、適切なモデルと適切な融合法を用いて多様なデータソースを処理できることにある。

Accurately predicting molecular properties is a challenging but essential task in drug discovery. Recently, many mono-modal deep learning methods have been successfully applied to molecular property prediction. However, the inherent limitation of mono-modal learning arises from relying solely on one modality of molecular representation, which restricts a comprehensive understanding of drug molecules and hampers their resilience against data noise. To overcome the limitations, we construct multimodal deep learning models to cover different molecular representations. We convert drug molecules into three molecular representations, SMILES-encoded vectors, ECFP fingerprints, and molecular graphs. To process the modal information, Transformer-Encoder, bi-directional gated recurrent units (BiGRU), and graph convolutional network (GCN) are utilized for feature learning respectively, which can enhance the model capability to acquire complementary and naturally occurring bioinformatics information. We evaluated our triple-modal model on six molecule datasets. Different from bi-modal learning models, we adopt five fusion methods to capture the specific features and leverage the contribution of each modal information better. Compared with mono-modal models, our multimodal fused deep learning (MMFDL) models outperform single models in accuracy, reliability, and resistance capability against noise. Moreover, we demonstrate its generalization ability in the prediction of binding constants for protein-ligand complex molecules in the refined set of PDBbind. The advantage of the multimodal model lies in its ability to process diverse sources of data using proper models and suitable fusion methods, which would enhance the noise resistance of the model while obtaining data diversity.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# 要求品質の因果推論のためのベイズ解析の適用:制御実験

Applying Bayesian Data Analysis for Causal Inference about Requirements Quality: A Controlled Experiment ( http://arxiv.org/abs/2401.01154v3 )

ライセンス: Link先を確認
Julian Frattini, Davide Fucci, Richard Torkar, Lloyd Montgomery, Michael Unterkalmsteiner, Jannik Fischbach, Daniel Mendez, (参考訳) 要求仕様の品質がその後のソフトウェアエンジニアリング活動に影響を与えることは一般的に受け入れられている。 しかし、これらの要件が十分であるかどうか、あるいはその後の活動を妨げるかどうかを判断する上で、組織を支援するための実証的な証拠は依然として欠如している。 この要件に依存するソフトウェアエンジニアリング活動において,要求品質の欠陥が持つ影響について,実証的な証拠の提供を目的としている。 業界と大学の25人の参加者が、異なる品質欠陥を含む4つの自然言語要件からドメインモデルを生成する制御実験を行った。 ベイジアンデータの頻度分析とベイジアンデータ解析の両方を用いて,得られたモデルを評価する。 私たちの期待とは対照的に、受動的音声の使用は、結果のドメインモデルに小さな影響しか与えないことを示す。 しかし、あいまいな代名詞の使用は、結果として生じるドメインモデルの様々な性質に強い影響を示す。 特に、曖昧な代名詞は、ドメインモデルにおける誤った関連をもたらす。 文学的手法や頻繁な手法に等しく反対されているにもかかわらず、ベイジアンのデータ分析は、調査された2つの品質欠陥がソフトウェアエンジニアリング活動に大きく異なる影響を与えることを示しており、したがって、異なるレベルの注意に値することを示している。 提案手法は,要求品質に関する信頼性,詳細な実証的証拠を改善するために,研究者によってさらに活用することができる。

It is commonly accepted that the quality of requirements specifications impacts subsequent software engineering activities. However, we still lack empirical evidence to support organizations in deciding whether their requirements are good enough or impede subsequent activities. We aim to contribute empirical evidence to the effect that requirements quality defects have on a software engineering activity that depends on this requirement. We conduct a controlled experiment in which 25 participants from industry and university generate domain models from four natural language requirements containing different quality defects. We evaluate the resulting models using both frequentist and Bayesian data analysis. Contrary to our expectations, our results show that the use of passive voice only has a minor impact on the resulting domain models. The use of ambiguous pronouns, however, shows a strong effect on various properties of the resulting domain models. Most notably, ambiguous pronouns lead to incorrect associations in domain models. Despite being equally advised against by literature and frequentist methods, the Bayesian data analysis shows that the two investigated quality defects have vastly different impacts on software engineering activities and, hence, deserve different levels of attention. Our employed method can be further utilized by researchers to improve reliable, detailed empirical evidence on requirements quality.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# ミルバーン形式主義における内在的デコヒーレンスの異なる理論的側面

Different theoretical aspects of the intrinsic decoherence in the Milburn formalism ( http://arxiv.org/abs/2401.09391v2 )

ライセンス: Link先を確認
S. V. Mousavi, S. Miret-Artés, (参考訳) 本研究では、固有デコヒーレンス(intrinsic decoherence)として知られるものを制御するパラメータによって制御されるミルバーン方程式の異なる理論的側面と単純な応用について考察する。 主な目的は、外部デコヒーレンスを考慮する際にも観察される類似点を示すことである。 線形エントロピー、エレンフェストの関係、確率密度電流、ウィグナー表現、リンドブラディアン・マスター方程式との関係は、この本質的なデコヒーレンスの観点から解析され、ミルバーン力学に関する新たな洞察をもたらす。 この観点から, 2つのウェーブパケットの干渉, トンネルおよびバウンスボール問題についても検討した。

In this work, we consider different theoretical aspects and simple applications of the Milburn equation which is governed by a parameter controlling what is known as intrinsic decoherence. The main goal is to show some similarities also observed when external decoherence is considered. Linear entropy, Ehrenfest relations, probability density current, the Wigner representation as well as the relation to a Lindbladian master equation are analyzed in terms of this intrinsic decoherence, leading to new insights on the Milburn dynamics. Interference of two wave packets, tunneling and the bouncing ball problem are also studied under this perspective.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# 予測係数の4つの側面:校正、予測、ランダム性、レグレット

Four Facets of Forecast Felicity: Calibration, Predictiveness, Randomness and Regret ( http://arxiv.org/abs/2401.14483v2 )

ライセンス: Link先を確認
Rabanus Derr, Robert C. Williamson, (参考訳) 機械学習は予測することです。 しかし、予測は評価によってのみ有用性を得る。 機械学習は伝統的に、損失の種類とそれに対応する後悔に焦点を当ててきた。 現在、機械学習コミュニティは校正への関心を取り戻している。 本研究では, キャリブレーションと後悔の概念的等価性を示す。 評価問題を予測器とギャンブラーと自然とのゲームとして構成する。 ギャンブラーと予測器に直感的な制限を加えると、キャリブレーションと後悔は自然にフレームワークから落ちます。 また,このゲームは,予測評価と結果のランダム性とを関連付ける。 予測に関するランダムな結果は、結果に関する良い予測と等価である。 これら2つの側面、キャリブレーションと後悔、予測性とランダム性、予測フェリシティの4つの側面を呼ぶ。

Machine learning is about forecasting. Forecasts, however, obtain their usefulness only through their evaluation. Machine learning has traditionally focused on types of losses and their corresponding regret. Currently, the machine learning community regained interest in calibration. In this work, we show the conceptual equivalence of calibration and regret in evaluating forecasts. We frame the evaluation problem as a game between a forecaster, a gambler and nature. Putting intuitive restrictions on gambler and forecaster, calibration and regret naturally fall out of the framework. In addition, this game links evaluation of forecasts to randomness of outcomes. Random outcomes with respect to forecasts are equivalent to good forecasts with respect to outcomes. We call those dual aspects, calibration and regret, predictiveness and randomness, the four facets of forecast felicity.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# DNNからの一般化可能な相互作用プリミティブの定義と抽出

Defining and Extracting generalizable interaction primitives from DNNs ( http://arxiv.org/abs/2401.16318v2 )

ライセンス: Link先を確認
Lu Chen, Siyu Lou, Benhao Huang, Quanshi Zhang, (参考訳) ディープニューラルネットワーク(DNN)によって符号化された知識を、多くの情報を失うことなく、いくつかの象徴的な原始パターンに忠実に要約することは、説明可能なAIにおける中核的な課題である。 この目的のために、Ren et al (2024) は DNN の推論スコアを入力変数間の小さな相互作用の集合として説明できることを示す一連の定理を導出した。 しかし、一般化力の欠如により、DNNが符号化した忠実な原始パターンのような相互作用を考えることは依然として困難である。 そこで本研究では,同じタスクで訓練された異なるDNNに対して,これらのDNNが共有するインタラクションを抽出する新たな手法を提案する。 実験により、抽出された相互作用は、異なるDNNが共有する共通知識をよりよく反映できることが示された。

Faithfully summarizing the knowledge encoded by a deep neural network (DNN) into a few symbolic primitive patterns without losing much information represents a core challenge in explainable AI. To this end, Ren et al. (2024) have derived a series of theorems to prove that the inference score of a DNN can be explained as a small set of interactions between input variables. However, the lack of generalization power makes it still hard to consider such interactions as faithful primitive patterns encoded by the DNN. Therefore, given different DNNs trained for the same task, we develop a new method to extract interactions that are shared by these DNNs. Experiments show that the extracted interactions can better reflect common knowledge shared by different DNNs.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# GeoDataのプライバシーリスクに関する調査

Privacy risk in GeoData: A survey ( http://arxiv.org/abs/2402.03612v2 )

ライセンス: Link先を確認
Mahrokh Abdollahi Lorestani, Thilina Ranbaduge, Thierry Rakotoarivelo, (参考訳) ユビキタスな位置情報サービスの利用により、大規模個人レベルの位置情報は位置情報認識デバイスを通じて広く収集されている。 このような位置情報が広く暴露されることは、ユーザーにとって重大なプライバシー上のリスクを生じさせ、再識別や機密情報の推測、さらには物理的な脅威につながる可能性がある。 本研究では,地理データにおける個人のプライバシーを守るために提案された異なるジオマスキング手法を分析した。 本稿では,これらの手法を様々な次元にわたって特徴付ける分類法を提案する。 次に、現在の技術の欠点を強調し、今後の研究の道筋について論じる。 提案した分類学は、データカストディアンの実践的な資源として機能し、既存のプライバシーメカニズムの広範囲をナビゲートし、それらの要求に最も効果的に一致するものを特定する手段を提供する。

With the ubiquitous use of location-based services, large-scale individual-level location data has been widely collected through location-awareness devices. The widespread exposure of such location data poses significant privacy risks to users, as it can lead to re-identification, the inference of sensitive information, and even physical threats. In this survey, we analyse different geomasking techniques proposed to protect individuals' privacy in geodata. We propose a taxonomy to characterise these techniques across various dimensions. We then highlight the shortcomings of current techniques and discuss avenues for future research. Our proposed taxonomy serves as a practical resource for data custodians, offering them a means to navigate the extensive array of existing privacy mechanisms and to identify those that align most effectively with their specific requirements.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# インボディードAIへの呼びかけ

A call for embodied AI ( http://arxiv.org/abs/2402.03824v4 )

ライセンス: Link先を確認
Giuseppe Paolo, Jonas Gonzalez-Billandon, Balázs Kégl, (参考訳) 我々は、人工知能の追求における次の基本的なステップとして、Embodied AIを提案する。 我々は、哲学、心理学、神経科学、ロボティクスといった様々な分野にまたがるエンボディメントの概念の進化を横切り、EAIが静的学習の古典的パラダイムとどのように区別するかを強調する。 Embodied AIの範囲を広げることで、認知アーキテクチャに基づいた理論的枠組みを導入し、認知、行動、記憶、学習をエンボディエージェントの本質的な構成要素として強調する。 このフレームワークはFristonのアクティブな推論原則と一致しており、EAI開発に対する包括的なアプローチを提供する。 AIの分野での進歩にもかかわらず、新しいAI学習理論の定式化や高度なハードウェアの革新といった大きな課題が続いている。 私たちの議論は、将来のEmbodied AI研究の基礎となるガイドラインを概説している。 現実の環境における人間や他の知的なエンティティとのシームレスなコミュニケーション、コラボレーション、共存が可能なエンボダイドAIエージェントを作成することの重要性を強調し、我々はAIコミュニティを、多面的な課題に対処し、AGIの探求に先立つ機会をつかむことを目指しています。

We propose Embodied AI as the next fundamental step in the pursuit of Artificial General Intelligence, juxtaposing it against current AI advancements, particularly Large Language Models. We traverse the evolution of the embodiment concept across diverse fields - philosophy, psychology, neuroscience, and robotics - to highlight how EAI distinguishes itself from the classical paradigm of static learning. By broadening the scope of Embodied AI, we introduce a theoretical framework based on cognitive architectures, emphasizing perception, action, memory, and learning as essential components of an embodied agent. This framework is aligned with Friston's active inference principle, offering a comprehensive approach to EAI development. Despite the progress made in the field of AI, substantial challenges, such as the formulation of a novel AI learning theory and the innovation of advanced hardware, persist. Our discussion lays down a foundational guideline for future Embodied AI research. Highlighting the importance of creating Embodied AI agents capable of seamless communication, collaboration, and coexistence with humans and other intelligent entities within real-world environments, we aim to steer the AI community towards addressing the multifaceted challenges and seizing the opportunities that lie ahead in the quest for AGI.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# 再現性,再現性,再現性

Reproducibility, Replicability, and Repeatability: A survey of reproducible research with a focus on high performance computing ( http://arxiv.org/abs/2402.07530v2 )

ライセンス: Link先を確認
Benjamin A. Antunes, David R. C. Hill, (参考訳) 再現性は科学研究の基本的な原則として広く認められている。 現在、科学界は再現性に関する多くの課題に悩まされており、しばしば「再現性危機」と呼ばれる。 本研究では,この再現性の欠如に寄与する科学的実践の要因について検討した。 研究における計算の一般的な統合に重要な焦点が当てられ、出版論文ではブラックボックスとして機能することがある。 本研究は主にハイパフォーマンスコンピューティング (HPC) に焦点をあて, 独特な再現性課題を提示している。 本稿では、これらの懸念と潜在的な解決策を包括的にレビューする。 さらに,HPC分野における科学の進歩と持続的課題の同定における再現可能な研究の重要性について論じる。

Reproducibility is widely acknowledged as a fundamental principle in scientific research. Currently, the scientific community grapples with numerous challenges associated with reproducibility, often referred to as the ''reproducibility crisis.'' This crisis permeated numerous scientific disciplines. In this study, we examined the factors in scientific practices that might contribute to this lack of reproducibility. Significant focus is placed on the prevalent integration of computation in research, which can sometimes function as a black box in published papers. Our study primarily focuses on highperformance computing (HPC), which presents unique reproducibility challenges. This paper provides a comprehensive review of these concerns and potential solutions. Furthermore, we discuss the critical role of reproducible research in advancing science and identifying persisting issues within the field of HPC.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# AdaGradの緩和による収束性の再検討

Revisiting Convergence of AdaGrad with Relaxed Assumptions ( http://arxiv.org/abs/2402.13794v2 )

ライセンス: Link先を確認
Yusu Hong, Junhong Lin, (参考訳) 本研究では,非凸な滑らかな最適化問題に対する AdaGrad の運動量(特別な場合として AdaGrad をカバー)との収束を再考する。 雑音の大きさを関数値ギャップによって制御する一般雑音モデルと、勾配等級について考察する。 このモデルは、有界雑音、準ガウス雑音、アフィン分散雑音、期待される滑らかさを含む幅広いノイズを含み、多くの実用的応用においてより現実的であることが示されている。 この解析により, 一般雑音下では (\tilde{\mathcal{O}}(1/\sqrt{T}) に到達できる確率収束率が得られる。 この速度は問題パラメータの事前の知識に依存しておらず、関数値ギャップとノイズレベルに関するノイズパラメータが十分に小さい場合、 (T) が総数の繰り返しを表すような (\tilde{\mathcal{O}}(1/T)) に加速することができる。 したがって収束率は非凸な滑らかな風景上の確率的一階法の低い速度に一致する[Arjevani et al , 2023]。 さらに、局所な滑らかさが勾配ノルムの1次関数によって制御される一般化された滑らかさを考慮し、AdaGrad とモエタムとの収束を導出する。

In this study, we revisit the convergence of AdaGrad with momentum (covering AdaGrad as a special case) on non-convex smooth optimization problems. We consider a general noise model where the noise magnitude is controlled by the function value gap together with the gradient magnitude. This model encompasses a broad range of noises including bounded noise, sub-Gaussian noise, affine variance noise and the expected smoothness, and it has been shown to be more realistic in many practical applications. Our analysis yields a probabilistic convergence rate which, under the general noise, could reach at (\tilde{\mathcal{O}}(1/\sqrt{T})). This rate does not rely on prior knowledge of problem-parameters and could accelerate to (\tilde{\mathcal{O}}(1/T)) where (T) denotes the total number iterations, when the noise parameters related to the function value gap and noise level are sufficiently small. The convergence rate thus matches the lower rate for stochastic first-order methods over non-convex smooth landscape up to logarithm terms [Arjevani et al., 2023]. We further derive a convergence bound for AdaGrad with mometum, considering the generalized smoothness where the local smoothness is controlled by a first-order function of the gradient norm.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# SpanSeq:ディープラーニングプロジェクトの開発と評価のための類似性に基づくシーケンスデータ分割手法

SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects ( http://arxiv.org/abs/2402.14482v3 )

ライセンス: Link先を確認
Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Henrik Nielsen, Frank Møller Aarestrup, Philip Thomas Lanken Conradsen Clausen, (参考訳) 近年, 計算生物学におけるディープラーニングモデルの利用が急速に増加しており, 自然言語処理などの分野での進歩が進むことが期待されている。 これらのモデルは、入力とターゲットの間の複雑な関係を引き出すことができるが、開発中に使用されるデータのプールからノイズの多い偏差を学習する傾向にある。 目に見えないデータ(一般化する能力)の性能を評価するために、利用可能なデータをランダムに開発(トレイン/バリデーション)とテストセットに分割することが一般的である。 この手法は標準的ではあるが、使用したデータベースのサンプル間の既存の類似性から、一般化に関する疑わしい評価を導出することが示されている。 本研究では、データセット間のデータ漏洩を回避するため、ほとんどの生物学的配列(遺伝子、タンパク質、ゲノム)にスケール可能な機械学習のためのデータベース分割手法であるSpanSeqを提案する。 また,2つの最先端モデルの開発をバイオインフォマティクスに再現することで,集合間の類似性を抑える効果についても検討し,ランダムに分割したデータベースがモデル評価に与える影響を確認するとともに,それらの影響をモデル開発に拡大する。 SpanSeqはhttps://github.com/genomicepidemiology/SpanSeqで入手できる。

The use of deep learning models in computational biology has increased massively in recent years, and it is expected to continue with the current advances in the fields such as Natural Language Processing. These models, although able to draw complex relations between input and target, are also inclined to learn noisy deviations from the pool of data used during their development. In order to assess their performance on unseen data (their capacity to generalize), it is common to split the available data randomly into development (train/validation) and test sets. This procedure, although standard, has been shown to produce dubious assessments of generalization due to the existing similarity between samples in the databases used. In this work, we present SpanSeq, a database partition method for machine learning that can scale to most biological sequences (genes, proteins and genomes) in order to avoid data leakage between sets. We also explore the effect of not restraining similarity between sets by reproducing the development of two state-of-the-art models on bioinformatics, not only confirming the consequences of randomly splitting databases on the model assessment, but expanding those repercussions to the model development. SpanSeq is available at https://github.com/genomicepidemiology/SpanSeq.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# 小サンプルを用いた分布自由フェアフェデレーション学習

Distribution-Free Fair Federated Learning with Small Samples ( http://arxiv.org/abs/2402.16158v2 )

ライセンス: Link先を確認
Qichuan Yin, Zexian Wang, Junzhou Huang, Huaxiu Yao, Linjun Zhang, (参考訳) 分散データトレーニングの能力によって、現実のアプリケーションにおいて、連合学習の重要性が増すにつれて、人口集団間の公平性に関する懸念に対処することが重要になる。 しかしながら、公平性を保証するための既存の機械学習アルゴリズムは、中央集権的なデータ環境のために設計されており、一般に大規模なサンプルと分散的な仮定を必要としており、有限サンプルと分布自由な保証を持つ分散化されたシステムに適応する公平性技術が緊急に必要であることを示している。 この問題に対処するために,小サンプルを用いた分散環境下での分布自由フェアラーニングに特化したポストプロセッシングアルゴリズムであるFedFaiREEを紹介する。 当社のアプローチは,クライアントの不均一性,通信コスト,サンプルサイズなど,分散環境におけるユニークな課題を考慮に入れている。 公正性と精度の両面において厳密な理論的保証を提供し,実験結果により,提案手法の堅牢な実証検証を行う。

As federated learning gains increasing importance in real-world applications due to its capacity for decentralized data training, addressing fairness concerns across demographic groups becomes critically important. However, most existing machine learning algorithms for ensuring fairness are designed for centralized data environments and generally require large-sample and distributional assumptions, underscoring the urgent need for fairness techniques adapted for decentralized and heterogeneous systems with finite-sample and distribution-free guarantees. To address this issue, this paper introduces FedFaiREE, a post-processing algorithm developed specifically for distribution-free fair learning in decentralized settings with small samples. Our approach accounts for unique challenges in decentralized environments, such as client heterogeneity, communication costs, and small sample sizes. We provide rigorous theoretical guarantees for both fairness and accuracy, and our experimental results further provide robust empirical validation for our proposed method.
翻訳日:2024-09-16 23:37:02 公開日:2024-09-13
# フリップチップ量子プロセッサにおける信号クロストーク

Signal crosstalk in a flip-chip quantum processor ( http://arxiv.org/abs/2403.00285v2 )

ライセンス: Link先を確認
Sandoko Kosen, Hang-Xi Li, Marcus Rommel, Robert Rehammar, Marco Caputo, Leif Grönberg, Jorge Fernández-Pendás, Anton Frisk Kockum, Janka Biznárová, Liangyu Chen, Christian Križan, Andreas Nylander, Amr Osman, Anita Fadavi Roudsari, Daryoush Shiri, Giovanna Tancredi, Joonas Govenius, Jonas Bylander, (参考訳) 量子プロセッサは、数十量子ビットのスケールで既に高い性能を保証するために、高いアドレス性(低クロストーク)を持つシグナル配信アーキテクチャを必要とする。 信号クロストークは、量子ゲートの不注意な駆動を引き起こし、スケールアップデバイスにおける量子ゲートの忠実度に悪影響を及ぼす。 ここでは、他のプラットフォームで報告されているものと競合する信号クロストーク性能を持つ、パッケージ化されたフリップチップ超伝導量子プロセッサを実演する。 容量結合したqubit-drive線の場合、-27dB(平均-37dB)よりも共振クロストークの方がよい。 誘導結合型磁束駆動線の場合、直流フラックスクロストーク(平均0.05%)は0.13%未満である。 これらの観測されたクロストークレベルは十分に小さく、距離が大きくなるにつれて傾向が減少し、より多くの量子ビットまで拡大することが期待できる。 大規模量子プロセッサにおける遮蔽トンネル構造の影響,クロストークの電位源,およびクロストークによるクビットゲート誤差の推定などを含む,低クロストーク,オンチップ信号配信アーキテクチャの設計に対する我々の結果の影響について論じる。

Quantum processors require a signal-delivery architecture with high addressability (low crosstalk) to ensure high performance already at the scale of dozens of qubits. Signal crosstalk causes inadvertent driving of quantum gates, which will adversely affect quantum-gate fidelities in scaled-up devices. Here, we demonstrate packaged flip-chip superconducting quantum processors with signal-crosstalk performance competitive with those reported in other platforms. For capacitively coupled qubit-drive lines, we find on-resonant crosstalk better than -27 dB (average -37 dB). For inductively coupled magnetic-flux-drive lines, we find less than 0.13 % direct-current flux crosstalk (average 0.05 %). These observed crosstalk levels are adequately small and indicate a decreasing trend with increasing distance, which is promising for further scaling up to larger numbers of qubits. We discuss the implication of our results for the design of a low-crosstalk, on-chip signal delivery architecture, including the influence of a shielding tunnel structure, potential sources of crosstalk, and estimation of crosstalk-induced qubit-gate error in scaled-up quantum processors.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 測定専用クライアントを用いたトラップイオンによる検証可能なブラインド量子コンピューティングのハードウェア要件

Hardware requirements for trapped-ion based verifiable blind quantum computing with a measurement-only client ( http://arxiv.org/abs/2403.02656v2 )

ライセンス: Link先を確認
Janice van Dam, Guus Avis, Tzula B Propp, Francisco Ferreira da Silva, Joshua A Slater, Tracy E Northup, Stephanie Wehner, (参考訳) ブラインド量子コンピューティングでは、単純なクライアントデバイスを持つユーザは、サーバが計算に関する知識を得ることができないように、リモート量子サーバ上で量子計算を行うことができる。 本稿では、イオントラップをサーバとし、遠方の測定専用クライアントを用いて、検証可能なブラインド量子コンピューティングのハードウェア要件を数値的に検討する。 クライアントは量子コンピューティングリソースに直接アクセスしないが、捕捉されたイオンによって放出される光子を測定することで、リモートでサーバ上で量子プログラムを実行することができる。 本稿では,量子ネットワーク用離散イベントシミュレータNetSquidにおけるトラップイオン量子デバイスの数値モデルを提案する。 これを用いて、最小限のハードウェア要件をパラメータ単位で決定し、検証可能なブラインド量子コンピューティングプロトコルを実行する。 クライアントとサーバを50km間隔で分離する単一キュービット回転が可能である5キュービット線形グラフ状態をベンチマークする。 現在の最先端のイオントラップは、パラメータごとに最小限の要件を満たすが、現在のすべての不完全な組み合わせにより、既存の技術を使用して50km以上のブラインド計算を安全に行うことは不可能である。 遺伝的アルゴリズムを用いて、必要な改善の総量を最小限に抑えるハードウェアパラメータのセットを決定し、ハードウェアを改良し、実験的な実証を可能にするしきい値誤差確率に達するための方向を求める。 このようにして、50kmの距離で検証可能なブラインド量子コンピューティングの実装を実現するのに必要な、短期的な実験的進歩の道を開く。

In blind quantum computing, a user with a simple client device can perform a quantum computation on a remote quantum server such that the server cannot gain knowledge about the computation. Here, we numerically investigate hardware requirements for verifiable blind quantum computing using an ion trap as server and a distant measurement-only client. While the client has no direct access to quantum-computing resources, it can remotely execute quantum programs on the server by measuring photons emitted by the trapped ion. We introduce a numerical model for trapped-ion quantum devices in NetSquid, a discrete-event simulator for quantum networks. Using this, we determine the minimal hardware requirements on a per-parameter basis to perform the verifiable blind quantum computing protocol. We benchmark these for a five-qubit linear graph state, with which any single-qubit rotation can be performed, where client and server are separated by 50 km. Current state-of-the-art ion traps satisfy the minimal requirements on a per-parameter basis, but all current imperfections combined make it impossible to perform the blind computation securely over 50 km using existing technology. Using a genetic algorithm, we determine the set of hardware parameters that minimises the total improvements required, finding directions along which to improve hardware to reach our threshold error probability that would enable experimental demonstration. In this way, we lay a path for the near-term experimental progress required to realise the implementation of verifiable blind quantum computing over a 50 km distance.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 基礎補題とカーネル回帰の関連性を探る

Exploring the Links between the Fundamental Lemma and Kernel Regression ( http://arxiv.org/abs/2403.05368v2 )

ライセンス: Link先を確認
Oleksii Molodchyk, Timm Faulwasser, (参考訳) ウィレムスらによる基礎補題の一般化と変種は、最近の研究の活発な話題である。 本稿では、カーネル回帰と基本的な補題の既知の非線形拡張との関係を探求し、定式化する。 ハンケル行列の通常の線型方程式への変換を適用すると、励起の持続性の要求を保ちながら、系の軌跡の別の暗黙的なカーネル表現に到達する。 この表現は、特定のカーネル回帰問題の解と等価であることを示す。 我々は、基盤となるカーネルの構造と、それらに対応するシステムクラスについて検討する。

Generalizations and variations of the fundamental lemma by Willems et al. are an active topic of recent research. In this note, we explore and formalize the links between kernel regression and some known nonlinear extensions of the fundamental lemma. Applying a transformation to the usual linear equation in Hankel matrices, we arrive at an alternative implicit kernel representation of the system trajectories while keeping the requirements on persistency of excitation. We show that this representation is equivalent to the solution of a specific kernel regression problem. We explore the possible structures of the underlying kernel as well as the system classes to which they correspond.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# DualBEV:確率的対応によるデュアルビュー変換の統合

DualBEV: Unifying Dual View Transformation with Probabilistic Correspondences ( http://arxiv.org/abs/2403.05402v2 )

ライセンス: Link先を確認
Peidong Li, Wancheng Shen, Qihao Huang, Dixiao Cui, (参考訳) カメラベースのBird's-Eye-View (BEV) の知覚は、しばしば3Dから2D、または2Dから3Dへのビュー変換(VT)に苦戦する。 3D-to-2D VTは通常、リソース集約トランスフォーマーを使用して3D特徴と2D特徴の堅牢な対応を確立する一方、2D-to-3D VTはLift-Splat-Shoot (LSS)パイプラインをリアルタイムアプリケーションに使用し、潜在的に遠い情報を欠く可能性がある。 これらの制約に対処するため,両戦略に3つの確率的測定を組み込んだ共有特徴変換を利用した統合フレームワークであるDualBEVを提案する。 デュアルビュー対応を1段階で考慮することで、DualBEVはこれらの戦略間のギャップを効果的に橋渡しし、個々の強みを活用する。 提案手法は Transformer を使わずに, 55.2% mAP と 63.4% の NDS を nuScenes テストセット上で, LSS アプローチに匹敵する効率性を実現する。 コードは \url{https://github.com/PeidongLi/DualBEV} で入手できる。

Camera-based Bird's-Eye-View (BEV) perception often struggles between adopting 3D-to-2D or 2D-to-3D view transformation (VT). The 3D-to-2D VT typically employs resource-intensive Transformer to establish robust correspondences between 3D and 2D features, while the 2D-to-3D VT utilizes the Lift-Splat-Shoot (LSS) pipeline for real-time application, potentially missing distant information. To address these limitations, we propose DualBEV, a unified framework that utilizes a shared feature transformation incorporating three probabilistic measurements for both strategies. By considering dual-view correspondences in one stage, DualBEV effectively bridges the gap between these strategies, harnessing their individual strengths. Our method achieves state-of-the-art performance without Transformer, delivering comparable efficiency to the LSS approach, with 55.2% mAP and 63.4% NDS on the nuScenes test set. Code is available at \url{https://github.com/PeidongLi/DualBEV}
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 残差シフトによる画像復元のための効率的な拡散モデル

Efficient Diffusion Model for Image Restoration by Residual Shifting ( http://arxiv.org/abs/2403.07319v2 )

ライセンス: Link先を確認
Zongsheng Yue, Jianyi Wang, Chen Change Loy, (参考訳) 拡散ベースの画像復元(IR)法は目覚ましい成功を収めているが、数百から数千のサンプリングステップを実行する必要があるため、推論速度が低いため、依然として制限されている。 既存の加速サンプリング技術は、プロセスの迅速化を図りながら、パフォーマンスをある程度犠牲にし、結果として過度に回復する結果となった。 この問題に対処するため,本研究では,必要な拡散ステップ数を大幅に削減する,新しい,効率的なIR拡散モデルを提案する。 提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。 具体的には,残差をシフトさせることにより高品質画像と低品質画像の遷移を容易にし,遷移効率を大幅に向上するマルコフ連鎖を確立する。 拡散過程におけるシフト速度とノイズ強度を柔軟に制御するために、慎重に定式化されたノイズスケジュールを考案する。 広汎な実験的評価により,提案手法は従来の3つのIRタスク,すなわち画像の超解像,画像のインペインティング,ブラインドフェイスの復元,および4つのサンプリングステップのみで,現在の最先端手法よりも優れた性能を達成できることが示されている。 私たちのコードとモデルは、 \url{https://github.com/zsyOAOA/ResShift}で公開されています。

While diffusion-based image restoration (IR) methods have achieved remarkable success, they are still limited by the low inference speed attributed to the necessity of executing hundreds or even thousands of sampling steps. Existing acceleration sampling techniques, though seeking to expedite the process, inevitably sacrifice performance to some extent, resulting in over-blurry restored outcomes. To address this issue, this study proposes a novel and efficient diffusion model for IR that significantly reduces the required number of diffusion steps. Our method avoids the need for post-acceleration during inference, thereby avoiding the associated performance deterioration. Specifically, our proposed method establishes a Markov chain that facilitates the transitions between the high-quality and low-quality images by shifting their residuals, substantially improving the transition efficiency. A carefully formulated noise schedule is devised to flexibly control the shifting speed and the noise strength during the diffusion process. Extensive experimental evaluations demonstrate that the proposed method achieves superior or comparable performance to current state-of-the-art methods on three classical IR tasks, namely image super-resolution, image inpainting, and blind face restoration, \textit{\textbf{even only with four sampling steps}}. Our code and model are publicly available at \url{https://github.com/zsyOAOA/ResShift}.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 真実を意識した文脈選択:非現実的な文脈で誤解される大規模言語モデルの幻覚を緩和する

Truth-Aware Context Selection: Mitigating Hallucinations of Large Language Models Being Misled by Untruthful Contexts ( http://arxiv.org/abs/2403.07556v4 )

ライセンス: Link先を確認
Tian Yu, Shaolei Zhang, Yang Feng, (参考訳) LLM(Large Language Models)は、印象的なテキスト生成機能を示しているが、ユーザや知識増強ツールが提供する非現実的なコンテキストによって容易に誤解され、幻覚に繋がる。 本研究では,LLMが非現実的コンテキストによって誤解されるのを防止し,知識の増大を活かすために,入力から非現実的コンテキストを適応的に認識しマスクする軽量な手法であるTruth-Aware Context Selection (TACS)を提案する。 TACSは、LLM内のパラメータ化された知識を活用して、入力コンテキスト上で真理検出を行うことから始まる。 その後、各位置の真偽に基づいて対応する注目マスクを構築し、真偽のコンテキストを選択し、非真実のコンテキストを破棄する。 さらに,新たな評価基準である外乱適応率を導入し,LLMが真理情報を受け入れ,非真理情報に抵抗する能力をさらに研究する。 実験結果から,TACSは非現実的文脈を効果的にフィルタリングし,誤解を招く情報を提示した場合のLLMの応答の全体的な品質を著しく向上させることができることがわかった。

Although Large Language Models (LLMs) have demonstrated impressive text generation capabilities, they are easily misled by untruthful contexts provided by users or knowledge augmentation tools, leading to hallucinations. To alleviate LLMs from being misled by untruthful context and take advantage of knowledge augmentation, we propose Truth-Aware Context Selection (TACS), a lightweight method to adaptively recognize and mask untruthful context from the inputs. TACS begins by performing truth detection on the input context, leveraging the parameterized knowledge within the LLM. Subsequently, it constructs a corresponding attention mask based on the truthfulness of each position, selecting the truthful context and discarding the untruthful context. Additionally, we introduce a new evaluation metric, Disturbance Adaption Rate, to further study the LLMs' ability to accept truthful information and resist untruthful information. Experimental results indicate that TACS can effectively filter untruthful context and significantly improve the overall quality of LLMs' responses when presented with misleading information.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 散逸周波数変換器:リンドブラッド力学から非エルミート位相へ

Dissipative frequency converter: from Lindblad dynamics to non-Hermitian topology ( http://arxiv.org/abs/2403.07991v2 )

ライセンス: Link先を確認
Florian Koch, Jan Carl Budich, (参考訳) トポロジカル周波数変換器は、整数量子ホール効果のダイナミックな表現であり、2レベルシステムは2つの非共振周波数の駆動モード間の量子化された時間平均電力転送を実行する。 ここでは、2レベル系の量子力学における時間的コヒーレンスがコンバータのトポロジカル量子化にどの程度重要であるかを検討する。 この目的のために、ハミルトニアンの瞬時固有ベイズにおける自発的減衰と退化に対応する散逸的チャネルと、固定基底における自発的減衰を考察する。 散逸はリンドブラッドと実効的な非エルミート的(NH)ハミルトニアン記述の両方を用いてモデル化される。 これら3つの散逸系では、未摂動力学から量子ウォッチドッグ効果への遷移が見出され、強い結合限界における電力移動が破壊される。 これは、ウォッチドッグ効果が瞬間的な固有ベイシスにおいて完全に断熱的なダイナミクスをもたらすため、一見したところ、未成熟のケースに似ています。 さらに、劣化は混合量子状態における偏光の損失により、時間内に電力移動が指数関数的に崩壊することにつながることが判明した。 最後に,全リンドブラッド力学において抑制される非断熱過程の効果的なNH軌道記述の出現について論じる。

A topological frequency converter represents a dynamical counterpart of the integer quantum Hall effect, where a two-level system enacts a quantized time-averaged power transfer between two driving modes of incommensurate frequency. Here, we investigate as to what extent temporal coherence in the quantum dynamics of the two-level system is important for the topological quantization of the converter. To this end, we consider dissipative channels corresponding to spontaneous decay and dephasing in the instantaneous eigenbasis of the Hamiltonian as well as spontaneous decay in a fixed basis. The dissipation is modelled using both a full Lindblad and an effective non-Hermitian (NH) Hamiltonian description. For all three dissipation channels we find a transition from the unperturbed dynamics to a quantum watchdog effect, which destroys any power transfer in the strong coupling limit. This is striking because the watchdog effect leads to perfectly adiabatic dynamics in the instantaneous eigenbasis, at first glance similar to the unperturbed case. Furthermore, it is found that dephasing immediately leads to an exponential decay of the power transfer in time due to loss of polarisation in the mixed quantum state. Finally, we discuss the appearance in the effective NH trajectory description of non-adiabatic processes, which are suppressed in the full Lindblad dynamics.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# OC4-ReID:Occluded Cloth-Changing Person Redentification

OC4-ReID: Occluded Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2403.08557v4 )

ライセンス: Link先を確認
Zhihao Chen, Yiyuan Ge, Ziyang Wang, Jiaju Kang, Mingya Zhang, (参考訳) CC-ReID(CC-Changing Person Re-identification)の研究は、通常、歩行者画像全体が見えるという前提の下で、衣服が変わったときに特定の歩行者を回収することに焦点を当てている。 しかし、現実のシナリオにおける歩行者画像は、しばしば障害物によって部分的に曖昧にされ、既存のCC-ReIDシステムにとって重要な課題である。 本稿では,服の着替えと隠蔽という2つの課題を同時に解決する,Occluded Cloth-Changing Person Re-Identification (OC4-ReID) という課題を紹介する。 具体的には,Occ-LTCCとOcc-PRCCという2つの新しいデータセットを構築する。 さらに,T2MGS(Train-Test Micro Granularity Screening)モジュールを組み込んだOC4-ReIDの新たなベンチマークを提案し,オクルージョンの影響を緩和し,部分的特徴学習のためのPRT(Part-Robust Triplet)損失を提案する。 提案したデータセットおよび2つのCC-ReIDベンチマークデータセットに関する総合的な実験は、提案手法の他の最先端手法に対する優れた性能を示す。 コードとデータセットは、https://github.com/1024AILab/OC4-ReID.comで公開されている。

The study of Cloth-Changing Person Re-identification (CC-ReID) focuses on retrieving specific pedestrians when their clothing has changed, typically under the assumption that the entire pedestrian images are visible. Pedestrian images in real-world scenarios, however, are often partially obscured by obstacles, presenting a significant challenge to existing CC-ReID systems. In this paper, we introduce a more challenging task termed Occluded Cloth-Changing Person Re-Identification (OC4-ReID), which simultaneously addresses two challenges of clothing changes and occlusion. Concretely, we construct two new datasets, Occ-LTCC and Occ-PRCC, based on original CC-ReID datasets to include random occlusions of key pedestrians components (e.g., head, torso). Moreover, a novel benchmark is proposed for OC4-ReID incorporating a Train-Test Micro Granularity Screening (T2MGS) module to mitigate the influence of occlusion and proposing a Part-Robust Triplet (PRT) loss for partial features learning. Comprehensive experiments on the proposed datasets, as well as on two CC-ReID benchmark datasets demonstrate the superior performance of proposed method against other state-of-the-art methods. The codes and datasets are available at: https://github.com/1024AILab/OC4-ReID.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# IoTCO2:インターネット・オブ・Things-Enabled Deep Learningのエンドツーエンドのカーボンフットプリントを評価する

IoTCO2: Assessing the End-To-End Carbon Footprint of Internet-of-Things-Enabled Deep Learning ( http://arxiv.org/abs/2403.10984v2 )

ライセンス: Link先を確認
Fan Chen, Shahzeen Attari, Gayle Buck, Lei Jiang, (参考訳) プライバシを改善し、サービス品質(QoS)を保証するため、ディープラーニング(DL)モデルは、データ処理のためにIoT(Internet of Things)デバイスにますますデプロイされ、IoT上のDLに関連する炭素フットプリントが大幅に増加し、運用面と実施面の両方をカバーする。 既存の運用エネルギー予測器は、量子化されたDLモデルと新しいニューラル処理ユニット(NPU)を見落としていることが多いが、具体化されたカーボンフットプリントモデリングツールは、IoTデバイスに共通する非計算ハードウェアコンポーネントを無視し、IoT対応のDLのための正確なカーボンフットプリントモデリングツールのギャップを生じさせている。 本稿では,IoT 対応 DL における正確な炭素フットプリント推定のためのエンドツーエンドツールである \textit{\carb} について紹介する。 さらに、複数のユーザケーススタディを通じて、‘carb~’の実践的応用が紹介される。

To improve privacy and ensure quality-of-service (QoS), deep learning (DL) models are increasingly deployed on Internet of Things (IoT) devices for data processing, significantly increasing the carbon footprint associated with DL on IoT, covering both operational and embodied aspects. Existing operational energy predictors often overlook quantized DL models and emerging neural processing units (NPUs), while embodied carbon footprint modeling tools neglect non-computing hardware components common in IoT devices, creating a gap in accurate carbon footprint modeling tools for IoT-enabled DL. This paper introduces \textit{\carb}, an end-to-end tool for precise carbon footprint estimation in IoT-enabled DL, with deviations as low as 5\% for operational and 3.23\% for embodied carbon footprints compared to actual measurements across various DL models. Additionally, practical applications of \carb~are showcased through multiple user case studies.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 大規模シーンレンダリングのためのグローバル誘導型フーカルニューラルラジアンスフィールド

Global-guided Focal Neural Radiance Field for Large-scale Scene Rendering ( http://arxiv.org/abs/2403.12839v2 )

ライセンス: Link先を確認
Mingqi Shao, Feng Xiong, Hang Zhang, Shuang Yang, Mu Xu, Wei Bian, Xueqian Wang, (参考訳) ニューラル放射場~(NeRF)は近年,大規模シーンのレンダリングに応用されている。 しかし、その限られたモデル容量は、通常、ぼやけたレンダリング結果をもたらす。 既存の大規模なNeRFは、シーンをブロックに分割することでこの制限に対処し、その後別のサブNeRFによって処理される。 これらのサブNeRFは、スクラッチから訓練され、独立して処理されるため、シーン全体の幾何学と外観に矛盾が生じます。 その結果, モデルキャパシティの拡張にもかかわらず, レンダリング品質は著しく向上しなかった。 本研究では,大規模シーンの高忠実なレンダリングを実現するグローバル誘導焦点型ニューラルレイディアンス場(GF-NeRF)を提案する。 提案するGF-NeRFは,2段階 (Global and Focal) アーキテクチャとグローバル誘導型トレーニング戦略を利用する。 グローバルステージはシーン全体を連続的に表現し、フォーカスステージはシーンを複数のブロックに分解し、異なるサブエンコーダで処理する。 この2段階アーキテクチャを利用することで、サブエンコーダはグローバルエンコーダに基づいた微調整のみを必要とするため、シーン全体の一貫性を維持しながら、フォーカスステージにおけるトレーニングの複雑さを低減できる。 グローバルステージからの空間情報やエラー情報は、サブエンコーダが重要な領域に集中し、大規模シーンのより詳細な情報を効果的に取得するのに役立つ。 特に,本手法は対象シーンに関する事前の知識に頼らず,ストリートビューや空中ビューなど,大規模シーンに適応可能なGF-NeRFに寄与する。 提案手法は,様々な種類の大規模データセットに対して,高忠実で自然なレンダリング結果が得られることを示す。 プロジェクトページ: https://shaomq2187.github.io/GF-NeRF/

Neural radiance fields~(NeRF) have recently been applied to render large-scale scenes. However, their limited model capacity typically results in blurred rendering results. Existing large-scale NeRFs primarily address this limitation by partitioning the scene into blocks, which are subsequently handled by separate sub-NeRFs. These sub-NeRFs, trained from scratch and processed independently, lead to inconsistencies in geometry and appearance across the scene. Consequently, the rendering quality fails to exhibit significant improvement despite the expansion of model capacity. In this work, we present global-guided focal neural radiance field (GF-NeRF) that achieves high-fidelity rendering of large-scale scenes. Our proposed GF-NeRF utilizes a two-stage (Global and Focal) architecture and a global-guided training strategy. The global stage obtains a continuous representation of the entire scene while the focal stage decomposes the scene into multiple blocks and further processes them with distinct sub-encoders. Leveraging this two-stage architecture, sub-encoders only need fine-tuning based on the global encoder, thus reducing training complexity in the focal stage while maintaining scene-wide consistency. Spatial information and error information from the global stage also benefit the sub-encoders to focus on crucial areas and effectively capture more details of large-scale scenes. Notably, our approach does not rely on any prior knowledge about the target scene, attributing GF-NeRF adaptable to various large-scale scene types, including street-view and aerial-view scenes. We demonstrate that our method achieves high-fidelity, natural rendering results on various types of large-scale datasets. Our project page: https://shaomq2187.github.io/GF-NeRF/
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# CoverUp:Coverage-Guided LLMベースのテスト生成

CoverUp: Coverage-Guided LLM-Based Test Generation ( http://arxiv.org/abs/2403.16218v2 )

ライセンス: Link先を確認
Juan Altmayer Pizzorno, Emery D. Berger, (参考訳) テストはソフトウェア開発の重要な部分です。 テスト生成ツールは、さもなくばテスト作成の労働集約的なタスクを自動化しようとするが、高いカバレッジテストを生成することは依然として課題である。 本稿では,ハイカバレッジなPython回帰テストを生成するための新しいアプローチであるCoverUpを提案する。 CoverUpは、テストカバレッジを反復的に改善し、カバレッジ分析とLLMとのダイアログをインターリーブすることで、テストの洗練を図り、行とブランチのカバレッジを向上する。 プロトタイプのCoverUp実装を、オープンソースのPythonプロジェクトから派生した挑戦的なコードのベンチマークで評価し、CoverUpが最先端で大幅に改善されていることを示す。 ハイブリッド検索/LLMベースのテストジェネレータであるCodaMosaと比較して、CoverUpはモジュールごとの中央値ライン+ブランチカバレッジを80%(vs.47%)達成している。 変異/LLMベースのテストジェネレータである MuTAP と比較して、CoverUp は全行+ブランチカバレッジを90%(vs.77%)達成している。 CoverUpの反復的なカバレッジ誘導アプローチが、その有効性に不可欠であることを示し、その成功の40%近くに寄与している。

Testing is an essential part of software development. Test generation tools attempt to automate the otherwise labor-intensive task of test creation, but generating high-coverage tests remains a challenge. This paper proposes CoverUp, a novel approach to driving the generation of high-coverage Python regression tests. CoverUp iteratively improves test coverage, interleaving coverage analysis with dialogs with the LLM that steer it to refine tests so that they increase coverage of lines and branches. We evaluate our prototype CoverUp implementation across a benchmark of challenging code derived from open-source Python projects, and show that CoverUp substantially improves on the state of the art. Compared to CodaMosa, a hybrid search/LLM-based test generator, CoverUp achieves a per-module median line+branch coverage of 80% (vs. 47%). Compared to MuTAP, a mutation/LLM-based test generator, CoverUp achieves an overall line+branch coverage of 90% (vs. 77%). We show that CoverUp's iterative, coverage-guided approach is crucial to its effectiveness, contributing to nearly 40% of its successes.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# キャビティマグノメカニクスにおけるマグノン-マイクロ波バックアクションノイズ回避

Magnon-microwave backaction noise evasion in cavity magnomechanics ( http://arxiv.org/abs/2403.17185v2 )

ライセンス: Link先を確認
V. A. S. V. Bittencourt, C. A. Potts, J. P. Davis, A. Metelmann, (参考訳) キャビティ・マグノメカティカルシステムでは、磁気励起は機械的振動とマイクロ波と同時に結合し、磁気学のチューニング可能性と機械的モードの長い寿命を取り入れている。 熱測定やセンシングなどのシステムの応用には、機械的自由度を正確に測定する必要がある。 本稿では,キャビティ・マグノメカニクスにおける機械振動のバックアクション回避計測を実現する手法を提案する。 提案手法は,2つの音色を2倍のフォノン周波数で分離し,バランス関係を満たす振幅でマイクロ波空洞を駆動することを含む。 本研究では、低周波マグノン-マイクロ波偏光子を中心にした駆動において、最小限のインプレクションノイズが得られ、これは標準量子限界を適度な駆動振幅で打ち負かすことができることを示す。 我々のスキームは、工学的バックアクション回避測定の単純で柔軟な方法であり、他のマルチモードシステムにさらに一般化することができる。

In cavity magnomechanical systems, magnetic excitations couple simultaneously with mechanical vibrations and microwaves, incorporating the tunability of magnetism and the long lifetimes of mechanical modes. Applications of such systems, such as thermometry and sensing, require precise measurement of the mechanical degree-of-freedom. In this paper, we propose a scheme for realizing backaction evading measurements of the mechanical vibrations in cavity magnomechanics. Our proposal involves driving the microwave cavity with two tones separated by twice the phonon frequency and with amplitudes satisfying a balance relation. We show that the minimum added imprecision noise is obtained for drives centered around the lower frequency magnon-microwave polaritons, which can beat the standard quantum limit at modest drive amplitudes. Our scheme is a simple and flexible way of engineering backaction evasion measurements that can be further generalized to other multimode systems.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 規則化された汎用LQゲームにおけるナッシュ平衡の政策最適化

Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games ( http://arxiv.org/abs/2404.00045v2 )

ライセンス: Link先を確認
Muhammad Aneeq uz Zaman, Shubham Aggarwal, Melih Bastopcu, Tamer Başar, (参考訳) 本稿では,ジェネラルサムのNash Equilibria(NE)に対する相対エントロピー正則化の導入による影響を考察し,そのようなゲームのNEが線形ガウスポリシーに適合していることを明らかにする。 さらに、ゲーム内のNEの特異性に対して、エントロピー正則化の妥当性に基づいて、十分な条件を規定する。 政策最適化は、NEの発見を目的とした強化学習(RL)技術の基礎的アプローチとして機能するので、この研究において、(エントロピー正則化の精度を前提として)NEを得ることができる政策最適化アルゴリズムの線形収束性を証明する。 さらに,エントロピー正規化が不十分なシナリオでは,ゲーム内での$\epsilon$-NEの達成を促進する$\delta$-augmentation手法を提案する。

In this paper, we investigate the impact of introducing relative entropy regularization on the Nash Equilibria (NE) of General-Sum $N$-agent games, revealing the fact that the NE of such games conform to linear Gaussian policies. Moreover, it delineates sufficient conditions, contingent upon the adequacy of entropy regularization, for the uniqueness of the NE within the game. As Policy Optimization serves as a foundational approach for Reinforcement Learning (RL) techniques aimed at finding the NE, in this work we prove the linear convergence of a policy optimization algorithm which (subject to the adequacy of entropy regularization) is capable of provably attaining the NE. Furthermore, in scenarios where the entropy regularization proves insufficient, we present a $\delta$-augmentation technique, which facilitates the achievement of an $\epsilon$-NE within the game.
翻訳日:2024-09-16 23:27:08 公開日:2024-09-13
# 量子井戸励起子偏光子のボース・アインシュタイン凝縮に及ぼす磁場の影響

Effect of magnetic field on the Bose-Einstein condensation of quantum well exciton-polaritons ( http://arxiv.org/abs/2404.00970v3 )

ライセンス: Link先を確認
Nguyen Dung Chinh, Le Tri Dat, Vinh N. T. Pham, Tran Duong Anh-Tai, Vo Quoc Phong, Nguyen Duy Vy, (参考訳) GaAs量子井戸におけるボース・アインシュタイン凝縮に対する励起子偏光子の緩和過程における磁場の非線形効果を理論的に検討する。 本研究により,エキシトンの有効質量,ラビ分裂,分散の変化が,凝縮に近づくにつれて偏光子の緩和速度を著しく変化させることが明らかとなった。 準定常ポンプを用いることで、磁場強度の変化に応じて、全および縮合した偏光子集団のダイナミクスを明らかにする。 特に,低エネルギーポンピング条件下では,磁場の存在が凝縮を著しく抑制することを示す。 この抑制はエネルギー準位間の散乱速度の低下によるもので、これは高エネルギー分散における急勾配の減少の結果である。 逆に、ポンプエネルギーと磁場の両方を増大させることで緩和効率が向上し、凝縮した分極子の数が大幅に増加する。

We theoretically investigate the nonlinear effects of a magnetic field on the relaxation process of exciton-polaritons toward Bose-Einstein condensation in GaAs quantum wells. Our study reveals that the modification of the exciton's effective mass, Rabi splitting, and dispersion significantly alters the relaxation rate of polaritons as they approach condensation. By employing a quasi-stationary pump, we clarify the dynamics of the total and condensed polariton populations in response to varying magnetic field strengths. Notably, we demonstrate that under low-energy pumping conditions, the presence of a magnetic field significantly suppresses condensation. This suppression is attributed to the decreased scattering rate between energy levels, which is a consequence of the reduced steepness in the high-energy dispersion. Conversely, increasing both the pump energy and the magnetic field can enhance relaxation efficiency, leading to a substantially larger number of condensed polaritons.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# 共有値による大規模言語モデル決定の解説

Explaining Large Language Models Decisions with Shapley Values ( http://arxiv.org/abs/2404.01332v2 )

ライセンス: Link先を確認
Behnam Mohammadi, (参考訳) 大規模言語モデル(LLM)の出現は、マーケティング研究や消費者行動分析など、様々な分野における潜在的な応用とともに、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。 しかし, LLMをヒトのスタンドインとして活用する妥当性は, 基礎過程が根本的に異なることや, LLM応答の感度が変化の促進に寄与していることから, 明らかでない。 本稿では,協調ゲーム理論からのシェープリー値に基づく新たなアプローチを提案し,各プロンプト成分の相対的寄与をモデル出力に定量化する。 離散的な選択実験と認知バイアスの調査という2つのアプリケーションを通じて、私たちはShapley値法が、LLM決定が最小限の情報コンテンツを提供するトークンによって不均等に影響される現象である"トーケンノイズ"エフェクト(token noise)"と呼ばれるものを明らかにする方法を示します。 この現象は、人間の行動シミュレーションの文脈において、LSMから得られる洞察の堅牢性と一般化可能性に関する懸念を提起する。 我々のモデルに依存しないアプローチは、その実用性を独自のLCMに拡張し、実践者や研究者が戦略的にプロンプトを最適化し、明らかな認知バイアスを軽減する貴重なツールを提供する。 調査では, 被験者の代替品として利用する前に, LLM反応を駆動する要因について, よりきめ細やかな理解の必要性が示唆された。 我々は、特定のプロンプトテンプレートに条件付けされた結果を報告することの重要性を強調し、人間の行動とLLMの並行性を引き出す際に注意を喚起する。

The emergence of large language models (LLMs) has opened up exciting possibilities for simulating human behavior and cognitive processes, with potential applications in various domains, including marketing research and consumer behavior analysis. However, the validity of utilizing LLMs as stand-ins for human subjects remains uncertain due to glaring divergences that suggest fundamentally different underlying processes at play and the sensitivity of LLM responses to prompt variations. This paper presents a novel approach based on Shapley values from cooperative game theory to interpret LLM behavior and quantify the relative contribution of each prompt component to the model's output. Through two applications - a discrete choice experiment and an investigation of cognitive biases - we demonstrate how the Shapley value method can uncover what we term "token noise" effects, a phenomenon where LLM decisions are disproportionately influenced by tokens providing minimal informative content. This phenomenon raises concerns about the robustness and generalizability of insights obtained from LLMs in the context of human behavior simulation. Our model-agnostic approach extends its utility to proprietary LLMs, providing a valuable tool for practitioners and researchers to strategically optimize prompts and mitigate apparent cognitive biases. Our findings underscore the need for a more nuanced understanding of the factors driving LLM responses before relying on them as substitutes for human subjects in survey settings. We emphasize the importance of researchers reporting results conditioned on specific prompt templates and exercising caution when drawing parallels between human behavior and LLMs.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# IndoCulture: インドネシアの11州にまたがる地理的影響のある文化的コモンセンスの探索

IndoCulture: Exploring Geographically-Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces ( http://arxiv.org/abs/2404.01854v2 )

ライセンス: Link先を確認
Fajri Koto, Rahmad Mahendra, Nurul Aisyah, Timothy Baldwin, (参考訳) コモンセンス推論は文化的・地理的要因によって大きく形づくられているが、以前の研究は主に英語に根ざした文化に焦点を当てており、アングロセントリックな偏見をもたらす可能性がある。 本稿では,インドネシアの11州で見られる多様な文化に着目し,地理的要因が言語モデル推論能力に与える影響を理解することを目的としたIndoCultureを紹介する。 テンプレート (Yin et al , 2022) やオンラインスクラップ (Fung et al , 2024) に頼っていた以前の作業とは対照的に, 地域住民に対して, 事前に定義されたトピックのセットを通じて, 文化的文脈と妥当な選択肢を手作業で開発するように求めることで, IndoCulture を作成する。 オープンウェイトなLlama-3はGPT-4と競合するが、他のオープンウェイトなモデルでは50%未満の精度で苦戦し、(2)バリや西ジャワなど一部の州ではあまり良くないモデルパターンが一般的であり、(3)位置コンテキストが加わったことでパフォーマンスが向上し、特にGPT-4のような大規模モデルでは、コモンセンス推論における地理的コンテキストの重要性が強調される。

Although commonsense reasoning is greatly shaped by cultural and geographical factors, previous studies have predominantly centered on cultures grounded in the English language, potentially resulting in an Anglocentric bias. In this paper, we introduce IndoCulture, aimed at understanding the influence of geographical factors on language model reasoning ability, with a specific emphasis on the diverse cultures found within eleven Indonesian provinces. In contrast to prior work that has relied on templates (Yin et al., 2022) and online scrapping (Fung et al., 2024), we create IndoCulture by asking local people to manually develop a cultural context and plausible options, across a set of predefined topics. Evaluation of 27 language models reveals several insights: (1) the open-weight Llama-3 is competitive with GPT-4, while other open-weight models struggle, with accuracies below 50%; (2) there is a general pattern of models generally performing better for some provinces, such as Bali and West Java, and less well for others; and (3) the inclusion of location context enhances performance, especially for larger models like GPT-4, emphasizing the significance of geographical context in commonsense reasoning.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# アクティベーションステアリングによるCodeLLMs(Mis)予測型の理解

Understanding How CodeLLMs (Mis)Predict Types with Activation Steering ( http://arxiv.org/abs/2404.01903v2 )

ライセンス: Link先を確認
Francesca Lucchetti, Arjun Guha, (参考訳) CodeLLMは、私たちが知っているように、ソフトウェア開発を変革しています。 これは、型予測のようなルールベースのアプローチが不足しているタスクには特に当てはまります。 型予測タスクは、部分的に型付けされたプログラムに新しい型アノテーションを追加することで構成される。 ルールベースのアプローチの難易度と手作業によるアノテーションの高コストにより、CodeLLMはこの問題に対する魅力的な解決策となっている。 しかし、CodeLLMは信頼性に関する疑問から、大規模なデプロイには程遠い。 CodeLLMsが型予測にどのようにアプローチするかを示すために、モデルが型を誤って予測した場合に何が起こるかを調査する。 コードにセマンティクスを保存する編集を適用することで、コードLLMは最終的に型アノテーションの誤予測に誤解される。 しかしながら、アクティベーションステアリングを活用することで、モデルを正しい予測に"ステア"することができるため、意味的に無関係なプロンプト機能に対して、モデルはより堅牢になります。 ステアリングは型予測タスクで直接微調整に匹敵する性能を発揮することを示す。 さらに、Pythonコードから計算されたステアリングベクターはTypeScriptの誤予測を修正するのに有効であり、その逆も有効であることがわかった。 われわれの知る限り、これはCodeLLMsが言語間で転送されるタスク表現を学習していることを示す最初の証拠である。

CodeLLMs are transforming software development as we know it. This is especially true for tasks where rule-based approaches fall short, like type prediction. The type prediction task consists in adding a new type annotation to a partially typed program, such that the resulting program is closer to being fully typed. The intractability of rule-based approaches and high cost of manual annotation make CodeLLMs an attractive solution to the problem. However, CodeLLMs are still far from being deployed on the large-scale due to doubts surrounding their reliability. To shed some light on how CodeLLMs approach type prediction, we investigate what happens when a model mispredicts a type. We show that by applying semantics-preserving edits to code, CodeLLMs are eventually misled into mispredicting type annotations. However, by leveraging activation steering we are able to "steer" the model back to the correct prediction, making models more robust against semantically irrelevant prompt features. We show that steering achieves comparable performance to fine-tuning directly on the type prediction task. Furthermore, we find that steering vectors computed from Python code are effective at correcting TypeScript mispredictions, and vice versa. To our knowledge, this is the first evidence of its kind to suggest that CodeLLMs learn task representations that transfer across languages.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# DELTA:大規模言語モデルを用いた分割型長期ロボットタスク計画

DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models ( http://arxiv.org/abs/2404.03275v2 )

ライセンス: Link先を確認
Yuchen Liu, Luigi Palmieri, Sebastian Koch, Ilche Georgievski, Marco Aiello, (参考訳) 大規模言語モデル(LLM)の最近の進歩は多くの研究分野に革命をもたらした。 ロボット工学において、LLMからの常識的知識をタスクと運動計画に統合することは、前例のないレベルの文脈認識を解き放つことによって、分野を劇的に進歩させてきた。 膨大な知識の収集にもかかわらず、大きな言語モデルは幻覚やドメイン情報の欠落によって実現不可能な計画を生成する可能性がある。 これらの課題に対処し、計画の実現性と計算効率を向上させるために、新しいLCMインフォームドタスク計画手法であるDELTAを導入する。 シーングラフをLLM内の環境表現として使用することにより、DELTAは正確な計画問題記述を迅速に生成する。 計画性能を向上させるため、DELTAはLLMによる長期タスク目標を自己回帰的なサブゴール列に分解し、自動タスクプランナーが複雑な問題を効率的に解決できるようにする。 本評価では,DELTAにより,効率的な完全自動タスク計画パイプラインの実現が可能であり,計画成功率の向上と,最先端技術と比較して計画時間の短縮が図られている。

Recent advancements in Large Language Models (LLMs) have sparked a revolution across many research fields. In robotics, the integration of common-sense knowledge from LLMs into task and motion planning has drastically advanced the field by unlocking unprecedented levels of context awareness. Despite their vast collection of knowledge, large language models may generate infeasible plans due to hallucinations or missing domain information. To address these challenges and improve plan feasibility and computational efficiency, we introduce DELTA, a novel LLM-informed task planning approach. By using scene graphs as environment representations within LLMs, DELTA achieves rapid generation of precise planning problem descriptions. To enhance planning performance, DELTA decomposes long-term task goals with LLMs into an autoregressive sequence of sub-goals, enabling automated task planners to efficiently solve complex problems. In our extensive evaluation, we show that DELTA enables an efficient and fully automatic task planning pipeline, achieving higher planning success rates and significantly shorter planning times compared to the state of the art.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# イベントベース自動車データを考慮したスパイクニューラルネットワークパラメータの影響に関する一検討

A Methodology to Study the Impact of Spiking Neural Network Parameters considering Event-Based Automotive Data ( http://arxiv.org/abs/2404.03493v3 )

ライセンス: Link先を確認
Iqra Bano, Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Muhammad Shafique, (参考訳) 自律運転(AD)システムは、人間の移動と交通の未来と見なされている。 リアルタイムのADシステムを実現するためには,画像分類や物体検出・分離などのコンピュータビジョンタスクを高精度かつ低消費電力で解決する必要がある。 これらの要件は、スパイキングニューラルネットワーク(SNN)によって満たされる可能性がある。 しかしながら、SNNベースのADシステムにおける最先端の作業は、精度の高いネットワークモデルの提案に重点を置いており、イベントベースの自動車データ学習において、SNNパラメータの役割を体系的に研究していない。 したがって、ADシステムのためのSNNモデルを効果的に開発する方法については、まだ理解されていない。 そこで本稿では,イベントベース自動車データを考慮したSNNパラメータの影響を体系的に研究し,分析する手法を提案する。 そこで我々はまず,学習メカニズム(バッチサイズ,学習速度,ニューロン閾値電位,体重減衰など)に直接影響を及ぼすSNNパラメータの異なる設定を探索し,精度を解析する。 その後,SNNの精度を向上し,トレーニング時間を短縮する手法を提案する。 実験結果から,NCARSデータセットの精度は86%,等精度(標準偏差0.5%以下で約85%)を達成でき,トレーニング時間を1.9倍に向上できることがわかった。 このようにして、本研究は、SNNパラメータ拡張のための一連のガイドラインを提供し、SNNベースのADシステムの実用的な開発を可能にする。

Autonomous Driving (AD) systems are considered as the future of human mobility and transportation. Solving computer vision tasks such as image classification and object detection/segmentation, with high accuracy and low power/energy consumption, is highly needed to realize AD systems in real life. These requirements can potentially be satisfied by Spiking Neural Networks (SNNs). However, the state-of-the-art works in SNN-based AD systems still focus on proposing network models that can achieve high accuracy, and they have not systematically studied the roles of SNN parameters when used for learning event-based automotive data. Therefore, we still lack understanding of how to effectively develop SNN models for AD systems. Toward this, we propose a novel methodology to systematically study and analyze the impact of SNN parameters considering event-based automotive data, then leverage this analysis for enhancing SNN developments. To do this, we first explore different settings of SNN parameters that directly affect the learning mechanism (i.e., batch size, learning rate, neuron threshold potential, and weight decay), then analyze the accuracy results. Afterward, we propose techniques that jointly improve SNN accuracy and reduce training time. Experimental results show that our methodology can improve the SNN models for AD systems than the state-of-the-art, as it achieves higher accuracy (i.e., 86%) for the NCARS dataset, and it can also achieve iso-accuracy (i.e., ~85% with standard deviation less than 0.5%) while speeding up the training time by 1.9x. In this manner, our research work provides a set of guidelines for SNN parameter enhancements, thereby enabling the practical developments of SNN-based AD systems.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# 正確で堅牢でパラメータ効率のよい学習でニューラルネットワークを実現するデンドライト

Dendrites endow artificial neural networks with accurate, robust and parameter-efficient learning ( http://arxiv.org/abs/2404.03708v2 )

ライセンス: Link先を確認
Spyridon Chavlis, Panayiota Poirazi, (参考訳) 人工知能ニューラルネットワーク(ANN)は、画像認識や自律運転、自然言語処理といった複雑な問題にうまく対処する、ほとんどのディープラーニング(DL)アルゴリズムの中核にある。 しかし、非常に効率的な方法で同様の問題に取り組む生物学的脳とは異なり、DLアルゴリズムは多くの訓練可能なパラメータを必要とし、エネルギー集約的で過度に適合する傾向がある。 本稿では, 生物学的デンドライトの構造的接続と制限されたサンプリング特性を組み込んだ新しいANNアーキテクチャが, これらの制約に対処することを示す。 デンドライトANNは、トレーニング可能なパラメータをはるかに少なく使用しながら、複数の画像分類タスクにおいて従来のANNを過度に適合させ、性能を向上するために、より堅牢であることがわかった。 これらのアドバンテージは、クラス固有性を求める古典的なANNとは異なり、樹状ANNのほとんどのノードが複数のクラスに応答する、異なる学習戦略の結果である可能性が高い。 以上の結果から, 樹状体の物性を組み込むことで, ANNにおける学習の精度, 弾力性, パラメータ効率が向上し, 生物学的特徴がANNの学習戦略にどのような影響を及ぼすか, 新たな光がもたらされることが示唆された。

Artificial neural networks (ANNs) are at the core of most Deep learning (DL) algorithms that successfully tackle complex problems like image recognition, autonomous driving, and natural language processing. However, unlike biological brains who tackle similar problems in a very efficient manner, DL algorithms require a large number of trainable parameters, making them energy-intensive and prone to overfitting. Here, we show that a new ANN architecture that incorporates the structured connectivity and restricted sampling properties of biological dendrites counteracts these limitations. We find that dendritic ANNs are more robust to overfitting and outperform traditional ANNs on several image classification tasks while using significantly fewer trainable parameters. These advantages are likely the result of a different learning strategy, whereby most of the nodes in dendritic ANNs respond to multiple classes, unlike classical ANNs that strive for class-specificity. Our findings suggest that the incorporation of dendritic properties can make learning in ANNs more precise, resilient, and parameter-efficient and shed new light on how biological features can impact the learning strategies of ANNs.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# 中国語Tiny LLM:中国語中心の大規模言語モデルの事前学習

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model ( http://arxiv.org/abs/2404.04167v5 )

ライセンス: Link先を確認
Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Wenhu Chen, Ge Zhang, (参考訳) 本研究では,LLM開発における中国語の優先化に向けた重要なシフトを示す2B大規模言語モデル(LLM)であるCT-LLMを紹介する。 CT-LLMは、スクラッチからはじめて、800億の中国トークン、300億の英語トークン、1000億のコードトークンを含む1200億のトークンの広範なコーパスを利用して、主に中国語のテキストデータを組み込むことによって、従来の手法から分離した。 この戦略構成は、アライメント技術によってさらに強化された、中国語の理解と処理において、モデルが卓越した能力を促進する。 CHC-Benchでの顕著な性能を示すために、CT-LLMは中国語のタスクに優れており、SFTによる英語での適応性を示している。 本研究は,LLMを英語コーパスに基づいて学習し,それを他の言語に適応させることによって,LLM学習方法論の地平を広げるという,一般的なパラダイムに挑戦する。 得られた大量事前学習型中国語コーパス(MAP-CC)、高度多分野の中国語ハードケースベンチマーク(CHC-Bench)、および2Bサイズの中国語Tiny LLM(CT-LLM)を含む詳細なデータ処理手順をオープンソース化することにより、学術と産業の両方におけるさらなる探索と革新を促進し、より包括的で多目的な言語モデルの実現を目指す。

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# DevSecOpsのためのAI: ランドスケープと将来の可能性

AI for DevSecOps: A Landscape and Future Opportunities ( http://arxiv.org/abs/2404.04839v2 )

ライセンス: Link先を確認
Michael Fu, Jirat Pasuksmit, Chakkrit Tantithamthavorn, (参考訳) DevOpsは、最も急速に進化するソフトウェア開発パラダイムの1つです。 ソフトウェアシステムのセキュリティに関する懸念が高まっている中、DevSecOpsパラダイムが注目され、実践者がDevOpsワークフローにセキュリティプラクティスをシームレスに組み込むように促された。 しかしながら、セキュリティをDevOpsワークフローに統合することは、アジリティに影響を与え、デリバリ速度を阻害する可能性がある。 近年、人工知能(AI)の進歩は、ソフトウェアセキュリティを含む様々なソフトウェア領域における自動化に革命をもたらした。 AI駆動のセキュリティアプローチ、特に機械学習やディープラーニングを活用するものは、セキュリティワークフローの自動化を約束する。 これにより手作業の労力を減らし、DevOpsに統合して、未中断のデリバリ速度を確保し、DevSecOpsパラダイムを同時に整合させることが可能になる。 本稿では、DevOpsに適用可能なAI駆動型セキュリティ技術の総合的な展望を示し、ソフトウェア開発プロセスにおけるセキュリティ、信頼性、効率性を高めるための道筋を特定することによって、AIとDevSecOpsのクリティカルな交差に寄与することを目的とする。 2017年から2023年までの99の論文を分析した。 具体的には2つの重要な研究課題(RQ)に対処する。 RQ1では、DevSecOpsプロセスに関連する12のセキュリティタスクを特定し、既存のAI駆動型セキュリティアプローチ、対処した問題、これらのアプローチを評価するために使用される65のベンチマークをレビューしました。 RQ2では、最先端のAI駆動型セキュリティアプローチについて議論し、既存の研究における15の課題を強調し、今後の機会のための15の道程を提案しました。

DevOps has emerged as one of the most rapidly evolving software development paradigms. With the growing concerns surrounding security in software systems, the DevSecOps paradigm has gained prominence, urging practitioners to incorporate security practices seamlessly into the DevOps workflow. However, integrating security into the DevOps workflow can impact agility and impede delivery speed. Recently, the advancement of artificial intelligence (AI) has revolutionized automation in various software domains, including software security. AI-driven security approaches, particularly those leveraging machine learning or deep learning, hold promise in automating security workflows. They reduce manual efforts, which can be integrated into DevOps to ensure uninterrupted delivery speed and align with the DevSecOps paradigm simultaneously. This paper seeks to contribute to the critical intersection of AI and DevSecOps by presenting a comprehensive landscape of AI-driven security techniques applicable to DevOps and identifying avenues for enhancing security, trust, and efficiency in software development processes. We analyzed 99 research papers spanning from 2017 to 2023. Specifically, we address two key research questions (RQs). In RQ1, we identified 12 security tasks associated with the DevSecOps process and reviewed existing AI-driven security approaches, the problems they addressed, and the 65 benchmarks used to evaluate those approaches. Drawing insights from our findings, in RQ2, we discussed state-of-the-art AI-driven security approaches, highlighted 15 challenges in existing research, and proposed 15 corresponding avenues for future opportunities.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# カークウッド・ディラック古典状態の幾何学:離散フーリエ変換に基づくケーススタディ

Geometry of Kirkwood-Dirac classical states: A case study based on discrete Fourier transform ( http://arxiv.org/abs/2404.09399v2 )

ライセンス: Link先を確認
Ying-Hui Yang, Shuang Yao, Shi-Jiao Geng, Xiao-Li Wang, Pei-Ying Chen, (参考訳) カークウッド・ディラック(KD)の古典性や非古典性は量子情報処理において非常に重要である。 一般に、2つの基底に対するKD古典状態の集合は凸ポリトープ[J]ではない。 数学。 Phys これは、どの状況でポリトープを形成するかを知ることに興味を抱かせる。 本稿では、2つの基底間の遷移行列が、それぞれ$p^2$と$pq$の次元を持つヒルベルト空間における離散フーリエ変換(DFT)行列である場合の混合状態のKD古典性の特徴づけに焦点を当てる。 調査する2つの特定のケースに対して、極小点の集合は有限であり、これは我々が特徴づけるKD古典状態の集合が凸ポリトープを形成することを意味する。 p^2$次元系の場合、集合 $\rm{KD}_{\mathcal{A},\mathcal{B}}^+$ は DFT に基づく集合 $\rm {pure}({\rm {KD}_{\mathcal{A},\mathcal{B}}^+})$ の凸包であり、$\rm{KD}_{\mathcal{A},\mathcal{B}}^+$ は二つの基底に関して KD 古典状態の集合であり、$\rm {pure}({\rm {KD}_{\mathcal{A},\mathcal{B}}^+}) は二つの基底に関して KD 古典的状態の集合である。 pq$次元系では、この結果も成り立つと信じている。 残念ながら、完全には証明していないが、KD古典性の特徴についていくつかの意味のある結論が得られている。

The characterization of Kirkwood-Dirac (KD) classicality or non-classicality is very important in quantum information processing. In general, the set of KD classical states with respect to two bases is not a convex polytope[J. Math. Phys. \textbf{65} 072201 (2024)], which makes us interested in finding out in which circumnstances they do form a polytope. In this paper, we focus on the characterization of KD classicality of mixed states for the case where the transition matrix between two bases is a discrete Fourier transform (DFT) matrix in Hilbert space with dimensions $p^2$ and $pq$, respectively, where $p, q$ are prime. For the two particular cases we investigate, the sets of extremal points are finite, implying that the set of KD classical states we characterize forms a convex polytope. We show that for $p^2$ dimensional system, the set $\rm{KD}_{\mathcal{A},\mathcal{B}}^+$ is a convex hull of the set $\rm {pure}({\rm {KD}_{\mathcal{A},\mathcal{B}}^+})$ based on DFT, where $\rm{KD}_{\mathcal{A},\mathcal{B}}^+$ is the set of KD classical states with respect to two bases and $\rm {pure}({\rm {KD}_{\mathcal{A},\mathcal{B}}^+})$ is the set of all the rank-one projectors of KD classical pure states with respect to two bases. In $pq$ dimensional system, we believe that this result also holds. Unfortunately, we do not completely prove it, but some meaningful conclusions are obtained about the characterization of KD classicality.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# MonoPCC: 内視鏡画像の単眼深度推定のための光量不変サイクル制約

MonoPCC: Photometric-invariant Cycle Constraint for Monocular Depth Estimation of Endoscopic Images ( http://arxiv.org/abs/2404.16571v3 )

ライセンス: Link先を確認
Zhiwei Wang, Ying Zhou, Shiquan He, Ting Li, Fan Huang, Qiang Ding, Xinxia Feng, Mei Liu, Qiang Li, (参考訳) 光度制約は自己教師付き単眼深度推定には不可欠である。 ソースイメージを推定された深さ/目的を使ってターゲットビューにワープし、ワープされた画像とターゲットイメージの差を最小限にする。 しかし、内視鏡内蔵光は大きな明るさ変動を引き起こすため、光度制約は信頼できない。 以前の取り組みは、画像の明るさを調整するための余分なモデルに頼ることで、これを緩和するだけであった。 本稿では,光度制約を周期形式に変換することにより,輝度の不整合を根本的に解消するMonoPCCを提案する。 ソースイメージをワープする代わりに、MonoPCCは、ターゲットからソースへ、そしてターゲットへという2つの反対の前方方向のワープパスからなるクローズドループを構築する。 これにより、ターゲット画像は最終的に自身からワープされた画像サイクルを受け取り、自然に輝度に制約が不変となる。 さらに、MonoPCCは、ソース画像の位相周波数を中間歪画像に移植し、構造損失を回避するとともに、指数的移動平均(EMA)戦略を用いてトレーニングを安定化し、前方歪の頻繁な変化を避ける。 4つの内視鏡的データセットの総合的および広範囲な実験結果から、提案したMonoPCCは、輝度不整合に大きな堅牢性を示し、それぞれ7.27%、9.38%、9.90%、および3.17%の絶対相対誤差を減少させることにより、他の最先端技術を上回ることを示した。

Photometric constraint is indispensable for self-supervised monocular depth estimation. It involves warping a source image onto a target view using estimated depth&pose, and then minimizing the difference between the warped and target images. However, the endoscopic built-in light causes significant brightness fluctuations, and thus makes the photometric constraint unreliable. Previous efforts only mitigate this relying on extra models to calibrate image brightness. In this paper, we propose MonoPCC to address the brightness inconsistency radically by reshaping the photometric constraint into a cycle form. Instead of only warping the source image, MonoPCC constructs a closed loop consisting of two opposite forward-backward warping paths: from target to source and then back to target. Thus, the target image finally receives an image cycle-warped from itself, which naturally makes the constraint invariant to brightness changes. Moreover, MonoPCC transplants the source image's phase-frequency into the intermediate warped image to avoid structure lost, and also stabilizes the training via an exponential moving average (EMA) strategy to avoid frequent changes in the forward warping. The comprehensive and extensive experimental results on four endoscopic datasets demonstrate that our proposed MonoPCC shows a great robustness to the brightness inconsistency, and exceeds other state-of-the-arts by reducing the absolute relative error by at least 7.27%, 9.38%, 9.90% and 3.17%, respectively.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# 森林火災のリスク予測 : レビュー

Wildfire Risk Prediction: A Review ( http://arxiv.org/abs/2405.01607v3 )

ライセンス: Link先を確認
Zhengsen Xu, Jonathan Li, Sibo Cheng, Xue Rui, Yu Zhao, Hongjie He, Linlin Xu, (参考訳) 森林火災は地球規模の植生、野生生物、人間に重大な影響を及ぼす。 植物群落や野生生物の生息地を破壊し、二酸化炭素、酸化窒素、メタン、その他の汚染物質の排出の増加に貢献している。 山火事の予測は、回帰や機械学習の手法と組み合わせた様々な独立変数に依存している。 本稿では,独立変数の選択肢,データ処理手法,モデル,独立変数のコリニアリティと重要度推定手法,モデル性能評価指標について述べる。 まず,独立変数を気候・気象条件,社会経済的要因,地形・水文学的特徴,山火事の歴史記録の4つの側面に分けた。 第二に、前処理法は、大きさ、空間時間分解能、データの異なるフォーマットについて記述する。 第3に、独立変数のコリニアリティと重要度評価方法についても検討する。 第4に、山火事リスク予測における統計モデル、従来の機械学習モデル、ディープラーニングモデルの適用について論じる。 本項では,他のレビューと比較して,特に評価指標と近年のディープラーニング手法の進歩について論じる。 最後に,本研究の限界に対処するため,より効果的な深層学習時系列予測アルゴリズムの必要性,地上および幹燃料を含む3次元データの利用,より正確な歴史的火点データの抽出,モデル評価指標の改善等を強調した。

Wildfires have significant impacts on global vegetation, wildlife, and humans. They destroy plant communities and wildlife habitats and contribute to increased emissions of carbon dioxide, nitrogen oxides, methane, and other pollutants. The prediction of wildfires relies on various independent variables combined with regression or machine learning methods. In this technical review, we describe the options for independent variables, data processing techniques, models, independent variables collinearity and importance estimation methods, and model performance evaluation metrics. First, we divide the independent variables into 4 aspects, including climate and meteorology conditions, socio-economical factors, terrain and hydrological features, and wildfire historical records. Second, preprocessing methods are described for different magnitudes, different spatial-temporal resolutions, and different formats of data. Third, the collinearity and importance evaluation methods of independent variables are also considered. Fourth, we discuss the application of statistical models, traditional machine learning models, and deep learning models in wildfire risk prediction. In this subsection, compared with other reviews, this manuscript particularly discusses the evaluation metrics and recent advancements in deep learning methods. Lastly, addressing the limitations of current research, this paper emphasizes the need for more effective deep learning time series forecasting algorithms, the utilization of three-dimensional data including ground and trunk fuel, extraction of more accurate historical fire point data, and improved model evaluation metrics.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# 持続的改善を伴うエージェントによるアルゴリズムによる意思決定

Algorithmic Decision-Making under Agents with Persistent Improvement ( http://arxiv.org/abs/2405.01807v3 )

ライセンス: Link先を確認
Tian Xie, Xuwei Tan, Xueru Zhang, (参考訳) 本稿では,人間の戦略的行動下でのアルゴリズムによる意思決定について検討する。そこでは,意思決定者がアルゴリズムを用いて人的エージェントについての意思決定を行う。 エージェントが彼らの努力からすぐに恩恵を受けると仮定する以前の作業とは異なり、これらの取り組みの影響が持続的であり、エージェントは徐々に改善することで努力の恩恵を受ける現実的なシナリオを考察する。 まず、永続的な改善を特徴付ける動的モデルを開発し、この構成に基づいてエージェントと意思決定者間の相互作用をモデル化する。 我々は、均衡戦略を解析的に特徴付け、エージェントが改善のインセンティブを持つ条件を特定する。 このダイナミクスを用いて、エージェントの集団内で最大の改善をインセンティブ付けるための最適なポリシーを、意思決定者がいかに設計できるかを研究する。 また、設定にモデルを拡張します。 1) エージェントは,不正直であり,かつ,アルゴリズムを好意的かつ誤った判断に駆り立てることができる。 2) 誠実な努力は忘れられ、継続的な改善を保証するには不十分です。 拡張モデルにより、エージェントは不正直な行動よりも正直な努力を優先し、忘れやすい努力の効果を優先する条件をさらに検討する。

This paper studies algorithmic decision-making under human's strategic behavior, where a decision maker uses an algorithm to make decisions about human agents, and the latter with information about the algorithm may exert effort strategically and improve to receive favorable decisions. Unlike prior works that assume agents benefit from their efforts immediately, we consider realistic scenarios where the impacts of these efforts are persistent and agents benefit from efforts by making improvements gradually. We first develop a dynamic model to characterize persistent improvements and based on this construct a Stackelberg game to model the interplay between agents and the decision-maker. We analytically characterize the equilibrium strategies and identify conditions under which agents have incentives to improve. With the dynamics, we then study how the decision-maker can design an optimal policy to incentivize the largest improvements inside the agent population. We also extend the model to settings where 1) agents may be dishonest and game the algorithm into making favorable but erroneous decisions; 2) honest efforts are forgettable and not sufficient to guarantee persistent improvements. With the extended models, we further examine conditions under which agents prefer honest efforts over dishonest behavior and the impacts of forgettable efforts.
翻訳日:2024-09-16 23:17:21 公開日:2024-09-13
# Rydberg RF受信機の変調転送プロトコル

Modulation transfer protocol for Rydberg RF receivers ( http://arxiv.org/abs/2405.03618v3 )

ライセンス: Link先を確認
Duc-Anh Trinh, Adwaith K. V., Mickael Branco, Aliénor Rouxel, Sacha Welinski, Perrine Berger, Fabienne Goldfarb, Fabien Bretenaker, (参考訳) 本稿では,Rydberg RFレシーバの検出感度を,Rydberg レベル間の遷移からの共振場に高めるための変調転送プロトコルを提案する。 このプロトコルは、電磁誘導透明性(EIT)信号を生成するために使用される制御フィールドの位相変調に基づいている。 多成分カップリングレーザとプローブレーザの非線形波動混合は、RFフィールド検出に使用されるプローブレーザに変調を伝達する。 この測定は、原子-光相互作用の半古典シミュレーションとよく比較され、センサのRF帯域幅の改善と弱い磁場に対する応答の感度の向上を示す。

We propose and demonstrate a modulation transfer protocol to increase the detection sensitivity of a Rydberg RF receiver to fields out of resonance from the transition between Rydberg levels. This protocol is based on a phase modulation of the control field used to create the Electromagnetically Induced Transparency (EIT) signal. The nonlinear wave-mixing of the multi-component coupling laser and the probe laser transfers the modulation to the probe laser, which is used for RF-field detection. The measurements compare well with semi-classical simulations of atom-light interaction and show an improvement in the RF bandwidth of the sensor and an improved sensitivity of the response to weak fields.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# オーストリア手話における動詞と形容詞のモーションキャプチャー解析

Motion Capture Analysis of Verb and Adjective Types in Austrian Sign Language ( http://arxiv.org/abs/2405.05161v2 )

ライセンス: Link先を確認
Julia Krebs, Evie Malaia, Ronnie B. Wilbur, Isabella Fessl, Hans-Peter Wiesinger, Hermann Schwameder, Dietmar Roehm, (参考訳) 多くの手話において、支配的な手話の時間的特徴と空間的特徴は意味的特徴と文法的特徴を表現するために用いられる。 オーストリア手話 (Osterreichische Geb\"ardensprache, \"OGS") の研究では, 動詞や形容詞における手話生成の運動パラメータを定量的に特徴付けるために, 4つの手話シグナーのモーションキャプチャーデータを用いている。 本研究は,(1) 目的語(動詞,eg) と動詞(動詞,eg) を含まない動詞(動詞,eg) と,(2) 強弱形と非強弱形(プレーン) 形の形容詞記号(形容詞記号)の差について検討する。 リニア・ミックス・エフェクト・モデル(LME)を用いたモーションキャプチャーデータ解析は,動詞の終端マーキングと形容詞の強調マークの両方が,「OGS」の運動変調によって表現されることを示す。 動詞型 (telic/atelic) と動詞型 (telic/atelic) の区別は, 語形容詞における文法的区別(強調)は, 非強化形容詞と比較して長文で表される。 観察されたシグナの個人差は、個人的なシグナリングスタイルとして解釈できる。

Across a number of sign languages, temporal and spatial characteristics of dominant hand articulation are used to express semantic and grammatical features. In this study of Austrian Sign Language (\"Osterreichische Geb\"ardensprache, or \"OGS), motion capture data of four Deaf signers is used to quantitatively characterize the kinematic parameters of sign production in verbs and adjectives. We investigate (1) the difference in production between verbs involving a natural endpoint (telic verbs; e.g. arrive) and verbs lacking an endpoint (atelic verbs; e.g. analyze), and (2) adjective signs in intensified vs. non-intensified (plain) forms. Motion capture data analysis using linear-mixed effects models (LME) indicates that both the endpoint marking in verbs, as well as marking of intensification in adjectives, are expressed by movement modulation in \"OGS. While the semantic distinction between verb types (telic/atelic) is marked by higher peak velocity and shorter duration for telic signs compared to atelic ones, the grammatical distinction (intensification) in adjectives is expressed by longer duration for intensified compared to non-intensified adjectives. The observed individual differences of signers might be interpreted as personal signing style.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# インテリジェントモバイルヘルスシステムのためのプライバシー保護エッジフェデレーション学習

Privacy-Preserving Edge Federated Learning for Intelligent Mobile-Health Systems ( http://arxiv.org/abs/2405.05611v2 )

ライセンス: Link先を確認
Amin Aminifar, Matin Shokri, Amir Aminifar, (参考訳) 機械学習(ML)アルゴリズムは一般的に、トレーニングが行われる1つのデータセンターにすべてのデータが格納されるシナリオのために設計されている。 しかし、医療分野では、多くのアプリケーションにおいて、トレーニングデータは、例えば、異なる病院や患者のモバイルデバイス/センサーなど、いくつかのエンティティに分散されている。 同時に、プライバシーの懸念や法的問題、場合によっては通信と計算のオーバーヘッドのために、データを学習の中央の場所に転送することは選択肢にはならない。 Federated Learning(FL)は、複数のパーティでローカルデータサンプルを共有せずにMLモデルをトレーニングするための、最先端のコラボレーティブMLアプローチである。 しかし、プライバシー保護的な方法で、IoT(Internet of Things)システム上で分散データから学ぶこと(例えば、モバイルヘルスやウェアラブル技術、機密性の高い個人・医療データを含む)は、主にリソースの制約が厳しいこと、すなわち、通信帯域幅、メモリストレージ、バッテリー寿命などによって大きな課題となる。 本稿では,IoTインフラストラクチャ上での資源制約のあるモバイルヘルスおよびウェアラブル技術を対象とした,プライバシ保護エッジFLフレームワークを提案する。 提案するフレームワークを網羅的に評価し,ウェアラブル技術を用いたてんかんモニタリングにおける発作検出アプリケーションに基づく,AmazonのAWSクラウドプラットフォーム上での当社のテクニックの実装を提供する。

Machine Learning (ML) algorithms are generally designed for scenarios in which all data is stored in one data center, where the training is performed. However, in many applications, e.g., in the healthcare domain, the training data is distributed among several entities, e.g., different hospitals or patients' mobile devices/sensors. At the same time, transferring the data to a central location for learning is certainly not an option, due to privacy concerns and legal issues, and in certain cases, because of the communication and computation overheads. Federated Learning (FL) is the state-of-the-art collaborative ML approach for training an ML model across multiple parties holding local data samples, without sharing them. However, enabling learning from distributed data over such edge Internet of Things (IoT) systems (e.g., mobile-health and wearable technologies, involving sensitive personal/medical data) in a privacy-preserving fashion presents a major challenge mainly due to their stringent resource constraints, i.e., limited computing capacity, communication bandwidth, memory storage, and battery lifetime. In this paper, we propose a privacy-preserving edge FL framework for resource-constrained mobile-health and wearable technologies over the IoT infrastructure. We evaluate our proposed framework extensively and provide the implementation of our technique on Amazon's AWS cloud platform based on the seizure detection application in epilepsy monitoring using wearable technologies.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# マルチラベル医用画像分類のための事前学習型視覚言語モデルにおける擬似プロンプト

Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification ( http://arxiv.org/abs/2405.06468v3 )

ライセンス: Link先を確認
Yaoqin Ye, Junjie Zhang, Hongwei Shi, (参考訳) 医用画像認識の課題は,多種多様な病理所見の存在によって明らかに複雑化しており,未確認ラベルを用いた多ラベル分類において特異な課題が提示されている。 この複雑さは、マルチラベルゼロショット学習を用いたコンピュータ支援診断手法の必要性を浮き彫りにする。 近年,前訓練型視覚言語モデル(VLM)の進歩は,医用画像に顕著なゼロショット分類能力を示した。 しかしながら、これらの手法は、より広い画像データセットからの広範な事前訓練された知識の活用に制限があり、しばしば専門の放射線学者による手動のプロンプト構築に依存している。 即時チューニングのプロセスを自動化することで、VLMを下流タスクに適応させる効率的な方法として、即時学習技術が登場した。 しかし、既存のCoOpベースの戦略は、未確認のカテゴリでクラス固有のプロンプトを実行するに足りず、きめ細かいシナリオでの一般化性を制限する。 これらの制約を克服するために,自然言語処理(NLP)におけるテキスト生成によって実現される新しいプロンプト生成手法を提案する。 提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。 RNNベースのデコーダを備えたPsPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。 各種マルチラベル胸部X線写真データセットの比較評価により,先進的な医用ビジョン言語およびマルチラベル・プロンプト学習法に対するアプローチの優位性が確認された。 ソースコードはhttps://github.com/fallingnight/PsPGで入手できる。

The task of medical image recognition is notably complicated by the presence of varied and multiple pathological indications, presenting a unique challenge in multi-label classification with unseen labels. This complexity underlines the need for computer-aided diagnosis methods employing multi-label zero-shot learning. Recent advancements in pre-trained vision-language models (VLMs) have showcased notable zero-shot classification abilities on medical images. However, these methods have limitations on leveraging extensive pre-trained knowledge from broader image datasets, and often depend on manual prompt construction by expert radiologists. By automating the process of prompt tuning, prompt learning techniques have emerged as an efficient way to adapt VLMs to downstream tasks. Yet, existing CoOp-based strategies fall short in performing class-specific prompts on unseen categories, limiting generalizability in fine-grained scenarios. To overcome these constraints, we introduce a novel prompt generation approach inspirited by text generation in natural language processing (NLP). Our method, named Pseudo-Prompt Generating (PsPG), capitalizes on the priori knowledge of multi-modal features. Featuring a RNN-based decoder, PsPG autoregressively generates class-tailored embedding vectors, i.e., pseudo-prompts. Comparative evaluations on various multi-label chest radiograph datasets affirm the superiority of our approach against leading medical vision-language and multi-label prompt learning methods. The source code is available at https://github.com/fallingnight/PsPG
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# 離散音声ユニットを用いたクロスモーダルASR誤り訂正

Crossmodal ASR Error Correction with Discrete Speech Units ( http://arxiv.org/abs/2405.16677v2 )

ライセンス: Link先を確認
Yuanchao Li, Pinzhen Chen, Peter Bell, Catherine Lai, (参考訳) ASRは、発話スタイルが、ASRシステムのトレーニングに使用されたものから分岐し、誤った書き起こしをもたらすシナリオで不満足なままである。 これを解決するには、ASR後の処理アプローチであるASRエラー補正(AEC)が必要である。 本研究は,低リソース・アウト・オブ・ドメイン(LROOD)問題である,低リソース・アウト・オブ・ドメイン(LROOD)問題に,低リソース・アウト・オブ・ドメイン(LROOD)問題として,低リソース・アウト・ド・ドメイン(LROOD)問題に対処するものである。 我々は、事前学習と微調整の戦略を探求し、LROODデータの適切なトレーニングスキームに光を当てて、ASRドメインの不一致現象を明らかにする。 さらに,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。 複数のコーパスと複数の評価指標から,LROODデータに対する提案したAEC手法の有効性と有効性,および大規模データに対する一般化性および優越性を示した。 最後に、音声感情認識の研究により、我々のモデルが下流アプリケーションに適したASR誤り文書を生成することを確認した。

ASR remains unsatisfactory in scenarios where the speaking style diverges from that used to train ASR systems, resulting in erroneous transcripts. To address this, ASR Error Correction (AEC), a post-ASR processing approach, is required. In this work, we tackle an understudied issue: the Low-Resource Out-of-Domain (LROOD) problem, by investigating crossmodal AEC on very limited downstream data with 1-best hypothesis transcription. We explore pre-training and fine-tuning strategies and uncover an ASR domain discrepancy phenomenon, shedding light on appropriate training schemes for LROOD data. Moreover, we propose the incorporation of discrete speech units to align with and enhance the word embeddings for improving AEC quality. Results from multiple corpora and several evaluation metrics demonstrate the feasibility and efficacy of our proposed AEC approach on LROOD data as well as its generalizability and superiority on large-scale data. Finally, a study on speech emotion recognition confirms that our model produces ASR error-robust transcripts suitable for downstream applications.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# 局所性、相関、情報および非エルミート量子系

Locality, Correlations, Information, and non-Hermitian Quantum Systems ( http://arxiv.org/abs/2405.16842v2 )

ライセンス: Link先を確認
Brian Barch, (参考訳) 局所非エルミタン(NH)量子系は、リーブ・ロビンソン(LR)境界の概ね崩壊を示し、新しい局所性対策が既存の測度では見られない光を放ちうるかどうかの研究を動機付けている。 本稿では,局所性を回復する形で,標準連結相関関数(CC)をNHシステムに拡張する。 さらに、局所性だけでなく、ローカルな$PT$-SymmetricシステムにおけるLR境界も回復する改良CCを導出するために計量形式を使い、両方のCCを$n$-partiteケースへ拡張する議論を行う。 エルミート系において、$\delta\rho = \rho-\rho_A\otimes\rho_B$ は CC の線型結合として記述できることを示し、$\Vert\delta\rho\Vert_2$ に LR を有界にすることができる。 汎用的に、相互情報に縛られたLRにも拡張可能であることを示す。 そして、これをNHシステムに拡張し、NHハミルトニアンが非局所的な絡み合いの生成が可能な必要条件を設定するために、その違反を使用できることを示す。 数値シミュレーションは、NH横フィールドイジングモデルに対して正確な対角化を行い、LR境界の破壊と回復を実証する。

Local non-Hermitian (NH) quantum systems generically exhibit breakdown of Lieb-Robinson (LR) bounds, motivating study of whether new locality measures might shed light not seen by existing measures. In this paper we extend the standard connected correlation function (CC) to NH systems in a form that recovers locality. Additionally, we use the metric formalism to derive a modified CC which recovers not just locality but even LR bounds in local $PT$-Symmetric systems, and discuss extensions of both CCs to the $n$-partite case. We show that in Hermitian systems $\delta\rho = \rho-\rho_A\otimes\rho_B$ can be written as a linear combination of CCs, allowing us to place an LR bound on $\Vert\delta\rho\Vert_2$. We show this generically extends to an LR bound on mutual information as well. We then extend this to NH systems, where we show its violations can be used to place a necessary condition on which NH Hamiltonians are capable of nonlocal entanglement generation. Numerical simulations are provided by means of exact diagonalization for the NH Transverse-Field Ising Model, demonstrating both breakdown and recovery of LR bounds.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# NPGA:ニューラルパラメトリックガウスアバター

NPGA: Neural Parametric Gaussian Avatars ( http://arxiv.org/abs/2405.19331v2 )

ライセンス: Link先を確認
Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner, (参考訳) 人間の頭部の高忠実なデジタルバージョンを作ることは、私たちの日常生活に仮想コンポーネントをさらに統合する過程において重要な一歩となる。 このようなアバターの構築は、写真リアリズムとリアルタイムレンダリング性能の要求が高いため、難しい研究課題である。 本研究では,多視点ビデオ記録から高忠実で制御可能なアバターを作成するためのデータ駆動型アプローチであるニューラルパラメトリックガウスアバター(NPGA)を提案する。 我々は高効率なレンダリングのために3次元ガウススプラッティングを中心に手法を構築し、点雲のトポロジカルな柔軟性を継承する。 従来の研究とは対照的に、メッシュベースの3DMMではなく、ニューラルパラメトリックヘッドモデル(NPHM)のリッチな表現空間にアバターのダイナミクスを条件付ける。 この目的のために、我々は基礎となるNPHMの後方変形場をラスタライズベースレンダリングと互換性のある前方変形に蒸留する。 残った微細で表現に依存した詳細はすべて、マルチビュービデオから学べる。 アバターの表現能力の向上のために,各プリミティブの動的挙動を条件に,ガウス単位の潜在特性を提案する。 この動的表現率の増大を正則化するために、潜在特徴と予測力学に関するラプラシアン項を提案する。 提案手法をNeRSembleデータセット上で評価し,NPGAが従来の自己再現タスクの2.6PSNRよりも有意に優れていたことを示す。 さらに,実世界のモノクロビデオから,正確なアニメーション機能を示す。

The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. For increased representational capacity of our avatars, we propose per-Gaussian latent features that condition each primitives dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# 混合フォック状態の非古典性の定量化

Quantifying nonclassicality of mixed Fock states ( http://arxiv.org/abs/2406.01717v3 )

ライセンス: Link先を確認
Spencer Rogers, Tommy Muth, Wenchao Ge, (参考訳) ボソニックモードの非古典的状態は、量子化技術にとって重要な資源である。 しかし、これらの状態、特に混合状態の非古典性を定量化することは困難である。 ここでは、オペレーショナルリソース理論(ORT)測度(W. Ge, K. Jacobs, S. Asiri, M. Foss-Feig, M. S. Zubairy, Phys. Rev. Res. 2, 023400 (2020))]を介して混合フォック状態におけるボソニックモードの非古典性を定量化する結果を示す。 一般的に、混合状態に対するORTの測定は凸屋根の発見を伴うため、難しい。 しかし,この問題を線形プログラミング問題に還元できることを示す。 数値最適化の結果を解析することにより, 隣接する3つないし4つのフォック状態が非ゼロ集団である場合に, 正確な解析結果を得ることができる。 興味深いことに、このようなモードは人口によって異なる段階にある可能性がある。 最後に,本手法が高階密度行列に対して一般化可能であることを示す。 本研究は, 任意の混合ボゾン状態の非古典性評価法と, その他の凸屋根最適化問題の解法について提案するものである。

Nonclassical states of bosonic modes are important resources for quantum-enhanced technologies. Yet, quantifying nonclassicality of these states, in particular mixed states, can be a challenge. Here we present results of quantifying the nonclassicality of a bosonic mode in a mixed Fock state via the operational resource theory (ORT) measure [W. Ge, K. Jacobs, S. Asiri, M. Foss-Feig, and M. S. Zubairy, Phys. Rev. Res. 2, 023400 (2020)], which relates nonclassicality to metrological advantage. Generally speaking, evaluating the ORT measure for mixed states is challenging, since it involves finding a convex roof. However, we show that our problem can be reduced to a linear programming problem. By analyzing the results of numerical optimization, we are able to extract exact, analytical results for the case where three or four neighboring Fock states have nonzero population. Interestingly, we find that such a mode can be in distinct phases, depending on the populations. Lastly, we demonstrate how our method is generalizable to density matrices of higher ranks. Our findings suggest a viable method for evaluating nonclassicality of arbitrary mixed bosonic states and potentially for solving other convex roof optimization problems.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# FaçAID : 神経・筋肉のファサード再構築のためのトランスフォーマーモデル

FaçAID: A Transformer Model for Neuro-Symbolic Facade Reconstruction ( http://arxiv.org/abs/2406.01829v2 )

ライセンス: Link先を確認
Aleksander Plocharski, Jan Swidzinski, Joanna Porter-Sobieraj, Przemyslaw Musialski, (参考訳) 本稿では, 階層型ファサード構造をカスタム設計のスプリット文法を用いて手続き的定義に変換するニューロシンボリックトランスフォーマーモデルを提案する。 そこで我々はまず,建築ファサードに適した半複素分割文法を開発し,それに対応する手続き表現とともにファサードからなるデータセットを生成する。 このデータセットはトランスモデルをトレーニングするために使われ、セグメント化された平坦なファサードを文法の手続き言語に変換する。 推論の間、この学習された変換を新しいファサードセグメンテーションに適用し、ユーザーが様々なファサードデザインを生成するように調整できる手続き的表現を提供する。 この方法は静的ファサード画像を動的に編集可能なプロシージャフォーマットに変換するだけでなく、設計の柔軟性を高め、容易に修正できる。

We introduce a neuro-symbolic transformer-based model that converts flat, segmented facade structures into procedural definitions using a custom-designed split grammar. To facilitate this, we first develop a semi-complex split grammar tailored for architectural facades and then generate a dataset comprising of facades alongside their corresponding procedural representations. This dataset is used to train our transformer model to convert segmented, flat facades into the procedural language of our grammar. During inference, the model applies this learned transformation to new facade segmentations, providing a procedural representation that users can adjust to generate varied facade designs. This method not only automates the conversion of static facade images into dynamic, editable procedural formats but also enhances the design flexibility, allowing for easy modifications.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# ボンド散逸による境界散逸系の緩和時間操作

Manipulating the Relaxation Time of Boundary-Dissipative Systems through Bond Dissipation ( http://arxiv.org/abs/2406.04183v4 )

ライセンス: Link先を確認
Yi Peng, Chao Yang, Yucheng Wang, (参考訳) 緩和時間は量子系の緩和過程を記述する上で重要な役割を果たす。 結合散逸が境界散逸系の緩和時間に与える影響について検討し、緩和時間のスケーリングを$T_c\sim L^{z}$が$z=3$から$3$未満の値に変更できることを見出した。 さらに、そのような結合の散逸が緩和時間を著しく短縮できる理由は、特定の状態を選択的に標的にできるためであることも明らかにした。 アンダーソン局在系の場合、緩和時間のスケーリングの挙動は指数形式からシステムサイズが変化するにつれてパワーロー形式に変化する。 これは、我々が考える結合の散逸が特定の状態を選択するだけでなく、局在特性を破壊できるためである。 我々の研究は、オープンシステムでは、ある種類の消散が、別の種類の消散によって生じる影響を規制するために使用できることを明らかにしている。

Relaxation time plays a crucial role in describing the relaxation processes of quantum systems. We study the effect of a type of bond dissipation on the relaxation time of boundary dissipative systems and find that it can change the scaling of the relaxation time $T_c\sim L^{z}$ from $z=3$ to a value significantly less than $3$. We further reveal that the reason such bond dissipation can significantly reduce the relaxation time is that it can selectively target specific states. For Anderson localized systems, the scaling behavior of the relaxation time changes from an exponential form to a power-law form as the system size varies. This is because the bond dissipation we consider can not only select specific states but also disrupt the localization properties. Our work reveals that in open systems, one type of dissipation can be used to regulate the effects produced by another type of dissipation.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# Wally: 効率的なプライベート検索エンジン

Wally: An Efficient Private Search Engine ( http://arxiv.org/abs/2406.06761v3 )

ライセンス: Link先を確認
Hilal Asi, Fabian Boemer, Nicholas Genise, Muhammad Haris Mughees, Tabitha Ogilvie, Rehan Rishi, Guy N. Rothblum, Kunal Talwar, Karl Tarbe, Ruiyu Zhu, Marco Zuliani, (参考訳) 本稿では,大規模データベースに対する効率的なセマンティック検索およびキーワード検索クエリをサポートする,プライベート検索システムであるWallyを提案する。 十分な数のクライアントがクエリを作成している場合、Wallyのパフォーマンスは以前のシステムよりも大幅に向上する。 従来のプライベート検索システムでは、各クライアントクエリに対して、サーバはデータベースのエントリごとに少なくとも1つの高価な暗号処理を実行する必要がある。 その結果、データベース内のエントリ数に比例して性能が低下した。 Wallyでは、この制限を取り除きます。 具体的には、クエリ毎に、サーバはいくつかのデータベースエントリに対してのみ暗号化操作を実行する。 これらの結果は、クライアントにいくつかの偽のクエリを追加し、匿名ネットワークを介して、独立に選択されたランダムな瞬間に各クエリをサーバに送ることで達成される。 さらに、各クライアントは、クエリが本物か偽かを隠すために、何らかの同型暗号化(SHE)を使用する。 Wallyは$(\epsilon, \delta)$-differential privacy guaranteeを提供する。 各クライアントが行う偽クエリの数は、クエリを作成するクライアントの数に依存する。 そのため、クライアント数が増えるにつれてフェイククエリのオーバーヘッドがなくなり、数百万のクエリや大規模データベースにスケーラビリティが実現される。 具体的には、Wallyはわずか39分で800万のクエリを処理できる。 これは最先端のものよりも4桁ほど少ない。

This paper presents Wally, a private search system that supports efficient semantic and keyword search queries against large databases. When sufficiently many clients are making queries, Wally's performance is significantly better than previous systems. In previous private search systems, for each client query, the server must perform at least one expensive cryptographic operation per database entry. As a result, performance degraded proportionally with the number of entries in the database. In Wally, we get rid of this limitation. Specifically, for each query the server performs cryptographic operations only against a few database entries. We achieve these results by requiring each client to add a few fake queries and send each query via an anonymous network to the server at independently chosen random instants. Additionally, each client also uses somewhat homomorphic encryption (SHE) to hide whether a query is real or fake. Wally provides $(\epsilon, \delta)$-differential privacy guarantee, which is an accepted standard for strong privacy. The number of fake queries each client makes depends inversely on the number of clients making queries. Therefore, the fake queries' overhead vanishes as the number of clients increases, enabling scalability to millions of queries and large databases. Concretely, Wally can process eight million queries in just 39 mins. That is around four orders of magnitude less than the state of the art.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# GraphCoder: コードコンテキストグラフベースの検索と言語モデルによるリポジトリレベルのコード補完の強化

GraphCoder: Enhancing Repository-Level Code Completion via Code Context Graph-based Retrieval and Language Model ( http://arxiv.org/abs/2406.07003v2 )

ライセンス: Link先を確認
Wei Liu, Ailun Yu, Daoguang Zan, Bo Shen, Wei Zhang, Haiyan Zhao, Zhi Jin, Qianxiang Wang, (参考訳) リポジトリレベルのコード補完のパフォーマンスは、一般的な知識とリポジトリ固有の知識の両方を効果的に活用することに依存する。 一般的なコード補完タスクにおけるLLMの印象的な能力にもかかわらず、レポジトリ固有の知識が欠如しているため、レポジトリレベルのコンプリートではパフォーマンスが不十分であることが多い。 この問題に対処するため,グラフベースの検索生成プロセスを通じてLLMの一般的なコード知識とリポジトリ固有の知識を活用する検索拡張コード補完フレームワークであるGraphCoderを提案する。 特に、GraphCoderは、コードステートメント間の制御フロー、データ、制御依存性で構成されるコードコンテキストグラフ(CCG)を通じて、補完対象のコンテキストをより正確にキャプチャする。既存の検索拡張アプローチで使用されるシーケンスベースのコンテキストよりも、補完対象のコンテキストをキャプチャする構造的な方法である。 GraphCoderは、ベースライン検索で拡張されたメソッドと比較して、コードマッチングでは+6.06、識別子マッチでは+6.23、時間と空間では+6.23という高い精度のマッチング(EM)を達成する。

The performance of repository-level code completion depends upon the effective leverage of both general and repository-specific knowledge. Despite the impressive capability of code LLMs in general code completion tasks, they often exhibit less satisfactory performance on repository-level completion due to the lack of repository-specific knowledge in these LLMs. To address this problem, we propose GraphCoder, a retrieval-augmented code completion framework that leverages LLMs' general code knowledge and the repository-specific knowledge via a graph-based retrieval-generation process. In particular, GraphCoder captures the context of completion target more accurately through code context graph (CCG) that consists of control-flow, data- and control-dependence between code statements, a more structured way to capture the completion target context than the sequence-based context used in existing retrieval-augmented approaches; based on CCG, GraphCoder further employs a coarse-to-fine retrieval process to locate context-similar code snippets with the completion target from the current repository. Experimental results demonstrate both the effectiveness and efficiency of GraphCoder: Compared to baseline retrieval-augmented methods, GraphCoder achieves higher exact match (EM) on average, with increases of +6.06 in code match and +6.23 in identifier match, while using less time and space.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# ASR文字による音声感情認識:単語誤り率と融合技術に関する総合的研究

Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques ( http://arxiv.org/abs/2406.08353v2 )

ライセンス: Link先を確認
Yuanchao Li, Peter Bell, Catherine Lai, (参考訳) テキストデータは、音声感情認識(SER)の性能と信頼性を高めるための一次入力として一般的に利用される。 しかし、ほとんどの研究における人書きテキストへの依存は、実用的なSERシステムの開発を阻害し、ASR(Automatic Speech Recognition)がテキストソースとして機能する実世界のシナリオとのギャップを生じさせる。 そこで本研究では,IEMOCAP, CMU-MOSI, MSP-Podcastの3つのコーパスにおいて, 単語誤り率 (WER) の異なる ASR 転写文字を用いてSER 性能をベンチマークした。 本評価では, テキストのみとバイモーダルSERの2つの融合技術を用いて, 新たな発見と課題を明らかにすることを目的とした総合的な解析を行った。 さらに, ASR の誤り訂正とモダリティ-ゲート融合を統合した統合された ASR 誤り処理フレームワークを提案する。 これらの知見は、特に現実世界のアプリケーションにおいて、ASR支援によるSERに対する洞察を与える。

Text data is commonly utilized as a primary input to enhance Speech Emotion Recognition (SER) performance and reliability. However, the reliance on human-transcribed text in most studies impedes the development of practical SER systems, creating a gap between in-lab research and real-world scenarios where Automatic Speech Recognition (ASR) serves as the text source. Hence, this study benchmarks SER performance using ASR transcripts with varying Word Error Rates (WERs) from eleven models on three well-known corpora: IEMOCAP, CMU-MOSI, and MSP-Podcast. Our evaluation includes both text-only and bimodal SER with six fusion techniques, aiming for a comprehensive analysis that uncovers novel findings and challenges faced by current SER research. Additionally, we propose a unified ASR error-robust framework integrating ASR error correction and modality-gated fusion, achieving lower WER and higher SER results compared to the best-performing ASR transcript. These findings provide insights into SER with ASR assistance, especially for real-world applications.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# テンソルニューラルネットワークを用いた回帰問題の効率的な解法

An Efficient Approach to Regression Problems with Tensor Neural Networks ( http://arxiv.org/abs/2406.09694v2 )

ライセンス: Link先を確認
Yongxin Li, Yifan Wang, Zhongshuo Lin, Hehu Xie, (参考訳) 本稿では,非パラメトリック回帰問題に対処するテンソルニューラルネットワーク(TNN)を提案する。 TNNは、従来のフィードフォワードネットワーク(FFN)やラジアル基底関数ネットワーク(RBN)と比較して、近似精度と一般化能力の両方において、同じ数のパラメータであっても優れた性能を示す。 このアプローチにおける重要な革新は、統計回帰とTNNフレームワーク内の数値積分の統合である。 これにより、回帰関数に関連する高次元積分の効率的な計算が可能になり、基礎となるデータ構造に関する詳細な洞察を提供する。 さらに、回帰出力の勾配とラプラシアン解析を用いて、予測に影響を及ぼす鍵次元を同定し、その後の実験の設計を導く。 これらの進歩により、TNNは正確な高次元データ分析と予測モデリングを必要とするアプリケーションにとって強力なツールとなる。

This paper introduces a tensor neural network (TNN) to address nonparametric regression problems, leveraging its distinct sub-network structure to effectively facilitate variable separation and enhance the approximation of complex, high-dimensional functions. The TNN demonstrates superior performance compared to conventional Feed-Forward Networks (FFN) and Radial Basis Function Networks (RBN) in terms of both approximation accuracy and generalization capacity, even with a comparable number of parameters. A significant innovation in our approach is the integration of statistical regression and numerical integration within the TNN framework. This allows for efficient computation of high-dimensional integrals associated with the regression function and provides detailed insights into the underlying data structure. Furthermore, we employ gradient and Laplacian analysis on the regression outputs to identify key dimensions influencing the predictions, thereby guiding the design of subsequent experiments. These advancements make TNN a powerful tool for applications requiring precise high-dimensional data analysis and predictive modeling.
翻訳日:2024-09-16 23:07:35 公開日:2024-09-13
# CITADEL:コンテキスト類似性に基づくディープラーニングフレームワークのバグ検索

CITADEL: Context Similarity Based Deep Learning Framework Bug Finding ( http://arxiv.org/abs/2406.12196v3 )

ライセンス: Link先を確認
Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Shiwei Wang, Chao Shen, (参考訳) ディープラーニング(DL)技術が新しいインテリジェントソフトウェアに不可欠な部分になることで、DLフレームワークのテストとバグフィリングのツールが要求される。 既存のDLフレームワークテストツールには、バグタイプが限定されている。 例えば、DLモデルのトレーニングやパフォーマンス、経済、環境に関する推論には重要なパフォーマンスバグを見つける能力がない。 この問題は、パフォーマンスのバグをテストするのが難しいため、難しい。 さらに、既存のツールは非効率で、数百のテストケースを生成し、トリガーバグが少ない。 本稿では,Citadelを提案する。Citadelは,効率と有効性の観点から,バグの発見を高速化する手法である。 DLフレームワークのバグの多くは、同じファミリーに属する演算子やアルゴリズム(例えば、Conv2D、Conv3D)の類似性のため、類似している。 既存のバグフィニングツールと直交して、Citadelは、既知のテストの欠陥を報告しているバグに似た、新しいバグを見つけることを目指している。 これは、まず既存のバグレポートを収集し、問題のあるAPIを特定することで機能する。 Citadel氏は、DLフレームワークのAPIペアの類似度を測定するためにコンテキストの類似性を定義し、既存のバグレポートで問題のあるAPIに類似したAPIのオラクルを使ったテストケースを自動的に生成する。 Citadelは、それぞれ1,436 PyTorchと5,380 TensorFlow APIをカバーし、77と74のAPIバグを効果的に検出する。 さらに、シタデルが生成したテストケースの35.40%がバグを引き起こし、最先端の手法(3.90%)を著しく超越している。

With deep learning (DL) technology becoming an integral part of the new intelligent software, tools of DL framework testing and bug-finding are in high demand. Existing DL framework testing tools have limited coverage on bug types. For example, they lack the capability of finding performance bugs, which are critical for DL model training and inference regarding performance, economics, and the environment. This problem is challenging due to the difficulty of getting test oracles of performance bugs. Moreover, existing tools are inefficient, generating hundreds of test cases with few trigger bugs. In this paper, we propose Citadel, a method that accelerates the finding of bugs in terms of efficiency and effectiveness. We observe that many DL framework bugs are similar due to the similarity of operators and algorithms belonging to the same family (e.g., Conv2D and Conv3D). Orthogonal to existing bug-finding tools, Citadel aims to find new bugs that are similar to reported ones that have known test oracles. It works by first collecting existing bug reports and identifying problematic APIs. Citadel defines context similarity to measure the similarity of DL framework API pairs and automatically generates test cases with oracles for APIs that are similar to the problematic APIs in existing bug reports. Citadel respectively covers 1,436 PyTorch and 5,380 TensorFlow APIs and effectively detects 77 and 74 API bugs, many of which, e.g., 11 performance bugs, cannot be detected by existing tools. Moreover, a remarkable 35.40% of the test cases generated by Citadel can trigger bugs, which significantly transcends the state-of-the-art method (3.90%).
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 高精度行列推定におけるホースシューを用いたスパースベイズ模型の濃度

Concentration of a sparse Bayesian model with Horseshoe prior in estimating high-dimensional precision matrix ( http://arxiv.org/abs/2406.14269v2 )

ライセンス: Link先を確認
The Tien Mai, (参考訳) 精度行列は、ソーシャルネットワーク、神経科学、経済学などの多くの分野において重要であり、ガウス図形モデル(GGM)のエッジ構造を表す。 精度行列 \(p \) の次元がサンプルサイズ \(n \) を超え、行列がスパースであるような高次元設定では、グラフィカルラッソ、グラフィカルSCAD、CLIMEなどの手法がGGMの推定に人気である。 頻繁な手法はよく研究されているが、(非構造的な)スパース精度行列に対するベイズ的アプローチはあまり研究されていない。 グローバル・ローカル・ホースシューに先立って適用した「cite{li2019graphical}」によるグラフィカル・ホースシュー推定は, より優れた経験的性能を示すが, 縮小事前を用いたスパース精度行列推定に関する理論的研究は限られている。 本論文は, 高次元環境下で, 完全に特定されたホースシューを用いた後部温室効果ガスの濃縮結果を提供することにより, これらのギャップを解消するものである。 さらに, モデルミス種別に関する新たな理論的結果も提供し, 後肢に一般的なオラクルの不等式を提供する。 理論的な結果を検証するため, 簡潔なシミュレーションを行った。

Precision matrices are crucial in many fields such as social networks, neuroscience, and economics, representing the edge structure of Gaussian graphical models (GGMs), where a zero in an off-diagonal position of the precision matrix indicates conditional independence between nodes. In high-dimensional settings where the dimension of the precision matrix \( p \) exceeds the sample size \( n \) and the matrix is sparse, methods like graphical Lasso, graphical SCAD, and CLIME are popular for estimating GGMs. While frequentist methods are well-studied, Bayesian approaches for (unstructured) sparse precision matrices are less explored. The graphical horseshoe estimate by \cite{li2019graphical}, applying the global-local horseshoe prior, shows superior empirical performance, but theoretical work for sparse precision matrix estimations using shrinkage priors is limited. This paper addresses these gaps by providing concentration results for the tempered posterior with the fully specified horseshoe prior in high-dimensional settings. Moreover, we also provide novel theoretical results for model misspecification, offering a general oracle inequality for the posterior. A concise set of simulations is performed to validate our theoretical findings.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 時系列解析のためのフィードバック駆動型量子貯水池計算

Feedback-driven quantum reservoir computing for time-series analysis ( http://arxiv.org/abs/2406.15783v2 )

ライセンス: Link先を確認
Kaito Kobayashi, Keisuke Fujii, Naoki Yamamoto, (参考訳) 量子貯水池コンピューティング(QRC)は、非線形情報処理のための計算資源として量子システムを利用する、非常に有望な計算パラダイムである。 時系列解析へのその応用は期待されているが、一般的なアプローチは測定時の量子状態の崩壊に悩まされ、時間的入力メモリが消去される。 前者は時間複雑性をエスカレートし、後者はヒルベルト空間からの情報抽出を制限する。 この問題に対処するため,フィードバック駆動型QRCフレームワークを提案する。 この手法では、量子状態への無制限アクセスのために全ての量子ビットの射影測定を用い、測定結果はその後貯水池に送り返され、以前の入力の記憶を復元する。 時系列処理において重要な要素であるフィードバック接続により,QRCがフェードメモリ特性の取得に成功していることを示す。 特に、測定軌跡の分析では、フィードバック強度に応じて3つの異なる位相が示され、メモリ性能はカオスの端で最大化される。 また、QRCの予測能力を評価し、量子スピン系から発する信号の予測性を示す。

Quantum reservoir computing (QRC) is a highly promising computational paradigm that leverages quantum systems as a computational resource for nonlinear information processing. While its application to time-series analysis is eagerly anticipated, prevailing approaches suffer from the collapse of the quantum state upon measurement, resulting in the erasure of temporal input memories. Neither repeated initializations nor weak measurements offer a fundamental solution, as the former escalates the time complexity while the latter restricts the information extraction from the Hilbert space. To address this issue, we propose the feedback-driven QRC framework. This methodology employs projective measurements on all qubits for unrestricted access to the quantum state, with the measurement outcomes subsequently fed back into the reservoir to restore the memory of prior inputs. We demonstrate that our QRC successfully acquires the fading-memory property through the feedback connections, a critical element in time-series processing. Notably, analysis of measurement trajectories reveal three distinct phases depending on the feedback strength, with the memory performance maximized at the edge of chaos. We also evaluate the predictive capabilities of our QRC, demonstrating its suitability for forecasting signals originating from quantum spin systems.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# XAMI -- XMM-Newton光画像におけるアーティファクト検出のためのベンチマークデータセット

XAMI -- A Benchmark Dataset for Artefact Detection in XMM-Newton Optical Images ( http://arxiv.org/abs/2406.17323v2 )

ライセンス: Link先を確認
Elisabeta-Iulia Dima, Pablo Gómez, Sandor Kruk, Peter Kretschmar, Simon Rosen, Călin-Adrian Popa, (参考訳) 反射または散乱された光は、科学研究に悪影響を及ぼす可能性のある天文学的な観測で人工物を生成する。 したがって、これらのアーティファクトの自動検出は、特に収集されるデータ量の増加によって、非常に有益である。 機械学習の手法はこの問題に適しているが、現在、天文学的な観測で人工物を検出するためにそのようなアプローチを訓練する注釈付きデータが不足している。 本稿では,XMM-Newton宇宙望遠鏡の光学モニタリングカメラから,さまざまな種類の人工物を示す画像のデータセットを提示する。 自動ML手法のトレーニングに使用するアーティファクトで,1000枚の画像のサンプルを手書きした。 さらに,実例分節を用いたアーティファクトの正確な検出とマスキングに適した手法を実証する。 我々は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのモデルの両方からの知識を組み合わせて、ハイブリッドアプローチを採用し、セグメンテーションでそれらの利点を利用する。 提案手法とデータセットは、再現可能なベースラインを提供することにより、天文観測におけるアーティファクト検出を促進する。 すべてのコードとデータは利用可能である(https://github.com/ESA-Datalabs/XAMI-modelとhttps://github.com/ESA-Datalabs/XAMI-dataset)。

Reflected or scattered light produce artefacts in astronomical observations that can negatively impact the scientific study. Hence, automated detection of these artefacts is highly beneficial, especially with the increasing amounts of data gathered. Machine learning methods are well-suited to this problem, but currently there is a lack of annotated data to train such approaches to detect artefacts in astronomical observations. In this work, we present a dataset of images from the XMM-Newton space telescope Optical Monitoring camera showing different types of artefacts. We hand-annotated a sample of 1000 images with artefacts which we use to train automated ML methods. We further demonstrate techniques tailored for accurate detection and masking of artefacts using instance segmentation. We adopt a hybrid approach, combining knowledge from both convolutional neural networks (CNNs) and transformer-based models and use their advantages in segmentation. The presented method and dataset will advance artefact detection in astronomical observations by providing a reproducible baseline. All code and data are made available (https://github.com/ESA-Datalabs/XAMI-model and https://github.com/ESA-Datalabs/XAMI-dataset).
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 幾何学的表現による多変量エクストリームの深層学習

Deep Learning of Multivariate Extremes via a Geometric Representation ( http://arxiv.org/abs/2406.19936v2 )

ライセンス: Link先を確認
Callum J. R. Murphy-Barltrop, Reetam Majumder, Jordan Richards, (参考訳) スケールされたサンプル雲の決定論的制限形から極端依存特性を推定する幾何学的極端の研究は、多変量データの極端をモデル化するためのエキサイティングなアプローチを提供する。 これらの形状は極限集合と呼ばれ、いくつかの人気のある極端依存モデリングフレームワークをリンクする。 幾何的手法はますます人気のあるモデリングツールになりつつあるが、現在の推論手法は低次元の設定(d < 5)に限定され、一般には厳密なモデリングの仮定を必要とする。 本研究では、幾何学的極端フレームワークの実装を支援するための新しい理論的な結果の範囲を提案し、深層学習を用いた極限集合をモデル化するための最初のアプローチを提案する。 ニューラルネットワークを利用することで、高次元データの極端依存に対する漸近的に修正されるがフレキシブルな半パラメトリックモデルを構築する。 英国沖合の北海における気象変数と海洋変数の複雑な極端依存関係をモデル化することで,我々の深部アプローチの有効性を実証する。

The study of geometric extremes, where extremal dependence properties are inferred from the deterministic limiting shapes of scaled sample clouds, provides an exciting approach to modelling the extremes of multivariate data. These shapes, termed limit sets, link together several popular extremal dependence modelling frameworks. Although the geometric approach is becoming an increasingly popular modelling tool, current inference techniques are limited to a low dimensional setting (d < 5), and generally require rigid modelling assumptions. In this work, we propose a range of novel theoretical results to aid with the implementation of the geometric extremes framework and introduce the first approach to modelling limit sets using deep learning. By leveraging neural networks, we construct asymptotically-justified yet flexible semi-parametric models for extremal dependence of high-dimensional data. We showcase the efficacy of our deep approach by modelling the complex extremal dependencies between meteorological and oceanographic variables in the North Sea off the coast of the UK.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 量子場論におけるベル・クライザー・ホルン・シモニー・ホルト不等式への数値的アプローチ

Numerical approach to the Bell-Clauser-Horne-Shimony-Holt inequality in quantum field theory ( http://arxiv.org/abs/2406.20033v2 )

ライセンス: Link先を確認
Philipe De Fabritiis, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella, (参考訳) 相対論的スカラー量子場の真空状態におけるベル-CHSH(Clauser-Horne-Shimony-Holt)の不等式を解析した。 リンドラー・ウェッジに局所化されたスミア体で構築されたワイル作用素を用いて、ベル-CHSH不等式はテスト関数のローレンツ不変内積の項で表される。 これらの内積の数値的枠組みが考案された。 因果性はまた、パウリ・ジョルダン関数の数値的な評価によって明確にチェックされる。 粒子質量パラメータの異なる値に対してベル-CHSH不等式の振動を報告した。

The Bell-CHSH (Clauser-Horne-Shimony-Holt) inequality in the vacuum state of a relativistic scalar quantum field is analyzed. Using Weyl operators built with smeared fields localized in the Rindler wedges, the Bell-CHSH inequality is expressed in terms of the Lorentz invariant inner products of test functions. A numerical framework for these inner products is devised. Causality is also explicitly checked by a numerical evaluation of the Pauli-Jordan function. Violations of the Bell-CHSH inequality are reported for different values of the particle mass parameter.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 局所観測装置のスクランブルダイナミクスの指標としての時間次相関器のグローバルアウト

Global Out of Time Order Correlators as a Signature of Scrambling Dynamics of Local Observables ( http://arxiv.org/abs/2407.03273v2 )

ライセンス: Link先を確認
Fabricio S. Lozano-Negro, Claudia M. Sánchez, Ana K. Chattah, Gonzalo A. Álvarez, Horacio M. Pastawski, (参考訳) OTOC(Out-of-Time-Order Correlators)は、量子情報スクランブルのプロキシとして機能し、ローカルに格納された情報が量子系の多体自由度を越えて分散し、局所的なプローブにはアクセスできないプロセスを指す。 情報スクランブルを探索するためのOTOCの最も実験的な実装は、時間反転進化を通じてLoschmidtエコーやMultiple Quantum Coherencesのような技術を用いて、大域的な観測値に基づく間接的な測定に依存している。 本稿では、NMR実験の文脈において、OTOCとグローバル・ローカル・オブザーバブルの直接接続を確立する。 我々は、多体ハミルトンと長距離相互作用を用いて、スピンリング系の励起ダイナミクスを8から16スピンで評価し、両方の大きさの進化の差を定量化するために数値解析を行う。 我々の分析では、大域エコーを局所エコーとクロスコントリビューションの和に分解し、局所的および大域的OTOCへと導いた。 その結果、初期過渡期の後、局所OTOCがグローバルな期間を決定することが示唆された。 局部OTOCの平均値とグローバル値の差は, システムサイズが大きくなるにつれて無視される。 したがって、大きな同質系では、大域および局所OTOCは同値となる。 この挙動は、いくつかの実験で高度に相互作用する系やカオス系で観察されたものと一致している。

Out-of-Time-Order Correlators (OTOCs) serve as a proxy for quantum information scrambling, which refers to the process where information stored locally disperses across the many-body degrees of freedom in a quantum system, rendering it inaccessible to local probes. Most experimental implementations of OTOCs to probe information scrambling rely on indirect measurements based on global observables, using techniques such as Loschmidt echoes and Multiple Quantum Coherences, via time reversal evolutions. In this article, we establish a direct connection between OTOCs with global and local observables in the context of NMR experiments, where the observable is the total magnetization of the system. We conduct a numerical analysis to quantify the differences in the evolution of both magnitudes, evaluating the excitation dynamics in spin ring systems with 8 to 16 spins, using a many-body Hamiltonian and long-range interactions. Our analysis decomposes the global echo into a sum of local echoes and cross-contributions, leading to local and global OTOCs. The results indicate that, after an initial transient period, local OTOCs determine the global ones. We observe that the difference between the average of local OTOCs and the global one, as well as their fluctuations, becomes negligible as the system size increases. Thus, for large homogeneous systems, global and local OTOCs become equivalent. This behavior aligns with that observed in highly interacting or chaotic systems in several experiments.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 産業規模データの事前学習による各種グラフ・タスク間のグラフ変換器の一般化

Generalizing Graph Transformers Across Diverse Graphs and Tasks via Pre-Training on Industrial-Scale Data ( http://arxiv.org/abs/2407.03953v3 )

ライセンス: Link先を確認
Yufei He, Zhenyu Hou, Yukuo Cen, Feng He, Xu Cheng, Bryan Hooi, (参考訳) グラフ事前学習は、小さなグラフ(例えば分子グラフ)のグラフレベルに集中したり、固定グラフ上のノード表現を学習したりしてきた。 グラフ事前トレーニングされたモデルを、産業シナリオにおいて数十億のノードを持つWebスケールのグラフに拡張する一方で、グラフやタスク間の負の転送を回避することは、依然として課題である。 我々は,未知の新しいノードや新しいグラフを予測できるインダクティブ能力を持つ汎用グラフ事前学習モデルを開発することを目指している。 本稿では、PGT(Pre-trained Graph Transformer)と呼ばれるスケーラブルなトランスフォーマーベースのグラフ事前学習フレームワークを提案する。 具体的には、バックボーンネットワークとしてフレキシブルでスケーラブルなグラフ変換器を設計する。 一方、マスク付きオートエンコーダアーキテクチャに基づいて、ノード特徴の再構成と局所構造の再構築の2つの事前学習タスクを設計する。 事前学習したデコーダを破棄するオリジナルのオートエンコーダアーキテクチャとは異なり,デコーダを機能拡張に利用する新しい戦略を提案する。 私たちはTencentのオンラインゲームデータにフレームワークをデプロイしました。 大規模な実験により、我々のフレームワークは5億4000万以上のノードと1200億のエッジを持つ実世界のWebスケールグラフで事前トレーニングを実行でき、下流タスクの異なる新しいグラフを効果的に一般化できることが示された。 我々はさらに、1100万のノードと160億のエッジからなる、公開可能なogbn-papers100Mデータセットの実験を行っている。 当社のフレームワークは,産業用データセットと公共用データセットの両方で最先端のパフォーマンスを実現すると同時に,スケーラビリティと効率性も享受する。

Graph pre-training has been concentrated on graph-level on small graphs (e.g., molecular graphs) or learning node representations on a fixed graph. Extending graph pre-trained models to web-scale graphs with billions of nodes in industrial scenarios, while avoiding negative transfer across graphs or tasks, remains a challenge. We aim to develop a general graph pre-trained model with inductive ability that can make predictions for unseen new nodes and even new graphs. In this work, we introduce a scalable transformer-based graph pre-training framework called PGT (Pre-trained Graph Transformer). Specifically, we design a flexible and scalable graph transformer as the backbone network. Meanwhile, based on the masked autoencoder architecture, we design two pre-training tasks: one for reconstructing node features and the other one for reconstructing local structures. Unlike the original autoencoder architecture where the pre-trained decoder is discarded, we propose a novel strategy that utilizes the decoder for feature augmentation. We have deployed our framework on Tencent's online game data. Extensive experiments have demonstrated that our framework can perform pre-training on real-world web-scale graphs with over 540 million nodes and 12 billion edges and generalizes effectively to unseen new graphs with different downstream tasks. We further conduct experiments on the publicly available ogbn-papers100M dataset, which consists of 111 million nodes and 1.6 billion edges. Our framework achieves state-of-the-art performance on both industrial datasets and public datasets, while also enjoying scalability and efficiency.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# TimeLDM:無条件時系列生成のための潜時拡散モデル

TimeLDM: Latent Diffusion Model for Unconditional Time Series Generation ( http://arxiv.org/abs/2407.04211v2 )

ライセンス: Link先を確認
Jian Qian, Bingyu Xie, Biao Wan, Minhao Li, Miao Sun, Patrick Yin Chiang, (参考訳) 時系列生成は意思決定システムにおいて重要な研究課題であり、自動運転やヘルスケア、特にロボット工学といった分野において特に重要である。 最近のアプローチでは、時系列情報をモデル化するために、データ空間での学習に焦点を当てている。 しかし、データ空間はしばしば限られた観測とノイズのある特徴を含んでいる。 本稿では,高品質な時系列生成のための新しい遅延拡散モデルであるTimeLDMを提案する。 TimeLDMは、時系列を情報的でスムーズな潜時コンテンツに符号化する変分オートエンコーダと、潜時空間で動作する潜時拡散モデルとから構成され、潜時情報を生成する。 シミュレーションおよび実世界のデータセットを用いて合成時系列を生成する手法の有効性を評価し,既存の最先端手法と比較して性能をベンチマークする。 定性的かつ定量的に、提案するTimeLDMは、高品質な生成時系列を持続的に提供する。 例えば、TimeLDMはシミュレーションされたベンチマークで新しい最先端の結果を達成し、すべてのベンチマークで識別スコアが平均55%向上した。 さらなる研究により,本手法は時系列データ生成の様々な期間にわたって,より堅牢な結果をもたらすことが示された。 特に、Context-FIDスコアと差別的スコアでは、TimeLDMは、それぞれ80%と50%の大幅な改善を実現している。 コードは公開後に公開される。

Time series generation is a crucial research topic in the area of decision-making systems, which can be particularly important in domains like autonomous driving, healthcare, and, notably, robotics. Recent approaches focus on learning in the data space to model time series information. However, the data space often contains limited observations and noisy features. In this paper, we propose TimeLDM, a novel latent diffusion model for high-quality time series generation. TimeLDM is composed of a variational autoencoder that encodes time series into an informative and smoothed latent content and a latent diffusion model operating in the latent space to generate latent information. We evaluate the ability of our method to generate synthetic time series with simulated and real-world datasets and benchmark the performance against existing state-of-the-art methods. Qualitatively and quantitatively, we find that the proposed TimeLDM persistently delivers high-quality generated time series. For example, TimeLDM achieves new state-of-the-art results on the simulated benchmarks and an average improvement of 55% in Discriminative score with all benchmarks. Further studies demonstrate that our method yields more robust outcomes across various lengths of time series data generation. Especially, for the Context-FID score and Discriminative score, TimeLDM realizes significant improvements of 80% and 50%, respectively. The code will be released after publication.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 純量子状態による粒子の運動量測定結果の制限

Restrictions imposed by a pure quantum state on the results of measuring the momentum of a particle ( http://arxiv.org/abs/2407.04537v3 )

ライセンス: Link先を確認
N. L. Chuprikov, (参考訳) 量子力学は、与えられた純状態の粒子に対する可観測物の期待値を計算するボルン則やシュル・"{o}dinger"方程式を含む量子力学で、可観測物の測定結果に統計的な制限を課すだけでなく、測定対象となる可観測物の値にも制限を与える。 しかし、これらの制限はボーム力学ほど強くはない。 特に、量子形式論は構成空間において 1 ではなく 2 つの粒子運動量の場を定義する。 どちらの分野もハイゼンベルクの不確実性関係を満たす。 ここでのキーとなる役割は、ボームの「ポテンシャル」への貢献の1つは、実際に粒子の運動エネルギーを特徴づける場への貢献であるという事実である。

It is shown that quantum mechanics, including the Born rule for calculating the expectation values of observables for a particle in a given pure state and the Schr\"{o}dinger equation, imposes not only statistical restrictions on the results of measuring observables, but also restrictions on the values of observables themselves that are subject to measurement. However, these restrictions are not as strong as follows from Bohm mechanics. In particular, the quantum formalism defines in the configuration space not one, but two fields of the particle momentum. Both fields satisfy the Heisenberg uncertainty relations. And the key role here is played by the fact that one of the contributions to the Bohm `potential' is actually a contribution to the field characterizing the kinetic energy of the particle.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# Sub-SA: 部分モジュラ選択アノテーションによる文脈内学習の強化

Sub-SA: Strengthen In-context Learning via Submodular Selective Annotation ( http://arxiv.org/abs/2407.05693v2 )

ライセンス: Link先を確認
Jian Qian, Miao Sun, Sifan Zhou, Ziyu Zhao, Ruizhi Hun, Patrick Chiang, (参考訳) In-context Learning (ICL) は、Large Language Models (LLM) の予測のプロンプトとして、インコンテキストの例を活用する。 これらのプロンプトは、強いパフォーマンスを達成する上で重要な役割を果たす。 しかし、ラベル付きサンプルの大きなプールから適切なプロンプトを選択することは、しばしば重要なアノテーションコストを必要とする。 この課題に対処するため,サブモジュールベースの選択的アノテーション手法であるSub-SA(Submodular Selective Annotation)を提案する。 Sub-SAの目的は、文脈内サンプルの品質を改善し、選択プロセスの時間消費を最小限に抑えつつ、アノテーションのコストを削減することである。 Sub-SAでは、アノテーションの効果的な部分集合選択を容易にする部分モジュラー関数を設計し、理論的な観点から単調および部分モジュラリティの特性を実証する。 具体的には、報酬項とペナルティ項に起因したラベルなしデータセットの多様性と代表性のバランスを改善するために、RPR(Reward and Penalty Regularization)を提案する。 これにより、アノテーションの選択は、サブモジュール関数に基づいた単純で効果的なグレディ探索アルゴリズムで効果的に対処できる。 最後に、ICLのサンプルを取得するために類似性プロンプト検索を適用する。

In-context learning (ICL) leverages in-context examples as prompts for the predictions of Large Language Models (LLMs). These prompts play a crucial role in achieving strong performance. However, the selection of suitable prompts from a large pool of labeled examples often entails significant annotation costs. To address this challenge, we propose Sub-SA (Submodular Selective Annotation), a submodule-based selective annotation method. The aim of Sub-SA is to reduce annotation costs while improving the quality of in-context examples and minimizing the time consumption of the selection process. In Sub-SA, we design a submodular function that facilitates effective subset selection for annotation and demonstrates the characteristics of monotonically and submodularity from the theoretical perspective. Specifically, we propose RPR (Reward and Penalty Regularization) to better balance the diversity and representativeness of the unlabeled dataset attributed to a reward term and a penalty term, respectively. Consequently, the selection for annotations can be effectively addressed with a simple yet effective greedy search algorithm based on the submodular function. Finally, we apply the similarity prompt retrieval to get the examples for ICL.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# 同時解釈評価のための自動品質基準

An Automatic Quality Metric for Evaluating Simultaneous Interpretation ( http://arxiv.org/abs/2407.06650v2 )

ライセンス: Link先を確認
Mana Makinae, Katsuhito Sudoh, Mararu Yamada, Satoshi Nakamura, (参考訳) ある言語を別の言語にリアルタイムで翻訳する同時解釈(SI)は、元のスピーチが終わる前に翻訳を開始する。 その評価はレイテンシと品質の両方を考慮する必要がある。 このトレードオフは、特に英語や日本語など、遠隔語順の言語ペアにとって困難である。 この単語の順序ギャップに対処するため、インタプリタはソース言語の単語順序を可能な限り維持し、その品質を維持しながら遅延を最小限に抑える。 つまり、ソース言語と同期した出力は、実際のSI状況に基づいて望ましいものであり、計算SIと同時機械翻訳(SiMT)のさらなる進歩の鍵である。 本研究では,単語順序同期に着目したSIとSiMTの自動評価指標を提案する。 評価基準は,言語間関係の事前学習言語モデルを利用したランク相関係数に基づく。 NAIST-SIC-AlignedおよびJNPCによる実験結果から,ソースとターゲット言語間の単語順序同期を計測するための指標の有効性が示された。

Simultaneous interpretation (SI), the translation of one language to another in real time, starts translation before the original speech has finished. Its evaluation needs to consider both latency and quality. This trade-off is challenging especially for distant word order language pairs such as English and Japanese. To handle this word order gap, interpreters maintain the word order of the source language as much as possible to keep up with original language to minimize its latency while maintaining its quality, whereas in translation reordering happens to keep fluency in the target language. This means outputs synchronized with the source language are desirable based on the real SI situation, and it's a key for further progress in computational SI and simultaneous machine translation (SiMT). In this work, we propose an automatic evaluation metric for SI and SiMT focusing on word order synchronization. Our evaluation metric is based on rank correlation coefficients, leveraging cross-lingual pre-trained language models. Our experimental results on NAIST-SIC-Aligned and JNPC showed our metrics' effectiveness to measure word order synchronization between source and target language.
翻訳日:2024-09-16 22:57:51 公開日:2024-09-13
# SaMoye:特徴分散と強調に基づくゼロショット歌声変換モデル

SaMoye: Zero-shot Singing Voice Conversion Model Based on Feature Disentanglement and Enhancement ( http://arxiv.org/abs/2407.07728v3 )

ライセンス: Link先を確認
Zihao Wang, Le Ma, Yongsheng Feng, Xin Pan, Yuhang Jin, Kejun Zhang, (参考訳) 歌唱音声変換(SVC)は、歌唱者の声を参照音声から他の歌唱者の声に変換し、本来の意味を保ちながら行うことを目的としている。 しかし、既存のSVC手法では、不完全な特徴の絡み合いや話者のルックアップテーブルへの依存のため、ゼロショットがほとんどできない。 そこで我々は,歌唱を人間と非人間の音色に変換できる,オープンソースの初の高品質ゼロショットSVCモデルSaMoyeを提案する。 SaMoyeは、歌声の特徴をコンテンツ、音色、ピッチの特徴に分解し、複数のASRモデルを組み合わせてコンテンツの特徴を圧縮し、音色漏れを減らす。 さらに, スピーカエンコーダを解凍し, スピーカーをトップ3の類似話者と混合することにより, 音色特性を向上する。 また,1,815時間以上の純歌声と6,367人の話者からなるゼロショット性能を保証するために,非並列な大規模データセットを構築した。 サモエは動物に歌う音色に変換するような極端な条件下であっても、ゼロショットのSVCタスクにおいて他のモデルよりも優れていることを確認するために、客観的かつ主観的な実験を行う。 SaMoyeのコードと重量はhttps://github.com/CarlWang China/SaMoye-SVCで確認できる。

Singing voice conversion (SVC) aims to convert a singer's voice to another singer's from a reference audio while keeping the original semantics. However, existing SVC methods can hardly perform zero-shot due to incomplete feature disentanglement or dependence on the speaker look-up table. We propose the first open-source high-quality zero-shot SVC model SaMoye that can convert singing to human and non-human timbre. SaMoye disentangles the singing voice's features into content, timbre, and pitch features, where we combine multiple ASR models and compress the content features to reduce timbre leaks. Besides, we enhance the timbre features by unfreezing the speaker encoder and mixing the speaker embedding with top-3 similar speakers. We also establish an unparalleled large-scale dataset to guarantee zero-shot performance, which comprises more than 1,815 hours of pure singing voice and 6,367 speakers. We conduct objective and subjective experiments to find that SaMoye outperforms other models in zero-shot SVC tasks even under extreme conditions like converting singing to animals' timbre. The code and weight of SaMoye are available on https://github.com/CarlWangChina/SaMoye-SVC.
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# AlphaDou: ハイパフォーマンスなエンドツーエンドのDoudizhu AI統合バイディング

AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding ( http://arxiv.org/abs/2407.10279v2 )

ライセンス: Link先を確認
Chang Lei, Huan Lei, (参考訳) カードゲームのための人工知能は、長い間AI研究で人気のあるトピックだった。 近年、MahjongやTexas Hold'emのような複雑なカードゲームが解決され、対応するAIプログラムが人間の専門家のレベルに達している。 しかし、Doudizhuのゲームは、その膨大な状態/行動空間と、競争と協力の推論に関するユニークな特徴により、ゲームが解決するのが非常に困難であるため、大きな課題を呈している。 しかし、単純化されたゲーム環境と実際のDoudizhu環境の間には違いがあり、その性能は人間の専門家とはかなり離れている。 本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。 アクション空間は期待に基づいて刈り取られ、勝利率に基づいて戦略が生成される。 修正されたアルゴリズムにより、AIは入札やカードプレイを含む、Doudizhuゲームにおける全タスクを実行できる。 このモデルは実際のDoudizhu環境で訓練され、一般公開されたモデルの中で最先端のパフォーマンスを達成した。 この新たなフレームワークが、他の入札ベースのゲームにおいて、AI開発に貴重な洞察を提供することを期待しています。

Artificial intelligence for card games has long been a popular topic in AI research. In recent years, complex card games like Mahjong and Texas Hold'em have been solved, with corresponding AI programs reaching the level of human experts. However, the game of Doudizhu presents significant challenges due to its vast state/action space and unique characteristics involving reasoning about competition and cooperation, making the game extremely difficult to solve.The RL model Douzero, trained using the Deep Monte Carlo algorithm framework, has shown excellent performance in Doudizhu. However, there are differences between its simplified game environment and the actual Doudizhu environment, and its performance is still a considerable distance from that of human experts. This paper modifies the Deep Monte Carlo algorithm framework by using reinforcement learning to obtain a neural network that simultaneously estimates win rates and expectations. The action space is pruned using expectations, and strategies are generated based on win rates. The modified algorithm enables the AI to perform the full range of tasks in the Doudizhu game, including bidding and cardplay. The model was trained in a actual Doudizhu environment and achieved state-of-the-art performance among publicly available models. We hope that this new framework will provide valuable insights for AI development in other bidding-based games.
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# Fisheye-Calib-Adapter: 魚眼カメラモデルの変換を容易にするツール

Fisheye-Calib-Adapter: An Easy Tool for Fisheye Camera Model Conversion ( http://arxiv.org/abs/2407.12405v3 )

ライセンス: Link先を確認
Sangjun Lee, (参考訳) ロボット工学や自律運転などの分野における魚眼カメラの必要性が高まり、様々な魚眼カメラモデルが提案されている。 カメラモデルの進化は、フィールドにおける多様なシステムの開発を促進する一方で、異なる魚眼カメラモデル間の適応の欠如は、常に再校正が必要であることを意味している。 本稿では,従来提案されていた魚眼カメラモデルに対する変換ツールを提案する。 ユーザーフレンドリで、シンプルで、非常に速く、正確で、既存のツールと比較して幅広いモデルの変換機能を提供する。 SLAMなどのアプリケーションでは,本システムを用いて変換したモデルが正しく動作することが確認された。 本システムを利用すると,画像セットや再分類処理を必要とせずに,入力パラメータから直接出力パラメータを取得でき,様々な研究分野における魚眼カメラモデルのブリッジとして機能する。 https://github.com/eowjd0512/fisheye-calib-adapter

The increasing necessity for fisheye cameras in fields such as robotics and autonomous driving has led to the proposal of various fisheye camera models. While the evolution of camera models has facilitated the development of diverse systems in the field, the lack of adaptation between different fisheye camera models means that recalibration is always necessary, which is cumbersome. This paper introduces a conversion tool for various previously proposed fisheye camera models. It is user-friendly, simple, yet extremely fast and accurate, offering conversion capabilities for a broader range of models compared to existing tools. We have verified that models converted using our system perform correctly in applications such as SLAM. By utilizing our system, researchers can obtain output parameters directly from input parameters without the need for an image set and any recalibration processes, thus serving as a bridge across different fisheye camera models in various research fields. We provide our system as an open source tool available at: https://github.com/eowjd0512/fisheye-calib-adapter
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# LTRL:リフレクティブラーニングによるロングテール認識の促進

LTRL: Boosting Long-tail Recognition via Reflective Learning ( http://arxiv.org/abs/2407.12568v2 )

ライセンス: Link先を確認
Qihao Zhao, Yalun Dai, Shen Lin, Wei Hu, Fan Zhang, Jun Liu, (参考訳) 現実のシナリオでは、知識分布は長い尾を示す。 人間は、不均衡な分布にまたがって知識を均一にマスターする。 本研究は,この学習プロセスに動機づけられた,ロングテール認識の処理において,リフレクティングラーニングと呼ばれる新しい学習パラダイムを提案する。 本手法は,学習中の過去の予測の見直し,クラス間の特徴関係の要約と活用,損失関数の勾配競合の補正という3つのプロセスを統合する。 これらの設計は、既存のロングテール学習手法をプラグアンドプレイできるほど軽量であり、人気のあるロングテールビジュアルベンチマークで最先端のパフォーマンスを達成する。 実験結果から,長時間の認識に学習を反映させる大きな可能性を浮き彫りにした。

In real-world scenarios, where knowledge distributions exhibit long-tail. Humans manage to master knowledge uniformly across imbalanced distributions, a feat attributed to their diligent practices of reviewing, summarizing, and correcting errors. Motivated by this learning process, we propose a novel learning paradigm, called reflecting learning, in handling long-tail recognition. Our method integrates three processes for reviewing past predictions during training, summarizing and leveraging the feature relation across classes, and correcting gradient conflict for loss functions. These designs are lightweight enough to plug and play with existing long-tail learning methods, achieving state-of-the-art performance in popular long-tail visual benchmarks. The experimental results highlight the great potential of reflecting learning in dealing with long-tail recognition.
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# CerberusDet: 統一マルチデータセットオブジェクト検出

CerberusDet: Unified Multi-Dataset Object Detection ( http://arxiv.org/abs/2407.12632v2 )

ライセンス: Link先を確認
Irina Tolstykh, Mikhail Chernyshov, Maksim Kuprashevich, (参考訳) 従来のオブジェクト検出モデルは通常、トレーニングされたデータと、定義したカテゴリロジックによって制限される。 近年のLanguage-Visual Modelsの台頭により、これらの固定されたカテゴリに制限されない新しい手法が出現した。 柔軟性にもかかわらず、そのようなOpen Vocabulary検出モデルは、固定クラスを持つ従来のモデルに比べて精度が低い。 同時に、クラスを拡張したり、トレーニングのために異なるデータセットをマージする必要がある場合、より正確なデータ固有モデルが課題に直面します。 後者は、異なるロジックや矛盾するクラス定義のために組み合わせられず、パフォーマンスを損なうことなくモデルを改善するのが難しくなる。 本稿では,複数のオブジェクト検出タスクを処理するために設計されたマルチヘッドモデルを備えたフレームワークであるCerberusDetを紹介する。 提案するモデルはYOLOアーキテクチャ上に構築されており、バックボーンとネックコンポーネントの両方から視覚的特徴を効率的に共有し、別々のタスクヘッドを維持している。 このアプローチにより、CerberusDetは最適な結果を提供しながら、非常に効率的に実行できる。 PASCAL VOCデータセットとObjects365データセットを用いて,その能力を実証した。 CerberusDetは36%の推論時間で最先端の結果を得た。 タスクが一緒に訓練されるほど、提案されたモデルは、個別のモデルを逐次実行するよりも効率的になる。 トレーニングと推論のコードとモデルがオープンソースとして公開されている(https://github.com/ai-forever/CerberusDet)。

Conventional object detection models are usually limited by the data on which they were trained and by the category logic they define. With the recent rise of Language-Visual Models, new methods have emerged that are not restricted to these fixed categories. Despite their flexibility, such Open Vocabulary detection models still fall short in accuracy compared to traditional models with fixed classes. At the same time, more accurate data-specific models face challenges when there is a need to extend classes or merge different datasets for training. The latter often cannot be combined due to different logics or conflicting class definitions, making it difficult to improve a model without compromising its performance. In this paper, we introduce CerberusDet, a framework with a multi-headed model designed for handling multiple object detection tasks. Proposed model is built on the YOLO architecture and efficiently shares visual features from both backbone and neck components, while maintaining separate task heads. This approach allows CerberusDet to perform very efficiently while still delivering optimal results. We evaluated the model on the PASCAL VOC dataset and Objects365 dataset to demonstrate its abilities. CerberusDet achieved state-of-the-art results with 36% less inference time. The more tasks are trained together, the more efficient the proposed model becomes compared to running individual models sequentially. The training and inference code, as well as the model, are available as open-source (https://github.com/ai-forever/CerberusDet).
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# 大規模言語モデルのパッチレベル学習

Patch-Level Training for Large Language Models ( http://arxiv.org/abs/2407.12665v2 )

ライセンス: Link先を確認
Chenze Shao, Fandong Meng, Jie Zhou, (参考訳) 大きな言語モデル(LLM)は言語理解と生成において顕著な進歩を遂げているため、その訓練効率は重要な問題となっている。 伝統的に、LLMはシーケンス内の次のトークンを予測するために訓練される。 トークンレベルのトレーニングの成功にもかかわらず、大量のトークンを処理する必要があるため、かなりの計算コストに悩まされる。 この問題を軽減するために,複数のトークンを単一パッチに圧縮することでシーケンス長を削減できるLLMのパッチレベルトレーニングを提案する。 パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。 これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。 様々なモデル(370M-2.7Bパラメータ)の実験では、パッチレベルのトレーニングは、トークンレベルのトレーニングに比べてモデルのパフォーマンスを損なうことなく、全体的な計算コストを0.5$\times$に削減できることを示した。 ソースコード: \url{https://github.com/shaochenze/PatchTrain}。

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5$\times$, without compromising the model performance compared to token-level training. Source code: \url{https://github.com/shaochenze/PatchTrain}.
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# 個人に対するアービタリティのコスト--モデル多重性の法的・技術的課題の検討

The Cost of Arbitrariness for Individuals: Examining the Legal and Technical Challenges of Model Multiplicity ( http://arxiv.org/abs/2407.13070v2 )

ライセンス: Link先を確認
Prakhar Ganesh, Ihsan Ibrahim Daldaban, Ignacio Cofone, Golnoosh Farnadi, (参考訳) モデル多重性(Multipleity)とは、異なる基礎となる学習機能にもかかわらず、複数のモデルが類似した性能を達成する現象であり、モデル選択において任意性を導入する現象である。 この仲裁性は期待に反するように見えるかもしれないが、個人への影響は深刻である。 本稿では, 最終予測を超える仲裁性の効果, 保護グループに属する個人に対する仲裁性の違い, および, 様々な文脈にまたがってモノポリーを生成する単一アルゴリズムシステムの仲裁性に関わる課題など, 多重性から生じる様々な個人的関心事について検討する。 これは、これらの懸念に関する実証的な調査と、法的な観点からの包括的な分析の両方を提供し、カナダの反差別法においてこれらの問題がどのように認識されているかに対処する。 両分野の今後の研究方向性を明らかにするとともに,法的な要件を満たすためのモデル乗法と,現行法とモデル選択における任意性含意の法的ギャップの両面での技術的課題の議論を締めくくる。

Model multiplicity, the phenomenon where multiple models achieve similar performance despite different underlying learned functions, introduces arbitrariness in model selection. While this arbitrariness may seem inconsequential in expectation, its impact on individuals can be severe. This paper explores various individual concerns stemming from multiplicity, including the effects of arbitrariness beyond final predictions, disparate arbitrariness for individuals belonging to protected groups, and the challenges associated with the arbitrariness of a single algorithmic system creating a monopoly across various contexts. It provides both an empirical examination of these concerns and a comprehensive analysis from the legal standpoint, addressing how these issues are perceived in the anti-discrimination law in Canada. We conclude the discussion with technical challenges in the current landscape of model multiplicity to meet legal requirements and the legal gap between current law and the implications of arbitrariness in model selection, highlighting relevant future research directions for both disciplines.
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# GANプライオリティのクローズアップ - モデル反転攻撃に対する中間機能の爆発的展開

A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks ( http://arxiv.org/abs/2407.13863v4 )

ライセンス: Link先を確認
Yixiang Qiu, Hao Fang, Hongyao Yu, Bin Chen, MeiKang Qiu, Shu-Tao Xia, (参考訳) Model Inversion(MI)攻撃は、出力情報を利用することで、リリースされたモデルからプライバシーに敏感なトレーニングデータを再構築することを目的としており、Deep Neural Networks(DNN)のセキュリティに対する広範な懸念を提起している。 近年のGAN(Generative Adversarial Network)の進歩は,MI攻撃の性能向上に大きく寄与している。 しかし、以前のMI攻撃は、GANプリエントスペースの秘密情報のみを開示し、複数のターゲットモデルとデータセット間のセマンティック抽出と転送可能性を制限する。 この課題に対処するため、中間ブロック間の特徴を分解し、GAN構造を分解する中間特徴拡張生成モデル変換(IF-GMI)という新しい手法を提案する。 これにより、ラテントコードから表現能力を拡張した中間機能まで最適化スペースを拡張できます。 GAN先行画像が非現実的な画像を生成するのを防止するため、最適化プロセスにL1ボール制約を適用する。 複数のベンチマーク実験により,提案手法は従来の手法よりも大幅に優れており,特にアウト・オブ・ディストリビューション(OOD)のシナリオにおいて,様々な条件下での最先端の結果が得られることが示された。 私たちのコードは、https://github.com/final-solution/IF-GMIで利用可能です。

Model Inversion (MI) attacks aim to reconstruct privacy-sensitive training data from released models by utilizing output information, raising extensive concerns about the security of Deep Neural Networks (DNNs). Recent advances in generative adversarial networks (GANs) have contributed significantly to the improved performance of MI attacks due to their powerful ability to generate realistic images with high fidelity and appropriate semantics. However, previous MI attacks have solely disclosed private information in the latent space of GAN priors, limiting their semantic extraction and transferability across multiple target models and datasets. To address this challenge, we propose a novel method, Intermediate Features enhanced Generative Model Inversion (IF-GMI), which disassembles the GAN structure and exploits features between intermediate blocks. This allows us to extend the optimization space from latent code to intermediate features with enhanced expressive capabilities. To prevent GAN priors from generating unrealistic images, we apply a L1 ball constraint to the optimization process. Experiments on multiple benchmarks demonstrate that our method significantly outperforms previous approaches and achieves state-of-the-art results under various settings, especially in the out-of-distribution (OOD) scenario. Our code is available at: https://github.com/final-solution/IF-GMI
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# 効率的な移動型先制防御に向けて

Towards Efficient Transferable Preemptive Adversarial Defense ( http://arxiv.org/abs/2407.15524v2 )

ライセンス: Link先を確認
Hanrui Wang, Ching-Chun Chang, Chun-Shien Lu, Isao Echizen, (参考訳) ディープラーニング技術は、利便性と高度な発展をもたらしたが、不明瞭な摂動(すなわち敵の攻撃)に敏感なため、信頼できないものになっている。 攻撃者はこの感度を利用して予測を操作できる。 このような攻撃に対して、我々は、第三者による攻撃の前にメディアを「攻撃」するための積極的な戦略を考案したので、保護されたメディアがさらに攻撃を受けると、敵の動乱が自動的に中和される。 この戦略はFast Preemptionと呼ばれ、入力のラベル付けや重要な特徴の学習に異なるモデルを使用することで、効率的な転送可能なプリエンプティブ・ディフェンスを提供する。 前方方向のカスケード学習アルゴリズムを用いて保護摂動を計算し、前方方向の伝搬最適化から高速収束を実現する。 この戦略は、様々なシステムにわたる最先端の転送性と保護を提供する。 私たちのFast Preemptionフレームワークはわずか3ステップで、ベンチマークのトレーニング時間、テスト時間、プリエンプティブの敵防御よりも優れています。 また, バックボーンモデル, アルゴリズム, 設定が完全に損なわれない限り, 防御戦略が付加した保護が不可逆であることを示す。 この研究は、敵の攻撃に対する積極的な防御を開発するための新しい方向を提供する。 提案された方法論はGitHubで公開される予定だ。

Deep learning technology has brought convenience and advanced developments but has become untrustworthy because of its sensitivity to inconspicuous perturbations (i.e., adversarial attacks). Attackers may utilize this sensitivity to manipulate predictions. To defend against such attacks, we have devised a proactive strategy for "attacking" the medias before it is attacked by the third party, so that when the protected medias are further attacked, the adversarial perturbations are automatically neutralized. This strategy, dubbed Fast Preemption, provides an efficient transferable preemptive defense by using different models for labeling inputs and learning crucial features. A forward-backward cascade learning algorithm is used to compute protective perturbations, starting with forward propagation optimization to achieve rapid convergence, followed by iterative backward propagation learning to alleviate overfitting. This strategy offers state-of-the-art transferability and protection across various systems. With the running of only three steps, our Fast Preemption framework outperforms benchmark training-time, test-time, and preemptive adversarial defenses. We have also devised the first to our knowledge effective white-box adaptive reversion attack and demonstrate that the protection added by our defense strategy is irreversible unless the backbone model, algorithm, and settings are fully compromised. This work provides a new direction to developing proactive defenses against adversarial attacks. The proposed methodology will be made available on GitHub.
翻訳日:2024-09-16 22:48:01 公開日:2024-09-13
# 視覚質問応答におけるオブジェクト中心表現の有効性の探索:基礎モデルとの比較

Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models ( http://arxiv.org/abs/2407.15589v2 )

ライセンス: Link先を確認
Amir Mohammad Karimi Mamaghan, Samuele Papa, Karl Henrik Johansson, Stefan Bauer, Andrea Dittadi, (参考訳) オブジェクト中心(OC)表現は、オブジェクトの合成としてモデル化することで、視覚シーンの状態を表すものであり、様々な下流タスクにおいて、体系的な構成の一般化と推論の促進に利用することができる。 しかし、これらの主張はまだ完全には分析されていない。 近年、基礎モデルは言語からコンピュータビジョンまで様々な領域にまたがる非並列的な能力を実証し、様々な計算タスクの将来の研究の基盤としてマークしている。 本稿では,下流視覚質問応答(VQA)における表現学習に関する広範な実証的研究を行い,シーンの正確な構成的理解を必要とする。 我々は、OCモデルの利点とトレードオフを徹底的に検討し、合成データと実世界のデータの両方において、大規模な事前学習基礎モデルを含む代替アプローチについて検討し、両世界の長所を達成するための実行可能な方法を実証する。 800以上のダウンストリームVQAモデルと15種類のアップストリーム表現を含むこの研究の広範囲性は、コミュニティ全体にとって大きな関心を持つであろう、いくつかの洞察を与えてくれます。

Object-centric (OC) representations, which represent the state of a visual scene by modeling it as a composition of objects, have the potential to be used in various downstream tasks to achieve systematic compositional generalization and facilitate reasoning. However, these claims have not been thoroughly analyzed yet. Recently, foundation models have demonstrated unparalleled capabilities across diverse domains from language to computer vision, marking them as a potential cornerstone of future research for a multitude of computational tasks. In this paper, we conduct an extensive empirical study on representation learning for downstream Visual Question Answering (VQA), which requires an accurate compositional understanding of the scene. We thoroughly investigate the benefits and trade-offs of OC models and alternative approaches including large pre-trained foundation models on both synthetic and real-world data, and demonstrate a viable way to achieve the best of both worlds. The extensiveness of our study, encompassing over 800 downstream VQA models and 15 different types of upstream representations, also provides several additional insights that we believe will be of interest to the community at large.
翻訳日:2024-09-16 22:48:00 公開日:2024-09-13
# 拡散駆動型レンズレスファイバを用いた内視鏡的定量位相像のデジタル病理学への応用

Diffusion-driven lensless fiber endomicroscopic quantitative phase imaging towards digital pathology ( http://arxiv.org/abs/2407.18456v2 )

ライセンス: Link先を確認
Zhaoqing Chen, Jiawei Sun, Xinyi Ye, Bin Zhao, Xuelong Li, Juergen Czarske, (参考訳) レンズレスファイバー内視鏡は生体内イメージングのための新しいツールであり、定量的位相イメージング(QPI)をラベル無しで画像コントラストを高める方法として利用することができる。 しかし、レンズレスファイバー内視鏡による既存の単発位相再構成法は、単純な画像ではよく機能するが、複雑な顕微鏡構造には耐え難い。 本稿では,マルチコアファイバ(MCF)の検出側で取得したスペックルから直接位相像を再構成するスペックル条件拡散モデル(SpecDiffusion)を提案する。 従来のニューラルネットワークとは異なり、SpecDiffusionはスペックル駆動の位相再構成に反復的な位相分解ステップを採用している。 イテレーション方式により、SpecDiffusionはフェーズ再構築プロセスを複数のステップに分割し、最終フェーズイメージまで徐々に構築することができる。 この属性は、各ステップでの計算課題を緩和し、複雑な顕微鏡画像におけるリッチディテールの再構築を可能にする。 有効性を検証するため,MCFからスペックルを捕捉し,10万枚のペア画像からなるデータセットを構築する光学システムを構築した。 SpecDiffusionは、高忠実度位相再構成結果を提供し、テストチャートや生体組織などの見えない物体に対して強力な一般化能力を示し、再構成された組織画像の平均絶対誤差を7倍に削減する。 さらに、SpecDiffusionを用いて再構成した組織画像は、従来の方法と比較してゼロショット細胞分割作業において高い精度を示し、学習ベースのレンズレスファイバー内視鏡による細胞形態解析の可能性を示した。 SpecDiffusionは、MCFを含む散乱媒体による位相再構成の正確で一般化された方法を提供し、レンズレスファイバ顕微鏡画像の新しい視点を開く。

Lensless fiber endomicroscope is an emerging tool for in-vivo microscopic imaging, where quantitative phase imaging (QPI) can be utilized as a label-free method to enhance image contrast. However, existing single-shot phase reconstruction methods through lensless fiber endomicroscope typically perform well on simple images but struggle with complex microscopic structures. Here, we propose a speckle-conditioned diffusion model (SpecDiffusion), which reconstructs phase images directly from speckles captured at the detection side of a multi-core fiber (MCF). Unlike conventional neural networks, SpecDiffusion employs iterative phase denoising steps for speckle-driven phase reconstruction. The iteration scheme allows SpecDiffusion to break down the phase reconstruction process into multiple steps, gradually building up to the final phase image. This attribute alleviates the computation challenge at each step and enables the reconstruction of rich details in complex microscopic images. To validate its efficacy, we build an optical system to capture speckles from MCF and construct a dataset consisting of 100,000 paired images. SpecDiffusion provides high-fidelity phase reconstruction results and shows powerful generalization capacity for unseen objects, such as test charts and biological tissues, reducing the average mean absolute error of the reconstructed tissue images by 7 times. Furthermore, the reconstructed tissue images using SpecDiffusion shows higher accuracy in zero-shot cell segmentation tasks compared to the conventional method, demonstrating the potential for further cell morphology analysis through the learning-based lensless fiber endomicroscope. SpecDiffusion offers a precise and generalized method to phase reconstruction through scattering media, including MCFs, opening new perspective in lensless fiber endomicroscopic imaging.
翻訳日:2024-09-16 22:48:00 公開日:2024-09-13
# テキスト・画像拡散モデルにおける敵対的攻撃と防御

Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey ( http://arxiv.org/abs/2407.15861v2 )

ライセンス: Link先を確認
Chenyu Zhang, Mingwang Hu, Wenhui Li, Lanjun Wang, (参考訳) 近年,画像生成能力の異常により,テキスト・画像拡散モデルがコミュニティから注目を集めている。 代表モデルであるStable Diffusionは、リリースからわずか2ヶ月で1000万人以上のユーザーを集めた。 この人気が高まり、モデルの堅牢性と安全性の研究が促進され、様々な敵攻撃法が提案された。 同時に、これらのモデルの堅牢性と安全性を改善するための防衛手法に焦点を当てた研究が顕著に増加した。 本稿では,テキスト・ツー・イメージ拡散モデルを対象とした敵攻撃と防御に関する文献を包括的にレビューする。 まず、テキスト・ツー・イメージ拡散モデルの概要と、敵攻撃の分類の導入、および既存の攻撃方法の詳細なレビューから始める。 次に、モデルロバスト性および安全性を向上させるため、現行の防御手法の詳細な分析を行う。 最後に、現在進行中の課題について議論し、将来的な研究の方向性を探求する。 このサーベイでカバーされた敵攻撃と防御方法の完全なリストについては、https://github.com/datar001/Awesome-AD-on-T2IDM.comのキュレートされたリポジトリを参照してください。

Recently, the text-to-image diffusion model has gained considerable attention from the community due to its exceptional image generation capability. A representative model, Stable Diffusion, amassed more than 10 million users within just two months of its release. This surge in popularity has facilitated studies on the robustness and safety of the model, leading to the proposal of various adversarial attack methods. Simultaneously, there has been a marked increase in research focused on defense methods to improve the robustness and safety of these models. In this survey, we provide a comprehensive review of the literature on adversarial attacks and defenses targeting text-to-image diffusion models. We begin with an overview of text-to-image diffusion models, followed by an introduction to a taxonomy of adversarial attacks and an in-depth review of existing attack methods. We then present a detailed analysis of current defense methods that improve model robustness and safety. Finally, we discuss ongoing challenges and explore promising future research directions. For a complete list of the adversarial attack and defense methods covered in this survey, please refer to our curated repository at https://github.com/datar001/Awesome-AD-on-T2IDM.
翻訳日:2024-09-16 22:38:13 公開日:2024-09-13
# 超伝導トランスモン量子ビットのほぼミリ秒間エネルギー緩和と劣化時間を実現する方法

Methods to achieve near-millisecond energy relaxation and dephasing times for a superconducting transmon qubit ( http://arxiv.org/abs/2407.18778v2 )

ライセンス: Link先を確認
Mikko Tuokkola, Yoshiki Sunada, Heidi Kivijärvi, Jonatan Albanese, Leif Grönberg, Jukka-Pekka Kaikkonen, Visa Vesterinen, Joonas Govenius, Mikko Möttönen, (参考訳) 超伝導量子ビットは、量子コンピュータを実装する上で最も有望な物理システムの一つである。 しかし、実用的な計算上の優位性を持つ量子アルゴリズムの実行には、現在、量子ビットのエネルギー緩和と劣化時間によって制限されている量子ビット演算の忠実性をさらに改善する必要がある。 本稿では,既存の文献に比較して,エネルギー緩和とエコー強調時間による高コヒーレンストランスモン量子ビットの測定結果について報告する。 我々は、周波数周波数2.890 GHz、エネルギー緩和時間502 us、最大速度765 +/-82.6 us、エコー劣化時間541 us、最大速度1057 +/-138 usを測定する。 学術・産業における高コヒーレンストランスモンキュービットの再生・普及を促進するため, 設計, 製造プロセス, 測定装置について詳細に報告する。

Superconducting qubits are one of the most promising physical systems for implementing quantum computers. However, executing quantum algorithms of practical computational advantage requires further improvements in the fidelities of qubit operations, which are currently limited by the energy relaxation and dephasing times of the qubits. Here, we report our measurement results of a high-coherence transmon qubit with energy relaxation and echo dephasing times surpassing those in the existing literature. We measure a qubit frequency of 2.890 GHz, an energy relaxation time with a median of 502 us and a maximum of (765 +/- 82.6) us, and an echo dephasing time with a median of 541 us and a maximum of (1057 +/- 138) us. We report in detail our design, fabrication process, and measurement setup to facilitate the reproduction and wide adoption of high-coherence transmon qubits in the academia and industry.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# グラフを用いたエージェントベースアドバンストRAGシステムの実装法に関する研究

A Study on the Implementation Method of an Agent-Based Advanced RAG System Using Graph ( http://arxiv.org/abs/2407.19994v3 )

ライセンス: Link先を確認
Cheonsu Jeong, (参考訳) 本研究の目的は,知識に基づく質問応答(QA)システムを改善することであり,既存の検索型拡張生成(RAG)モデルの限界を克服し,グラフ技術に基づく高度なRAGシステムを実装し,高品質な生成AIサービスを開発することである。 既存のRAGモデルは、取得した情報を利用して高精度かつ流速を示すが、それらは再処理せずに事前ロードされた知識を用いて応答を生成するため、精度の劣化に悩まされる。 さらに、RAG設定段階の後にリアルタイムデータを組み込むことはできないため、コンテキスト理解やバイアスのある情報が問題になる。 これらの制約に対処するため,グラフ技術を利用したRAGシステムを実装した。 本システムは,情報検索と活用を効率的に行うように設計されている。 具体的には、検索した情報の信頼性を評価するためにLangGraphを使用し、多様なデータを合成して、より正確で拡張された応答を生成する。 さらに,本研究では,実装コードと検証結果を通じて,システムの動作,重要な実装手順,実例を詳細に説明し,高度なRAG技術の理解を深める。 このアプローチは、企業サービスに高度なRAGシステムを実装するための実践的ガイドラインを提供する。

This study aims to improve knowledge-based question-answering (QA) systems by overcoming the limitations of existing Retrieval-Augmented Generation (RAG) models and implementing an advanced RAG system based on Graph technology to develop high-quality generative AI services. While existing RAG models demonstrate high accuracy and fluency by utilizing retrieved information, they may suffer from accuracy degradation as they generate responses using pre-loaded knowledge without reprocessing. Additionally, they cannot incorporate real-time data after the RAG configuration stage, leading to issues with contextual understanding and biased information. To address these limitations, this study implemented an enhanced RAG system utilizing Graph technology. This system is designed to efficiently search and utilize information. Specifically, it employs LangGraph to evaluate the reliability of retrieved information and synthesizes diverse data to generate more accurate and enhanced responses. Furthermore, the study provides a detailed explanation of the system's operation, key implementation steps, and examples through implementation code and validation results, thereby enhancing the understanding of advanced RAG technology. This approach offers practical guidelines for implementing advanced RAG systems in corporate services, making it a valuable resource for practical application.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# UltraRe-NeRF:3D Ultrasound Imaging through Neural Rendering with Ultrasound Reflection Direction Parameterization (特集:MEとバイオサイバネティックス)

UlRe-NeRF: 3D Ultrasound Imaging through Neural Rendering with Ultrasound Reflection Direction Parameterization ( http://arxiv.org/abs/2408.00860v3 )

ライセンス: Link先を確認
Ziwen Guo, Zi Fang, Zhuang Fu, (参考訳) 3次元超音波イメージングは、医学的診断に広く用いられている重要な技術である。 しかし、従来の3D超音波イメージング法では、解像度の固定化、ストレージ効率の低下、コンテキスト接続の不十分といった制限があり、複雑なアーティファクトや反射特性の処理性能が劣る。 近年、NeRF(Neural Radiance Fields)に基づく技術は、視線合成と3次元再構成において大きな進歩を遂げているが、高画質超音波画像では依然として研究のギャップが残っている。 これらの問題に対処するために,暗黙のニューラルネットワークと明示的な超音波ボリュームレンダリングを組み合わせたUlRe-NeRFという新しいモデルを提案する。 このモデルは反射方向パラメータ化と高調波符号化を取り入れており、指向性MLPモジュールを用いてビュー依存の高周波数反射強度推定を発生させ、空間的MLPモジュールを用いて媒体の物理的特性パラメータを生成する。 これらのパラメータは、媒体内の超音波の伝搬と反射の挙動を正確に再現するために、ボリュームレンダリングプロセスで使用される。 実験により,UlRe-NeRFモデルは,特に複雑な媒体構造を扱う場合,高忠実度超音波画像再構成の現実性と精度を著しく向上させることが示された。

Three-dimensional ultrasound imaging is a critical technology widely used in medical diagnostics. However, traditional 3D ultrasound imaging methods have limitations such as fixed resolution, low storage efficiency, and insufficient contextual connectivity, leading to poor performance in handling complex artifacts and reflection characteristics. Recently, techniques based on NeRF (Neural Radiance Fields) have made significant progress in view synthesis and 3D reconstruction, but there remains a research gap in high-quality ultrasound imaging. To address these issues, we propose a new model, UlRe-NeRF, which combines implicit neural networks and explicit ultrasound volume rendering into an ultrasound neural rendering architecture. This model incorporates reflection direction parameterization and harmonic encoding, using a directional MLP module to generate view-dependent high-frequency reflection intensity estimates, and a spatial MLP module to produce the medium's physical property parameters. These parameters are used in the volume rendering process to accurately reproduce the propagation and reflection behavior of ultrasound waves in the medium. Experimental results demonstrate that the UlRe-NeRF model significantly enhances the realism and accuracy of high-fidelity ultrasound image reconstruction, especially in handling complex medium structures.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# プライバシーに配慮したアシスタントにおけるコンテキスト統合の運用

Operationalizing Contextual Integrity in Privacy-Conscious Assistants ( http://arxiv.org/abs/2408.02373v2 )

ライセンス: Link先を確認
Sahra Ghalebikesabi, Eugene Bagdasaryan, Ren Yi, Itay Yona, Ilia Shumailov, Aneesh Pappu, Chongyang Shi, Laura Weidinger, Robert Stanforth, Leonard Berrada, Pushmeet Kohli, Po-Sen Huang, Borja Balle, (参考訳) 高度なAIアシスタントは、フロンティアLSMとツールアクセスを組み合わせて、ユーザに代わって自律的に複雑なタスクを実行する。 このようなアシスタントの利便性は、メールやドキュメントなどのユーザー情報へのアクセスによって劇的に向上するが、これは、アシスタントがユーザーの監督なしに第三者と不適切な情報を共有することに対するプライバシー上の懸念を提起する。 情報共有アシスタントをプライバシの期待に応えて振る舞うために,プライバシを所定のコンテキストにおける適切な情報の流れと一致するフレームワークであるコンテキスト整合性(CI)を運用することを提案する。 特に、我々は、アシスタントの情報共有アクションをCI準拠にするための多くの戦略を設計し、評価する。 我々の評価は、一般的なWebフォームアプリケーションのアノテーションからなる新しいフォームフィリングベンチマークに基づいており、フロンティアLSMがCIベースの推論を行うよう促すと、強い結果が得られます。

Advanced AI assistants combine frontier LLMs and tool access to autonomously perform complex tasks on behalf of users. While the helpfulness of such assistants can increase dramatically with access to user information including emails and documents, this raises privacy concerns about assistants sharing inappropriate information with third parties without user supervision. To steer information-sharing assistants to behave in accordance with privacy expectations, we propose to operationalize contextual integrity (CI), a framework that equates privacy with the appropriate flow of information in a given context. In particular, we design and evaluate a number of strategies to steer assistants' information-sharing actions to be CI compliant. Our evaluation is based on a novel form filling benchmark composed of human annotations of common webform applications, and it reveals that prompting frontier LLMs to perform CI-based reasoning yields strong results.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# クラウドプラットフォーム向けニューラルネットワークユニットのハードウェア支援仮想化

Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms ( http://arxiv.org/abs/2408.04104v3 )

ライセンス: Link先を確認
Yuqi Xue, Yiqi Liu, Lifeng Nai, Jian Huang, (参考訳) 今日、クラウドプラットフォームは、機械学習(ML)推論サービスを支えるニューラルネットワークユニット(NPU)のようなハードウェアアクセラレータをデプロイしている。 サービスの適切な品質を確保しつつ、リソース利用を最大化するために、マルチテナントMLサービスの効率的なリソース共有のためにNPUを仮想化するのが自然なアプローチである。 しかし、現代のクラウドプラットフォーム向けのNPUの仮想化は容易ではない。 これは、NPUハードウェアのシステム抽象化サポートの欠如に加えて、仮想化NPUのきめ細かい動的演算子スケジューリングを可能にするアーキテクチャとISAサポートの欠如によるものである。 我々は、総合的なNPU仮想化フレームワークであるNeu10を紹介する。 ソフトウェアおよびハードウェアスタック全体にわたるNPUの仮想化技術について検討する。 Neu10は、(1)物理NPU(pNPU)における不均一な計算ユニットの詳細な仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのためのきめ細かいテンソル演算のスケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。 実運用レベルのNPUシミュレータをベースとしたNeu10を実装した。 我々の実験によると、Neu10はML推論サービスのスループットを1.4$\times$に改善し、テールレイテンシを4.6$\times$に削減し、NPUの利用率を1.2$\times$に改善している。

Cloud platforms today have been deploying hardware accelerators like neural processing units (NPUs) for powering machine learning (ML) inference services. To maximize the resource utilization while ensuring reasonable quality of service, a natural approach is to virtualize NPUs for efficient resource sharing for multi-tenant ML services. However, virtualizing NPUs for modern cloud platforms is not easy. This is not only due to the lack of system abstraction support for NPU hardware, but also due to the lack of architectural and ISA support for enabling fine-grained dynamic operator scheduling for virtualized NPUs. We present Neu10, a holistic NPU virtualization framework. We investigate virtualization techniques for NPUs across the entire software and hardware stack. Neu10 consists of (1) a flexible NPU abstraction called vNPU, which enables fine-grained virtualization of the heterogeneous compute units in a physical NPU (pNPU); (2) a vNPU resource allocator that enables pay-as-you-go computing model and flexible vNPU-to-pNPU mappings for improved resource utilization and cost-effectiveness; (3) an ISA extension of modern NPU architecture for facilitating fine-grained tensor operator scheduling for multiple vNPUs. We implement Neu10 based on a production-level NPU simulator. Our experiments show that Neu10 improves the throughput of ML inference services by up to 1.4$\times$ and reduces the tail latency by up to 4.6$\times$, while improving the NPU utilization by 1.2$\times$ on average, compared to state-of-the-art NPU sharing approaches.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# h4rm3l: LLM安全性評価のための構成可能なジェイルブレイク攻撃の動的ベンチマーク

h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment ( http://arxiv.org/abs/2408.04811v2 )

ライセンス: Link先を確認
Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning, (参考訳) 大規模言語モデル(LLM)の安全性は、有害なコンテンツの生成に抵抗する能力を体系的に評価する十分なベンチマークが欠如していることから、依然として重要な懸念点である。 自動赤チーム化へのこれまでの取り組みには、Jailbreak攻撃の進化と構成可能な性質を考慮に入れた、静的またはテンプレート化された不正要求と敵のプロンプトが含まれていた。 本稿では,静的なデータセットや攻撃や被害の分類を超越した,構成可能なジェイルブレイク攻撃の動的ベンチマークを提案する。 提案手法は,(1)パラメータ化されたプロンプト変換プリミティブの合成としてジェイルブレイク攻撃を正式に表現するドメイン固有言語,(2)対象のブラックボックスLLMの安全フィルタを透過するために最適化された新規な攻撃を生成するバンディットベースの少数ショットプログラム合成アルゴリズム,(3)以前の2つのコンポーネントを用いたオープンソース自動リピートソフトウェアからなる。 我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。 クロード3-ハイクやGPT4-oといったSOTAクローズド言語モデルでは,攻撃成功率が90%以上である。 統一された形式表現でジェイルブレイク攻撃のデータセットを生成することで、h4rm3lは再現可能なベンチマークと自動化されたレッドチームを可能にし、LLMの安全性の限界を理解するのに寄与し、ますますLLM統合された世界における堅牢な防御の開発をサポートする。 警告:本論文および関連研究成果物は、攻撃的で潜在的に乱暴なプロンプトとモデル生成コンテンツを含んでいる。

The safety of Large Language Models (LLMs) remains a critical concern due to a lack of adequate benchmarks for systematically evaluating their ability to resist generating harmful content. Previous efforts towards automated red teaming involve static or templated sets of illicit requests and adversarial prompts which have limited utility given jailbreak attacks' evolving and composable nature. We propose a novel dynamic benchmark of composable jailbreak attacks to move beyond static datasets and taxonomies of attacks and harms. Our approach consists of three components collectively called h4rm3l: (1) a domain-specific language that formally expresses jailbreak attacks as compositions of parameterized prompt transformation primitives, (2) bandit-based few-shot program synthesis algorithms that generate novel attacks optimized to penetrate the safety filters of a target black box LLM, and (3) open-source automated red-teaming software employing the previous two components. We use h4rm3l to generate a dataset of 2656 successful novel jailbreak attacks targeting 6 state-of-the-art (SOTA) open-source and proprietary LLMs. Several of our synthesized attacks are more effective than previously reported ones, with Attack Success Rates exceeding 90% on SOTA closed language models such as claude-3-haiku and GPT4-o. By generating datasets of jailbreak attacks in a unified formal representation, h4rm3l enables reproducible benchmarking and automated red-teaming, contributes to understanding LLM safety limitations, and supports the development of robust defenses in an increasingly LLM-integrated world. Warning: This paper and related research artifacts contain offensive and potentially disturbing prompts and model-generated content.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# FlowDreamer: 整流による高忠実テキストから3次元生成の探索

FlowDreamer: exploring high fidelity text-to-3D generation via rectified flow ( http://arxiv.org/abs/2408.05008v2 )

ライセンス: Link先を確認
Hangyu Li, Xiangxiang Chu, Dingyuan Shi, Lin Wang, (参考訳) テキスト・ツー・3D生成の最近の進歩は、大きな進歩をもたらした。 特に、事前訓練された拡散モデルでは、既存の手法は主にスコア蒸留サンプリング(SDS)を使用してニューラルレイディアンス・フィールド(NeRF)や3Dガウス・スプラッティング(3D GS)などの3Dモデルを訓練している。 しかしハードルは、過度に滑らかなテクスチャと過度に飽和した色で、しばしば困難に直面することである。 線形軌跡を表すために単純常微分方程式(ODE)を用いる正流モデルでは,テキストから3D生成への代替として公約が示される。 時間非依存ベクトル場を学習し、SDSフレームワークの時間依存スコアを用いて計算される3次元モデル更新勾配の曖昧さを低減する。 そこで我々はまず,SDSを整流モデルとシームレスに統合する数学的解析法を開発し,Vector Field Distillation Sampling (VFDS) と呼ばれる初期フレームワークへの道を開いた。 しかし, 経験的所見から, VFDSは相変わらず過剰な結果をもたらすことが示唆された。 そこで本研究では, ODEトラジェクトリの観点から, このような障害の原因を解析する。 その上で,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速な収束で高忠実度な結果を得る。 鍵となる洞察は、VFDSのようにランダムにサンプリングされたノイズを使用するのではなく、整流モデルの結合性と可逆性を利用して対応するノイズを探索することである。 そこで,本研究では,同じ軌道に沿って3次元モデルに最適化を誘導する新しいUCM(Unique Couple Matching)の損失について紹介する。 われわれのFlowDreamerは、NeRFと3D GSの両方に適用できる柔軟性に優れている。 大規模な実験は、FlowDreamerの高忠実度結果と加速収束を実証する。

Recent advances in text-to-3D generation have made significant progress. In particular, with the pretrained diffusion models, existing methods predominantly use Score Distillation Sampling (SDS) to train 3D models such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3D GS). However, a hurdle is that they often encounter difficulties with over-smoothing textures and over-saturating colors. The rectified flow model - which utilizes a simple ordinary differential equation (ODE) to represent a linear trajectory - shows promise as an alternative prior to text-to-3D generation. It learns a time-independent vector field, thereby reducing the ambiguity in 3D model update gradients that are calculated using time-dependent scores in the SDS framework. In light of this, we first develop a mathematical analysis to seamlessly integrate SDS with rectified flow model, paving the way for our initial framework known as Vector Field Distillation Sampling (VFDS). However, empirical findings indicate that VFDS still results in over-smoothing outcomes. Therefore, we analyze the grounding reasons for such a failure from the perspective of ODE trajectories. On top, we propose a novel framework, named FlowDreamer, which yields high-fidelity results with richer textual details and faster convergence. The key insight is to leverage the coupling and reversible properties of the rectified flow model to search for the corresponding noise, rather than using randomly sampled noise as in VFDS. Accordingly, we introduce a novel Unique Couple Matching (UCM) loss, which guides the 3D model to optimize along the same trajectory. Our FlowDreamer is superior in its flexibility to be applied to both NeRF and 3D GS. Extensive experiments demonstrate the high-fidelity outcomes and accelerated convergence of FlowDreamer.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# RT-Surv:大規模非構造電子健康記録の大規模言語モデル構築による放射線治療後の死亡予測の改善

RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records ( http://arxiv.org/abs/2408.05074v4 )

ライセンス: Link先を確認
Sangjoon Park, Chan Woo Wee, Seo Hee Choi, Kyung Hwan Kim, Jee Suk Chang, Hong In Yoon, Ik Jae Lee, Yong Bae Kim, Jaeho Cho, Ki Chang Keum, Chang Geol Lee, Hwa Kyung Byun, Woong Sub Koom, (参考訳) 正確な患者選択は、放射線治療(RT)において非効率な治療を防ぐために重要である。 従来の生存予測モデルは、構造化データに依存し、精度を欠くことが多い。 本研究では, 大規模言語モデル(LLM)が非構造化電子健康記録(EHR)データを構成する可能性について検討し, 包括的臨床情報統合による生存予測精度の向上を図る。 2013年から2023年にかけてのyonsei Cancer CenterにおけるRT治療患者34,276人を対象に,構造的および非構造的データを含む分析を行った。 オープンソース LLM を用いて、単発学習による非構造化 EHR データを構造化し、その性能をドメイン固有の医療用 LLM とより小さな変種と比較した。 生存予測モデルは、統計的、機械学習、深層学習のアプローチを用いて、構造化データとLLM構造化データの両方を取り入れて開発された。 臨床専門家はLLM構造化データの精度を評価した。 オープンソースのLLMは、追加のトレーニングなしで構造化されていないEHRデータを構築する際に87.5%の精度を達成し、ドメイン固有の医療用LLMを著しく上回り、わずか35.8%の精度にしか達しなかった。 より大きなLSMは、特に患者の生存率と密接な相関を持つ、一般的な状態や病気の範囲といった臨床的に関係のある特徴を抽出する上で、より効果的であった。 LLMを構造化した臨床特徴を生存予測モデルに組み込むことで精度が向上し、深層学習モデルのCインデックスは0.737から0.820に増加した。 これらのモデルは、臨床的に重要な因子を強調することで、より解釈可能になった。 本研究は, 特定の医療訓練を受けなくても, 大規模非構造化EMHデータを効果的に構築することができ, 臨床予測モデルの精度と解釈可能性を大幅に向上させることができることを示した。

Accurate patient selection is critical in radiotherapy (RT) to prevent ineffective treatments. Traditional survival prediction models, relying on structured data, often lack precision. This study explores the potential of large language models (LLMs) to structure unstructured electronic health record (EHR) data, thereby improving survival prediction accuracy through comprehensive clinical information integration. Data from 34,276 patients treated with RT at Yonsei Cancer Center between 2013 and 2023 were analyzed, encompassing both structured and unstructured data. An open-source LLM was used to structure the unstructured EHR data via single-shot learning, with its performance compared against a domain-specific medical LLM and a smaller variant. Survival prediction models were developed using statistical, machine learning, and deep learning approaches, incorporating both structured and LLM-structured data. Clinical experts evaluated the accuracy of the LLM-structured data. The open-source LLM achieved 87.5% accuracy in structuring unstructured EHR data without additional training, significantly outperforming the domain-specific medical LLM, which reached only 35.8% accuracy. Larger LLMs were more effective, particularly in extracting clinically relevant features like general condition and disease extent, which closely correlated with patient survival. Incorporating LLM-structured clinical features into survival prediction models significantly improved accuracy, with the C-index of deep learning models increasing from 0.737 to 0.820. These models also became more interpretable by emphasizing clinically significant factors. This study shows that general-domain LLMs, even without specific medical training, can effectively structure large-scale unstructured EHR data, substantially enhancing the accuracy and interpretability of clinical predictive models.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# 量子セキュア多人数ディープラーニング

Quantum-secure multiparty deep learning ( http://arxiv.org/abs/2408.05629v2 )

ライセンス: Link先を確認
Kfir Sulimany, Sri Krishna Vadlamani, Ryan Hamerly, Prahlad Iyengar, Dirk Englund, (参考訳) セキュアなマルチパーティ計算により、ローカル入力のプライバシを確保しつつ、分散ユーザ間での多変量関数の同時評価が可能になる。 この分野は、計算集約的なディープラーニング推論の爆発的な需要により、ますます緊急になっている。 これらの計算は通常、クラウドコンピューティングサーバーにオフロードされ、クライアントデータのセキュリティを損なう可能性のある脆弱性につながる。 この問題を解決するために,従来の通信部品のみを用いた情報理論的にセキュアな多要素計算に光の量子的性質を活用する線形代数エンジンを導入する。 本稿では、この線形代数エンジンをディープラーニングに適用し、深層ニューラルネットワーク重みとクライアントのデータの両方の情報漏洩に関する厳密な上限をホレボおよびクラム・ラーオ境界を介して導出する。 MNIST分類タスクに適用すると,データシンボルあたり0.1$ビット未満,データシンボルあたり0.01$ビット未満の精度で96\%以上の精度が得られる。 このウェイトリークは、最先端の量子化技術を用いて正確な深層学習に必要な最小ビット精度よりも桁違いに小さい。 我々の研究は、実用的な量子セキュアな計算の基礎を築き、セキュアなクラウド深層学習をフィールドとして解き放ちます。

Secure multiparty computation enables the joint evaluation of multivariate functions across distributed users while ensuring the privacy of their local inputs. This field has become increasingly urgent due to the exploding demand for computationally intensive deep learning inference. These computations are typically offloaded to cloud computing servers, leading to vulnerabilities that can compromise the security of the clients' data. To solve this problem, we introduce a linear algebra engine that leverages the quantum nature of light for information-theoretically secure multiparty computation using only conventional telecommunication components. We apply this linear algebra engine to deep learning and derive rigorous upper bounds on the information leakage of both the deep neural network weights and the client's data via the Holevo and the Cram\'er-Rao bounds, respectively. Applied to the MNIST classification task, we obtain test accuracies exceeding $96\%$ while leaking less than $0.1$ bits per weight symbol and $0.01$ bits per data symbol. This weight leakage is an order of magnitude below the minimum bit precision required for accurate deep learning using state-of-the-art quantization techniques. Our work lays the foundation for practical quantum-secure computation and unlocks secure cloud deep learning as a field.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# RTF-Q:Retraining-free Quantizationによる効率的な教師なしドメイン適応

RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization ( http://arxiv.org/abs/2408.05752v2 )

ライセンス: Link先を確認
Nanyang Du, Chen Tang, Yuxiao Jiang, Yuan Meng, Zhi Wang, (参考訳) リソース制約のあるエッジデバイス上で、教師なしのドメイン適応を実行することは困難である。 既存の研究はアーキテクチャ最適化(例えば、スリムなネットワークを設計する)を採用するが、高価なトレーニングコストを必要とする。 さらに、パラメータとアクティベーションのかなりの精度の冗長性を考慮しない。 これらの制約に対処するため,ReTraining-Free Quantization (RTF-Q) を用いた非教師なし領域適応法を提案する。 提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的計算予算を持つデバイスに適用する。 サブネットの次元を微妙に設定し、ウェイトシェアリングを利用して、1セットの重みで複数のアーキテクチャを最適化し、オープンソースのリポジトリから事前トレーニングされたモデルを使用することを可能にします。 さらに、サブネット間の多重量子化ビット幅を扱うのに有効なマルチビット幅ジョイントトレーニングとサンドウィッチQルールを導入する。 実験により,本ネットワークは3つのベンチマークにおける最先端手法との競合精度を実現し,メモリコストと計算コストを大幅に削減した。

Performing unsupervised domain adaptation on resource-constrained edge devices is challenging. Existing research typically adopts architecture optimization (e.g., designing slimmable networks) but requires expensive training costs. Moreover, it does not consider the considerable precision redundancy of parameters and activations. To address these limitations, we propose efficient unsupervised domain adaptation with ReTraining-Free Quantization (RTF-Q). Our approach uses low-precision quantization architectures with varying computational costs, adapting to devices with dynamic computation budgets. We subtly configure subnet dimensions and leverage weight-sharing to optimize multiple architectures within a single set of weights, enabling the use of pre-trained models from open-source repositories. Additionally, we introduce multi-bitwidth joint training and the SandwichQ rule, both of which are effective in handling multiple quantization bit-widths across subnets. Experimental results demonstrate that our network achieves competitive accuracy with state-of-the-art methods across three benchmarks while significantly reducing memory and computational costs.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# 文脈部分空間 Auxiliary-Field Quantum Monte Carlo: 量子リソースの削減によるバイアスの改善

Contextual Subspace Auxiliary-Field Quantum Monte Carlo: Improved bias with reduced quantum resources ( http://arxiv.org/abs/2408.06160v2 )

ライセンス: Link先を確認
Matthew Kiser, Matthias Beuerle, Fedor Simkovic IV, (参考訳) 補助場量子モンテカルロ(QC-AFQMC)のバイアスを軽減するために量子デバイス上に準備された実験波動関数を用いて、強く相関した多くの身体系のシミュレーションに対する有望なハイブリッドアプローチとして確立した。 ここでは、実験波動関数を古典的部分と量子的部分に分解し、それぞれ古典的部分空間射影形式の中で古典的かつ量子的に扱うことにより、必要な量子資源をさらに削減する。 重要なことは,本アルゴリズムが最近開発されたマッチゲートシャドウプロトコルと互換性があり,QC-AFQMCの重複計算を効率的に行うことである。 リチウム系電池における窒素二量体とエチレン炭酸塩の還元分解を調べたところ,本手法は,元の量子ビット数の半数以下で化学的精度を達成しつつ,基底状態エネルギー計算の確立されたアルゴリズムよりも優れていることがわかった。

Using trial wavefunctions prepared on quantum devices to reduce the bias of auxiliary-field quantum Monte Carlo (QC-AFQMC) has established itself as a promising hybrid approach to the simulation of strongly correlated many body systems. Here, we further reduce the required quantum resources by decomposing the trial wavefunction into classical and quantum parts, respectively treated by classical and quantum devices, within the contextual subspace projection formalism. Importantly, we show that our algorithm is compatible with the recently developed matchgate shadow protocol for efficient overlap calculation in QC-AFQMC. Investigating the nitrogen dimer and the reductive decomposition of ethylene carbonate in lithium-based batteries, we observe that our method outperforms a number of established algorithm for ground state energy computations, while reaching chemical accuracy with less than half of the original number of qubits.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# 時空間予測における線形注意の意義

Linear Attention is Enough in Spatial-Temporal Forecasting ( http://arxiv.org/abs/2408.09158v2 )

ライセンス: Link先を確認
Xinyu Ning, (参考訳) 時空間予測タスクの最も代表的なシナリオとして、交通予測タスクは、空間と時間次元の両方において複雑な相関関係のため、機械学習コミュニティから多くの注目を集めた。 既存の方法では、時間とともに道路網を空間的時間グラフとして扱い、空間的時間的表現と時間的表現を独立に扱う。 しかし,これらの手法は,道路ネットワークの動的トポロジを捉えるのに苦労し,メッセージパッシング機構や過度なスムースメントの問題に遭遇し,空間的・時間的関係を別々に学習する上での課題に直面している。 これらの制約に対処するため,道路ネットワーク上のノードを独立した時空間トークンとして扱い,複雑な時空間パターンを学習するためにバニラ変換器に供給し,SOTAを設計する。 二次複雑性を考えると、Nystr$\ddot{o}$m 法に基づく変種 \textbf{NSTformer} を導入し、線形複雑性で自己注意を近似するが、驚くべきことにいくつかのケースでは前者よりも若干良い。 トラヒックデータセットの大規模な実験結果から,提案手法は安価な計算コストで最先端の性能を実現することを示す。 我々のコードは \href{https://github.com/XinyuNing/STformer-and-NSTformer}{https://github.com/XinyuNing/STformer-and-NSTformer} で利用可能です。

As the most representative scenario of spatial-temporal forecasting tasks, the traffic forecasting task attracted numerous attention from machine learning community due to its intricate correlation both in space and time dimension. Existing methods often treat road networks over time as spatial-temporal graphs, addressing spatial and temporal representations independently. However, these approaches struggle to capture the dynamic topology of road networks, encounter issues with message passing mechanisms and over-smoothing, and face challenges in learning spatial and temporal relationships separately. To address these limitations, we propose treating nodes in road networks at different time steps as independent spatial-temporal tokens and feeding them into a vanilla Transformer to learn complex spatial-temporal patterns, design \textbf{STformer} achieving SOTA. Given its quadratic complexity, we introduce a variant \textbf{NSTformer} based on Nystr$\ddot{o}$m method to approximate self-attention with linear complexity but even slightly better than former in a few cases astonishingly. Extensive experimental results on traffic datasets demonstrate that the proposed method achieves state-of-the-art performance at an affordable computational cost. Our code is available at \href{https://github.com/XinyuNing/STformer-and-NSTformer}{https://github.com/XinyuNing/STformer-and-NSTformer}.
翻訳日:2024-09-16 22:38:12 公開日:2024-09-13
# MoDeGPT: 大規模言語モデル圧縮のためのモジュール分解

MoDeGPT: Modular Decomposition for Large Language Model Compression ( http://arxiv.org/abs/2408.09632v3 )

ライセンス: Link先を確認
Chi-Heng Lin, Shangqian Gao, James Seale Smith, Abhishek Patel, Shikhar Tuli, Yilin Shen, Hongxia Jin, Yen-Chang Hsu, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すことによって、人工知能の景観を再構築した。 しかし、かなりの計算量の要求は、限られたリソースを持つデバイスへの展開を困難にしている。 近年,低ランク行列を用いた圧縮手法が期待されているが,精度が低下したり,パラメータや推論遅延の大幅なオーバーヘッドが発生することがしばしばある。 本稿では, 上記の欠点を解消しつつ, 復元微調整を必要としない新しい構造化圧縮フレームワークである \textbf{Mo}dular \textbf{De}composition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、モジュールレベルの出力を再構築することで隠れた次元を縮小する。 MoDeGPTは、3つの確立された行列分解アルゴリズム(Nystr\"om approximation, CR decomposition, SVD)を利用する理論的枠組みに基づいて開発され、再定義されたトランスモジュールに適用する。 総合的な実験により, 後方伝播のないMoDeGPTは, 勾配情報に依存した従来の構造化圧縮手法と一致し, 計算コストの98%を節約できることがわかった。 textsc{Llama}-2/3およびOPTモデルでは、MoDeGPTは圧縮率25-30%で90-95%のゼロショット性能を維持している。 さらに、圧縮は1つのGPU上で数時間以内に行うことができ、推論スループットを最大46%向上させることができる。

Large Language Models (LLMs) have reshaped the landscape of artificial intelligence by demonstrating exceptional performance across various tasks. However, substantial computational requirements make their deployment challenging on devices with limited resources. Recently, compression methods using low-rank matrix techniques have shown promise, yet these often lead to degraded accuracy or introduce significant overhead in parameters and inference latency. This paper introduces \textbf{Mo}dular \textbf{De}composition (MoDeGPT), a novel structured compression framework that does not need recovery fine-tuning while resolving the above drawbacks. MoDeGPT partitions the Transformer block into modules comprised of matrix pairs and reduces the hidden dimensions via reconstructing the module-level outputs. MoDeGPT is developed based on a theoretical framework that utilizes three well-established matrix decomposition algorithms -- Nystr\"om approximation, CR decomposition, and SVD -- and applies them to our redefined transformer modules. Our comprehensive experiments show MoDeGPT, without backward propagation, matches or surpasses previous structured compression methods that rely on gradient information, and saves 98% of compute costs on compressing a 13B model. On \textsc{Llama}-2/3 and OPT models, MoDeGPT maintains 90-95% zero-shot performance with 25-30% compression rates. Moreover, the compression can be done on a single GPU within a few hours and increases the inference throughput by up to 46%.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# MalLight: 交通信号故障に対する影響を考慮した協調信号制御

MalLight: Influence-Aware Coordinated Traffic Signal Control for Traffic Signal Malfunctions ( http://arxiv.org/abs/2408.09768v3 )

ライセンス: Link先を確認
Qinchen Yang, Zejun Xie, Hua Wei, Desheng Zhang, Yu Yang, (参考訳) 都市交通は、信号化された交差点で待ち時間と安全上の問題を引き起こす混乱に直面している。 多くの研究は、様々な障害の文脈でインテリジェントな交通システムの問題に対処してきたが、交通信号の故障は、大きな反響を伴う一般的な現実現象であり、比較的注目されている。 本研究の主な目的は, 交通渋滞や衝突などの交通信号障害の悪影響を軽減することであり, 隣り合う機能信号の制御を最適化することである。 この目的を達成するために,影響認識状態集約モジュール(ISAM)と影響認識リワード集約モジュール(IRAM)を活用し,周囲の交通信号の協調制御を実現する新しい交通信号制御フレームワーク(MalLight)を提案する。 本研究は,交通信号の故障による課題に対処する強化学習(RL)に基づくアプローチの先駆者となる。 実世界のデータセットで実施した実証研究は,信号障害の存在下での従来の学習法や深層学習法よりも優れた性能を実証し,スループットの低下を最大48.6$\%で緩和した。

Urban traffic is subject to disruptions that cause extended waiting time and safety issues at signalized intersections. While numerous studies have addressed the issue of intelligent traffic systems in the context of various disturbances, traffic signal malfunction, a common real-world occurrence with significant repercussions, has received comparatively limited attention. The primary objective of this research is to mitigate the adverse effects of traffic signal malfunction, such as traffic congestion and collision, by optimizing the control of neighboring functioning signals. To achieve this goal, this paper presents a novel traffic signal control framework (MalLight), which leverages an Influence-aware State Aggregation Module (ISAM) and an Influence-aware Reward Aggregation Module (IRAM) to achieve coordinated control of surrounding traffic signals. To the best of our knowledge, this study pioneers the application of a Reinforcement Learning(RL)-based approach to address the challenges posed by traffic signal malfunction. Empirical investigations conducted on real-world datasets substantiate the superior performance of our proposed methodology over conventional and deep learning-based alternatives in the presence of signal malfunction, with reduction of throughput alleviated by as much as 48.6$\%$.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# 大規模言語モデルの性能法則

Performance Law of Large Language Models ( http://arxiv.org/abs/2408.09895v4 )

ライセンス: Link先を確認
Chuhan Wu, Ruiming Tang, (参考訳) 大規模言語モデル(LLM)は,近年,大規模言語モデル(LLM)が目覚ましい業績をあげている。 しかし、スケーリング法則は、モデルアーキテクチャ、データ分散、トークン化器、計算精度といった様々な要因の影響を受け、損失の質的な推定のみを与える。 したがって、損失ではなく、異なるトレーニング設定でLLMの実際の性能を推定することは、実用的開発において非常に有用である。 本稿では, LLMのMMLUスコアを直接予測する「性能法則」という経験方程式を提案する。 LLMアーキテクチャの重要なハイパーパラメータとトレーニングデータのサイズに基づいて,異なる組織で異なるサイズとアーキテクチャが開発されている様々なLLMのMMLU予測を精度良く行う。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。

Guided by the belief of the scaling law, large language models (LLMs) have achieved impressive performance in recent years. However, scaling law only gives a qualitative estimation of loss, which is influenced by various factors such as model architectures, data distributions, tokenizers, and computation precision. Thus, estimating the real performance of LLMs with different training settings rather than loss may be quite useful in practical development. In this article, we present an empirical equation named "Performance Law" to directly predict the MMLU score of an LLM, which is a widely used metric to indicate the general capability of LLMs in real-world conversations and applications. Based on only a few key hyperparameters of the LLM architecture and the size of training data, we obtain a quite accurate MMLU prediction of various LLMs with diverse sizes and architectures developed by different organizations in different years. Performance law can be used to guide the choice of LLM architecture and the effective allocation of computational resources without extensive experiments.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# CodeJudge-Eval: 大規模言語モデルはコード理解の優れた判断者になれるか?

CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding? ( http://arxiv.org/abs/2408.10718v2 )

ライセンス: Link先を確認
Yuwei Zhao, Ziyang Luo, Yuchen Tian, Hongzhan Lin, Weixiang Yan, Annan Li, Jing Ma, (参考訳) 大規模言語モデル(LLM)の最近の進歩は印象的なコード生成能力を示しており、主に言語間ベンチマークによって評価されている。 しかし、これらのベンチマークはモデルのコード理解能力を十分に捉えていないかもしれない。 コード生成ではなくコード判断の観点からLLMのコード理解能力を評価するために設計された新しいベンチマークであるCodeJudge-Eval(CJ-Eval)を紹介する。 CJ-Evalは、様々なエラータイプやコンパイル問題を含む、提供されたコードソリューションの正確性を決定するためにモデルに挑戦する。 様々な問題ときめ細かい判断システムを活用することで、CJ-Evalはソリューションの暗記を含む従来のベンチマークの限界に対処する。 CJ-Evalでよく知られた12のLCMの評価は、最先端のモデルでさえ苦戦し、ベンチマークがモデルのコード理解能力を深く調査する能力を強調していることを示している。 コードとベンチマークは \url{https://github.com/CodeLLM-Research/CodeJudge-Eval} で公開されています。

Recent advancements in large language models (LLMs) have showcased impressive code generation capabilities, primarily evaluated through language-to-code benchmarks. However, these benchmarks may not fully capture a model's code understanding abilities. We introduce CodeJudge-Eval (CJ-Eval), a novel benchmark designed to assess LLMs' code understanding abilities from the perspective of code judging rather than code generation. CJ-Eval challenges models to determine the correctness of provided code solutions, encompassing various error types and compilation issues. By leveraging a diverse set of problems and a fine-grained judging system, CJ-Eval addresses the limitations of traditional benchmarks, including the potential memorization of solutions. Evaluation of 12 well-known LLMs on CJ-Eval reveals that even state-of-the-art models struggle, highlighting the benchmark's ability to probe deeper into models' code understanding abilities. Our codes and benchmark are available at \url{https://github.com/CodeLLM-Research/CodeJudge-Eval}.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# GaussianOcc:Gaussian Splattingによる完全自己監督型3次元機能評価

GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting ( http://arxiv.org/abs/2408.11447v2 )

ライセンス: Link先を確認
Wanshui Gan, Fang Liu, Hongbin Xu, Ningkai Mo, Naoto Yokoya, (参考訳) 本稿では,ガウシアンスプラッティングとガウシアンスプラッティングの2つの手法を,周囲の視点での3次元占有率推定に応用するシステム手法であるガウシアンOccを紹介する。 第一に、自己監督型3D占有率推定の従来の手法は、トレーニング中にセンサーからの6Dポーズを必要とする。 この制限に対処するために、隣接するビュープロジェクションから完全に自己教師付きトレーニングを行うための正確なスケール情報を提供するために、GSPモジュールのガウス的スプレイティングを提案する。 さらに,2次元信号(深度マップ,セマンティックマップ)を用いた最終3次元ボクセル表現学習のボリュームレンダリングにも依存している。 本稿では,ガウススプラッティングの高速レンダリング特性を活用するために,Voxel空間(GSV)からのガウススプラッティングを提案する。 その結果,GussianOcc法では,計算コストの低い競争性能(トレーニングでは2.7倍,レンダリングでは5倍)で,完全自己教師付き(真理を示さない)3D占有率推定が可能となった。 関連するコードはhttps://github.com/GANWANSHUI/GaussianOcc.gitで入手できる。

We introduce GaussianOcc, a systematic method that investigates the two usages of Gaussian splatting for fully self-supervised and efficient 3D occupancy estimation in surround views. First, traditional methods for self-supervised 3D occupancy estimation still require ground truth 6D poses from sensors during training. To address this limitation, we propose Gaussian Splatting for Projection (GSP) module to provide accurate scale information for fully self-supervised training from adjacent view projection. Additionally, existing methods rely on volume rendering for final 3D voxel representation learning using 2D signals (depth maps, semantic maps), which is both time-consuming and less effective. We propose Gaussian Splatting from Voxel space (GSV) to leverage the fast rendering properties of Gaussian splatting. As a result, the proposed GaussianOcc method enables fully self-supervised (no ground truth pose) 3D occupancy estimation in competitive performance with low computational cost (2.7 times faster in training and 5 times faster in rendering). The relevant code will be available in https://github.com/GANWANSHUI/GaussianOcc.git.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# 観測ネットワークデータにおけるピア直接効果と間接効果の推定

Estimating Peer Direct and Indirect Effects in Observational Network Data ( http://arxiv.org/abs/2408.11492v2 )

ライセンス: Link先を確認
Xiaojing Du, Jiuyong Li, Debo Cheng, Lin Liu, Wentao Gao, Xiongren Chen, (参考訳) 多くのアプリケーションにおいて因果効果の推定は意思決定者にとって重要であるが、ピアインタラクションによる観測ネットワークデータでは特に困難である。 ネットワークデータ、特にピアエフェクトを含む因果効果を推定するために多くのアルゴリズムが提案されているが、それらはピアエフェクトの多様性を見落としていることが多い。 この問題に対処するために, ピア直接効果とピア間接効果の両方を考慮し, 個人自身の治療の効果を考慮し, これらの因果効果と証明の識別条件を提案する。 これらの因果効果を推定するために、注意機構を用いて、異なる隣人の影響を識別し、多層グラフニューラルネットワーク(GNN)による高次隣人効果を探索する。 さらに,ノードの特徴と表現の依存性を制御するため,GNNにHilbert-Schmidt Independence Criterion(HSIC)を組み込み,グラフの構造情報を完全に活用し,モデルの堅牢性と精度を高める。 2つの半合成データセットに対する大規模な実験により、我々のアプローチの有効性が確認された。 理論的には,ネットワークシステムにおける介入戦略を改善する可能性があり,ソーシャルネットワークや疫学などの分野にも応用できる。

Estimating causal effects is crucial for decision-makers in many applications, but it is particularly challenging with observational network data due to peer interactions. Many algorithms have been proposed to estimate causal effects involving network data, particularly peer effects, but they often overlook the variety of peer effects. To address this issue, we propose a general setting which considers both peer direct effects and peer indirect effects, and the effect of an individual's own treatment, and provide identification conditions of these causal effects and proofs. To estimate these causal effects, we utilize attention mechanisms to distinguish the influences of different neighbors and explore high-order neighbor effects through multi-layer graph neural networks (GNNs). Additionally, to control the dependency between node features and representations, we incorporate the Hilbert-Schmidt Independence Criterion (HSIC) into the GNN, fully utilizing the structural information of the graph, to enhance the robustness and accuracy of the model. Extensive experiments on two semi-synthetic datasets confirm the effectiveness of our approach. Our theoretical findings have the potential to improve intervention strategies in networked systems, with applications in areas such as social networks and epidemiology.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# 2次元視覚基礎モデルガイダンスを用いた半教師付き3次元シーン補完

Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance ( http://arxiv.org/abs/2408.11559v2 )

ライセンス: Link先を確認
Duc-Hai Pham, Duc Dung Nguyen, Hoang-Anh Pham, Ho Lai Tuan, Phong Ha Nguyen, Khoi Nguyen, Rang Nguyen, (参考訳) 2次元視覚画像からの正確な3Dセマンティック占有の予測は、自律的なエージェントが計画とナビゲーションのために周囲を理解できるようにする上で不可欠である。 最先端の手法は通常、完全に教師されたアプローチを採用しており、高価なLiDARセンサーによって取得された巨大なラベル付きデータセットと、人間のアノテーションによる巧妙なボクセルワイドラベルを必要とする。 このアノテートプロセスのリソース集約性は、これらのメソッドのアプリケーションとスケーラビリティを著しく損なう。 我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。 提案手法では,2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成することにより,より効率的なトレーニングプロセスを実現する。 1)2D-3Dリフト法や3D-2Dトランスフォーマー法など,様々な3Dセマンティックシーン補完手法に適用可能な汎用性を示す。 2)SemanticKITTIとNYUv2の実験により示されたように,本手法は10%のラベル付きデータを用いて全教師付き性能の85%を達成している。 このアプローチは、データアノテーションに関連するコストと労力を削減するだけでなく、カメラベースのシステムで3Dセマンティック占有率を予測する可能性も示している。

Accurate prediction of 3D semantic occupancy from 2D visual images is vital in enabling autonomous agents to comprehend their surroundings for planning and navigation. State-of-the-art methods typically employ fully supervised approaches, necessitating a huge labeled dataset acquired through expensive LiDAR sensors and meticulous voxel-wise labeling by human annotators. The resource-intensive nature of this annotating process significantly hampers the application and scalability of these methods. We introduce a novel semi-supervised framework to alleviate the dependency on densely annotated data. Our approach leverages 2D foundation models to generate essential 3D scene geometric and semantic cues, facilitating a more efficient training process. Our framework exhibits notable properties: (1) Generalizability, applicable to various 3D semantic scene completion approaches, including 2D-3D lifting and 3D-2D transformer methods. (2) Effectiveness, as demonstrated through experiments on SemanticKITTI and NYUv2, wherein our method achieves up to 85% of the fully-supervised performance using only 10% labeled data. This approach not only reduces the cost and labor associated with data annotation but also demonstrates the potential for broader adoption in camera-based systems for 3D semantic occupancy prediction.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# DOCE:実行ベースのコード生成のためのスイートスポットを見つける

DOCE: Finding the Sweet Spot for Execution-Based Code Generation ( http://arxiv.org/abs/2408.13745v3 )

ライセンス: Link先を確認
Haau-Sing Li, Patrick Fernandes, Iryna Gurevych, André F. T. Martins, (参考訳) 近年,LLMベースのコード生成において,多種多様な復号化処理と復号化処理が有効であることが示されている。 しかし、これらの手法をリンクし、実験的に比較する包括的なフレームワークは欠落している。 私たちは、Decoding Objectives for Code Executionを提案しています。これは、候補生成、$n$-bestリグレード、最小ベイズリスク(MBR)デコーディング、コアコンポーネントとしての自己デバッグを含む包括的なフレームワークです。 次に、これらのコンポーネントのコントリビューションを、実行ベースの評価指標を通して調査する。 本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。 さらに,従来の研究では見過ごされがちな,シンプルかつ効果的な手法である試行単体テストに基づくフィルタリングの効果を評価する。 また,複数候補に対する自己デバッグを提案する。 私たちのフレームワークは、コード生成に関する将来の研究のための確かなガイドラインを提供することを期待しています。

Recently, a diverse set of decoding and reranking procedures have been shown effective for LLM-based code generation. However, a comprehensive framework that links and experimentally compares these methods is missing. We address this by proposing Decoding Objectives for Code Execution, a comprehensive framework that includes candidate generation, $n$-best reranking, minimum Bayes risk (MBR) decoding, and self-debugging as the core components. We then study the contributions of these components through execution-based evaluation metrics. Our findings highlight the importance of execution-based methods and the difference gap between execution-based and execution-free methods. Furthermore, we assess the impact of filtering based on trial unit tests, a simple and effective strategy that has been often overlooked in prior works. We also propose self-debugging on multiple candidates, obtaining state-of-the-art performance on reranking for code generation. We expect our framework to provide a solid guideline for future research on code generation.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# 多言語プログラム翻訳のための変分相互作用を伴う共同学習モデル

A Joint Learning Model with Variational Interaction for Multilingual Program Translation ( http://arxiv.org/abs/2408.14515v2 )

ライセンス: Link先を確認
Yali Du, Hui Sun, Ming Li, (参考訳) 様々なプログラミング言語で実装されたプログラムは、ソフトウェアアプリケーションの基盤となる。 プログラムマイグレーションの負担を軽減し、ソフトウェアシステムの開発を促進するため、言語間の自動プログラム翻訳が注目されている。 それまでのアプローチは、主に対訳パラダイム、二言語並列データを用いた対言語間の翻訳学習に重点を置いていた。 しかし、並列データはいくつかの言語ペアで収集することは困難であり、言語間のプログラムセマンティクスの分配はシフトし、ペアワイズプログラム翻訳の課題を提起する。 本稿では,複数の言語にまたがってコードを翻訳する統一モデルを共同で学習することが,バイリンガル並列データから個別に学習するよりも優れていることを論じる。 本稿では,複数言語をまたがる多言語プログラム翻訳の統一モデルを共同で訓練する,多言語プログラム翻訳のための変分相互作用~(VIM-PT)を提案する。 VIM-PTは、変分推論と新しい下界との相互作用情報を用いて、コードを言語共有と言語固有の特徴に分解し、条件付き生成を通じてプログラム翻訳を行う。 VIM-PTは以下の4つの利点を示す。 1)様々な実装から言語共有情報をより正確に取得し,多言語プログラム翻訳の質を向上させる。 2)非並列データの機能をマイニングし活用すること。 3)言語間のプログラムセマンティクスの分散シフトに対処する。 統合モデルとして機能し、デプロイメントの複雑さを低減します。

Programs implemented in various programming languages form the foundation of software applications. To alleviate the burden of program migration and facilitate the development of software systems, automated program translation across languages has garnered significant attention. Previous approaches primarily focus on pairwise translation paradigms, learning translation between pairs of languages using bilingual parallel data. However, parallel data is difficult to collect for some language pairs, and the distribution of program semantics across languages can shift, posing challenges for pairwise program translation. In this paper, we argue that jointly learning a unified model to translate code across multiple programming languages is superior to separately learning from bilingual parallel data. We propose Variational Interaction for Multilingual Program Translation~(VIM-PT), a disentanglement-based generative approach that jointly trains a unified model for multilingual program translation across multiple languages. VIM-PT disentangles code into language-shared and language-specific features, using variational inference and interaction information with a novel lower bound, then achieves program translation through conditional generation. VIM-PT demonstrates four advantages: 1) captures language-shared information more accurately from various implementations and improves the quality of multilingual program translation, 2) mines and leverages the capability of non-parallel data, 3) addresses the distribution shift of program semantics across languages, 4) and serves as a unified model, reducing deployment complexity.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# マルチモーダル感性解析のための弱スーパービジョンを用いたメタラーン一様信号

Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2408.16029v2 )

ライセンス: Link先を確認
Sijie Mai, Yu Zhao, Ying Zeng, Jianhua Yao, Haifeng Hu, (参考訳) マルチモーダル感情分析は、様々なソースからの情報を効果的に統合し、感情を推測することを目的としている。 したがって、ほとんどの作品はトレーニングのためにマルチモーダルラベルに依存している。 しかし、マルチモーダルアノテーションが必ずしも単モーダルアノテーションの理想的な代用であるとは限らないため、単モーダル信号の学習にはノイズラベルの問題が存在する。 本稿では,注釈付きマルチモーダルラベルの弱監督下での一助音ラベルの学習について検討する。 具体的には、上記の問題に対処する新しいメタユニラベル生成(MUG)フレームワークを提案し、利用可能なマルチモーダルラベルを活用して、メタユニラベル補正ネットワーク(MUCN)により対応するユニモーダルラベルを学習する。 まず,MUCNの学習を指導するためにマルチモーダルアノテーションを使用するために,非モーダル表現とマルチモーダル表現のギャップを埋めるために,コントラッシブ・ベース・プロジェクション・モジュールを設計する。 その後,両レベルの最適化戦略を通じて,MUCNを明示的な監督で訓練するための一様・多モードのデノベーションタスクを提案する。 次に,多モーダル推論のための識別的一モーダル特徴を抽出するために,単モーダルおよび多モーダル学習タスクを共同で訓練する。 実験結果から,MUGは競争ベースラインより優れ,精度の高い単調ラベルを学習できることが示唆された。

Multimodal sentiment analysis aims to effectively integrate information from various sources to infer sentiment, where in many cases there are no annotations for unimodal labels. Therefore, most works rely on multimodal labels for training. However, there exists the noisy label problem for the learning of unimodal signals as multimodal annotations are not always the ideal substitutes for the unimodal ones, failing to achieve finer optimization for individual modalities. In this paper, we explore the learning of unimodal labels under the weak supervision from the annotated multimodal labels. Specifically, we propose a novel meta uni-label generation (MUG) framework to address the above problem, which leverages the available multimodal labels to learn the corresponding unimodal labels by the meta uni-label correction network (MUCN). We first design a contrastive-based projection module to bridge the gap between unimodal and multimodal representations, so as to use multimodal annotations to guide the learning of MUCN. Afterwards, we propose unimodal and multimodal denoising tasks to train MUCN with explicit supervision via a bi-level optimization strategy. We then jointly train unimodal and multimodal learning tasks to extract discriminative unimodal features for multimodal inference. Experimental results suggest that MUG outperforms competitive baselines and can learn accurate unimodal labels.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# ScreenMark:スクリーン上の任意のビジュアルコンテンツを透かし出す

ScreenMark: Watermarking Arbitrary Visual Content on Screen ( http://arxiv.org/abs/2409.03487v2 )

ライセンス: Link先を確認
Xiujian Liang, Gaozhi Liu, Yichao Si, Xiaoxiao Hu, Zhenxing Qian, Xinpeng Zhang, (参考訳) デジタル透かしはマルチメディアコンテンツの保護に有効であることを示す。 しかし、既存の透かしは主に特定のメディアタイプ向けに調整されており、しばしばマルチモーダルでダイナミックなコンピュータ画面に表示されるコンテンツの保護には効果が低い。 Visual Screen Content (VSC) は、特にスクリーンショットによる盗難や漏洩の恐れがあり、これは現在のウォーターマーキングメソッドが適切に対処できない脆弱性である。 これらの課題に対処するために、任意のVSC保護のために特別に設計された堅牢で実用的な透かし手法であるScreenMarkを提案する。 ScreenMarkは3段階のプログレッシブな透かしフレームワークを使用している。 当初は拡散原理に着想を得て,正規透かし情報と不規則透かしパターンの相互変換を初期化する。 その後、これらのパターンは、事前に訓練されたスクリーンデコーダによってサポートされ、正確な透かし検索のために、プリコンパイルアルファブレンディング技術を用いて画面コンテンツと統合される。 進行的に複雑な歪みは、実際のスクリーンショットシナリオにおける透かしの堅牢性を高める。 最後に、このモデルは、最適性能を確保するために、ジョイントレベルディストータによって誘導される微調整を行う。 ScreenMarkの有効性を検証するために、様々なデバイスや解像度から10万のスクリーンショットからなるデータセットをコンパイルした。 異なるデータセットにわたる大規模な実験により、メソッドの優れた堅牢性、非受容性、実用的な適用性が確認された。

Digital watermarking has demonstrated its effectiveness in protecting multimedia content. However, existing watermarking are predominantly tailored for specific media types, rendering them less effective for the protection of content displayed on computer screens, which is often multimodal and dynamic. Visual Screen Content (VSC), is particularly susceptible to theft and leakage via screenshots, a vulnerability that current watermarking methods fail to adequately address. To tackle these challenges, we propose ScreenMark, a robust and practical watermarking method designed specifically for arbitrary VSC protection. ScreenMark utilizes a three-stage progressive watermarking framework. Initially, inspired by diffusion principles, we initialize the mutual transformation between regular watermark information and irregular watermark patterns. Subsequently, these patterns are integrated with screen content using a pre-multiplication alpha blending technique, supported by a pre-trained screen decoder for accurate watermark retrieval. The progressively complex distorter enhances the robustness of the watermark in real-world screenshot scenarios. Finally, the model undergoes fine-tuning guided by a joint-level distorter to ensure optimal performance. To validate the effectiveness of ScreenMark, we compiled a dataset comprising 100,000 screenshots from various devices and resolutions. Extensive experiments across different datasets confirm the method's superior robustness, imperceptibility, and practical applicability.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# AIエージェントの保護 - 安全アーキテクチャの開発と分析

Safeguarding AI Agents: Developing and Analyzing Safety Architectures ( http://arxiv.org/abs/2409.03793v2 )

ライセンス: Link先を確認
Ishaan Domkundwar, Mukunda N S, Ishaan Bhola, (参考訳) 大規模言語モデルに特化して動作するAIエージェントは、精度と有効性が必要なさまざまなアプリケーションにおいて、例外的な能力を発揮している。 しかし、これらのエージェントには、安全でない行動や偏見のない行動の可能性、敵の攻撃に対する脆弱性、透明性の欠如、幻覚を引き起こす傾向など、固有のリスクがある。 AIエージェントが業界の重要なセクターで普及するにつれて、効果的な安全プロトコルの実装がますます重要になっている。 本稿では,AIシステム,特に人間チームと連携するシステムにおいて,安全対策の重要要件について論じる。 本稿では,LLMを用いた入出力フィルタ,システム内に組み込まれた安全エージェント,組込み安全チェックを備えた階層型デリゲートベースシステムという,AIエージェントシステムの安全性プロトコルを強化するための3つのフレームワークを提案し,評価する。 我々の方法論は、これらのフレームワークを実装し、安全でないエージェントのユースケースに対してそれらをテストすることを含み、AIエージェントのデプロイメントに関連するリスクを軽減するためのそれらの効果を包括的に評価する。 これらのフレームワークはAIエージェントシステムの安全性と安全性を大幅に強化し、潜在的有害なアクションやアウトプットを最小限にすることができると結論付けている。 我々の研究は、特に自動化されたオペレーションにおいて、安全で信頼性の高いAIアプリケーションを作成するための継続的な努力に貢献し、現実世界のアプリケーションでAIエージェントの責任を負うことを保証する堅牢なガードレールを開発するための基盤を提供する。

AI agents, specifically powered by large language models, have demonstrated exceptional capabilities in various applications where precision and efficacy are necessary. However, these agents come with inherent risks, including the potential for unsafe or biased actions, vulnerability to adversarial attacks, lack of transparency, and tendency to generate hallucinations. As AI agents become more prevalent in critical sectors of the industry, the implementation of effective safety protocols becomes increasingly important. This paper addresses the critical need for safety measures in AI systems, especially ones that collaborate with human teams. We propose and evaluate three frameworks to enhance safety protocols in AI agent systems: an LLM-powered input-output filter, a safety agent integrated within the system, and a hierarchical delegation-based system with embedded safety checks. Our methodology involves implementing these frameworks and testing them against a set of unsafe agentic use cases, providing a comprehensive evaluation of their effectiveness in mitigating risks associated with AI agent deployment. We conclude that these frameworks can significantly strengthen the safety and security of AI agent systems, minimizing potential harmful actions or outputs. Our work contributes to the ongoing effort to create safe and reliable AI applications, particularly in automated operations, and provides a foundation for developing robust guardrails to ensure the responsible use of AI agents in real-world applications.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# カシミール効果によるデコヒーレンス?

Decoherence due to Casimir effect? ( http://arxiv.org/abs/2409.03866v2 )

ライセンス: Link先を確認
Anirudh Gundhi, (参考訳) 電子の開系力学は、2つの平行導電性パテの間に閉じ込められた放射場の存在下で研究される。 以前の研究で、この場の量子化された零点モードは、おそらくカシミール力による有限デコヒーレンス効果をもたらすことが示唆されている。 しかし、この研究では、電子の密度行列の対角線外要素は、環境との相互作用の突然の切り替えによって抑制され、典型的なシナリオでは観察的に関係がないことが示されている。 この研究はセットアップの重要な理論的側面を明らかにし、一般にコヒーレンスの不可逆的な損失は真空揺らぎに比定してはならないと主張している。 これは、すべての無限の画像電荷の効果的なクーロンポテンシャルによって引き起こされる加速のため、電子によるブレムスストラルングの放出からのみ生じる。

Open system dynamics of an electron is studied in the presence of radiation field, confined between two parallel conducting pates. It has been suggested in previous works that the quantized zero-point modes of this field lead to finite decoherence effects, possibly due to the Casimir force. However, in this work it is shown that the off-diagonal elements of the reduced density matrix of the electron are suppressed due to the sudden switching on of the interaction with the environment, and would not be observationally relevant in typical scenarios. The work clarifies important theoretical aspects of the setup and argues that any irreversible loss of coherence, in general, should not be ascribed to vacuum fluctuations. It can only originate from emission of bremsstrahlung by the electron, due to the acceleration caused by the effective Coulomb potential of all the infinite image charges.
翻訳日:2024-09-16 22:28:05 公開日:2024-09-13
# nVIDIA H100 GPUの信頼性計算:パフォーマンスベンチマーク

Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study ( http://arxiv.org/abs/2409.03992v2 )

ライセンス: Link先を確認
Jianwei Zhu, Hang Yin, Peng Deng, Shunfan Zhou, (参考訳) 本稿では,大規模言語モデル (LLM) 推論タスクにおいて,Trusted Execution Environments (TEE) が nVIDIA H100 GPU に与える影響を評価する。 PCIeを介してCPU-GPUデータ転送によって引き起こされるボトルネックに特に焦点をあて、様々なLLMおよびトークン長にわたってTEEモードによって導入されたオーバーヘッドをベンチマークする。 以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送による性能上のペナルティが主な原因であることが示唆された。 典型的なLLMクエリの大部分では、オーバーヘッドは5%以下であり、大きなモデルと長いシーケンスではオーバーヘッドはほぼゼロである。

This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on nVIDIA H100 GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various LLMs and token lengths, with a particular focus on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results indicate that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily attributable to data transfer. For the majority of typical LLM queries, the overhead remains below 5%, with larger models and longer sequences experiencing nearly zero overhead.
翻訳日:2024-09-16 18:46:54 公開日:2024-09-13
# MLP, XGBoost, Kan, TDNN, LSTM-GRU Hybrid RNN : SPXおよびNDX European Calltion Pricingへの留意

MLP, XGBoost, KAN, TDNN, and LSTM-GRU Hybrid RNN with Attention for SPX and NDX European Call Option Pricing ( http://arxiv.org/abs/2409.06724v2 )

ライセンス: Link先を確認
Boris Ter-Avanesov, Homayoon Beigi, (参考訳) マルチ層パーセプトロン(MLP)、コルモゴロフ・アルノルドネットワーク(KAN)、LSTM-GRUハイブリッド再帰ニューラルネットワーク(RNN)モデル、ヨーロッパでのコールオプションの価格設定のための時間遅延ニューラルネットワーク(TDNN)など、さまざまなニューラルネットワークアーキテクチャの性能について検討する。 本研究では,ANN,KANSA,勾配型決定木などの教師付き学習手法を用いて,過去の市場データに基づいてオプション価格を調整するために,複雑な多変量関数を近似する手法を提案する。 ANNとkansを使う動機は、それぞれUniversal Approximation TheoremとKolmogorov-Arnold Representation Theoremである。 具体的には、2015~2023年に取引されたS\&P 500(SPX)とNASDAQ 100(NDX)インデックスオプションを15日から4年以上にわたって使用しています(OptionMetrics IvyDB USデータセット)。 Black \&Scholes's (BS) PDE \cite{Black1973} モデルでは、実際のデータと同等の価格設定がベンチマークとして使用される。 このモデルは強い仮定に依存しており、実際のデータは予測と一致しないという文献で観察され議論されている。 このモデルのいくつかの制限により、オプション価格を調整するための代替手段として、教師付き学習法が広く用いられている。 我々の実験では、BSモデルは他のすべてのモデルと比較して性能が劣る。 また、最良のTDNNモデルは、すべてのエラーメトリクスで最高のMLPモデルよりも優れています。 我々は、RNNモデルを強化し、その性能を大幅に向上させる、シンプルな自己認識機構を実装した。 全体として最高の性能モデルはLSTM-GRUハイブリッドRNNモデルである。 また、kanモデルはTDNNおよびMLPモデルよりも優れている。 我々は,すべてのモデルの性能を,ティッカー,金銭性カテゴリ,過/過/過/誤価格の比率で分析する。

We explore the performance of various artificial neural network architectures, including a multilayer perceptron (MLP), Kolmogorov-Arnold network (KAN), LSTM-GRU hybrid recursive neural network (RNN) models, and a time-delay neural network (TDNN) for pricing European call options. In this study, we attempt to leverage the ability of supervised learning methods, such as ANNs, KANs, and gradient-boosted decision trees, to approximate complex multivariate functions in order to calibrate option prices based on past market data. The motivation for using ANNs and KANs is the Universal Approximation Theorem and Kolmogorov-Arnold Representation Theorem, respectively. Specifically, we use S\&P 500 (SPX) and NASDAQ 100 (NDX) index options traded during 2015-2023 with times to maturity ranging from 15 days to over 4 years (OptionMetrics IvyDB US dataset). Black \& Scholes's (BS) PDE \cite{Black1973} model's performance in pricing the same options compared to real data is used as a benchmark. This model relies on strong assumptions, and it has been observed and discussed in the literature that real data does not match its predictions. Supervised learning methods are widely used as an alternative for calibrating option prices due to some of the limitations of this model. In our experiments, the BS model underperforms compared to all of the others. Also, the best TDNN model outperforms the best MLP model on all error metrics. We implement a simple self-attention mechanism to enhance the RNN models, significantly improving their performance. The best-performing model overall is the LSTM-GRU hybrid RNN model with attention. Also, the KAN model outperforms the TDNN and MLP models. We analyze the performance of all models by ticker, moneyness category, and over/under/correctly-priced percentage.
翻訳日:2024-09-16 18:46:54 公開日:2024-09-13
# RAGent: 検索型アクセス制御ポリシー生成

RAGent: Retrieval-based Access Control Policy Generation ( http://arxiv.org/abs/2409.07489v2 )

ライセンス: Link先を確認
Sakuna Harinda Jayasundara, Nalin Asanka Gamagedara Arachchilage, Giovanni Russello, (参考訳) 組織の高レベルの要求仕様から手動でアクセス制御ポリシを生成することは、大きな課題となる。 このような仕様を含む複数の文書を精査し、それらのアクセス要求をアクセス制御ポリシーに翻訳するには、精力的な努力が必要である。 また、これらの仕様の複雑さと曖昧さは、翻訳プロセス中にシステム管理者がエラーを起こし、データ漏洩につながることが多い。 しかし、このプロセスで管理者を支援するために設計された自動ポリシー生成フレームワークは、ドメイン適応の欠如のような制限のために信頼できない。 そこで本稿では,アクセス制御ポリシ生成の信頼性を向上させるために,言語モデルに基づく新しい検索ベースのアクセス制御ポリシ生成フレームワークであるRAGentを提案する。 RAGentは、平均的な最先端F1スコア87.9%のハイレベル要件仕様からアクセス要件を特定している。 検索拡張生成により、RAGentは識別されたアクセス要求を77.9%のF1スコアでアクセス制御ポリシーに変換する。 既存のフレームワークとは異なり、RAGentは主題、アクション、リソースに加えて、目的や条件のような複雑なコンポーネントによるポリシーを生成する。 さらに、RAGentは生成されたポリシーを自動的に検証し、新しい検証調整機構を通じて繰り返し精査し、プロセスの信頼性をさらに3%向上させ、F1スコア80.6%に達する。 また、将来、アクセス制御ポリシー生成フレームワークを開発するためのアノテーション付きデータセットを3つ導入し、ドメインのデータ不足に対処する。

Manually generating access control policies from an organization's high-level requirement specifications poses significant challenges. It requires laborious efforts to sift through multiple documents containing such specifications and translate their access requirements into access control policies. Also, the complexities and ambiguities of these specifications often result in errors by system administrators during the translation process, leading to data breaches. However, the automated policy generation frameworks designed to help administrators in this process are unreliable due to limitations, such as the lack of domain adaptation. Therefore, to improve the reliability of access control policy generation, we propose RAGent, a novel retrieval-based access control policy generation framework based on language models. RAGent identifies access requirements from high-level requirement specifications with an average state-of-the-art F1 score of 87.9%. Through retrieval augmented generation, RAGent then translates the identified access requirements into access control policies with an F1 score of 77.9%. Unlike existing frameworks, RAGent generates policies with complex components like purposes and conditions, in addition to subjects, actions, and resources. Moreover, RAGent automatically verifies the generated policies and iteratively refines them through a novel verification-refinement mechanism, further improving the reliability of the process by 3%, reaching the F1 score of 80.6%. We also introduce three annotated datasets for developing access control policy generation frameworks in the future, addressing the data scarcity of the domain.
翻訳日:2024-09-16 18:46:54 公開日:2024-09-13
# ルックアヘッド情報を用いた非定常MDPの予測制御とレグレト解析

Predictive Control and Regret Analysis of Non-Stationary MDP with Look-ahead Information ( http://arxiv.org/abs/2409.08434v1 )

ライセンス: Link先を確認
Ziyi Zhang, Yorie Nakahira, Guannan Qu, (参考訳) 非定常マルコフ決定過程(MDP)における政策設計は、時間変化によるシステム遷移と報酬の複雑さにより本質的に困難であり、学習者が累積的将来の報酬を最大化する最適な行動を決定することは困難である。 幸運なことに、エネルギーシステムなどの多くの実用的な応用において、再生可能エネルギーの発生と需要の予測を含むルックアヘッド予測が利用可能である。 本稿では,これらのルックアヘッド予測を活用し,そのような予測を組み込むことで,非定常的MDPの低後悔を実現するアルゴリズムを提案する。 我々の理論的分析は、ある仮定の下では、ルックアヘッドウィンドウが拡大するにつれて、後悔は指数関数的に減少することを示している。 システム予測がエラーとなると、予測誤差が予測水平線の関数として指数的に増大しても、後悔は爆発しない。 非定常環境におけるアルゴリズムの有効性を確認するため,シミュレーションにより本手法の有効性を検証した。

Policy design in non-stationary Markov Decision Processes (MDPs) is inherently challenging due to the complexities introduced by time-varying system transition and reward, which make it difficult for learners to determine the optimal actions for maximizing cumulative future rewards. Fortunately, in many practical applications, such as energy systems, look-ahead predictions are available, including forecasts for renewable energy generation and demand. In this paper, we leverage these look-ahead predictions and propose an algorithm designed to achieve low regret in non-stationary MDPs by incorporating such predictions. Our theoretical analysis demonstrates that, under certain assumptions, the regret decreases exponentially as the look-ahead window expands. When the system prediction is subject to error, the regret does not explode even if the prediction error grows sub-exponentially as a function of the prediction horizon. We validate our approach through simulations, confirming the efficacy of our algorithm in non-stationary environments.
翻訳日:2024-09-16 18:17:42 公開日:2024-09-13
# 大規模言語モデルではコンテキストがリードするがパラメトリックメモリが追従する

When Context Leads but Parametric Memory Follows in Large Language Models ( http://arxiv.org/abs/2409.08435v1 )

ライセンス: Link先を確認
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal, (参考訳) 大規模言語モデル (LLM) は多様な知識源の活用において顕著な進歩を見せている。 本研究では,9 つの LLM が局所的文脈と大域的パラメータの間にどのように知識を割り当てているかを検討する。 我々は,LLMが提供した情報や,知識に一貫性のあるシナリオにおけるパラメトリック知識をどのように優先順位付けし,活用するかを解析するために,新しいデータセット,WikiAtomicを導入し,コンテキストサイズを体系的に変化させる。 また,異なる文脈サイズで幻覚を呈する傾向についても検討した。 その結果,文脈的(約70%)とパラメトリック的(約30%)の知識に一貫した依存と,文脈の増大に伴う幻覚の減少を含む,モデル間の一貫したパターンが明らかになった。 これらの洞察は、より効果的なコンテキスト組織の重要性を強調し、堅牢なパフォーマンスのためにより決定論的にインプットを使用するモデルを開発する。

Large language models (LLMs) have demonstrated remarkable progress in leveraging diverse knowledge sources. This study investigates how nine widely used LLMs allocate knowledge between local context and global parameters when answering open-ended questions in knowledge-consistent scenarios. We introduce a novel dataset, WikiAtomic, and systematically vary context sizes to analyze how LLMs prioritize and utilize the provided information and their parametric knowledge in knowledge-consistent scenarios. Additionally, we also study their tendency to hallucinate under varying context sizes. Our findings reveal consistent patterns across models, including a consistent reliance on both contextual (around 70%) and parametric (around 30%) knowledge, and a decrease in hallucinations with increasing context. These insights highlight the importance of more effective context organization and developing models that use input more deterministically for robust performance.
翻訳日:2024-09-16 18:17:42 公開日:2024-09-13
# 高温におけるランダム積状態は指数関数的に平衡する

Random product states at high temperature equilibrate exponentially well ( http://arxiv.org/abs/2409.08436v1 )

ライセンス: Link先を確認
Yichen Huang, (参考訳) 局所ハミルトニアンの測度ゼロ集合を除いて、十分に高いが有限の温度でランダムな積状態から始まり、観測可能な観測値の圧倒的な確率期待値が、十分に長い時間で定常値の周りのゆらぎが指数関数的にシステムサイズに小さいことを証明している。

We prove that for all but a measure zero set of local Hamiltonians, starting from random product states at sufficiently high but finite temperature, with overwhelming probability expectation values of observables equilibrate such that at sufficiently long times, fluctuations around the stationary value are exponentially small in the system size.
翻訳日:2024-09-16 18:17:42 公開日:2024-09-13
# 潜時空間における閉形式モデルベース制御のための入力-状態安定結合型オシレータネットワーク

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space ( http://arxiv.org/abs/2409.08439v1 )

ライセンス: Link先を確認
Maximilian Stölzle, Cosimo Della Santina, (参考訳) 文学において様々な方法(例えば、RL、MPC、LQR)が提案されているが、物理系の効率的かつ効果的な潜在空間制御は、依然としてオープンな課題である。 有望な道は、制御理論の文献から、ポテンシャルエネルギー整形のような学習力学と組み合わせて、強力でよく理解された閉形式戦略を活用することである。 既存の潜在空間モデルにおいて、この強力な組み合わせを阻止した3つの根本的な欠点を特定します。 (i)物理系の数学的構造を欠いている。 (ii)それらは本質的に実システムの安定性特性を保存するものではない。 さらに (iii)これらの手法は入力と潜時空間の強制の間の可逆写像を持たない。 本研究は,これらすべての問題に同時に対処する,結合オシレータネットワーク(CON)モデルを提案する。 より具体的には i) 解析的に、CON はラグランジアン系である、すなわち、明確に定義されたポテンシャルと運動エネルギーの項をプレスすることを示す。 そして (2)リャプノフの議論を用いた大域的入力状態安定性の形式的証明を提供する。 実験室に移る。 3) 画像から直接機械系の複雑な非線形ダイナミクスを学習する際に, CONがSoA性能に達することを示す。 この第3の目標達成に寄与する新たな方法論的革新は、ネットワークダイナミクスの効率的な統合のための、近似されたクローズドフォームソリューションである。 私たちは取り組んだ (iv) 符号化された潜時空間力に基づいて入力を再構成するよう訓練されたデコーダを用いて強制入力マッピングを近似することにより。 最後に、これらの4つの特性を活用し、潜在空間制御を可能にすることを示す。 そこで本研究では,原画素をフィードバック情報として用いたソフトロボットにおいて,電位補償を備えた積分飽和PIDを用い,高品質な性能を示す。

Even though a variety of methods (e.g., RL, MPC, LQR) have been proposed in the literature, efficient and effective latent-space control of physical systems remains an open challenge. A promising avenue would be to leverage powerful and well-understood closed-form strategies from control theory literature in combination with learned dynamics, such as potential-energy shaping. We identify three fundamental shortcomings in existing latent-space models that have so far prevented this powerful combination: (i) they lack the mathematical structure of a physical system, (ii) they do not inherently conserve the stability properties of the real systems. Furthermore, (iii) these methods do not have an invertible mapping between input and latent-space forcing. This work proposes a novel Coupled Oscillator Network (CON) model that simultaneously tackles all these issues. More specifically, (i) we show analytically that CON is a Lagrangian system - i.e., it presses well-defined potential and kinetic energy terms. Then, (ii) we provide formal proof of global Input-to-State stability using Lyapunov arguments. Moving to the experimental side, (iii) we demonstrate that CON reaches SoA performance when learning complex nonlinear dynamics of mechanical systems directly from images. An additional methodological innovation contributing to achieving this third goal is an approximated closed-form solution for efficient integration of network dynamics, which eases efficient training. We tackle (iv) by approximating the forcing-to-input mapping with a decoder that is trained to reconstruct the input based on the encoded latent space force. Finally, we leverage these four properties and show that they enable latent-space control. We use an integral-saturated PID with potential force compensation and demonstrate high-quality performance on a soft robot using raw pixels as the only feedback information.
翻訳日:2024-09-16 18:17:42 公開日:2024-09-13
# CF-PRNet:ポイントクラウドコンプリートと再構成のための粗大なプロトタイプ精製ネットワーク

CF-PRNet: Coarse-to-Fine Prototype Refining Network for Point Cloud Completion and Reconstruction ( http://arxiv.org/abs/2409.08443v1 )

ライセンス: Link先を確認
Zhi Chen, Tianqi Wei, Zecheng Zhao, Jia Syuen Lim, Yadan Luo, Hu Zhang, Xin Yu, Scott Chapman, Zi Huang, (参考訳) 現代の農業では、植物や果実の精密なモニタリングは、高スループットの表現型化や自動収穫といったタスクに不可欠である。 本稿では, 農業環境に共通する部分的視点から, 果実の正確な3次元形状を復元する上での課題について述べる。 CF-PRNetは、粗大なプロトタイプ精錬ネットワークであり、トレーニング期間中に高解像度の3Dデータを活用するが、リアルタイム推論には1枚のRGB-D画像しか必要としない。 我々のアプローチは、果実の部分的なビューから構築された不完全な点雲データを一連の畳み込みブロックで抽出することから始まる。 抽出された特徴は、連続的に構築された2つの3Dメッシュプロトタイプを洗練するスケーリングベクトルの生成を知らせる。 この進歩的な改良により、最終点雲の詳細な完成が促進され、詳細かつ正確な再構築が達成される。 CF-PRNetは、チャンファー距離3.78、F1スコア66.76%、精度56.56%、リコール85.31%で優れたパフォーマンス指標を示し、Sweet Peppers ChallengeのShape Completion and Restructionで優勝した。

In modern agriculture, precise monitoring of plants and fruits is crucial for tasks such as high-throughput phenotyping and automated harvesting. This paper addresses the challenge of reconstructing accurate 3D shapes of fruits from partial views, which is common in agricultural settings. We introduce CF-PRNet, a coarse-to-fine prototype refining network, leverages high-resolution 3D data during the training phase but requires only a single RGB-D image for real-time inference. Our approach begins by extracting the incomplete point cloud data that constructed from a partial view of a fruit with a series of convolutional blocks. The extracted features inform the generation of scaling vectors that refine two sequentially constructed 3D mesh prototypes - one coarse and one fine-grained. This progressive refinement facilitates the detailed completion of the final point clouds, achieving detailed and accurate reconstructions. CF-PRNet demonstrates excellent performance metrics with a Chamfer Distance of 3.78, an F1 Score of 66.76%, a Precision of 56.56%, and a Recall of 85.31%, and win the first place in the Shape Completion and Reconstruction of Sweet Peppers Challenge.
翻訳日:2024-09-16 18:17:42 公開日:2024-09-13
# 大規模言語モデルによる顔行動単位認識フレームワークの実現に向けて

Towards Unified Facial Action Unit Recognition Framework by Large Language Models ( http://arxiv.org/abs/2409.08444v1 )

ライセンス: Link先を確認
Guohong Hu, Xing Lan, Hanyu Jiang, Jiayi Lyu, Jian Xue, (参考訳) AU(Facial Action Units)は、感情コンピューティングの領域において非常に重要である。 本稿では,Large Language Model (LLM)に基づく最初の統一AU認識フレームワークであるAU-LLaVAを提案する。 AU-LLaVAは、ビジュアルエンコーダ、線形プロジェクタ層、および事前訓練されたLCMから構成される。 我々は、テキスト記述を巧みに作成し、様々なAUデータセット上でモデルを微調整し、同じ入力画像に対して異なるフォーマットのAU認識結果を生成する。 BP4DとDisFAデータセットでは、AU-LLaVAがAUのほぼ半分に対して最も正確な認識結果を提供する。 本モデルでは,従来のベンチマーク結果と比較して,特定のAU認識において最大11.4%のF1スコア向上を実現している。 FEAFAデータセットでは,従来のベンチマーク結果と比較して,24AUに対して大幅な改善が得られた。 AU-LLaVAは、AU認識における例外的な性能と汎用性を示す。

Facial Action Units (AUs) are of great significance in the realm of affective computing. In this paper, we propose AU-LLaVA, the first unified AU recognition framework based on the Large Language Model (LLM). AU-LLaVA consists of a visual encoder, a linear projector layer, and a pre-trained LLM. We meticulously craft the text descriptions and fine-tune the model on various AU datasets, allowing it to generate different formats of AU recognition results for the same input image. On the BP4D and DISFA datasets, AU-LLaVA delivers the most accurate recognition results for nearly half of the AUs. Our model achieves improvements of F1-score up to 11.4% in specific AU recognition compared to previous benchmark results. On the FEAFA dataset, our method achieves significant improvements over all 24 AUs compared to previous benchmark results. AU-LLaVA demonstrates exceptional performance and versatility in AU recognition.
翻訳日:2024-09-16 18:17:42 公開日:2024-09-13
# レベルセット可視化における不確実性モデリングのためのエントロピーベーステスト・開発フレームワーク

An Entropy-Based Test and Development Framework for Uncertainty Modeling in Level-Set Visualizations ( http://arxiv.org/abs/2409.08445v1 )

ライセンス: Link先を確認
Robert Sisneros, Tushar M. Athawale, David Pugmire, Kenneth Moreland, (参考訳) 本稿では、不確実なマーチング立方体実装における不確実性モデリングのテストおよび開発のための簡単な比較フレームワークを提案する。 不確実な値の確率分布を表すモデルの選択は、不確実な可視化アルゴリズムのメモリ使用量、実行時間、精度に直接影響を及ぼす。 エントロピー計算をアンサンブルデータ上で直接行い、期待結果を確立するとともに、均一、ガウス、ヒストグラム、量子モデルを含む様々な確率モデルからエントロピーを比較する。 実験の結果,アンサンブルの分布に一致するモデルがエントロピーと実際に一致していることが確認された。 さらに、非パラメトリックヒストグラムモデルにおけるビンの削減がより効果的であるのに対して、量子モデルにおける多数のビンがデータの正確性にアプローチしていることが示される。

We present a simple comparative framework for testing and developing uncertainty modeling in uncertain marching cubes implementations. The selection of a model to represent the probability distribution of uncertain values directly influences the memory use, run time, and accuracy of an uncertainty visualization algorithm. We use an entropy calculation directly on ensemble data to establish an expected result and then compare the entropy from various probability models, including uniform, Gaussian, histogram, and quantile models. Our results verify that models matching the distribution of the ensemble indeed match the entropy. We further show that fewer bins in nonparametric histogram models are more effective whereas large numbers of bins in quantile models approach data accuracy.
翻訳日:2024-09-16 18:17:42 公開日:2024-09-13
# MAGDMにおける重み付き偏差測定によるアンサンブル分類器特徴フュージョンに対するオブザーバ間変動評価

Inter Observer Variability Assessment through Ordered Weighted Belief Divergence Measure in MAGDM Application to the Ensemble Classifier Feature Fusion ( http://arxiv.org/abs/2409.08450v1 )

ライセンス: Link先を確認
Pragya Gupta, Debjani Chakraborty, Debashree Guha, (参考訳) コンセンサス結果を得るために,多属性グループ意思決定(MAGDM)が広く導入されている。 しかし、ほとんどの方法論は専門家の意見の対立を無視しており、それらに等しく、あるいは変動する優先順位しか考慮していない。 そこで本研究では, 観測間の変動を評価し, 専門家間の不確実性に対処し, エビデンシャルMAGDM法を提案する。 提案されたフレームワークには4倍のコントリビューションがある。 まず、基本確率割当(BPA)生成法を導入し、信念の度合いを計算することによって、それぞれの選択肢の固有の特性を考察する。 第二に、順序付き重み付き信念と妥当性尺度は、観測間の変動を評価し、専門家グループ間の紛争に対処することによって、代替案の内在的な情報を取り込むために構築される。 各専門家グループに対する重み付き支持を得て最終選好関係を得るように、順序付き重み付き信念分散尺度を構築する。 最後に,提案するEvidential MAGDMフレームワークの例を示した。 さらに,光コヒーレンス・トモグラフィー画像を用いた網膜障害診断のためのアンサンブル分類器機能融合の現実的応用におけるEvidential MAGDMの解釈を分析した。

A large number of multi-attribute group decisionmaking (MAGDM) have been widely introduced to obtain consensus results. However, most of the methodologies ignore the conflict among the experts opinions and only consider equal or variable priorities of them. Therefore, this study aims to propose an Evidential MAGDM method by assessing the inter-observational variability and handling uncertainty that emerges between the experts. The proposed framework has fourfold contributions. First, the basic probability assignment (BPA) generation method is introduced to consider the inherent characteristics of each alternative by computing the degree of belief. Second, the ordered weighted belief and plausibility measure is constructed to capture the overall intrinsic information of the alternative by assessing the inter-observational variability and addressing the conflicts emerging between the group of experts. An ordered weighted belief divergence measure is constructed to acquire the weighted support for each group of experts to obtain the final preference relationship. Finally, we have shown an illustrative example of the proposed Evidential MAGDM framework. Further, we have analyzed the interpretation of Evidential MAGDM in the real-world application for ensemble classifier feature fusion to diagnose retinal disorders using optical coherence tomography images.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# VistaFormer: 衛星画像時系列セグメンテーションのためのスケーラブルなビジョントランス

VistaFormer: Scalable Vision Transformers for Satellite Image Time Series Segmentation ( http://arxiv.org/abs/2409.08461v1 )

ライセンス: Link先を確認
Ezra MacDonald, Derek Jacoby, Yvonne Coady, (参考訳) リモートセンシング画像のセマンティックセグメンテーションのための軽量トランスフォーマーベースモデルアーキテクチャであるVistaFormerを紹介する。 このモデルは、軽量デコーダを備えたマルチスケールトランスフォーマーベースのエンコーダを使用して、エンコーダブロックでキャプチャされたグローバルおよびローカルの注意を集約する。 VistaFormerは、モデルアーキテクチャを単純化し、時間的および空間的なコードを補間する必要をなくし、画像解像度の異なるトレーニングやテストを行う際のモデルパフォーマンスを低減できる位置自由な自己アテンション層を使用している。 雲のようなノイズの多い入力信号をフィルタリングする簡単な手法について検討し,MHSA(Multi-Head Self-Attention)をNA(Neighbourhood Attention)に置き換えることで,モデルスケーラビリティの向上を実証する。 PASTISとMTLCCの作物型セグメンテーションベンチマークの実験では、VistaFormerは同等のモデルよりも性能が良く、MHSAを使った浮動小数点演算の8%しか必要とせず、NAを使った11%しか必要とせず、トレーニング可能なパラメータも少ないことが示されている。 MHSAのVistaFormerは、最先端のmIoUスコアをPASTISベンチマークで0.1%、MTLCCベンチマークで3%改善し、NAのVistaFormerはMTLCCベンチマークで3.7%改善した。

We introduce VistaFormer, a lightweight Transformer-based model architecture for the semantic segmentation of remote-sensing images. This model uses a multi-scale Transformer-based encoder with a lightweight decoder that aggregates global and local attention captured in the encoder blocks. VistaFormer uses position-free self-attention layers which simplifies the model architecture and removes the need to interpolate temporal and spatial codes, which can reduce model performance when training and testing image resolutions differ. We investigate simple techniques for filtering noisy input signals like clouds and demonstrate that improved model scalability can be achieved by substituting Multi-Head Self-Attention (MHSA) with Neighbourhood Attention (NA). Experiments on the PASTIS and MTLCC crop-type segmentation benchmarks show that VistaFormer achieves better performance than comparable models and requires only 8% of the floating point operations using MHSA and 11% using NA while also using fewer trainable parameters. VistaFormer with MHSA improves on state-of-the-art mIoU scores by 0.1% on the PASTIS benchmark and 3% on the MTLCC benchmark while VistaFormer with NA improves on the MTLCC benchmark by 3.7%.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# VLTP:タスク指向セグメンテーションのためのビジョンランゲージガイドトケンプルーニング

VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation ( http://arxiv.org/abs/2409.08464v1 )

ライセンス: Link先を確認
Hanning Chen, Yang Ni, Wenjun Huang, Yezi Liu, SungHeon Jeong, Fei Wen, Nathaniel Bastian, Hugo Latapie, Mohsen Imani, (参考訳) ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。 しかし、その成功は計算コストがかなり高い。 画像トークンのプルーニングは、この複雑さに対処する最も効果的な戦略の1つである。 しかし、以前のアプローチはより複雑なタスク指向セグメンテーション(TOS)に適用された場合、各イメージパッチのクラスは事前に定義されていないが、特定の入力タスクに依存する。 この研究は、VLTP(Vision Language Guided Token Pruning)を導入し、VTベースのセグメンテーションモデル、特にMLLM(Multi-modal large language model)でガイドされるTOSを高速化する新しいトークンプルーニングメカニズムを紹介した。 ViTはすべてのイメージトークンをすべてのレイヤを通して処理する必要はありませんが、推論タスクに関連するトークンが必要なのです。 画像トークンと視覚言語誘導の両方を入力として、タスクに対する各画像トークンの関連性を予測する新しいプルーニングデコーダを設計する。 関連性の高い画像トークンのみがViTの深い層に渡される。 実験の結果,VLTPフレームワークは性能劣化を伴わずにViTの計算コストを約25%削減し,性能低下を1%に抑えることができた。

Vision Transformers (ViTs) have emerged as the backbone of many segmentation models, consistently achieving state-of-the-art (SOTA) performance. However, their success comes at a significant computational cost. Image token pruning is one of the most effective strategies to address this complexity. However, previous approaches fall short when applied to more complex task-oriented segmentation (TOS), where the class of each image patch is not predefined but dependent on the specific input task. This work introduces the Vision Language Guided Token Pruning (VLTP), a novel token pruning mechanism that can accelerate ViTbased segmentation models, particularly for TOS guided by multi-modal large language model (MLLM). We argue that ViT does not need to process every image token through all of its layers only the tokens related to reasoning tasks are necessary. We design a new pruning decoder to take both image tokens and vision-language guidance as input to predict the relevance of each image token to the task. Only image tokens with high relevance are passed to deeper layers of the ViT. Experiments show that the VLTP framework reduces the computational costs of ViT by approximately 25% without performance degradation and by around 40% with only a 1% performance drop.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 単語におけるデータセットの説明:自然言語パラメータを持つ統計モデル

Explaining Datasets in Words: Statistical Models with Natural Language Parameters ( http://arxiv.org/abs/2409.08466v1 )

ライセンス: Link先を確認
Ruiqi Zhong, Heng Wang, Dan Klein, Jacob Steinhardt, (参考訳) 例えば、テキストの埋め込みをクラスタ化し、各クラスタの平均パラメータを解釈します。 しかし、これらのパラメータはしばしば高次元であり、解釈が難しい。 モデルパラメータを直接解釈するために、自然言語述語によってパラメータ化されるクラスタリング、時系列、分類モデルを含む統計モデルのファミリーを導入する。 例えば、新型コロナウイルスに関するテキストのクラスタは、述語である"discusses COVID"によってパラメータ化できる。 これらの統計モデルを効果的に学習するために、述語パラメータの勾配降下による連続的な緩和を最適化し、言語モデル(LM)を誘導してそれらを識別するモデル非依存アルゴリズムを開発した。 最後に、我々のフレームワークを幅広い問題に適用する: ユーザチャット対話の分類、時間の経過とともにそれらがどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけること、下位値に基づいて数学問題をクラスタリングすること、記憶可能な画像の視覚的特徴を説明すること。 我々のフレームワークは、テキストと視覚の両方に適用可能で、特定の特性(例えばsubareas)に焦点を合わせるのが簡単であり、古典的手法(例えばn-gram解析)が生み出すのに苦労する、洗練された概念を説明する。

To make sense of massive data, we often fit simplified models and then interpret the parameters; for example, we cluster the text embeddings and then interpret the mean parameters of each cluster. However, these parameters are often high-dimensional and hard to interpret. To make model parameters directly interpretable, we introduce a family of statistical models -- including clustering, time series, and classification models -- parameterized by natural language predicates. For example, a cluster of text about COVID could be parameterized by the predicate "discusses COVID". To learn these statistical models effectively, we develop a model-agnostic algorithm that optimizes continuous relaxations of predicate parameters with gradient descent and discretizes them by prompting language models (LMs). Finally, we apply our framework to a wide range of problems: taxonomizing user chat dialogues, characterizing how they evolve across time, finding categories where one language model is better than the other, clustering math problems based on subareas, and explaining visual features in memorable images. Our framework is highly versatile, applicable to both textual and visual domains, can be easily steered to focus on specific properties (e.g. subareas), and explains sophisticated concepts that classical methods (e.g. n-gram analysis) struggle to produce.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 2つの量子ビット系における一般ベル不等式に対するSOS分解とその量子ランダムネスへの応用

SOS decomposition for general Bell inequalities in two qubits systems and its application to quantum randomness ( http://arxiv.org/abs/2409.08467v1 )

ライセンス: Link先を確認
Wen-Na Zhao, Youwang Xiao, Ming Li, Li Xu, Shao-Ming Fei, (参考訳) ベル非局所性はデバイス独立な量子ランダム性と密接に関連している。 本稿では、2つの量子ビット系における一般ベル不等式に対する一種類の二乗分解(SOS)を提案する。 得られたSOS分解を用いて、ベルの不等式が最大値に反する測定演算子を求めることができる。 また,(一般化)クレーター・ホルン・シモニー・ホルト(CHSH)ベル不等式,エレガントベル不等式,ギシン不等式,チェインドベル不等式を例に検討して,SOS分解法を実践する。 対応するSOS分解およびこれらのベルの不等式の最大違反値の原因となる測定演算子を導出する。 さらに、ベルの不等式のSOS分解を用いて、デバイス独立な量子ランダム性について論じる。 一般化CHSH不等式を最大絡み合う状態とし、ワーナー状態は最大違反を例に挙げる。 SOS分解を用いた最大推定確率の排他値または下限を求める。 ワーナー状態の場合、下界は$p$が$$$1のときのより正確な量子ランダム性の推定を与えることができる。

Bell non-locality is closely related with device independent quantum randomness. In this paper, we present a kind of sum-of-squares (SOS) decomposition for general Bell inequalities in two qubits systems. By using the obtained SOS decomposition, we can then find the measurement operators associated with the maximal violation of considered Bell inequality. We also practice the SOS decomposition method by considering the (generalized) Clauser-Horne-Shimony-Holt (CHSH) Bell inequality, the Elegant Bell inequality, the Gisin inequality and the Chained Bell inequality as examples. The corresponding SOS decompositions and the measurement operators that cause the maximum violation values of these Bell inequalities are derived, which are consistent with previous results. We further discuss the device independent quantum randomness by using the SOS decompositions of Bell inequalities. We take the generalized CHSH inequality with the maximally entangled state and the Werner state that attaining the maximal violations as examples. Exact value or lower bound on the maximal guessing probability using the SOS decomposition are obtained. For Werner state, the lower bound can supply a much precise estimation of quantum randomness when $p$ tends to $1$.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 開語彙セグメンテーションのための一般化促進型アダプタ

Generalization Boosted Adapter for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2409.08468v1 )

ライセンス: Link先を確認
Wenhao Xu, Changwei Wang, Xuxiang Feng, Rongtao Xu, Longzhao Huang, Zherui Zhang, Li Guo, Shibiao Xu, (参考訳) 視覚言語モデル(VLM)は、セグメンテーションのような密集した予測タスクへの適応を動機づけ、顕著なオープン語彙オブジェクト認識能力を示している。 しかし、画素レベルの粒度の不足や微調整に使える限られたデータが不足しているため、こうしたタスクにVLMを直接適用することは依然として困難であり、過度に適合し、一般化が不十分である。 これらの制約に対処するために,オープン語彙セグメンテーションのためのVLMの一般化とロバスト性を高める新しいアダプタ戦略であるGeneralization Boosted Adapter (GBA)を提案する。 GBAは,(1)特徴を振幅と位相成分に分離し,意味的整合性を維持しつつ特徴空間表現を充実させるための振幅のみを演算するスタイル多様化適応器(SDA)と,(2)テキストカテゴリと対象領域間のより密接な意味的関連を確立するために相互アテンションを利用する相関制約適応器(CCA)と,無関係な低周波の「ノイズ」情報を抑圧し,誤関連を避けるための2つのコアコンポーネントから構成される。 浅部SDAと深部CAAの相乗効果により,GAAは過剰適合問題を効果的に軽減し,特徴表現の意味的関連性を高める。 シンプルで効率的でプラグアンドプレイなコンポーネントとして、GBAは様々なCLIPベースのメソッドに柔軟に統合することができ、幅広い適用性を示し、複数のオープン語彙セグメンテーションベンチマークで最先端のパフォーマンスを達成することができる。

Vision-language models (VLMs) have demonstrated remarkable open-vocabulary object recognition capabilities, motivating their adaptation for dense prediction tasks like segmentation. However, directly applying VLMs to such tasks remains challenging due to their lack of pixel-level granularity and the limited data available for fine-tuning, leading to overfitting and poor generalization. To address these limitations, we propose Generalization Boosted Adapter (GBA), a novel adapter strategy that enhances the generalization and robustness of VLMs for open-vocabulary segmentation. GBA comprises two core components: (1) a Style Diversification Adapter (SDA) that decouples features into amplitude and phase components, operating solely on the amplitude to enrich the feature space representation while preserving semantic consistency; and (2) a Correlation Constraint Adapter (CCA) that employs cross-attention to establish tighter semantic associations between text categories and target regions, suppressing irrelevant low-frequency ``noise'' information and avoiding erroneous associations. Through the synergistic effect of the shallow SDA and the deep CCA, GBA effectively alleviates overfitting issues and enhances the semantic relevance of feature representations. As a simple, efficient, and plug-and-play component, GBA can be flexibly integrated into various CLIP-based methods, demonstrating broad applicability and achieving state-of-the-art performance on multiple open-vocabulary segmentation benchmarks.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 有限粒子収束率の向上による結晶粒径変化の抑制

Improved Finite-Particle Convergence Rates for Stein Variational Gradient Descent ( http://arxiv.org/abs/2409.08469v1 )

ライセンス: Link先を確認
Krishnakumar Balasubramanian, Sayan Banerjee, Promit Ghosal, (参考訳) Kernel Stein Discrepancy (\mathsf{KSD}$) および Wasserstein-2 測定値において、Stein Variational Gradient Descent (SVGD) アルゴリズムに対して有限粒子収束率を与える。 我々の重要な洞察は、N$粒子位置の結合密度とN$の積目標測度との間の相対エントロピーの時間微分が、通常の初期分布から始まり、予測される$\mathsf{KSD}^2$とより小さい「正の部」に比例する支配的な「負の部」に分裂する、という観察である。 この観測により、$\mathsf{KSD}$ 次数 1/\sqrt{N}$ となり、最近の結果から~\cite{shi2024finite} にほぼ最適な2倍指数的改善をもたらす。 核とポテンシャルに関する穏やかな仮定の下で、これらの境界は次元$d$で線型に成長する。 カーネルに双線型成分を加えることにより、上述のアプローチはワッサーシュタイン-2収束をさらに獲得するために用いられる。 Bilinear + Mat\'ern' カーネルの場合、i.d. の設定と似た次元の呪いを示す Wasserstein-2 レートを導出する。 また, 時間平均粒子法則に対して, カオス結果の限界収束と長期伝播を求める。

We provide finite-particle convergence rates for the Stein Variational Gradient Descent (SVGD) algorithm in the Kernel Stein Discrepancy ($\mathsf{KSD}$) and Wasserstein-2 metrics. Our key insight is the observation that the time derivative of the relative entropy between the joint density of $N$ particle locations and the $N$-fold product target measure, starting from a regular initial distribution, splits into a dominant `negative part' proportional to $N$ times the expected $\mathsf{KSD}^2$ and a smaller `positive part'. This observation leads to $\mathsf{KSD}$ rates of order $1/\sqrt{N}$, providing a near optimal double exponential improvement over the recent result by~\cite{shi2024finite}. Under mild assumptions on the kernel and potential, these bounds also grow linearly in the dimension $d$. By adding a bilinear component to the kernel, the above approach is used to further obtain Wasserstein-2 convergence. For the case of `bilinear + Mat\'ern' kernels, we derive Wasserstein-2 rates that exhibit a curse-of-dimensionality similar to the i.i.d. setting. We also obtain marginal convergence and long-time propagation of chaos results for the time-averaged particle laws.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 自律・遠隔操縦型航空システムのためのインテントモデリングと推論フレームワーク

An Intent Modeling and Inference Framework for Autonomous and Remotely Piloted Aerial Systems ( http://arxiv.org/abs/2409.08472v1 )

ライセンス: Link先を確認
Kesav Kaza, Varun Mehta, Hamid Azad, Miodrag Bolic, Iraj Mantegh, (参考訳) 非許可飛行からジオフェンスを保護するための防衛計画を支援するために、インテントモデリングと推論の枠組みが提示される。 まず,無人航空機システム(UAS)の意図を数学的に定義する。 クリティカル・ウェイポイントとクリティカル・ウェイポイント・パターンの概念を導入し、意図を完全に特徴づける動作プロセスと関連付ける。 このモデリングフレームワークは、UASのミッションプランナーの表現で航空機の動きシーケンスを計画するために使用され、またジオフェンスを保護するために定義された防衛プランナーで構成されている。 障害物のある2次元および3次元環境における自律的、半自律的、およびパイロットシステムに適用できる。 このフレームワークは、セキュリティアプリケーションのための意図のライブラリを定義することで説明されている。 意図推論問題を定式化するために、ターゲットの検出と追跡を推定する。 深層学習手法の一環として,意思決定者の目的の複数の定式化について論じる。 さらに,UAS飛行を特徴付けるマルチモーダルダイナミックモデルについて論じる。 これは後に、インテント分類器を訓練するために対話型多重モデル (IMM) フィルタを用いて特徴を抽出するために使われる。 最後に、シミュレーション研究の一環として、インテント推論のための注目ベースの双方向長短期メモリ(Bi-LSTM)ネットワークを提示する。 シミュレーション実験では,2次元および3次元環境における軌道生成,レーダ計測シミュレーションなど,フレームワークのさまざまな側面を概説した。

An intent modelling and inference framework is presented to assist the defense planning for protecting a geo-fence against unauthorized flights. First, a novel mathematical definition for the intent of an uncrewed aircraft system (UAS) is presented. The concepts of critical waypoints and critical waypoint patterns are introduced and associated with a motion process to fully characterize an intent. This modelling framework consists of representations of a UAS mission planner, used to plan the aircraft's motion sequence, as well as a defense planner, defined to protect the geo-fence. It is applicable to autonomous, semi-autonomous, and piloted systems in 2D and 3D environments with obstacles. The framework is illustrated by defining a library of intents for a security application. Detection and tracking of the target are presumed for formulating the intent inference problem. Multiple formulations of the decision maker's objective are discussed as part of a deep-learning-based methodology. Further, a multi-modal dynamic model for characterizing the UAS flight is discussed. This is later utilized to extract features using the interacting multiple model (IMM) filter for training the intent classifier. Finally, as part of the simulation study, an attention-based bi-directional long short-term memory (Bi-LSTM) network for intent inference is presented. The simulation experiments illustrate various aspects of the framework, including trajectory generation, radar measurement simulation, etc., in 2D and 3D environments.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 学習レンズによるメタラーニングの再考

Rethinking Meta-Learning from a Learning Lens ( http://arxiv.org/abs/2409.08474v1 )

ライセンス: Link先を確認
Jingyao Wang, Wenwen Qiang, Jiangmeng Li, Lingyu Si, Changwen Zheng, (参考訳) メタラーニングは、新しいタスクを解決するために、以前のタスクからの知識を活用するための強力なアプローチとして現れました。 メインストリームの手法は、よく一般化されたモデルの初期化のトレーニングに重点を置いており、データと更新に制限のあるさまざまなタスクに適応する。 しかし、トレーニングタスクに過度に適合するモデルを押します。 従来の手法は主にデータ不足によるものであり、この問題に対処するために拡張を使用していたが、十分なトレーニングと効果的な拡張戦略によって制限されていた。 本研究では,メタラーニングの「学習する」戦略に焦点をあて,環境を変えることなく,エラーの原因を探究する。 具体的には,まず,メタラーニングのアルゴリズム的手順を'ラーニング'レンズから再考する。 理論的、実証的な分析を通して (i)このパラダイムは、過度な適合と過度な適合の両方のリスクに直面している 二 異なるタスクに適応したモデルが互いに促進し、タスクがより類似している場合には効果が強くなる。 この知見に基づいて,メタラーニングの最適化プロセスの校正にタスク関係を用いることを提案し,その目的を達成するために,タスク関係学習者(TRLearner)と呼ばれるプラグアンドプレイ手法を提案する。 具体的には、まず、抽出したタスク固有メタデータからタスク関係行列を取得する。 得られた行列と関係性を考慮した整合性正規化を用いて最適化を導出する。 TRLearnerの有効性は理論的および経験的分析によって証明されている。

Meta-learning has emerged as a powerful approach for leveraging knowledge from previous tasks to solve new tasks. The mainstream methods focus on training a well-generalized model initialization, which is then adapted to different tasks with limited data and updates. However, it pushes the model overfitting on the training tasks. Previous methods mainly attributed this to the lack of data and used augmentations to address this issue, but they were limited by sufficient training and effective augmentation strategies. In this work, we focus on the more fundamental ``learning to learn'' strategy of meta-learning to explore what causes errors and how to eliminate these errors without changing the environment. Specifically, we first rethink the algorithmic procedure of meta-learning from a ``learning'' lens. Through theoretical and empirical analyses, we find that (i) this paradigm faces the risk of both overfitting and underfitting and (ii) the model adapted to different tasks promote each other where the effect is stronger if the tasks are more similar. Based on this insight, we propose using task relations to calibrate the optimization process of meta-learning and propose a plug-and-play method called Task Relation Learner (TRLearner) to achieve this goal. Specifically, it first obtains task relation matrices from the extracted task-specific meta-data. Then, it uses the obtained matrices with relation-aware consistency regularization to guide optimization. Extensive theoretical and empirical analyses demonstrate the effectiveness of TRLearner.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# RT-DETRv3:階層的高感度正の重ね合わせによる実時間終端物体検出

RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision ( http://arxiv.org/abs/2409.08475v1 )

ライセンス: Link先を確認
Shuo Wang, Chunlong Xia, Feng Lv, Yifeng Shi, (参考訳) RT-DETRは、世界初のリアルタイム・エンド・ツー・エンド・トランスフォーマー・オブジェクト検出器である。 その効率性は、フレームワーク設計とハンガリーのマッチングから来ています。 しかし、YOLOシリーズのような密集した監視検出器と比較して、ハンガリーのマッチングはスペーサーの監督を多く提供しており、モデルトレーニングが不十分であり、最適な結果を得るのが困難である。 これらの課題に対処するため,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案した。 まず、元のデコーダと協調してエンコーダの特徴表現を強化する、密集した監視を提供するCNNベースの補助ブランチを紹介する。 第二に、デコーダの訓練が不十分な状況に対処するために、自己注意の摂動を含む新しい学習戦略を提案する。 この戦略は、複数のクエリグループにまたがる正のサンプルに対するラベル割り当てを多様化し、正の監督を強化する。 さらに,より高品質なクエリが各基底真理に一致することを保証するために,密集した正の監督のための共有重み付きデコーダブランチを導入する。 特に、上記のモジュールはすべてトレーニング専用です。 我々はCOCO val2017におけるアプローチの有効性を実証するための広範な実験を行った。 RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。 例えば、RT-DETRv3-R18は、同じレイテンシを維持しながら、RT-DETR-R18/RT-DETRv2-R18と比較して48.1%AP(+1.6%/+1.4%)を達成した。 一方、同等のパフォーマンスを得るためには、エポックの半分しか必要としない。 さらにRT-DETRv3-R101は54.6%のAPがYOLOv10-Xを上回っている。 コードはまもなくリリースされる。

RT-DETR is the first real-time end-to-end transformer-based object detector. Its efficiency comes from the framework design and the Hungarian matching. However, compared to dense supervision detectors like the YOLO series, the Hungarian matching provides much sparser supervision, leading to insufficient model training and difficult to achieve optimal results. To address these issues, we proposed a hierarchical dense positive supervision method based on RT-DETR, named RT-DETRv3. Firstly, we introduce a CNN-based auxiliary branch that provides dense supervision that collaborates with the original decoder to enhance the encoder feature representation. Secondly, to address insufficient decoder training, we propose a novel learning strategy involving self-attention perturbation. This strategy diversifies label assignment for positive samples across multiple query groups, thereby enriching positive supervisions. Additionally, we introduce a shared-weight decoder branch for dense positive supervision to ensure more high-quality queries matching each ground truth. Notably, all aforementioned modules are training-only. We conduct extensive experiments to demonstrate the effectiveness of our approach on COCO val2017. RT-DETRv3 significantly outperforms existing real-time detectors, including the RT-DETR series and the YOLO series. For example, RT-DETRv3-R18 achieves 48.1% AP (+1.6%/+1.4%) compared to RT-DETR-R18/RT-DETRv2-R18 while maintaining the same latency. Meanwhile, it requires only half of epochs to attain a comparable performance. Furthermore, RT-DETRv3-R101 can attain an impressive 54.6% AP outperforming YOLOv10-X. Code will be released soon.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# ブロックチェーンに基づくフェデレーション学習におけるデータ正しい確認機構に関する研究

Research on Data Right Confirmation Mechanism of Federated Learning based on Blockchain ( http://arxiv.org/abs/2409.08476v1 )

ライセンス: Link先を確認
Xiaogang Cheng, Ren Guo, (参考訳) フェデレーション学習は、分散データマイニングと機械学習におけるプライバシ保護の問題を解決することができる。 本稿では、ブロックチェーンとスマートコントラクトに基づくフェデレーション学習データオーナシップ確認機構を提案する。これは、分散ブロックチェーン技術を使用して、各参加者のブロックチェーンへのコントリビューションを節約し、ブロックチェーンを通じてフェデレーション学習結果のメリットを分散する。 ブロックチェーンのローカルシミュレーション環境では、関連するスマートコントラクトとデータ構造をシミュレートし、実装し、そのスキームの有効性を予め実証する。

Federated learning can solve the privacy protection problem in distributed data mining and machine learning, and how to protect the ownership, use and income rights of all parties involved in federated learning is an important issue. This paper proposes a federated learning data ownership confirmation mechanism based on blockchain and smart contract, which uses decentralized blockchain technology to save the contribution of each participant on the blockchain, and distributes the benefits of federated learning results through the blockchain. In the local simulation environment of the blockchain, the relevant smart contracts and data structures are simulated and implemented, and the feasibility of the scheme is preliminarily demonstrated.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 拡散モデルによるニューラル演算子統合による乱流モデリングにおけるスペクトル表現の改善

Integrating Neural Operators with Diffusion Models Improves Spectral Representation in Turbulence Modeling ( http://arxiv.org/abs/2409.08477v1 )

ライセンス: Link先を確認
Vivek Oommen, Aniruddha Bora, Zhen Zhang, George Em Karniadakis, (参考訳) 我々は、乱流の代理モデリングにおいて、ニューラル演算子のスペクトル制限に対処するために、拡散モデルとニューラル演算子を統合する。 ニューラル作用素は計算効率を提供するが、高周波流れのダイナミクスを捉えることには欠点があり、結果として過度に滑らかな近似が得られる。 これを解決するために, ニューラルネットワーク上での拡散モデルを適用し, 乱流構造の分解能を高める。 我々のアプローチは、レイノルズ数ジェットフローシミュレーションやシュリーレン速度測定など、様々なデータセット上の異なるニューラル演算子に対して検証されている。 提案手法は, ニューラル演算子単独と比較して, 予測エネルギースペクトルと真の分布とのアライメントを著しく改善する。 さらに、適切な直交分解解析は、時空におけるスペクトル忠実度の向上を示す。 この研究は、生成モデルとニューラル演算子を組み合わせる新しいパラダイムを確立し、乱流系のサロゲートモデリングを前進させ、マイクロ構造と高周波コンテンツを含む他の科学的応用に利用することができる。 vivekoommen.github.io/NO_DM

We integrate neural operators with diffusion models to address the spectral limitations of neural operators in surrogate modeling of turbulent flows. While neural operators offer computational efficiency, they exhibit deficiencies in capturing high-frequency flow dynamics, resulting in overly smooth approximations. To overcome this, we condition diffusion models on neural operators to enhance the resolution of turbulent structures. Our approach is validated for different neural operators on diverse datasets, including a high Reynolds number jet flow simulation and experimental Schlieren velocimetry. The proposed method significantly improves the alignment of predicted energy spectra with true distributions compared to neural operators alone. Additionally, proper orthogonal decomposition analysis demonstrates enhanced spectral fidelity in space-time. This work establishes a new paradigm for combining generative models with neural operators to advance surrogate modeling of turbulent systems, and it can be used in other scientific applications that involve microstructure and high-frequency content. See our project page: vivekoommen.github.io/NO_DM
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# 情報検索景観の探索:新しい評価手法と比較文書分割手法の検討

Exploring Information Retrieval Landscapes: An Investigation of a Novel Evaluation Techniques and Comparative Document Splitting Methods ( http://arxiv.org/abs/2409.08479v1 )

ライセンス: Link先を確認
Esmaeil Narimissa, David Raithel, (参考訳) 情報検索における検索・拡張生成(RAG)システムの性能は,処理中の文書の特徴に大きく影響される。 本研究では, 教科書の構造的性質, 記事の簡潔さ, 小説の物語的複雑さについて, 明確な検索戦略が必要であることを示した。 複数の文書分割手法の比較評価により,再帰的文字分割法は文脈整合性を保つ上で,トークンベースの分割法よりも優れていることが明らかになった。 オープンソースのモデルを用いて、質問と回答のペアの包括的なデータセットを生成し、現実的な予測シナリオをシミュレートして、テスト効率とメートル法信頼性を向上させる、新しい評価手法が導入された。 評価には、SequenceMatcher、BLEU、METEOR、BERT Scoreなどの重み付けされたスコアを使用して、システムの正確性と妥当性を評価する。 このアプローチは、RAGシステムの精度を評価するための洗練された標準を確立し、今後の研究は、チャンクとオーバーラップサイズを最適化し、精度と効率を改善することに注力する。

The performance of Retrieval-Augmented Generation (RAG) systems in information retrieval is significantly influenced by the characteristics of the documents being processed. In this study, the structured nature of textbooks, the conciseness of articles, and the narrative complexity of novels are shown to require distinct retrieval strategies. A comparative evaluation of multiple document-splitting methods reveals that the Recursive Character Splitter outperforms the Token-based Splitter in preserving contextual integrity. A novel evaluation technique is introduced, utilizing an open-source model to generate a comprehensive dataset of question-and-answer pairs, simulating realistic retrieval scenarios to enhance testing efficiency and metric reliability. The evaluation employs weighted scoring metrics, including SequenceMatcher, BLEU, METEOR, and BERT Score, to assess the system's accuracy and relevance. This approach establishes a refined standard for evaluating the precision of RAG systems, with future research focusing on optimizing chunk and overlap sizes to improve retrieval accuracy and efficiency.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# USTC-TD:2020年代の画像とビデオの符号化のためのテストデータセットとベンチマーク

USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s ( http://arxiv.org/abs/2409.08481v1 )

ライセンス: Link先を確認
Zhuoyuan Li, Junqi Liao, Chuanbo Tang, Haotian Zhang, Yuqi Li, Yifan Bian, Xihua Sheng, Xinmin Feng, Yao Li, Changsheng Gao, Li Li, Dong Liu, Feng Wu, (参考訳) 画像/ビデオのコーディングは、長年、学界と産業の両方にとって驚くべき研究領域だった。 コーディング関連の研究、実践的応用、標準化活動の正当化された評価には、データセット、特に高品質の画像/ビデオデータセットをテストすることが望ましい。 我々は,2022年と2023年のIEEE International Conference on Visual Communications and Image Processingにおいて,エンドツーエンドの画像/ビデオコーディングの実践的課題として,USTC-TDというテストデータセットを提唱した。 USTC-TDは4Kの空間解像度で40の画像と1080pの空間解像度で10の動画シーケンスを含んでおり、様々な環境要因(シーンタイプ、テクスチャ、モーション、ビュー)とデザインされた撮像要因(照明、シャドウ、レンズ)によって様々な内容が特徴的である。 画像/映像の特徴(空間的,時間的,色,明度)に基づいてUTC-TDを定量的に評価し,提案したデータセットの広範な範囲と多様性を検証した以前の画像/ビデオテストデータセットと比較した。 また,PSNR と MS-SSIM を用いた USTC-TD 上での古典的標準化と近年の学習画像/ビデオ符号化方式の評価を行い,評価手法の広範なベンチマークを行った。 提案するテストデータセットの特徴と具体的設計に基づいて,ベンチマーク性能を分析し,画像/ビデオ符号化の今後の研究と開発に光を当てる。 すべてのデータはオンラインで公開されています。

Image/video coding has been a remarkable research area for both academia and industry for many years. Testing datasets, especially high-quality image/video datasets are desirable for the justified evaluation of coding-related research, practical applications, and standardization activities. We put forward a test dataset namely USTC-TD, which has been successfully adopted in the practical end-to-end image/video coding challenge of the IEEE International Conference on Visual Communications and Image Processing in 2022 and 2023. USTC-TD contains 40 images at 4K spatial resolution and 10 video sequences at 1080p spatial resolution, featuring various content due to the diverse environmental factors (scene type, texture, motion, view) and the designed imaging factors (illumination, shadow, lens). We quantitatively evaluate USTC-TD on different image/video features (spatial, temporal, color, lightness), and compare it with the previous image/video test datasets, which verifies the wider coverage and more diversity of the proposed dataset. We also evaluate both classic standardized and recent learned image/video coding schemes on USTC-TD with PSNR and MS-SSIM, and provide an extensive benchmark for the evaluated schemes. Based on the characteristics and specific design of the proposed test dataset, we analyze the benchmark performance and shed light on the future research and development of image/video coding. All the data are released online: https://esakak.github.io/USTC-TD.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# LoRA微調整拡散モデル重み共有時のリスク

Risks When Sharing LoRA Fine-Tuned Diffusion Model Weights ( http://arxiv.org/abs/2409.08482v1 )

ライセンス: Link先を確認
Dixi Yao, (参考訳) 生成モデルの増加傾向と、大規模なデータセットで事前訓練された拡散モデルへの便利な公開アクセスにより、ユーザはこれらのモデルを微調整して、自然言語で記述された新しいコンテキストにおいて、個人やアイテムの画像を生成することができる。 低ランク適応 (LoRA) のようなパラメータ効率の良い微調整 (PEFT) は、微調整中にユーザ側でメモリと計算使用量を節約する最も一般的な方法となっている。 しかし、モデル重みを共有する際に、微調整に使用されるプライベートイメージが敵に漏洩するかどうかという自然な疑問がある。 本稿では,ファインチューニングに使用するプロンプトやイメージではなく,モデルウェイトにのみアクセス可能な,ファインチューニング拡散モデルのプライバシリーク問題について検討する。 モデル重みを入力とし、プライベート画像の再構成を出力する変分ネットワークオートエンコーダを設計・構築する。 このようなオートエンコーダのトレーニング効率を向上させるため,タイムステップ埋め込みによるトレーニングパラダイムを提案する。 敵は、プライベート画像と同じIDを含む画像を生成することができる。 さらに、差分プライバシに基づく手法を含む既存の防御手法が、微調整モデルの有用性を損なうことなく、拡散モデルの微調整に使用されるプライベートデータのプライバシーを維持できることを実証した。

With the emerging trend in generative models and convenient public access to diffusion models pre-trained on large datasets, users can fine-tune these models to generate images of personal faces or items in new contexts described by natural language. Parameter efficient fine-tuning (PEFT) such as Low Rank Adaptation (LoRA) has become the most common way to save memory and computation usage on the user end during fine-tuning. However, a natural question is whether the private images used for fine-tuning will be leaked to adversaries when sharing model weights. In this paper, we study the issue of privacy leakage of a fine-tuned diffusion model in a practical setting, where adversaries only have access to model weights, rather than prompts or images used for fine-tuning. We design and build a variational network autoencoder that takes model weights as input and outputs the reconstruction of private images. To improve the efficiency of training such an autoencoder, we propose a training paradigm with the help of timestep embedding. The results give a surprising answer to this research question: an adversary can generate images containing the same identities as the private images. Furthermore, we demonstrate that no existing defense method, including differential privacy-based methods, can preserve the privacy of private data used for fine-tuning a diffusion model without compromising the utility of a fine-tuned model.
翻訳日:2024-09-16 18:07:55 公開日:2024-09-13
# BERTに基づく抑うつ検出のための要約手法

A BERT-Based Summarization approach for depression detection ( http://arxiv.org/abs/2409.08483v1 )

ライセンス: Link先を確認
Hossein Salahshoor Gavalan, Mohmmad Naim Rastgoo, Bahareh Nakisa, (参考訳) うつ病は世界中で流行する精神疾患であり、対処されない場合、特に頻発するエピソードを持つ個人において、潜在的に重篤な反感を引き起こす可能性がある。 以前の研究では、早期介入はうつ病の症状を緩和または緩和する可能性があることが示されている。 しかし、そのような介入を現実の環境で実施することは、かなりの困難を引き起こす可能性がある。 有望な戦略は、機械学習と人工知能を活用して、多様なデータソースからのうつ病指標を自律的に検出することである。 最も広く利用され、情報に富むデータソースの1つはテキストであり、人の気分、思考、感情を明らかにすることができる。 この文脈において、DAIC-WOZデータセットに見られるような臨床的に検証されたアンケートを用いて面接を行う仮想エージェントは、言語学的分析による抑うつ検出の堅牢な手段を提供する。 BERTベースのモデルは、強力で汎用的で、現代の大言語モデルよりも少ないリソースを使用するため、テキストを数値表現に変換することは、うつ病診断の精度を大幅に向上させる。 これらのモデルは複雑な意味的・統語的ニュアンスを十分に捉え、うつ病症状の検出精度を向上させる。 テキスト長に関するこれらのモデルの本質的な制限を考慮して,本研究では,入力テキストの長さと複雑さを低減させる前処理手法として,テキスト要約を提案する。 特徴抽出と分類のための独自に開発されたフレームワークにこの手法を実装することで、以前の全てのベンチマークを超えるテストセットのF1スコアが0.67となり、DAIC-WOZデータセットのほとんどの以前の結果を上回る検証セットの0.81が得られた。 さらに, 要約品質と妥当性を評価するために, 抑うつレキシコンを考案した。 このレキシコンは、うつ病検出研究のための貴重な資産となっている。

Depression is a globally prevalent mental disorder with potentially severe repercussions if not addressed, especially in individuals with recurrent episodes. Prior research has shown that early intervention has the potential to mitigate or alleviate symptoms of depression. However, implementing such interventions in a real-world setting may pose considerable challenges. A promising strategy involves leveraging machine learning and artificial intelligence to autonomously detect depression indicators from diverse data sources. One of the most widely available and informative data sources is text, which can reveal a person's mood, thoughts, and feelings. In this context, virtual agents programmed to conduct interviews using clinically validated questionnaires, such as those found in the DAIC-WOZ dataset, offer a robust means for depression detection through linguistic analysis. Utilizing BERT-based models, which are powerful and versatile yet use fewer resources than contemporary large language models, to convert text into numerical representations significantly enhances the precision of depression diagnosis. These models adeptly capture complex semantic and syntactic nuances, improving the detection accuracy of depressive symptoms. Given the inherent limitations of these models concerning text length, our study proposes text summarization as a preprocessing technique to diminish the length and intricacies of input texts. Implementing this method within our uniquely developed framework for feature extraction and classification yielded an F1-score of 0.67 on the test set surpassing all prior benchmarks and 0.81 on the validation set exceeding most previous results on the DAIC-WOZ dataset. Furthermore, we have devised a depression lexicon to assess summary quality and relevance. This lexicon constitutes a valuable asset for ongoing research in depression detection.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# リンク予測のための部分グラフベース拡散モデル

Sub-graph Based Diffusion Model for Link Prediction ( http://arxiv.org/abs/2409.08487v1 )

ライセンス: Link先を確認
Hang Li, Wei Jin, Geri Skenderi, Harry Shomer, Wenzhuo Tang, Wenqi Fan, Jiliang Tang, (参考訳) 拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は、データの合成と最大化の両方において例外的な品質を持つ、同時代の生成モデルのクラスを表す。 これらのモデルは、データを摂動する前方のMarkov Chainをトラバースし、その後に、ニューラルネットワークが摂動を解き、元のデータを復元する、という逆のプロセスを実行する。 グラフ領域におけるDDPMの応用を探求する努力が増えている。 しかし、そのほとんどは生成的視点に重点を置いている。 本稿では,リンク予測のための新しい生成モデルの構築を目的とする。 特に,一対のノード間のリンク予測を,囲む部分グラフの条件推定として扱う。 ベイズの公式を通した確率推定過程を分解する専用設計により,部分グラフ構造とそのノード特性の推定を分離することができる。 このような設計により、帰納的学習と強力な一般化能力の利点を同時に享受することができる。 注目すべきは, 様々なデータセットを対象とした総合的な実験により, 提案手法は, (1) 再トレーニングを伴わないデータセット間の転送可能性, (2) 限られたトレーニングデータに対する有望な一般化, (3) グラフ敵攻撃に対する堅牢性を示す。

Denoising Diffusion Probabilistic Models (DDPMs) represent a contemporary class of generative models with exceptional qualities in both synthesis and maximizing the data likelihood. These models work by traversing a forward Markov Chain where data is perturbed, followed by a reverse process where a neural network learns to undo the perturbations and recover the original data. There have been increasing efforts exploring the applications of DDPMs in the graph domain. However, most of them have focused on the generative perspective. In this paper, we aim to build a novel generative model for link prediction. In particular, we treat link prediction between a pair of nodes as a conditional likelihood estimation of its enclosing sub-graph. With a dedicated design to decompose the likelihood estimation process via the Bayesian formula, we are able to separate the estimation of sub-graph structure and its node features. Such designs allow our model to simultaneously enjoy the advantages of inductive learning and the strong generalization capability. Remarkably, comprehensive experiments across various datasets validate that our proposed method presents numerous advantages: (1) transferability across datasets without retraining, (2) promising generalization on limited training data, and (3) robustness against graph adversarial attacks.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# N$-partite 一般化 Svetlichny 作用素の最大期待値のタイト上限

Tight upper bound for the maximal expectation value of the $N$-partite generalized Svetlichny operator ( http://arxiv.org/abs/2409.08490v1 )

ライセンス: Link先を確認
Youwang Xiao, Zong Wang, Wen-Na Zhao, Ming Li, (参考訳) 素多部非局所性(英語版)は基本的な興味を持つだけでなく、量子情報理論の重要な情報源としても機能する。 我々は、$N$-partiteのシナリオを考え、任意の$N$-qubitシステムによって達成される一般化されたSvetlichnyの不等式の最大期待値に関する解析上界を提供する。 さらに、上界が厳密な量子状態の制約も、うるさい一般化されたグリーンベルガー・ホーネ・ザイリンガー状態(GHZ)によって示され、説明される。 特に、上界を導出するために提案された新しい手法は、一般化されたスヴェットリニュ作用素の構造についてより多くの洞察を与え、関連する性質を体系的に研究することを可能にする。 操作的アプローチとして、私たちが定義した相関行列の変動により、厳密性条件を満たす適切な単位ベクトルを探すのがより便利になる。 最後に,本研究の結果から,真のマルチパーティイト非局所性の検出に有効な実験実装が得られ,他の量子情報処理タスクにも適用できる可能性が示唆された。

Genuine multipartite non-locality is not only of fundamental interest but also serves as an important resource for quantum information theory. We consider the $N$-partite scenario and provide an analytical upper bound on the maximal expectation value of the generalized Svetlichny inequality achieved by an arbitrary $N$-qubit system. Furthermore, the constraints on quantum states for which the upper bound is tight are also presented and illustrated by noisy generalized Greenberger-Horne-Zeilinger (GHZ) states. Especially, the new techniques proposed to derive the upper bound allow more insights into the structure of the generalized Svetlichny operator and enable us to systematically investigate the relevant properties. As an operational approach, the variation of the correlation matrix we defined makes it more convenient to search for suitable unit vectors that satisfy the tightness conditions. Finally, our results give feasible experimental implementations in detecting the genuine multipartite non-locality and can potentially be applied to other quantum information processing tasks.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# Tri-Plane Mamba: 3次元医用画像のセグメンテーションモデルへの適応

Tri-Plane Mamba: Efficiently Adapting Segment Anything Model for 3D Medical Images ( http://arxiv.org/abs/2409.08492v1 )

ライセンス: Link先を確認
Hualiang Wang, Yiqun Lin, Xinpeng Ding, Xiaomeng Li, (参考訳) 3次元医用画像分割のための一般的なネットワークは、最近広範囲にわたる探索が行われている。 これらのネットワークの異常な性能の背後には、大量のピクセルレベルの注釈付きデータに対する大きな需要がある。 SAM(Segment Anything Model)の出現により,パラメータとデータ効率を考慮した2次元画像分割作業において,優れた性能が得られるようになった。 しかし、3次元医用画像に追加の深度チャネルを導入することで、2次元事前訓練された特徴の共有が防止されるだけでなく、SAMの適応に要する計算コストが2次的に増加する。 これらの課題を克服するために、SAM用に設計されたTri-Plane Mamba(TP-Mamba)アダプタを紹介します。 1) 局所深度情報処理に最適化されたマルチスケール3次元畳み込みアダプタ。 2) 3面マンバモジュールは, 計算コストを大幅に増大させることなく, 長距離深度レベルの表現を捉えるために設計された。 本手法は3次元CT臓器分割作業における最先端性能を実現する。 注目すべきは、この優れたパフォーマンスは、訓練データが少なくても維持されることだ。 具体的には、BTCVデータセットからの3つのCTトレーニングサンプルを使用して、従来の3Dセグメンテーションネットワークを越え、最大12%高いDiceスコアを得る。

General networks for 3D medical image segmentation have recently undergone extensive exploration. Behind the exceptional performance of these networks lies a significant demand for a large volume of pixel-level annotated data, which is time-consuming and labor-intensive. The emergence of the Segment Anything Model (SAM) has enabled this model to achieve superior performance in 2D medical image segmentation tasks via parameter- and data-efficient feature adaptation. However, the introduction of additional depth channels in 3D medical images not only prevents the sharing of 2D pre-trained features but also results in a quadratic increase in the computational cost for adapting SAM. To overcome these challenges, we present the Tri-Plane Mamba (TP-Mamba) adapters tailored for the SAM, featuring two major innovations: 1) multi-scale 3D convolutional adapters, optimized for efficiently processing local depth-level information, 2) a tri-plane mamba module, engineered to capture long-range depth-level representation without significantly increasing computational costs. This approach achieves state-of-the-art performance in 3D CT organ segmentation tasks. Remarkably, this superior performance is maintained even with scarce training data. Specifically using only three CT training samples from the BTCV dataset, it surpasses conventional 3D segmentation networks, attaining a Dice score that is up to 12% higher.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# WheelPoser:車いす利用者のためのスパースIMUによるボディポース推定

WheelPoser: Sparse-IMU Based Body Pose Estimation for Wheelchair Users ( http://arxiv.org/abs/2409.08494v1 )

ライセンス: Link先を確認
Yunzhi Li, Vimal Mollyn, Kuang Yuan, Patrick Carrington, (参考訳) ボディポーズの追跡方法を研究してきた研究者は多岐にわたるが、これまでは車椅子の利用者を考慮に入れていなかったため、追跡性能は低かった。 Wheelchairのユーザーは、このポーズ情報を利用して怪我を防ぎ、健康状態を監視し、環境のアクセシビリティーの障壁を特定し、ゲームやVR体験と対話できる。 本稿では,車椅子利用者を対象としたリアルタイムポーズ推定システムであるWheelPoserを紹介する。 我々のシステムは、ユーザの体と車椅子に4つの戦略的に配置されたIMUしか使用せず、カメラや高密度IMUアレイを使用した従来のシステムよりもはるかに実用的です。 WheelPoserは車椅子利用者のポーズを平均関節角度誤差14.30度、平均関節位置誤差6.74cmで追跡することができる。 このシステムをトレーニングするために,車椅子に装着した167分間のIMUセンサと,推進や圧力緩和などの車椅子固有の動きを含む運動キャプチャーデータからなる,新しいWheelPoser-IMUデータセットを収集した。 最後に,本システムによって実現される潜在的なアプリケーション領域について検討し,今後の可能性について議論する。 オープンソースコード、モデル、データセットについては、https://github.com/axle-lab/WheelPoserを参照してください。

Despite researchers having extensively studied various ways to track body pose on-the-go, most prior work does not take into account wheelchair users, leading to poor tracking performance. Wheelchair users could greatly benefit from this pose information to prevent injuries, monitor their health, identify environmental accessibility barriers, and interact with gaming and VR experiences. In this work, we present WheelPoser, a real-time pose estimation system specifically designed for wheelchair users. Our system uses only four strategically placed IMUs on the user's body and wheelchair, making it far more practical than prior systems using cameras and dense IMU arrays. WheelPoser is able to track a wheelchair user's pose with a mean joint angle error of 14.30 degrees and a mean joint position error of 6.74 cm, more than three times better than similar systems using sparse IMUs. To train our system, we collect a novel WheelPoser-IMU dataset, consisting of 167 minutes of paired IMU sensor and motion capture data of people in wheelchairs, including wheelchair-specific motions such as propulsion and pressure relief. Finally, we explore the potential application space enabled by our system and discuss future opportunities. Open-source code, models, and dataset can be found here: https://github.com/axle-lab/WheelPoser.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# 量子通信による消費データ

Consumable Data via Quantum Communication ( http://arxiv.org/abs/2409.08495v1 )

ライセンス: Link先を確認
Dar Gilboa, Siddhartha Jain, Jarrod McClean, (参考訳) 古典的なデータは、経済的およびデータプライバシの観点から、計算のためにコピーして再利用することができる。 これを動機として、Aliceが何らかのデータを保持し、Bobが$m$の入力を持ち、Aliceのデータと各入力に関する二部関係のインスタンスを$m$で計算したいという、一方的な通信複雑性の問題を定式化します。 これを一方向通信の非対称直和問題と呼ぶ。 このような問題の量子通信複雑性は$m$と多項式的にスケールするが、古典的な通信複雑性は、ほとんどの対数的に$m$に依存する。 これらの例では、所有者がそれを量子状態として保存し送信するとき、データは消費可能なリソースのように振る舞う。 戦略的データ販売ゲームへの応用を示し、他の潜在的な経済的影響について論じる。

Classical data can be copied and re-used for computation, with adverse consequences economically and in terms of data privacy. Motivated by this, we formulate problems in one-way communication complexity where Alice holds some data and Bob holds $m$ inputs, and he wants to compute $m$ instances of a bipartite relation on Alice's data and each of his inputs. We call this the asymmetric direct sum question for one-way communication. We give a number of examples where the quantum communication complexity of such problems scales polynomially with $m$, while the classical communication complexity depends at most logarithmically on $m$. For these examples, data behaves like a consumable resource when the owner stores and transmits it as quantum states. We show an application to a strategic data-selling game, and discuss other potential economic implications.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# Rydberg原子を用いた準周期相互作用を持つ量子スピン鎖の実験的実現の提案

Proposal for experimental realization of quantum spin chains with quasiperiodic interaction using Rydberg atoms ( http://arxiv.org/abs/2409.08497v1 )

ライセンス: Link先を確認
Takaharu Yoshida, Masaya Kunimi, Tetsuro Nikuni, (参考訳) 相互作用する不規則系の局在性を調べることは、閉量子系における熱化とその欠如を理解する上で重要な役割を担っている。 しかし、そのようなシステムを古典的なコンピュータ上でシミュレーションすることは、その複雑さのために困難である。 本研究では,Rydberg原子を用いた準周期相互作用を持つS = 1/2およびS = 1量子スピンモデルを実現する手法を提案する。 また、数値計算を行い、これらのモデルがエルゴードや多体局在とは異なる多体臨界状態を持つことを示す。

Investigating localization properties of interacting disordered systems plays a crucial role in understanding thermalization and its absence in closed quantum systems. However, simulating such systems on classical computers is challenging due to their complexity. In this work, we propose a method to realize S = 1/2 and S = 1 quantum spin models with quasiperiodic interaction using Rydberg atoms by utilizing the high tunability of their spatial position. We also perform numerical calculations and show that these models host a many-body critical regime, which differs from the ergodic and many-body localization.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# 医用画像から画像への相互拡散モデル

Cross-conditioned Diffusion Model for Medical Image to Image Translation ( http://arxiv.org/abs/2409.08500v1 )

ライセンス: Link先を確認
Zhaohu Xing, Sicheng Yang, Sixiang Chen, Tian Ye, Yijun Yang, Jing Qin, Lei Zhu, (参考訳) マルチモーダルMRI(Multi-modal magnetic resonance imaging)は、疾患を解析するためのリッチで相補的な情報を提供する。 しかし、コスト、スキャン時間、安全性などの複数のMRIモダリティを取得するという現実的な課題は、しばしば不完全なデータセットをもたらす。 これは、診断の質と、そのようなデータに基づいて訓練されたディープラーニングモデルの性能に影響を及ぼす。 近年のGAN(Generative Adversarial Network)とdenoising diffusion modelの進歩は、自然および医用画像から画像への翻訳タスクにおいて有望であることを示している。 しかし、GANの訓練の複雑さと拡散モデルに関連した計算コストは、その開発と応用を妨げている。 これらの問題に対処するために,医療画像から画像への変換のためのクロスコンディショニング拡散モデル(CDM)を導入する。 CDMの中核となる考え方は、従来の拡散モデルよりも高い生成効率を保ちつつ、合成品質を向上させるためのガイダンスとして、目標モダリティの分布を用いることである。 まず、目的のモダリティの分布をモデル化するためのモダリティ固有表現モデル(MRM)を提案する。 そして、MDN(Modality-Decoupled Diffusion Network)を設計し、MRMから効率よく効果的に分布を学習する。 最後に、条件埋め込みモジュールを備えたクロスコンディションUNet(C-UNet)は、入力としてソースモードと誘導のためのターゲット分布とを合成するように設計されている。 on the BraTS2023 and UPenn-GBM benchmark datas showed the superiority of our method。

Multi-modal magnetic resonance imaging (MRI) provides rich, complementary information for analyzing diseases. However, the practical challenges of acquiring multiple MRI modalities, such as cost, scan time, and safety considerations, often result in incomplete datasets. This affects both the quality of diagnosis and the performance of deep learning models trained on such data. Recent advancements in generative adversarial networks (GANs) and denoising diffusion models have shown promise in natural and medical image-to-image translation tasks. However, the complexity of training GANs and the computational expense associated with diffusion models hinder their development and application in this task. To address these issues, we introduce a Cross-conditioned Diffusion Model (CDM) for medical image-to-image translation. The core idea of CDM is to use the distribution of target modalities as guidance to improve synthesis quality while achieving higher generation efficiency compared to conventional diffusion models. First, we propose a Modality-specific Representation Model (MRM) to model the distribution of target modalities. Then, we design a Modality-decoupled Diffusion Network (MDN) to efficiently and effectively learn the distribution from MRM. Finally, a Cross-conditioned UNet (C-UNet) with a Condition Embedding module is designed to synthesize the target modalities with the source modalities as input and the target distribution for guidance. Extensive experiments conducted on the BraTS2023 and UPenn-GBM benchmark datasets demonstrate the superiority of our method.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# PSTNet: マルチスケールアライメントと周波数領域の統合によるポリプセグメンテーションの強化

PSTNet: Enhanced Polyp Segmentation with Multi-scale Alignment and Frequency Domain Integration ( http://arxiv.org/abs/2409.08501v1 )

ライセンス: Link先を確認
Wenhao Xu, Rongtao Xu, Changwei Wang, Xiuli Li, Shibiao Xu, Li Guo, (参考訳) 大腸内視鏡像における大腸ポリープの正確な分画は,大腸癌(CRC)の診断と管理に重要である。 しかし、現在のディープラーニングベースの手法は、主に複数のスケールにわたるRGB情報の融合に依存しており、制限されたRGBドメイン情報とマルチスケールアグリゲーション時の機能的不整合によるポリプの正確な識別の制限につながっている。 これらの制約に対処するため、画像中のRGBと周波数領域の両方を統合した新しいアプローチであるSongted Transformer (PSTNet) を用いたPolyp Segmentation Networkを提案する。 PSTNetは3つの主要なモジュールから構成されている: 周波数特性アテンションモジュール (FCAM) は周波数キューを抽出し、ポリプの特徴を捉え、特徴補助アライメントモジュール (FSAM) は意味情報を整列し、アライメントノイズを低減し、CPM (Cross Perception Localization Module) は周波数キューと高レベルのセグメンテーションを相乗して効率的なポリプセグメンテーションを実現する。 挑戦的なデータセットに関する大規模な実験は、さまざまなメトリクスにわたるポリプセグメンテーション精度において、PSTNetの大幅な改善を示し、一貫して最先端の手法を上回っている。 周波数領域のキューの統合とPSTNetのアーキテクチャ設計は、コンピュータ支援型ポリープセグメンテーションの進展に寄与し、CRCのより正確な診断と管理を容易にする。

Accurate segmentation of colorectal polyps in colonoscopy images is crucial for effective diagnosis and management of colorectal cancer (CRC). However, current deep learning-based methods primarily rely on fusing RGB information across multiple scales, leading to limitations in accurately identifying polyps due to restricted RGB domain information and challenges in feature misalignment during multi-scale aggregation. To address these limitations, we propose the Polyp Segmentation Network with Shunted Transformer (PSTNet), a novel approach that integrates both RGB and frequency domain cues present in the images. PSTNet comprises three key modules: the Frequency Characterization Attention Module (FCAM) for extracting frequency cues and capturing polyp characteristics, the Feature Supplementary Alignment Module (FSAM) for aligning semantic information and reducing misalignment noise, and the Cross Perception localization Module (CPM) for synergizing frequency cues with high-level semantics to achieve efficient polyp segmentation. Extensive experiments on challenging datasets demonstrate PSTNet's significant improvement in polyp segmentation accuracy across various metrics, consistently outperforming state-of-the-art methods. The integration of frequency domain cues and the novel architectural design of PSTNet contribute to advancing computer-assisted polyp segmentation, facilitating more accurate diagnosis and management of CRC.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# 分割学習による制御ネットと安定拡散のプライバシー向上

Enhancing Privacy in ControlNet and Stable Diffusion via Split Learning ( http://arxiv.org/abs/2409.08503v1 )

ライセンス: Link先を確認
Dixi Yao, (参考訳) 大規模な生成モデルの増加に伴い、さまざまなユースケースのために、ユーザが独自のデータでトレーニング済みモデルを微調整できるように、ControlNetが導入された。 ControlNetモデルをどのようにトレーニングし、ユーザのデータプライバシを分散デバイス間で保証するか? 異なる分散学習手法を探索した結果,従来のフェデレーション学習と分割学習は不適当であることが判明した。 代わりに、サーバが勾配を返送する必要がない新しい分散学習構造を提案する。 既存の脅威を包括的に評価することで、従来の文献で言及された2つを除いて、制御ネットを分割学習で訓練する場合、既存の攻撃は効果がないことがわかった。 これらの脅威に対処するために、拡散モデルの特性を活用し、前進過程における新しい時間ステップサンプリングポリシーを設計する。 また、拡散モデルを用いた画像生成に適したプライバシー保護機能と、プライベートテキストのプロンプトがクライアントを去るのを防ぐ方法を提案する。 実験の結果,我々のアルゴリズムとシステムは,画像生成品質を損なうことなく,ユーザのデータプライバシを確保しつつ,コントロールネットの分散トレーニングの効率を大幅に向上することを示した。

With the emerging trend of large generative models, ControlNet is introduced to enable users to fine-tune pre-trained models with their own data for various use cases. A natural question arises: how can we train ControlNet models while ensuring users' data privacy across distributed devices? Exploring different distributed training schemes, we find conventional federated learning and split learning unsuitable. Instead, we propose a new distributed learning structure that eliminates the need for the server to send gradients back. Through a comprehensive evaluation of existing threats, we discover that in the context of training ControlNet with split learning, most existing attacks are ineffective, except for two mentioned in previous literature. To counter these threats, we leverage the properties of diffusion models and design a new timestep sampling policy during forward processes. We further propose a privacy-preserving activation function and a method to prevent private text prompts from leaving clients, tailored for image generation with diffusion models. Our experimental results demonstrate that our algorithms and systems greatly enhance the efficiency of distributed training for ControlNet while ensuring users' data privacy without compromising image generation quality.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# 熱センサアレイ(TSA)を用いた室内日常生活行動の同定

Identifying Human Indoor Daily Life Behavior employing Thermal Sensor Arrays (TSAs) ( http://arxiv.org/abs/2409.08508v1 )

ライセンス: Link先を確認
Dina E. Abdelaleem, Hassan M. Ahmed, M. Sami Soliman, Tarek M. Said, (参考訳) 家庭における日々の活動監視システムは、特に高齢の住民にとって、健康状態にとって重要な情報を提供する。 このような目標を達成するために、一般的には強迫観念的かつ非強迫観念的な複数のアプローチが導入された。 目障りなアプローチにはウェアラブルデバイスがあり、非目障りなアプローチにはモーションセンサーや熱センサーアレイ(TSA)を含む動き検出システムがある。 TSAシステムは、個人のプライバシーを保持し、正確な空間的位置を選択する際に有利である。 本研究では, 日夜の生活行動を監視し, 対応する活動時系列と空間的確率分布を構築し, TSAシステムを用いた。 モニターされた活動は、睡眠と日常生活の2つのカテゴリに分類される。 その結果,昼夜を問わず授業を区別できる可能性が示唆された。 得られた睡眠活動期間を,同じ生データを用いた以前の研究と比較した。 その結果, 平均睡眠時間は1日9時間であり, 日常生活活動は1日7時間であった。 観測位置の2変量分布を用いて,被験者の空間的確率分布を決定した。 その結果,睡眠活動が優勢であった。 本研究は,TSAが人間の活動を監視する上で最適な選択であることを示した。 提案手法は, 空間的位置を正確に把握しながら, 人間のプライバシーを守るなど, 従来の人的活動監視システムによる限界に対処するものである。

Daily activity monitoring systems used in households provide vital information for health status, particularly with aging residents. Multiple approaches have been introduced to achieve such goals, typically obtrusive and non-obtrusive. Amongst the obtrusive approaches are the wearable devices, and among the non-obtrusive approaches are the movement detection systems, including motion sensors and thermal sensor arrays (TSAs). TSA systems are advantageous when preserving a person's privacy and picking his precise spatial location. In this study, human daily living activities were monitored day and night, constructing the corresponding activity time series and spatial probability distribution and employing a TSA system. The monitored activities are classified into two categories: sleeping and daily activity. Results showed the possibility of distinguishing between classes regardless of day and night. The obtained sleep activity duration was compared with previous research using the same raw data. Results showed that the duration of sleep activity, on average, was 9 hours/day, and daily life activity was 7 hours/day. The person's spatial probability distribution was determined using the bivariate distribution for the monitored location. In conclusion, the results showed that sleeping activity was dominant. Our study showed that TSAs were the optimum choice when monitoring human activity. Our proposed approach tackled limitations encountered by previous human activity monitoring systems, such as preserving human privacy while knowing his precise spatial location.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# 自衛隊の強化をめざして

Exploiting Supervised Poison Vulnerability to Strengthen Self-Supervised Defense ( http://arxiv.org/abs/2409.08509v1 )

ライセンス: Link先を確認
Jeremy Styborski, Mingzhi Lyu, Yi Huang, Adams Kong, (参考訳) アベイラビリティ毒は、教師付き学習(SL)アルゴリズムを利用して、有毒データでトレーニングされたモデルが現実世界のデータセットでは役に立たないような、クラス関連のショートカット機能を導入している。 自己教師付き学習(SSL)は、強化を利用してインスタンス識別を学習するものであり、有毒データに対する強力な防御と見なされている。 しかし、CIFAR-10とImageNet-100データセット上の複数の毒素をまたいでSSLの研究を拡張することで、クリーンなデータに対するトレーニングよりもはるかに低い性能で、しばしば性能が良くないことを示した。 SLの脆弱性を悪毒攻撃に活用し,毒の特徴を消毒し,SSLの堅牢な特徴学習を指導するために,SLに敵対的訓練(AT)を導入する。 VESPR (Vulnerability Exploitation of Supervised Poisoning for Robust SSL) と命名された当社の防衛は,7種類のアベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・ロバスト・SSL (VESPR) の6つの防衛性能を上回った。 VESPRは以前のすべての防御よりも優れたパフォーマンスを示し、毒入りモデルの最小値と平均値のImageNet-100テスト精度をそれぞれ16%、9%向上させた。 分析およびアブレーション研究を通じて,VESPRが頑健なクラス特徴を学習するメカニズムを明らかにする。

Availability poisons exploit supervised learning (SL) algorithms by introducing class-related shortcut features in images such that models trained on poisoned data are useless for real-world datasets. Self-supervised learning (SSL), which utilizes augmentations to learn instance discrimination, is regarded as a strong defense against poisoned data. However, by extending the study of SSL across multiple poisons on the CIFAR-10 and ImageNet-100 datasets, we demonstrate that it often performs poorly, far below that of training on clean data. Leveraging the vulnerability of SL to poison attacks, we introduce adversarial training (AT) on SL to obfuscate poison features and guide robust feature learning for SSL. Our proposed defense, designated VESPR (Vulnerability Exploitation of Supervised Poisoning for Robust SSL), surpasses the performance of six previous defenses across seven popular availability poisons. VESPR displays superior performance over all previous defenses, boosting the minimum and average ImageNet-100 test accuracies of poisoned models by 16% and 9%, respectively. Through analysis and ablation studies, we elucidate the mechanisms by which VESPR learns robust class features.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# CasDyF-Net:カスケード動的フィルタによる画像デハージング

CasDyF-Net: Image Dehazing via Cascaded Dynamic Filters ( http://arxiv.org/abs/2409.08510v1 )

ライセンス: Link先を確認
Wang Yinglong, He Bin, (参考訳) イメージデハジングは、大気の散乱と吸収効果を低減し、画像の明瞭さと視覚的品質を回復することを目的としている。 ディープラーニングはこの分野で大きな進歩を遂げているが、ますます多くの手法がネットワークの深さによって制約されている。 その結果、多くのアプローチが並列分岐戦略を採用した。 しかし、それらはしばしば、入力特徴の分布に基づいてブランチを動的に分割することなく、解像度、受容野、周波数領域セグメンテーションなどの側面を優先順位付けする。 動的フィルタに着想を得て,特徴写像分布に基づくフィルタカーネルを動的に生成し,マルチブランチネットワークを構築するために,カスケード動的フィルタを提案する。 分岐特性をよりよく扱うために、異なる受容場を組み合わせた残差マルチスケールブロック(RMB)を提案する。 さらに,隣り合う枝から特徴をマージするために,動的畳み込みに基づく局所融合法を導入する。 RESIDE, Haze4K, O-Hazeデータセットを用いた実験により, RESIDE-Indoorデータセット上でのPSNR43.21dBを達成した。 コードはhttps://github.com/dauing/CasDyF-Netで公開されている。

Image dehazing aims to restore image clarity and visual quality by reducing atmospheric scattering and absorption effects. While deep learning has made significant strides in this area, more and more methods are constrained by network depth. Consequently, lots of approaches have adopted parallel branching strategies. however, they often prioritize aspects such as resolution, receptive field, or frequency domain segmentation without dynamically partitioning branches based on the distribution of input features. Inspired by dynamic filtering, we propose using cascaded dynamic filters to create a multi-branch network by dynamically generating filter kernels based on feature map distribution. To better handle branch features, we propose a residual multiscale block (RMB), combining different receptive fields. Furthermore, we also introduce a dynamic convolution-based local fusion method to merge features from adjacent branches. Experiments on RESIDE, Haze4K, and O-Haze datasets validate our method's effectiveness, with our model achieving a PSNR of 43.21dB on the RESIDE-Indoor dataset. The code is available at https://github.com/dauing/CasDyF-Net.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# 無声脆弱性修正の同定と評価のためのグラフベースパッチ表現の学習

Learning Graph-based Patch Representations for Identifying and Assessing Silent Vulnerability Fixes ( http://arxiv.org/abs/2409.08512v1 )

ライセンス: Link先を確認
Mei Han, Lulu Wang, Jianming Chang, Bixin Li, Chunguang Zhang, (参考訳) ソフトウェアプロジェクトは多くのサードパーティのライブラリに依存しているため、リスクの高い脆弱性は依存関係チェーンを通じて下流のプロジェクトへと伝播する可能性がある。 パッチ管理の主観的な性質のため、ソフトウェアベンダは通常、脆弱性を静かに修正する。 無力な脆弱性修正は、ダウンストリームソフトウェアが緊急のセキュリティ問題にタイムリーに気付いておらず、ソフトウェアにセキュリティリスクを生じさせる。 現在、脆弱性の特定のための既存の作業の多くは、変更されたコードをシーケンシャルなテキストシーケンスとしてのみ考慮しており、コードの構造的情報を無視している。 本稿では,GRAphをベースとしたPatch rEpresentationであるGRAPEを提案する。 1)脆弱性修正パッチの表現を得るための統一されたフレームワークを提供する。 2)コードの構造情報を抽出することでパッチの意図や潜在的影響の理解を深める。 GRAPEは、固定パッチの構文情報と意味情報を表現し、ノードとエッジの両方を埋め込む新しいジョイントグラフ構造(MCPG)を採用している。 その後、慎重に設計されたグラフ畳み込みニューラルネットワーク(NE-GCN)を用いて、ノードとエッジの属性を活用することで、構造的特徴を完全に学習する。 さらに,2251個のサイレントフィックスを含むデータセットを構築した。 実験では,脆弱性修正の特定,脆弱性タイプ分類,脆弱性重大度分類などの3つのタスクに対するパッチ表現の評価を行った。 実験結果から,GRAPEはベースライン法と比較して,誤検出や脆弱性修正の欠落をより効果的に低減し,正確な脆弱性評価を行うことが示唆された。

Software projects are dependent on many third-party libraries, therefore high-risk vulnerabilities can propagate through the dependency chain to downstream projects. Owing to the subjective nature of patch management, software vendors commonly fix vulnerabilities silently. Silent vulnerability fixes cause downstream software to be unaware of urgent security issues in a timely manner, posing a security risk to the software. Presently, most of the existing works for vulnerability fix identification only consider the changed code as a sequential textual sequence, ignoring the structural information of the code. In this paper, we propose GRAPE, a GRAph-based Patch rEpresentation that aims to 1) provide a unified framework for getting vulnerability fix patches representation; and 2) enhance the understanding of the intent and potential impact of patches by extracting structural information of the code. GRAPE employs a novel joint graph structure (MCPG) to represent the syntactic and semantic information of fix patches and embeds both nodes and edges. Subsequently, a carefully designed graph convolutional neural network (NE-GCN) is utilized to fully learn structural features by leveraging the attributes of the nodes and edges. Moreover, we construct a dataset containing 2251 silent fixes. For the experimental section, we evaluated patch representation on three tasks, including vulnerability fix identification, vulnerability types classification, and vulnerability severity classification. Experimental results indicate that, in comparison to baseline methods, GRAPE can more effectively reduce false positives and omissions of vulnerability fixes identification and provide accurate vulnerability assessments.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# Mamba-YOLO-World: オープン語彙検出のためのYoLO-WorldとMamba

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection ( http://arxiv.org/abs/2409.08513v1 )

ライセンス: Link先を確認
Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang, (参考訳) Open-vocabulary Detection (OVD)は、事前に定義されたカテゴリのセットを越えてオブジェクトを検出することを目的としている。 YOLOシリーズをOVDに組み込んだ先駆的なモデルとして、YOLO-Worldは、速度と効率を優先するシナリオに適しているが、その性能は、その首の特徴融合機構によって妨げられ、2次複雑さと限定的な誘導受容場を引き起こす。 具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。 マルチモーダル入力シーケンスとmamba隠蔽状態を利用して選択走査プロセスを導出する実験により,本モデルはCOCOおよびLVISベンチマークにおいて,ゼロショットと微調整の両方において元のYOLO-Worldよりも優れた性能を示し,パラメータとFLOPを同等に維持する。 さらに、パラメータやFLOPが少なく、既存の最先端のOVDメソッドを超越している。

Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency.However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields.To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process.Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.
翻訳日:2024-09-16 17:58:09 公開日:2024-09-13
# Apollo: 高品質オーディオ再生のためのバンドシーケンスモデリング

Apollo: Band-sequence Modeling for High-Quality Audio Restoration ( http://arxiv.org/abs/2409.08514v1 )

ライセンス: Link先を確認
Kai Li, Yi Luo, (参考訳) 現代社会では、高度な再生デバイスによって実現される高品質な聴覚体験の需要だけでなく、生成型オーディオモデルの能力の増大が高忠実度オーディオを必要としているため、オーディオ復元がますます重要になっている。 典型的には、音声復元は損傷した入力から歪みのない音声を予測するタスクとして定義され、しばしば知覚と歪みのバランスをとるためにGANフレームワークを用いて訓練される。 オーディオ劣化は主に中・高域、特にコーデックによって集中しているため、高品質の中・高域コンテンツを正確に再構成しながら低域情報を保存できるジェネレータを設計することが重要な課題である。 近年のハイサンプレート音楽分離,音声強調,音声コーデックモデルに着想を得て,ハイサンプレートオーディオ復元のための生成モデルであるApolloを提案する。 Apollo では、異なる周波数帯域間の関係をモデル化するために、明示的な周波数帯域分割モジュールを使用している。 MUSDB18-HQとMoisesDBデータセットに基づいて評価され、Apolloは様々なビットレートや音楽ジャンルで既存のSR-GANモデルより一貫して優れており、特に複数の楽器とボーカルの混合を含む複雑なシナリオにおいて優れている。 アポロは、計算効率を保ちながら、音楽の回復性を大幅に改善する。 Apollo のソースコードは https://github.com/JusperLee/Apollo で公開されている。

Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# AWF: 拡張型インクリメンタルセマンティックセマンティックセグメンテーションのための適応重み融合

AWF: Adaptive Weight Fusion for Enhanced Class Incremental Semantic Segmentation ( http://arxiv.org/abs/2409.08516v1 )

ライセンス: Link先を確認
Zechao Sun, Haolin Jin, Weitong Chen, Luping Zhou, (参考訳) クラスインクリメンタルセマンティックセグメンテーション(CISS)は、これまで学んだ知識と新しく導入された知識のバランスを維持することで、破滅的な忘れを緩和することを目的としている。 既存の方法は、主に知識蒸留のような正規化技術に基づいており、古い知識を保存するのに役立つが、しばしば新しい知識を効果的に統合する際の課題に直面し、結果として全体的な改善が制限される。 Endpoints Weight Fusion (EWF) 法は、従来のステップと現在のステップとのモデルの重みを動的に融合することで、これらの制限のいくつかに効果的に対処する。 しかし、アルファ計算の単純さは、異なるタスクシナリオの複雑さを完全に捉える能力を制限し、おそらくは準最適融合の結果をもたらす可能性がある。 本稿では,アダプティブ・ウェイト・フュージョン (AWF) と呼ばれる拡張アプローチを提案し,融合パラメータの交互トレーニング戦略を導入し,より柔軟で適応的なウェイト・インテグレーションを実現する。 AWFは、古い知識の保持と新しいクラスの学習とのバランスを改善し、元のEWFと比較してベンチマークCISSタスクの結果を大幅に改善することで、優れた性能を達成する。 実験コードはGithubで公開される予定です。

Class Incremental Semantic Segmentation (CISS) aims to mitigate catastrophic forgetting by maintaining a balance between previously learned and newly introduced knowledge. Existing methods, primarily based on regularization techniques like knowledge distillation, help preserve old knowledge but often face challenges in effectively integrating new knowledge, resulting in limited overall improvement. Endpoints Weight Fusion (EWF) method, while simple, effectively addresses some of these limitations by dynamically fusing the model weights from previous steps with those from the current step, using a fusion parameter alpha determined by the relative number of previously known classes and newly introduced classes. However, the simplicity of the alpha calculation may limit its ability to fully capture the complexities of different task scenarios, potentially leading to suboptimal fusion outcomes. In this paper, we propose an enhanced approach called Adaptive Weight Fusion (AWF), which introduces an alternating training strategy for the fusion parameter, allowing for more flexible and adaptive weight integration. AWF achieves superior performance by better balancing the retention of old knowledge with the learning of new classes, significantly improving results on benchmark CISS tasks compared to the original EWF. And our experiment code will be released on Github.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# オープン語彙分類のための連続学習

Anytime Continual Learning for Open Vocabulary Classification ( http://arxiv.org/abs/2409.08518v1 )

ライセンス: Link先を確認
Zhen Zhu, Yiming Gong, Derek Hoiem, (参考訳) 本稿では,任意の連続学習(AnytimeCL)のためのオープン語彙画像分類手法を提案する。 AnytimeCL問題は、システムが任意のラベルセットをいつでも予測し、いつでも1つ以上のトレーニングサンプルを受け取る際に、効率的に更新および改善できることを要求することによって、バッチトレーニングと厳格なモデルから切り離すことを目的としている。 挑戦的な目標にもかかわらず、我々は最近の手法よりも大幅に改善した。 本研究では,タスクラベルのサブセットにトレーニングサンプルが利用できる場合に,部分的に微調整されたモデルと固定された開語彙モデルとの動的重み付けを提案する。 また,注意重み付きPCA圧縮により,モデル精度にほとんど影響を与えず,記憶量や計算量を削減することを提案する。 提案手法は,学習と推論の柔軟性をテストする実験によって検証される。 コードはhttps://github.com/jessemelpolio/AnytimeCLで入手できる。

We propose an approach for anytime continual learning (AnytimeCL) for open vocabulary image classification. The AnytimeCL problem aims to break away from batch training and rigid models by requiring that a system can predict any set of labels at any time and efficiently update and improve when receiving one or more training samples at any time. Despite the challenging goal, we achieve substantial improvements over recent methods. We propose a dynamic weighting between predictions of a partially fine-tuned model and a fixed open vocabulary model that enables continual improvement when training samples are available for a subset of a task's labels. We also propose an attention-weighted PCA compression of training features that reduces storage and computation with little impact to model accuracy. Our methods are validated with experiments that test flexibility of learning and inference. Code is available at https://github.com/jessemelpolio/AnytimeCL.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# GroundingBooth: テキストから画像へのカスタマイズ

GroundingBooth: Grounding Text-to-Image Customization ( http://arxiv.org/abs/2409.08520v1 )

ライセンス: Link先を確認
Zhexiao Xiong, Wei Xiong, Jing Shi, He Zhang, Yizhi Song, Nathan Jacobs, (参考訳) テキスト・ツー・イメージのカスタマイズに関する最近の研究は、対象の複数の画像からパーソナライズされたオブジェクトの変種を生成することに成功している。 既存の手法は対象のアイデンティティを保存することに重点を置いているが、それらはしばしばオブジェクト間の空間的関係を制御できない。 本研究では,テキスト・ツー・イメージのカスタマイズタスクにおいて,前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGroundingBoothを紹介する。 提案するテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は,テキスト画像コヒーレンスを維持しつつ,正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。 このようなレイアウト制御により、本モデルは本質的に複数の対象を一度にカスタマイズできる。 本モデルは,レイアウト誘導画像合成と参照ベースカスタマイズタスクの両方で評価され,既存の手法と比較して強い結果が得られた。 我々の研究は、主題駆動のフォアグラウンド生成とテキスト駆動の背景生成を共同で行うための最初の成果である。

Recent studies in text-to-image customization show great success in generating personalized object variants given several images of a subject. While existing methods focus more on preserving the identity of the subject, they often fall short of controlling the spatial relationship between objects. In this work, we introduce GroundingBooth, a framework that achieves zero-shot instance-level spatial grounding on both foreground subjects and background objects in the text-to-image customization task. Our proposed text-image grounding module and masked cross-attention layer allow us to generate personalized images with both accurate layout alignment and identity preservation while maintaining text-image coherence. With such layout control, our model inherently enables the customization of multiple subjects at once. Our model is evaluated on both layout-guided image synthesis and reference-based customization tasks, showing strong results compared to existing methods. Our work is the first work to achieve a joint grounding of both subject-driven foreground generation and text-driven background generation.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# ニューラルネットワークを用いた最適分類に基づく異常検出:理論と実践

Optimal Classification-based Anomaly Detection with Neural Networks: Theory and Practice ( http://arxiv.org/abs/2409.08521v1 )

ライセンス: Link先を確認
Tian-Yi Zhou, Matthew Lau, Jizhou Chen, Wenke Lee, Xiaoming Huo, (参考訳) 異常検出は、ネットワークセキュリティなど、多くのアプリケーション領域において重要な問題である。 教師なし異常検出のための多くのディープラーニング手法は、優れた経験的性能をもたらすが、理論的保証は欠如している。 異常検出を二項分類問題にキャストすることにより、合成異常を訓練した修正線形単位(ReLU)ニューラルネットワークの過大なリスクに対する非漸近上界と収束率を確立する。 過剰リスクに対する収束率は、文献の最小最適率と一致する。 さらに、この最適性を達成することができる合成異常の数について、下限と上限を提供する。 実践的な実装では,経験的リスク最小化器の探索を改善するためにいくつかの条件を緩和し,他の分類に基づく異常検出手法と競合する性能をもたらす。 全体として、我々の研究は、教師なしニューラルネットワークベースの異常検知器と、それらをうまく設計する方法に関する実証的な洞察を、初めて理論的に保証する。

Anomaly detection is an important problem in many application areas, such as network security. Many deep learning methods for unsupervised anomaly detection produce good empirical performance but lack theoretical guarantees. By casting anomaly detection into a binary classification problem, we establish non-asymptotic upper bounds and a convergence rate on the excess risk on rectified linear unit (ReLU) neural networks trained on synthetic anomalies. Our convergence rate on the excess risk matches the minimax optimal rate in the literature. Furthermore, we provide lower and upper bounds on the number of synthetic anomalies that can attain this optimality. For practical implementation, we relax some conditions to improve the search for the empirical risk minimizer, which leads to competitive performance to other classification-based methods for anomaly detection. Overall, our work provides the first theoretical guarantees of unsupervised neural network-based anomaly detectors and empirical insights on how to design them well.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# MAPX:ソーシャルメディア上での偽情報検出のための説明可能なモデル非依存フレームワーク

MAPX: An explainable model-agnostic framework for the detection of false information on social media networks ( http://arxiv.org/abs/2409.08522v1 )

ライセンス: Link先を確認
Sarah Condran, Michael Bewong, Selasi Kwashie, Md Zahidul Islam, Irfan Altas, Joshua Condran, (参考訳) 偽情報の自動検出は、個人による手動識別の必要性を減らすため、オンラインソーシャルメディアネットワーク(OSMN)におけるフェイクニュースの拡散に対処する上で、基本的な課題となっている。 文献では、OSMN文書の様々な内容やコンテキストの特徴を活用することが有用であることがわかった。 しかし、既存の検出モデルのほとんどは、実際のt-seenの時間的および動的変化を考慮せずに、これらの特徴を分離して利用するため、モデルの堅牢性を制限することができる。 さらに,文書の質が最終予測の信頼性に及ぼす影響についてはほとんど考慮されていない。 本稿では,既存のモデルからの予測のエビデンスに基づくアグリゲーションを説明可能な方法で実現するMAPXと呼ばれる新しいモデル非依存フレームワークを提案する。 実際、開発したアグリゲーション手法は適応的で動的であり、OSMNの文書機能の品質を考慮に入れている。 さらに,実世界の様々なデータ品質シナリオを用いてMAPXの有効性を実証するために,ベンチマークした偽ニュースデータセットについて広範な実験を行った。 実験結果から,提案手法は評価されたすべての最先端モデルより一貫して優れていることが示された。 再現性のため、MAPXのデモは \href{https://github.com/SCondran/MAPX_framework}{this link} で公開されている。

The automated detection of false information has become a fundamental task in combating the spread of "fake news" on online social media networks (OSMN) as it reduces the need for manual discernment by individuals. In the literature, leveraging various content or context features of OSMN documents have been found useful. However, most of the existing detection models often utilise these features in isolation without regard to the temporal and dynamic changes oft-seen in reality, thus, limiting the robustness of the models. Furthermore, there has been little to no consideration of the impact of the quality of documents' features on the trustworthiness of the final prediction. In this paper, we introduce a novel model-agnostic framework, called MAPX, which allows evidence based aggregation of predictions from existing models in an explainable manner. Indeed, the developed aggregation method is adaptive, dynamic and considers the quality of OSMN document features. Further, we perform extensive experiments on benchmarked fake news datasets to demonstrate the effectiveness of MAPX using various real-world data quality scenarios. Our empirical results show that the proposed framework consistently outperforms all state-of-the-art models evaluated. For reproducibility, a demo of MAPX is available at \href{https://github.com/SCondran/MAPX_framework}{this link}
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# Eir: タイの医療用大規模言語モデル

Eir: Thai Medical Large Language Models ( http://arxiv.org/abs/2409.08523v1 )

ライセンス: Link先を確認
Yutthakorn Thiprak, Rungtam Ngodngamthaweesuk, Songtam Ngodngamtaweesuk, (参考訳) 本稿では,80億のパラメータを持つ大規模言語モデルであるEir Thai Medical LLMについて紹介する。 このモデルは、医療専門家と患者の両方に明確で分かりやすい回答を提供することに焦点を当て、診断と治療プロセスの効率を向上させる。 人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。 データセキュリティを優先するために、このモデルは病院の内部ネットワークにデプロイされ、高いセキュリティと高速な処理速度が保証される。 内部API接続は暗号化と厳格な認証手段で保護されており、データ漏洩や不正アクセスを防止する。 MedQA, MedMCQA, PubMedQA, そしてMMLUの医療サブセットである。 最高性能のベースラインはEir Thai Medical LLMの開発に使用された。 評価では,ゼロショット,少数ショット,チェーンオブ思考推論,アンサンブル/自己整合性投票法など,複数の質問戦略を採用した。 我々のモデルは、タイ語で利用可能な大言語モデルを10%以上上回りました。 さらに,GPT-4oを11%以上上回り,タイにおける臨床使用に適した改良型モデルテストを開発した。

We present Eir Thai Medical LLM, a large language model with 8 billion parameters, specifically designed to enhance the accuracy of handling medical tasks in the Thai language. This model focuses on providing clear and easy-to-understand answers for both healthcare professionals and patients, thereby improving the efficiency of diagnosis and treatment processes. Human evaluation was conducted to ensure that the model adheres to care standards and provides unbiased answers. To prioritize data security, the model is deployed within the hospital's internal network, ensuring both high security and faster processing speeds. The internal API connection is secured with encryption and strict authentication measures to prevent data leaks and unauthorized access. We evaluated several open-source large language models with 8 billion parameters on four medical benchmarks: MedQA, MedMCQA, PubMedQA, and the medical subset of MMLU. The best-performing baselines were used to develop Eir Thai Medical LLM. Our evaluation employed multiple questioning strategies, including zero-shot, few-shot, chain-of-thought reasoning, and ensemble/self-consistency voting methods. Our model outperformed commercially available Thai-language large language models by more than 10%. In addition, we developed enhanced model testing tailored for clinical use in Thai across 18 clinical tasks, where our model exceeded GPT-4o performance by more than 11%
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# Floquet-Engineered Two-axis Twisting and Turn Dynamics による量子メトロロジー

Quantum Metrology via Floquet-Engineered Two-axis Twisting and Turn Dynamics ( http://arxiv.org/abs/2409.08524v1 )

ライセンス: Link先を確認
Jihao Ma, Yi Shen, Jiahao Huang, Chaohong Lee, (参考訳) 量子気象学の中核は、標準量子限界を超える測定精度を高めるために絡み合いを利用することである。 ここでは、Floquet-engineered two-axis twisting (TAT) とターンダイナミクスを用いて、量子力学のための非ガウス状態を生成する。 解析的半古典的アプローチと量子的アプローチの両方を用いて、所望の$N$粒子非ガウス状態は驚くほど短い時間で$t_\mathrm{opt}\propto \ln{N}/{N}$で生成でき、その量子フィッシング情報$F^\mathrm{opt}_\mathrm{Q}\propto N^2$はハイゼンベルク極限に近づく。 さらに,Floquet-engineered anti-TAT-and-turnを用いて,この非ガウス状態に符号化された信号を抽出するために,効率的なインタラクションベースの読み出しプロトコルを実装することができる。 このFloquet-engineered anti-TAT-and-turnアプローチは、非線形相互作用のサインを反転させることなく、測定精度と検出ノイズに対するレジリエンスを改善するための効果的な時間反転ダイナミクスを実現するための有効な方法を提供する。 本研究は, 連続フロケット工学を用いて, 高粒子数での猫のような状態を高速に生成することにより, 絡み合う量子距離論を実現する方法を示す。

The core of quantum metrology lies in utilizing entanglement to enhance measurement precision beyond standard quantum limit. Here, we utilize the Floquet-engineered two-axis twisting (TAT) and turn dynamics to generate non-Gaussian states for quantum metrology. By employing both analytically semi-classical and quantum approaches, we find that the desired $N$-particle non-Gaussian state can be produced within a remarkably short time $t_\mathrm{opt}\propto \ln{N}/{N}$, and its quantum Fisher information $F^\mathrm{opt}_\mathrm{Q}\propto N^2$ approaches the Heisenberg limit. Moreover, using the Floquet-engineered anti-TAT-and-turn, we may implement an efficient interaction-based readout protocol to extract the signal encoded in this non-Gaussian state. This Floquet-engineered anti-TAT-and-turn approach offers a viable method to achieve effective time-reversal dynamics for improving measurement precision and resilience against detection noise, all without the need to invert the sign of the nonlinear interaction. This study paves the way for achieving entanglement-enhanced quantum metrology via rapid generation of cat-like states at high particle numbers through continuous Floquet engineering.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# 1D-CNN-IDS:1D CNN-based Intrusion Detection System for IIoT

1D-CNN-IDS: 1D CNN-based Intrusion Detection System for IIoT ( http://arxiv.org/abs/2409.08529v1 )

ライセンス: Link先を確認
Muhammad Arslan, Muhammad Mubeen, Muhammad Bilal, Saadullah Farooq Abbasi, (参考訳) IoT(Internet of Things)の需要は急激な成長をみせている。 これらの進歩は、人工知能、クラウドコンピューティング、エッジコンピューティングの技術的進歩によって実現されている。 しかし、これらの進歩は、サイバー脅威、セキュリティとプライバシの懸念、潜在的金融損失のリスクなど、さまざまな課題を呈している。 そこで本研究では,サイバー攻撃分類のための1次元畳み込みニューラルネットワーク (1DCNN) アルゴリズムを開発した。 提案された研究は9つのサイバー攻撃を分類するために99.90%の精度を達成した。 提案手法の有効性を検証するために, 他にも複数の性能指標が評価されている。 さらに、既存の最先端のスキームとの比較も行われている。 本研究の成果は,IIoTシステムに対する安全な侵入検知の開発に大きく貢献する。

The demand of the Internet of Things (IoT) has witnessed exponential growth. These progresses are made possible by the technological advancements in artificial intelligence, cloud computing, and edge computing. However, these advancements exhibit multiple challenges, including cyber threats, security and privacy concerns, and the risk of potential financial losses. For this reason, this study developed a computationally inexpensive one-dimensional convolutional neural network (1DCNN) algorithm for cyber-attack classification. The proposed study achieved an accuracy of 99.90% to classify nine cyber-attacks. Multiple other performance metrices have been evaluated to validate the efficacy of the proposed scheme. In addition, comparison has been done with existing state-of-the-art schemes. The findings of the proposed study can significantly contribute to the development of secure intrusion detection for IIoT systems.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# Mamba と Transformer の統合 -- 短距離時系列予測のための MAT と気象力学への応用

Integration of Mamba and Transformer -- MAT for Long-Short Range Time Series Forecasting with Application to Weather Dynamics ( http://arxiv.org/abs/2409.08530v1 )

ライセンス: Link先を確認
Wenqing Zhang, Junming Huang, Ruotong Wang, Changsong Wei, Wenqian Huang, Yuxin Qiao, (参考訳) 長い時間範囲の時系列予測は、長期にわたる将来の傾向やパターンを予測するのに不可欠である。 Transformersのようなディープラーニングモデルは、時系列予測を前進させる上で大きな進歩を遂げているが、長期的な依存関係をキャプチャし、スパースセマンティックな特徴を効果的に管理する上で、しばしば困難に直面している。 状態空間モデルであるMambaは、選択的な入力と並列計算を扱うことでこれらの問題に対処し、計算効率と予測精度のバランスを崩した。 本稿では,マンバモデルとトランスフォーマーモデルの両方の利点とデメリットを考察し,各モデルの長短距離依存性と多変量時系列における固有の進化パターンを捉えるために,各モデルの強みを生かした統合的アプローチであるMATを紹介する。 具体的には、MATは、Mambaの長距離依存性機能とTransformerの短距離特性を利用する。 MATは、予測精度、スケーラビリティ、メモリ効率において、既存の同等の手法よりも優れていることを示す。

Long-short range time series forecasting is essential for predicting future trends and patterns over extended periods. While deep learning models such as Transformers have made significant strides in advancing time series forecasting, they often encounter difficulties in capturing long-term dependencies and effectively managing sparse semantic features. The state-space model, Mamba, addresses these issues through its adept handling of selective input and parallel computing, striking a balance between computational efficiency and prediction accuracy. This article examines the advantages and disadvantages of both Mamba and Transformer models, and introduces a combined approach, MAT, which leverages the strengths of each model to capture unique long-short range dependencies and inherent evolutionary patterns in multivariate time series. Specifically, MAT harnesses the long-range dependency capabilities of Mamba and the short-range characteristics of Transformers. Experimental results on benchmark weather datasets demonstrate that MAT outperforms existing comparable methods in terms of prediction accuracy, scalability, and memory efficiency.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# SRE-CNN : 心臓MRIにおける時空間回転同変CNN

SRE-CNN: A Spatiotemporal Rotation-Equivariant CNN for Cardiac Cine MR Imaging ( http://arxiv.org/abs/2409.08537v1 )

ライセンス: Link先を確認
Yuliang Zhu, Jing Cheng, Zhuo-Xu Cui, Jianfeng Ren, Chengbo Wang, Dong Liang, (参考訳) 動的MR画像は、画像内および時間次元に沿った局所的な特徴の回転対称性を含む様々な変換対称性を有する。 これらの対称性を事前の知識として利用することで、時空間分解能の高い動的MRイメージングが容易になる。 等変CNNは対称性の先行性を利用する効果的なツールである。 しかし、現在の同変CNN法は、ダイナミックMRイメージングにおいてこれらの対称性を十分に活用することができない。 本研究では,高精度フィルタ設計から時間-等変畳み込みモジュールとイメージングモデルの構築に至るまで,動的MR画像に固有の回転対称性をフル活用するための時空間回転同変CNN(SRE-CNN)の新たなフレームワークを提案する。 時間-等変畳み込み加群は、空間次元と時間次元の両方における回転対称性の活用を可能にする一方、高精度畳み込みフィルタは、パラメトリゼーション戦略に基づいて、局所的な特徴の回転対称性の利用を高め、詳細な解剖学的構造の再構築を改善する。 高アンサンプ型ダイナミック心シンデータ(最大20X)を用いて行った実験は,定量的および定性的に,提案手法の優れた性能を示した。

Dynamic MR images possess various transformation symmetries,including the rotation symmetry of local features within the image and along the temporal dimension. Utilizing these symmetries as prior knowledge can facilitate dynamic MR imaging with high spatiotemporal resolution. Equivariant CNN is an effective tool to leverage the symmetry priors. However, current equivariant CNN methods fail to fully exploit these symmetry priors in dynamic MR imaging. In this work, we propose a novel framework of Spatiotemporal Rotation-Equivariant CNN (SRE-CNN), spanning from the underlying high-precision filter design to the construction of the temporal-equivariant convolutional module and imaging model, to fully harness the rotation symmetries inherent in dynamic MR images. The temporal-equivariant convolutional module enables exploitation the rotation symmetries in both spatial and temporal dimensions, while the high-precision convolutional filter, based on parametrization strategy, enhances the utilization of rotation symmetry of local features to improve the reconstruction of detailed anatomical structures. Experiments conducted on highly undersampled dynamic cardiac cine data (up to 20X) have demonstrated the superior performance of our proposed approach, both quantitatively and qualitatively.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# 衛星通信のための高能率プライバシ・アウェア・スプリット学習フレームワーク

An Efficient Privacy-aware Split Learning Framework for Satellite Communications ( http://arxiv.org/abs/2409.08538v1 )

ライセンス: Link先を確認
Jianfei Sun, Cong Wu, Shahid Mumtaz, Junyi Tao, Mingsheng Cao, Mei Wang, Valerio Frascolla, (参考訳) 衛星通信の急速な発展において、高度な機械学習技術、特に分割学習の統合は、衛星、宇宙ステーション、地上ステーション間でのデータ処理とモデルの訓練効率を向上させるために不可欠である。 従来のMLアプローチは、帯域幅の制限や計算資源の制限により、衛星ネットワークにおいて大きな問題に直面することが多い。 このギャップに対処するために、衛星通信におけるより効率的なSLのための新しいフレームワークを提案する。 我々のアプローチである動的トポロジインフォームドプルーニング(DTIP)は、微分プライバシーとグラフとモデルプルーニングを組み合わせて、グラフニューラルネットワークを分散学習に最適化する。 DTIPは、生のグラフデータにディファレンシャルプライバシを戦略的に適用し、ネットワーク層間のモデルサイズと通信負荷を最適化する。 多様なデータセットにわたる大規模な実験は、プライバシー、正確性、計算効率を向上させるDTIPの有効性を示している。 具体的には、Amazon2Mデータセットでは、DTIPは0.82の精度を維持し、毎秒50%の浮動小数点演算を達成している。 同様に、ArXivデータセットでは、DTIPは同等条件下で0.85の精度を達成する。 我々のフレームワークは、衛星通信の運用効率を大幅に改善するだけでなく、プライバシーに配慮した分散学習の新しいベンチマークを構築し、宇宙ネットワークにおけるデータ処理に革命をもたらす可能性がある。

In the rapidly evolving domain of satellite communications, integrating advanced machine learning techniques, particularly split learning, is crucial for enhancing data processing and model training efficiency across satellites, space stations, and ground stations. Traditional ML approaches often face significant challenges within satellite networks due to constraints such as limited bandwidth and computational resources. To address this gap, we propose a novel framework for more efficient SL in satellite communications. Our approach, Dynamic Topology Informed Pruning, namely DTIP, combines differential privacy with graph and model pruning to optimize graph neural networks for distributed learning. DTIP strategically applies differential privacy to raw graph data and prunes GNNs, thereby optimizing both model size and communication load across network tiers. Extensive experiments across diverse datasets demonstrate DTIP's efficacy in enhancing privacy, accuracy, and computational efficiency. Specifically, on Amazon2M dataset, DTIP maintains an accuracy of 0.82 while achieving a 50% reduction in floating-point operations per second. Similarly, on ArXiv dataset, DTIP achieves an accuracy of 0.85 under comparable conditions. Our framework not only significantly improves the operational efficiency of satellite communications but also establishes a new benchmark in privacy-aware distributed learning, potentially revolutionizing data handling in space-based networks.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# 量子テスターの微粒化不確かさ関係

Fine-Grained Uncertainty Relations for Quantum Testers ( http://arxiv.org/abs/2409.08542v1 )

ライセンス: Link先を確認
T. Kimoto, (参考訳) 不確実性原理は量子論の特徴の1つである。 微細不確実性関係(FGURs)は、この原理の現代解釈である。 各FGURは、量子状態の複数の測定が確率的に実行されるシナリオから導かれる。 状態測定は基本的なものであるが、量子過程、すなわち完全に正およびトレース保存マップを測定することは理論上も実用上も重要である。 これらの測定は数学的に量子テスタによって特徴づけられる。 本研究では,量子テスタの観点でFGURを開発する。 状態準備は量子プロセスの一種であるため、我々のフレームワークは、従来のケースを特別な事例として包含する。 一般化されたFGURsの境界は一般に計算が困難である。 したがって、これらの境界に対する推定も提供する。 具体的には、最大絡み合った状態を含む量子テスタを詳細に検討する。 その結果、量子テスターのためのいくつかのFGURは、特定の設定のための明示的な形式として導出される。

The uncertainty principle is one of the features of quantum theory. Fine-grained uncertainty relations (FGURs) are a contemporary interpretation of this principle. Each FGUR is derived from a scenario where multiple measurements of a quantum state are stochastically performed. While state measurements are fundamental, measuring quantum processes, namely, completely positive and trace preserving maps, is also crucial both theoretically and practically. These measurements are mathematically characterized by quantum testers. In this study, we develop FGURs in terms of quantum testers. Because state preparation is a type of quantum process, our framework encompasses the conventional case as a special instance. The generalized FGURs' bounds are typically challenging to compute. Thus, we also provide estimates for these bounds. Specifically, we explore quantum testers involving maximally entangled states in detail. Consequently, some FGURs for quantum testers are derived as explicit forms for specific settings.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# ATFLRec:インストラクション付き大言語モデルによるオーディオテキストフュージョンと低ランク適応によるマルチモーダルレコメンダシステム

ATFLRec: A Multimodal Recommender System with Audio-Text Fusion and Low-Rank Adaptation via Instruction-Tuned Large Language Model ( http://arxiv.org/abs/2409.08543v1 )

ライセンス: Link先を確認
Zezheng Qin, (参考訳) Recommender Systems(RS)は、eコマースやエンターテイメントなどのドメインでパーソナライズされた製品提案を提供することによって、ユーザの満足度を高める上で重要な役割を担っている。 本研究では,マルチモーダルデータテキストと音声を大規模言語モデル(LLM)に統合し,レコメンデーション性能を向上させることを目的とした。 従来のテキストやオーディオレコメンデータは、コールドスタート問題のような制限に直面する。 これらの問題に対処するためにローランド適応(LoRA)を導入し、性能を損なうことなく効率を向上させる。 ATFLRecフレームワークは、様々なLoRA構成とモダリティ融合技術を利用して、オーディオとテキストのモダリティをマルチモーダルレコメンデーションシステムに統合するために提案されている。 ATFLRecは、従来のニューラルネットワークやグラフニューラルネットワークベースのアプローチなど、ベースラインモデルよりも優れており、より高いAUCスコアが達成されている。 さらに、異なるLoRAモジュールによる音声とテキストデータの微調整は、異なるプーリング法とMelフィルタバンク数で性能に大きな影響を及ぼすため、最適な性能が得られる。 本研究は、マルチモーダルレコメンデータシステムの最適化と、LLMにおける多様なデータモダリティの統合の促進に関する貴重な知見を提供する。

Recommender Systems (RS) play a pivotal role in boosting user satisfaction by providing personalized product suggestions in domains such as e-commerce and entertainment. This study examines the integration of multimodal data text and audio into large language models (LLMs) with the aim of enhancing recommendation performance. Traditional text and audio recommenders encounter limitations such as the cold-start problem, and recent advancements in LLMs, while promising, are computationally expensive. To address these issues, Low-Rank Adaptation (LoRA) is introduced, which enhances efficiency without compromising performance. The ATFLRec framework is proposed to integrate audio and text modalities into a multimodal recommendation system, utilizing various LoRA configurations and modality fusion techniques. Results indicate that ATFLRec outperforms baseline models, including traditional and graph neural network-based approaches, achieving higher AUC scores. Furthermore, separate fine-tuning of audio and text data with distinct LoRA modules yields optimal performance, with different pooling methods and Mel filter bank numbers significantly impacting performance. This research offers valuable insights into optimizing multimodal recommender systems and advancing the integration of diverse data modalities in LLMs.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# 因果GNN:ネットワークにおける因果推論のためのGNN駆動の計測変数アプローチ

Causal GNNs: A GNN-Driven Instrumental Variable Approach for Causal Inference in Networks ( http://arxiv.org/abs/2409.08544v1 )

ライセンス: Link先を確認
Xiaojing Du, Feiyu Yang, Wentao Gao, Xiongren Chen, (参考訳) ネットワークデータアプリケーションが拡大を続けるにつれ、ネットワーク内の因果推論が注目を集めている。 しかし、隠れた共同創設者は因果効果の推定を複雑にしている。 ほとんどのメソッドは、隠れた共同設立者がいないと仮定する強い無知の仮定に依存しています。 この問題に対処するために,ネットワーク構造を機器変数(IV)として活用する新しいアプローチであるCgNNと,グラフニューラルネットワーク(GNN)とアテンション機構を組み合わせることで,隠れた共同設立バイアスを緩和し,因果効果の推定を改善する。 ネットワーク構造をIVとして活用することにより,治療との相関を保ちながら,共同設立者のバイアスを低減する。 注意機構の統合は、ロバスト性を高め、重要なノードの識別を改善する。 実世界の2つのデータセットで検証した結果、CgNNは隠れた共同創業者バイアスを効果的に軽減し、複雑なネットワークデータにおける因果推論のための堅牢なGNN駆動IVフレームワークを提供することが示された。

As network data applications continue to expand, causal inference within networks has garnered increasing attention. However, hidden confounders complicate the estimation of causal effects. Most methods rely on the strong ignorability assumption, which presumes the absence of hidden confounders-an assumption that is both difficult to validate and often unrealistic in practice. To address this issue, we propose CgNN, a novel approach that leverages network structure as instrumental variables (IVs), combined with graph neural networks (GNNs) and attention mechanisms, to mitigate hidden confounder bias and improve causal effect estimation. By utilizing network structure as IVs, we reduce confounder bias while preserving the correlation with treatment. Our integration of attention mechanisms enhances robustness and improves the identification of important nodes. Validated on two real-world datasets, our results demonstrate that CgNN effectively mitigates hidden confounder bias and offers a robust GNN-driven IV framework for causal inference in complex network data.
翻訳日:2024-09-16 17:48:25 公開日:2024-09-13
# 量子デバイス上での準粒子のシミュレーション

Simulating a quasiparticle on a quantum device ( http://arxiv.org/abs/2409.08545v1 )

ライセンス: Link先を確認
Rimika Jaiswal, Izabella Lovas, Leon Balents, (参考訳) 量子多体系における準粒子励起を探索するための変分的手法を提案する。 多体ハミルトニアンの変換不変性やその他のアーベル対称性を利用することで、空間局在準粒子状態を構築するための変分量子固有解法(VQE)のアプローチを拡張し、励起帯域全体の情報を符号化し、量子並列性を実現する。 提案アルゴリズムは, 1次元横フィールドイジングチェーン上で行った数値シミュレーションによりベンチマークを行う。 VQEは、常磁性相のマグノン準粒子と、強磁性系におけるトポロジカルに非自明な磁壁励起の両方を捕捉できることを示す。 VQEで構築した局所準粒子状態は、準粒子の完全なバンド上のアクセス可能な情報を含み、相互作用がモデルの単純で自明に解ける極限の素スピンフリップやドメイン壁励起を正規化する方法に関する貴重な知見を提供する。 これらの結果は、量子シミュレータを利用して、強く相互作用する量子系の準粒子に直接アクセスし、これらの準粒子の性質によって直接決定される重要な実験的性質について洞察を得るための重要な理論的入力となる。

We propose a variational approach to explore quasiparticle excitations in interacting quantum many-body systems, motivated by the potential in leveraging near-term noisy intermediate scale quantum devices for quantum state preparation. By exploiting translation invariance and potentially other abelian symmetries of the many-body Hamiltonian, we extend the variational quantum eigensolver (VQE) approach to construct spatially localized quasiparticle states that encode information on the whole excited band, allowing us to achieve quantum parallelism. We benchmark the proposed algorithm via numerical simulations performed on the one-dimension transverse field Ising chain. We show that VQE can capture both the magnon quasiparticles of the paramagnetic phase, and the topologically non-trivial domain wall excitations in the ferromagnetic regime. We show that the localized quasiparticle states constructed with VQE contain accessible information on the full band of quasiparticles, and provide valuable insight into the way interactions renormalize the bare spin flip or domain wall excitations of the simple, trivially solvable limits of the model. These results serve as important theoretical input towards utilizing quantum simulators to directly access the quasiparticles of strongly interacting quantum systems, as well as to gain insight into crucial experimentally measured properties directly determined by the nature of these quasiparticles.
翻訳日:2024-09-16 17:38:31 公開日:2024-09-13
# 適応ロバスト高速原子重力計

Adaptive Robust High-Precision Atomic Gravimetry ( http://arxiv.org/abs/2409.08550v1 )

ライセンス: Link先を確認
Jinye Wei, Jiahao Huang, Chaohong Lee, (参考訳) 原子重力計は重力を測定するための最も正確なセンサーであるが、大きな課題はノイズの存在下でも高い精度を達成する方法である。 そこで我々は,適応ベイズ量子推定に基づく高精度原子重力計を実現するためのプロトコルを開発した。 提案プロトコルは,短時間から長時間の尋問時間を用いて測定した干渉計測のシーケンスを組み込んでおり,いくつかの重要な利点を提供している。 第一に、事前推定のために複数のフランジをスキャンする必要がなく、高ダイナミックレンジが可能であり、従来の頻繁な手法よりも効率的である。 第2に、ノイズに対するロバスト性を高め、ノイズ環境における測定精度を大幅に向上させる。 この強化は、輸送可能な重力計では5ドル以上、最先端の噴水重力計では最大で1桁程度となる。 特に、干渉計列を最適化することにより、従来の$\Delta g_{est} \propto \tilde{T}^{-0.5}$とは対照的に、全尋問時間(\tilde{T}$)から$\Delta g_{est} \propto \tilde{T}^{-2}$へのスケーリングを改善することができる。 提案手法は, 高精度, ダイナミックレンジの増大, 堅牢性の向上を実現し, 様々な実用的なセンシング応用に期待できる。

Atomic gravimeters are the most accurate sensors for measuring gravity, however, a significant challenge is how to achieve high precision even in the presence of noises. Here, we develop a protocol for achieving robust high-precision atomic gravimetry based upon adaptive Bayesian quantum estimation. Our protocol incorporates a sequence of interferometry measurements taken with short to long interrogation times and offers several key advantages. Firstly, it enables a high dynamic range without the need to scan multiple fringes for pre-estimation, making it more efficient than the conventional frequentist method. Secondly, it enhances robustness against noises, allowing for a significant measurement precision improvement in noisy environments. The enhancement can be more than $5$ times for a transportable gravimeter and up to an order of magnitude for a state-of-the-art fountain gravimeter. Notably, by optimizing the interferometry sequence, our approach can improve the scaling of the measurement precision ($\Delta g_{est}$) versus the total interrogation time ($\tilde{T}$) to $\Delta g_{est} \propto \tilde{T}^{-2}$ or even better, in contrast to the conventional one $\Delta g_{est} \propto \tilde{T}^{-0.5}$. Our approach offers superior precision, increased dynamic range, and enhanced robustness, making it highly promising for a range of practical sensing applications.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# MCMCによる逆問題解決の改善

Think Twice Before You Act: Improving Inverse Problem Solving With MCMC ( http://arxiv.org/abs/2409.08551v1 )

ライセンス: Link先を確認
Yaxuan Zhu, Zehao Dou, Haoxin Zheng, Yasi Zhang, Ying Nian Wu, Ruiqi Gao, (参考訳) 近年の研究では、拡散モデルが逆問題解決の強力な先駆となることが示されている。 顕著な例は拡散後サンプリング (DPS) であり、これはツイーディの公式を用いて測定されたデータの後部分布を近似したものである。 この後部近似が特に高雑音レベルにおいて不正確であるという事実から, DPS の性能は, 再学習を伴わずに, 様々な逆問題の解法に万能であるにもかかわらず阻害される。 そこで本稿では,Annealed MCMC に基づく新しい推論アルゴリズムである \textbf{D}iffusion \textbf{P}osterior \textbf{MC}MC (\textbf{DPMC}) を提案する。 DPSで用いられる近似条件分布にインスパイアされた一連の中間分布を定義する。 焼鈍MCMCサンプリングにより,各中間分布をより緊密に追従し,低騒音域で次の分布に移動するように促し,経路に沿った累積誤差を低減させる。 提案アルゴリズムは,超分解能,ガウス脱臭,運動脱臭,塗装,位相検索など,様々な逆問題で検証する。 提案アルゴリズムは,ほぼすべてのタスクにおいてDPSよりも性能が優れており,既存手法と競合する。

Recent studies demonstrate that diffusion models can serve as a strong prior for solving inverse problems. A prominent example is Diffusion Posterior Sampling (DPS), which approximates the posterior distribution of data given the measure using Tweedie's formula. Despite the merits of being versatile in solving various inverse problems without re-training, the performance of DPS is hindered by the fact that this posterior approximation can be inaccurate especially for high noise levels. Therefore, we propose \textbf{D}iffusion \textbf{P}osterior \textbf{MC}MC (\textbf{DPMC}), a novel inference algorithm based on Annealed MCMC to solve inverse problems with pretrained diffusion models. We define a series of intermediate distributions inspired by the approximated conditional distributions used by DPS. Through annealed MCMC sampling, we encourage the samples to follow each intermediate distribution more closely before moving to the next distribution at a lower noise level, and therefore reduce the accumulated error along the path. We test our algorithm in various inverse problems, including super resolution, Gaussian deblurring, motion deblurring, inpainting, and phase retrieval. Our algorithm outperforms DPS with less number of evaluations across nearly all tasks, and is competitive among existing approaches.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# LLMを用いたGrapheme-to-Phoneme変換のベンチマークとケーススタディ

LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study ( http://arxiv.org/abs/2409.08554v1 )

ライセンス: Link先を確認
Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee, (参考訳) Grapheme-to-phoneme (G2P)変換は、特に音声合成のようなアプリケーションにおいて、音声処理において重要である。 G2Pシステムは、多音語と文脈に依存した音素を持つ言語の言語的理解と文脈的認識を有する必要がある。 大規模言語モデル(LLM)は、近年、様々な言語タスクにおいて大きな可能性を示しており、G2Pにその音声的知識を活用できることが示唆されている。 本稿では、G2P変換におけるLCMの性能を評価し、追加のトレーニングやラベル付きデータなしでLCM出力を向上させるプロンプトおよび後処理手法を提案する。 また,ペルシア語の文レベルの音声課題に対して,G2Pの性能を評価するためのベンチマークデータセットを提案する。 提案手法を応用することにより,ペルシャ語のような表現不足言語においても従来のG2Pツールよりも優れた性能を発揮することを示し,LLM支援G2Pシステムの開発の可能性を強調した。

Grapheme-to-phoneme (G2P) conversion is critical in speech processing, particularly for applications like speech synthesis. G2P systems must possess linguistic understanding and contextual awareness of languages with polyphone words and context-dependent phonemes. Large language models (LLMs) have recently demonstrated significant potential in various language tasks, suggesting that their phonetic knowledge could be leveraged for G2P. In this paper, we evaluate the performance of LLMs in G2P conversion and introduce prompting and post-processing methods that enhance LLM outputs without additional training or labeled data. We also present a benchmarking dataset designed to assess G2P performance on sentence-level phonetic challenges of the Persian language. Our results show that by applying the proposed methods, LLMs can outperform traditional G2P tools, even in an underrepresented language like Persian, highlighting the potential of developing LLM-aided G2P systems.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# コードクローンの潜在的な一貫性のためのGitコミットログの実証分析

An Empirical Analysis of Git Commit Logs for Potential Inconsistency in Code Clones ( http://arxiv.org/abs/2409.08555v1 )

ライセンス: Link先を確認
Reishi Yokomori, Katsuro Inoue, (参考訳) コードクローンは、同一または異なるファイル内の他のスニペットと同一または類似のコードスニペットである。 それらはしばしばコピー・アンド・ペーストによって作成され、開発や保守活動中に修正される。 クローンペアとして知られるコードクローンのペアは、それらの間に論理的な結合が可能であるため、それぞれのスニペットの変更を同時に(共変更)、一貫して行うことが期待されている。 クローンの共変更に関する研究を含む、コードクローンに関する広範な研究があるが、コードクローンペアのコミットログの詳細な分析は限られている。 本稿では,クローンコードスニペットからコードスニペットのコミットログをgit-logコマンドを用いて解析し,クローンコードスニペットの変更を抽出する。 私たちはGitHub上のApache Software Foundationが所有する45のリポジトリを分析し、コミット頻度、共変更率、コミットパターンに関する3つの研究課題に対処しました。 その結果,(1) 平均クローンスニペットは, 寿命を通じて2~3回しか変化しない,(2) 共変率は全クローンの約半分であり, 共変コミットの10~20倍, (3) 全クローンペアの35~65倍はクローンペア(潜在的に矛盾するクローンペア)に分類されることがわかった。 これらの結果はクローンのコミットタイムラインを通じて一貫した管理システムの必要性を示唆している。

Code clones are code snippets that are identical or similar to other snippets within the same or different files. They are often created through copy-and-paste practices and modified during development and maintenance activities. Since a pair of code clones, known as a clone pair, has a possible logical coupling between them, it is expected that changes to each snippet are made simultaneously (co-changed) and consistently. There is extensive research on code clones, including studies related to the co-change of clones; however, detailed analysis of commit logs for code clone pairs has been limited. In this paper, we investigate the commit logs of code snippets from clone pairs, using the git-log command to extract changes to cloned code snippets. We analyzed 45 repositories owned by the Apache Software Foundation on GitHub and addressed three research questions regarding commit frequency, co-change ratio, and commit patterns. Our findings indicate that (1) on average, clone snippets are changed infrequently, typically only two or three times throughout their lifetime, (2) the ratio of co-changes is about half of all clone changes, with 10-20\% of co-changed commits being concerning (potentially inconsistent), and (3) 35-65\% of all clone pairs being classified as concerning clone pairs (potentially inconsistent clone pairs). These results suggest the need for a consistent management system through the commit timeline of clones.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# ランダムウォーク機構を有する近似型ゴッテマン・キタエフ・プレスキル状態の簡易作成法

A Simple Scheme for Preparation of the Approximate Gottesman-Kitaev-Preskill States with Random Walk Mechanism ( http://arxiv.org/abs/2409.08556v1 )

ライセンス: Link先を確認
Fattah Sakuldee, (参考訳) Gottesman-Kitaev-Preskill (GKP) 符号化は、連続変数(CV)に量子ビットを符号化するのによい候補であることが証明されている。 しかし、光学系におけるその準備は、現在の最先端の実験において実現が困難である。 本稿では、ランダムウォーク機構を用いて、近似GKP状態を作成するための簡単な光学的セットアップを提案する。 単一モードパルスレーザーの逆位置の符号化を考慮し、この考え方を実証する。 また、他の種類の物理CVシステムへの一般化と翻訳についても論じる。

The Gottesman-Kitaev-Preskill (GKP) coding is proven to be a good candidate for encoding a qubit on continuous variables (CV) since it is robust under random-shift disturbance. Its preparation in optical systems, however, is challenging to realize in nowadays state-of-the-art experiments. In this article, we propose a simple optical setup for preparing the approximate GKP states by employing a random walk mechanism. We demonstrate this idea by considering the encoding on the transverse position of a single-mode pulse laser. We also discuss generalization and translation to other types of physical CV systems.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# DICS:out-of-distribution Generalizationのためのドメイン不変およびclass-specific特徴を見つける

DICS: Find Domain-Invariant and Class-Specific Features for Out-of-Distribution Generalization ( http://arxiv.org/abs/2409.08557v1 )

ライセンス: Link先を確認
Qiaowei Miao, Yawei Luo, Yi Yang, (参考訳) ディープニューラルネットワークは様々な視覚タスクにおいて顕著な進歩を遂げてきたが、その性能は通常、アウト・オブ・ディストリビューション(OOD)シナリオでのテストで低下する。 多くのOODメソッドは、ドメイン不変の特徴の抽出に重点を置いているが、これらの特徴が各クラスに固有のものであるかどうかを無視している。 たとえいくつかの機能がドメイン不変であっても、異なるクラス間で共有されている場合、重要な分類基準として機能することはできない。 OODタスクでは、ドメイン関連機能とクラス共有機能の両方が、一般化を妨げる共同創設者として機能する。 本稿では,DIT(Domain Invariant Testing)やクラス特異性テスト(Class Specificity Testing, CST)など,ドメイン不変性およびクラス特異性の特徴を抽出するDICSモデルを提案する。 DITは、各ソースドメインのドメイン関連機能を学び、それらを入力から取り除き、ドメイン不変のクラス関連機能を分離する。 DITは、異なるドメイン間で同じクラスの機能を整列することで、ドメインの不変性を保証します。 次に、CSTは、これらの特徴を以前のステップで学習した特徴と比較することにより、それらの特徴のソフトラベルを計算する。 ソフトラベルとそれらの真のラベルの相互エントロピーを最適化し、同クラスの類似性と異なるクラスの特異性を高め、クラス特異性を補強する。 大規模なベンチマーク実験により,提案アルゴリズムの有効性が示された。 さらなる視覚化により、DICSはターゲットドメインの各クラスの重要な特徴を効果的に識別する。

While deep neural networks have made remarkable progress in various vision tasks, their performance typically deteriorates when tested in out-of-distribution (OOD) scenarios. Many OOD methods focus on extracting domain-invariant features but neglect whether these features are unique to each class. Even if some features are domain-invariant, they cannot serve as key classification criteria if shared across different classes. In OOD tasks, both domain-related and class-shared features act as confounders that hinder generalization. In this paper, we propose a DICS model to extract Domain-Invariant and Class-Specific features, including Domain Invariance Testing (DIT) and Class Specificity Testing (CST), which mitigate the effects of spurious correlations introduced by confounders. DIT learns domain-related features of each source domain and removes them from inputs to isolate domain-invariant class-related features. DIT ensures domain invariance by aligning same-class features across different domains. Then, CST calculates soft labels for those features by comparing them with features learned in previous steps. We optimize the cross-entropy between the soft labels and their true labels, which enhances same-class similarity and different-class distinctiveness, thereby reinforcing class specificity. Extensive experiments on widely-used benchmarks demonstrate the effectiveness of our proposed algorithm. Additional visualizations further demonstrate that DICS effectively identifies the key features of each class in target domains.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# 公平な共分散ニューラルネットワーク

Fair CoVariance Neural Networks ( http://arxiv.org/abs/2409.08558v1 )

ライセンス: Link先を確認
Andrea Cavallo, Madeline Navarro, Santiago Segarra, Elvin Isufi, (参考訳) 共分散ベースのデータ処理は、データ相互接続性と依存関係をモデル化できるため、信号処理や機械学習アプリケーションに広く普及している。 しかし、データの有害なバイアスはサンプル共分散行列にエンコードされ、データ駆動法は異なるサブポピュレーションを不公平に扱う。 フェア主成分分析(PCA)のような既存の研究はこれらの効果を緩和するが、低いサンプル状態では不安定であり、したがってフェアネスの目標を損なう可能性がある。 バイアスと不安定性の両方に対処するため,Fair CoVariance Neural Networks (FVNN) を提案する。 我々のFVNNは、いくつかの既存のバイアス緩和技術と互換性のある柔軟なモデルを提供する。 特に、FVNNはバイアスを2つの方法で緩和することができる: 第一に、それらは主成分からバイアスを取り除く公平な共分散推定で動作し、第二に、損失関数の公正正規化器を介してエンドツーエンドで訓練され、モデルパラメータが公正にタスクを解くように調整される。 我々は,FVNNが類似のPCAアプローチよりも本質的に公平であることを証明する。 我々は、FVNNの柔軟性と、公正な性能と正確な性能のトレードオフを示すとともに、合成および実世界のデータに対するモデルの堅牢性と公正性を検証した。

Covariance-based data processing is widespread across signal processing and machine learning applications due to its ability to model data interconnectivities and dependencies. However, harmful biases in the data may become encoded in the sample covariance matrix and cause data-driven methods to treat different subpopulations unfairly. Existing works such as fair principal component analysis (PCA) mitigate these effects, but remain unstable in low sample regimes, which in turn may jeopardize the fairness goal. To address both biases and instability, we propose Fair coVariance Neural Networks (FVNNs), which perform graph convolutions on the covariance matrix for both fair and accurate predictions. Our FVNNs provide a flexible model compatible with several existing bias mitigation techniques. In particular, FVNNs allow for mitigating the bias in two ways: first, they operate on fair covariance estimates that remove biases from their principal components; second, they are trained in an end-to-end fashion via a fairness regularizer in the loss function so that the model parameters are tailored to solve the task directly in a fair manner. We prove that FVNNs are intrinsically fairer than analogous PCA approaches thanks to their stability in low sample regimes. We validate the robustness and fairness of our model on synthetic and real-world data, showcasing the flexibility of FVNNs along with the tradeoff between fair and accurate performance.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# 隠れチェーン・オブ・ソートデコーディングによる大規模言語モデル推論の高速化

Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding ( http://arxiv.org/abs/2409.08561v1 )

ライセンス: Link先を確認
Tianqiao Liu, Zui Chen, Zitao Liu, Mi Tian, Weiqi Luo, (参考訳) 大規模言語モデル(LLM)は、チェーン・オブ・シンクレット(CoT)プロンプトを用いて、推論と多段階の問題解決を必要とするタスクにおいて顕著な能力を示した。 しかし、完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時に計算コストと遅延が増大する。 この課題に対処するため、我々は意味的アライメントを通じてCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しいアプローチを提案する。 提案手法では,完全な思考プロセスの生成と圧縮を学習する補助的なCoTモデルを導入し,元のCoT出力とセマンティックに一致したコンパクトなトークン表現を実現する。 この圧縮表現は、Hdden Chain-of-Thought(HCoT)モデルの入力に統合される。 トレーニングプロセスは2段階の手順に従う: 第一に、CoTモデルは、対照的な損失を用いて、接地したCoT出力と整合した圧縮されたトークン表現を生成するように最適化される。 その後、CoTモデルパラメータを凍結することにより、HCoTモデルを微調整し、プレフィックス命令と圧縮されたCoT表現をCoTモデルから正確な後続予測を生成する。 数学的推論、エージェント呼び出し、質問応答という3つの挑戦領域にわたる大規模な実験は、私たちのセマンティック圧縮アプローチが、完全なCoTベースラインと比較して、競争力または改善されたパフォーマンスを実現し、デコーディング時間において少なくとも1.5倍の大幅なスピードアップを提供することを示した。 さらに、対照的な学習目的を取り入れることで、圧縮された表現の品質がさらに向上し、CoTのプロンプトが向上し、タスク精度が向上する。 我々の研究は、LLMにおける多段階推論機能をより効率的に活用するための道を開いた。

Large language models (LLMs) have demonstrated remarkable capabilities in tasks requiring reasoning and multi-step problem-solving through the use of chain-of-thought (CoT) prompting. However, generating the full CoT process results in significantly longer output sequences, leading to increased computational costs and latency during inference. To address this challenge, we propose a novel approach to compress the CoT process through semantic alignment, enabling more efficient decoding while preserving the benefits of CoT reasoning. Our method introduces an auxiliary CoT model that learns to generate and compress the full thought process into a compact special token representation semantically aligned with the original CoT output. This compressed representation is then integrated into the input of the Hidden Chain-of-Thought (HCoT) model. The training process follows a two-stage procedure: First, the CoT model is optimized to generate the compressed token representations aligned with the ground-truth CoT outputs using a contrastive loss. Subsequently, with the CoT model parameters frozen, the HCoT model is fine-tuned to generate accurate subsequent predictions conditioned on the prefix instruction and the compressed CoT representations from the CoT model. Extensive experiments across three challenging domains - mathematical reasoning, agent invocation, and question answering - demonstrate that our semantic compression approach achieves competitive or improved performance compared to the full CoT baseline, while providing significant speedups of at least 1.5x in decoding time. Moreover, incorporating contrastive learning objectives further enhances the quality of the compressed representations, leading to better CoT prompting and improved task accuracy. Our work paves the way for more efficient exploitation of multi-step reasoning capabilities in LLMs across a wide range of applications.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# CSS: クラウドソースの3Dガウススプレイティングにおけるポースとシーンの課題を克服する

CSS: Overcoming Pose and Scene Challenges in Crowd-Sourced 3D Gaussian Splatting ( http://arxiv.org/abs/2409.08562v1 )

ライセンス: Link先を確認
Runze Chen, Mingyu Xiao, Haiyong Luo, Fang Zhao, Fan Wu, Hao Xiong, Qi Liu, Meng Song, (参考訳) クラウドソース画像を用いたポーズフリーシーン再構築の課題を克服するために,新しい3Dガウススティング(3DGS)パイプラインであるCrowd-Sourced Splatting(CSS)を紹介した。 歴史的に重要だがアクセス不能なシーンを写真集から再構築するという夢は、長い間研究者を魅了してきた。 しかし、従来の3D技術は、カメラのポーズの欠如、視点の制限、一貫性のない照明に悩まされている。 CSSは、ロバストな幾何学的先行と高度な照明モデリングを通じてこれらの課題に対処し、複雑な実世界の条件下で高品質な新規ビュー合成を可能にする。 提案手法は,AR,VR,大規模3D再構成において,より正確で柔軟なアプリケーションを実現する方法として,既存のアプローチに対する明確な改善を示す。

We introduce Crowd-Sourced Splatting (CSS), a novel 3D Gaussian Splatting (3DGS) pipeline designed to overcome the challenges of pose-free scene reconstruction using crowd-sourced imagery. The dream of reconstructing historically significant but inaccessible scenes from collections of photographs has long captivated researchers. However, traditional 3D techniques struggle with missing camera poses, limited viewpoints, and inconsistent lighting. CSS addresses these challenges through robust geometric priors and advanced illumination modeling, enabling high-quality novel view synthesis under complex, real-world conditions. Our method demonstrates clear improvements over existing approaches, paving the way for more accurate and flexible applications in AR, VR, and large-scale 3D reconstruction.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# 2階差分部分空間

Second-order difference subspace ( http://arxiv.org/abs/2409.08563v1 )

ライセンス: Link先を確認
Kazuhiro Fukui, Pedro H. V. Valois, Lincon Souza, Takumi Kobayashi, (参考訳) サブスペース表現は、機械学習の様々な分野における基本的な技術である。 複数の部分空間間の幾何学的関係を分析することは、部分空間級数の時間的・空間的ダイナミクスを理解するのに不可欠である。 本稿では,2つの部分空間間の一階差分部分空間の高階拡張である二階差分部分空間を提案する。 その準備として、一階差分部分空間の定義を、異なる次元の2つの部分空間が交叉を持つというより一般的な設定に拡張する。 次に、二階差分部分空間という概念と、二階差分法によって動機付けられた2つの部分空間の間の主成分部分空間(カーチャー平均)を組み合わせることにより、二階差分部分空間を定義する。 1階差分部分空間は、グラスマン多様体上の測地学の観点から、部分空間力学の速度と加速度に対応することが理解できる。 3次元物体の時間的形状解析と生体信号の時系列解析という,2階差分部分空間の有効性と自然性を示す。

Subspace representation is a fundamental technique in various fields of machine learning. Analyzing a geometrical relationship among multiple subspaces is essential for understanding subspace series' temporal and/or spatial dynamics. This paper proposes the second-order difference subspace, a higher-order extension of the first-order difference subspace between two subspaces that can analyze the geometrical difference between them. As a preliminary for that, we extend the definition of the first-order difference subspace to the more general setting that two subspaces with different dimensions have an intersection. We then define the second-order difference subspace by combining the concept of first-order difference subspace and principal component subspace (Karcher mean) between two subspaces, motivated by the second-order central difference method. We can understand that the first/second-order difference subspaces correspond to the velocity and acceleration of subspace dynamics from the viewpoint of a geodesic on a Grassmann manifold. We demonstrate the validity and naturalness of our second-order difference subspace by showing numerical results on two applications: temporal shape analysis of a 3D object and time series analysis of a biometric signal.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# コードのクラック: インドネシアにおける実世界のプロフェッショナルエクササイズに関するマルチドメインLCM評価

Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia ( http://arxiv.org/abs/2409.08564v1 )

ライセンス: Link先を確認
Fajri Koto, (参考訳) 大規模言語モデルにおける知識評価は、主に数学や物理学のような学術的な主題に焦点が当てられているが、これらの評価は現実世界の専門職の実践的な要求を捉えるのに失敗することが多い。 本稿では,各種分野における職業・専門試験のパフォーマンス評価を目的とした,8,834の複数選択質問からなるデータセットであるIndoCareerを紹介する。 インドネシアに焦点を当てたIndoCareerは、(1)医療、(2)保険と金融、(3)創造とデザイン、(4)観光とホスピタリティ、(5)教育とトレーニング、(6)法律の6つの主要な分野にまたがる、豊かな地域コンテキストを提供している。 27の大規模言語モデルに対する包括的評価は、これらのモデルが特に、保険や金融といった強い地域状況の分野において苦戦していることを示している。 さらに、データセット全体を使用しながら、シャッフルの回答オプションは一般的にモデル間で一貫した評価結果を維持するが、保険や金融セクターで特に不安定を導入する。

While knowledge evaluation in large language models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a dataset comprising 8,834 multiple-choice questions designed to evaluate performance in vocational and professional certification exams across various fields. With a focus on Indonesia, IndoCareer provides rich local contexts, spanning six key sectors: (1) healthcare, (2) insurance and finance, (3) creative and design, (4) tourism and hospitality, (5) education and training, and (6) law. Our comprehensive evaluation of 27 large language models shows that these models struggle particularly in fields with strong local contexts, such as insurance and finance. Additionally, while using the entire dataset, shuffling answer options generally maintains consistent evaluation results across models, but it introduces instability specifically in the insurance and finance sectors.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# Hybrid-TTA:動的ドメインシフト検出による連続的なテスト時間適応

Hybrid-TTA: Continual Test-time Adaptation via Dynamic Domain Shift Detection ( http://arxiv.org/abs/2409.08566v1 )

ライセンス: Link先を確認
Hyewon Park, Hyejin Park, Jueun Ko, Dongbo Min, (参考訳) 継続的テスト時間適応(CTTA)は、制御されたトレーニング環境と現実のシナリオの間のドメインギャップを埋める重要なアプローチとして現れ、モデルの適応性と堅牢性を高めている。 既存のCTTA法は、一般的にフルチューニング(FT)と効率チューニング(ET)に分類され、ドメインシフトを効果的に扱うのに苦労する。 これらの課題を克服するために、最適適応のためのインスタンスワイドチューニングを動的に選択する総合的なアプローチであるHybrid-TTAを提案する。 提案手法では,入力シーケンスの時間的相関を利用してドメインシフトを識別し,FTとETを動的に切り替えてドメインシフトに適応する動的ドメインシフト検出(DDSD)手法を提案する。 さらに、Masked Image Modeling Based Adaptation (MIMA)フレームワークは、最小の計算オーバーヘッドでドメインに依存しない堅牢性を保証するために統合されている。 我々のHybrid-TTAは、Cityscapes-to-ACDCベンチマークデータセットでmIoUを1.6%改善し、従来の最先端の手法を超越し、現実世界の継続的適応課題に対する堅牢なソリューションを提供する。

Continual Test Time Adaptation (CTTA) has emerged as a critical approach for bridging the domain gap between the controlled training environments and the real-world scenarios, enhancing model adaptability and robustness. Existing CTTA methods, typically categorized into Full-Tuning (FT) and Efficient-Tuning (ET), struggle with effectively addressing domain shifts. To overcome these challenges, we propose Hybrid-TTA, a holistic approach that dynamically selects instance-wise tuning method for optimal adaptation. Our approach introduces the Dynamic Domain Shift Detection (DDSD) strategy, which identifies domain shifts by leveraging temporal correlations in input sequences and dynamically switches between FT and ET to adapt to varying domain shifts effectively. Additionally, the Masked Image Modeling based Adaptation (MIMA) framework is integrated to ensure domain-agnostic robustness with minimal computational overhead. Our Hybrid-TTA achieves a notable 1.6%p improvement in mIoU on the Cityscapes-to-ACDC benchmark dataset, surpassing previous state-of-the-art methods and offering a robust solution for real-world continual adaptation challenges.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# Floquet形式の下での標準対称性と非標準対称性を結合したトップシステムにおける量子相転移と絡み合いの研究

Study of quantum phase transition and entanglement in coupled top systems with standard and nonstandard symmetries under Floquet formalism ( http://arxiv.org/abs/2409.08567v1 )

ライセンス: Link先を確認
Rashmi Jangir, Jayendra N. Bandyopadhyay, (参考訳) 本稿では,Floquet形式の下での高周波駆動限界におけるVan Vleckに基づく摂動理論を用いて,結合キックトトップ(CKT)システムの実効時間非依存なハミルトニアンについて検討する。 実効ハミルトニアン(英: effective Hamiltonian)は、個々のトップに非線形のねじれ項が存在することや、2つのトップ間のカップリングのため、非可積分系である。 ここでは、この結合したトップシステムの古典的および量子的バージョンを、ねじれフリーおよびゼロでないねじれケースに対して検討する。 ファインゴールド・ペレス(Feingold-Peres、FP)モデル(Feingold-Peres、FP)は、ファインゴールド・ペレス(Feingold-Peres、FP)モデル。 量子極限では、系のパラメータによって、両方の系はBDI、あるいは最近提案された非標準対称性クラスの一つであるキラル直交対称性クラスを満たす。 2つのトップ間の絡み合いにおける基礎となる対称性の役割について検討する。 さらに, 量子相転移の相互関係, トップ間の絡み合い, およびねじれのない, 非ゼロねじれの場合のシステムに対する基礎となる古典力学の安定性についても検討した。

We study an effective time-independent Hamiltonian of a coupled kicked-top (CKT) system derived using the Van Vleck-based perturbation theory at the high-frequency driving limit under Floquet formalism. The effective Hamiltonian is a non-integrable system due to the presence of nonlinear torsional terms in the individual top and also due to the coupling between two tops. Here, we study classical and quantum versions of this coupled top system for torsion-free and nonzero torsion cases. The former model is well-known in the literature as the Feingold-Peres (FP) model. At the quantum limit, depending on the system parameters, both systems satisfy BDI, or chiral orthogonal symmetry class, which is one of the recently proposed nonstandard symmetry classes. We study the role of underlying symmetry on the entanglement between the two tops. Moreover, we also investigate the interrelations among quantum phase transitions, entanglement between the tops, and the stability of the underlying classical dynamics for the system with torsion-free and nonzero torsion cases.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# 確率帯域における可変依存レグレクトのためのバッチアンサンブル

Batch Ensemble for Variance Dependent Regret in Stochastic Bandits ( http://arxiv.org/abs/2409.08570v1 )

ライセンス: Link先を確認
Asaf Cassel, Orin Levy, Yishay Mansour, (参考訳) 効率的な探究と搾取のトレードオフは、オンライン強化学習(RL)における重要な課題の1つです。 ほとんどの研究は、モデルの不確実性を慎重に推定し、いわゆる楽観的なモデルに従うことによってこれを達成している。 実践的なアンサンブル法に着想を得た本研究では,確率的マルチアーマッド帯域(MAB)に対するほぼ最適の後悔を確実に達成する,単純で斬新なバッチアンサンブル方式を提案する。 重要なことに、我々のアルゴリズムは1つのパラメータ、すなわちバッチ数を持ち、その値は損失のスケールや分散のような分布特性に依存しない。 我々は,アルゴリズムの有効性を総合的なベンチマークで示すことによって,理論的結果を補完する。

Efficiently trading off exploration and exploitation is one of the key challenges in online Reinforcement Learning (RL). Most works achieve this by carefully estimating the model uncertainty and following the so-called optimistic model. Inspired by practical ensemble methods, in this work we propose a simple and novel batch ensemble scheme that provably achieves near-optimal regret for stochastic Multi-Armed Bandits (MAB). Crucially, our algorithm has just a single parameter, namely the number of batches, and its value does not depend on distributional properties such as the scale and variance of the losses. We complement our theoretical results by demonstrating the effectiveness of our algorithm on synthetic benchmarks.
翻訳日:2024-09-16 17:38:30 公開日:2024-09-13
# DiffFAS: 生成拡散モデルによる対面防止

DiffFAS: Face Anti-Spoofing via Generative Diffusion Models ( http://arxiv.org/abs/2409.08572v1 )

ライセンス: Link先を確認
Xinxu Ge, Xin Liu, Zitong Yu, Jingang Shi, Chun Qi, Jie Li, Heikki Kälviäinen, (参考訳) Face Anti-Spoofing (FAS) は、顔認証システム(FR)が提示攻撃を阻止する上で重要な役割を担っている。 現在、FASシステムはドメインシフトの課題に直面しており、既存のFAS手法の一般化性能に影響を与えている。 本稿では,ドメインシフトの因果性を再考し,イメージスタイルと画質の2つの要素に分解する。 品質はスプーフ情報の提示の純度に影響を与え、スタイルはスプーフ情報の提示方法に影響を及ぼす。 本稿では,画像品質シフトに対応するためにネットワークに入力された事前情報として品質を定量化するDiffFASフレームワークを提案し,画像スタイルシフトに対応するために拡散型高忠実なクロスドメインとクロスアタック型の生成を行う。 DiffFASは、ライブとスプーフの顔のアイデンティティの整合性を維持しつつ、容易に収集可能なライブ顔から高精度なラベル付き高忠実な攻撃顔へと変換し、また、現在のFASシステムで直面している新しいタイプの攻撃によるラベル付きデータの不足を軽減できる。 我々は, クロスドメインおよびクロスアタックFASデータセットに対するフレームワークの有効性を実証し, 最先端の性能を実現する。 https://github.com/murphytju/DiffFAS.comで入手できる。

Face anti-spoofing (FAS) plays a vital role in preventing face recognition (FR) systems from presentation attacks. Nowadays, FAS systems face the challenge of domain shift, impacting the generalization performance of existing FAS methods. In this paper, we rethink about the inherence of domain shift and deconstruct it into two factors: image style and image quality. Quality influences the purity of the presentation of spoof information, while style affects the manner in which spoof information is presented. Based on our analysis, we propose DiffFAS framework, which quantifies quality as prior information input into the network to counter image quality shift, and performs diffusion-based high-fidelity cross-domain and cross-attack types generation to counter image style shift. DiffFAS transforms easily collectible live faces into high-fidelity attack faces with precise labels while maintaining consistency between live and spoof face identities, which can also alleviate the scarcity of labeled data with novel type attacks faced by nowadays FAS system. We demonstrate the effectiveness of our framework on challenging cross-domain and cross-attack FAS datasets, achieving the state-of-the-art performance. Available at https://github.com/murphytju/DiffFAS.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# HTR-VT:視覚変換器を用いた手書き文字認識

HTR-VT: Handwritten Text Recognition with Vision Transformer ( http://arxiv.org/abs/2409.08573v1 )

ライセンス: Link先を確認
Yuting Li, Dexiong Chen, Tinglong Tang, Xi Shen, (参考訳) 手書き文字認識における視覚変換器(ViT)の適用について検討する。 このドメインでのラベル付きデータの可用性の制限は、ViTのみに依存するハイパフォーマンスを実現する上での課題を提起する。 以前のトランスフォーマーベースのモデルでは、外部データや大規模なデータセットの広範な事前トレーニングが必要だった。 この制限に対処するため,標準変圧器のエンコーダのみを使用するデータ効率の良いViT方式を提案する。 従来のパッチ埋め込みに代えて特徴抽出に畳み込みニューラルネットワーク(CNN)を導入し,シャープネス・アウェア・ミニマライゼーション(SAM)オプティマイザを用いて,モデルがフラットなミニマに向けて収束し,顕著な拡張をもたらすことを確認した。 さらに,特徴マップに相互接続した特徴をマスクするスパンマスク技術の導入は,有効レギュレータとして機能する。 経験的に、私たちのアプローチは、IAMやREAD2016のような小さなデータセット上の従来のCNNベースのモデルと競合します。 さらに、現在最大のデータセットで、19,830のテキスト行をトレーニングしているLAMデータセットに、新たなベンチマークが設定されている。 コードはhttps://github.com/YutingLi0606/HTR-VTで公開されている。

We explore the application of Vision Transformer (ViT) for handwritten text recognition. The limited availability of labeled data in this domain poses challenges for achieving high performance solely relying on ViT. Previous transformer-based models required external data or extensive pre-training on large datasets to excel. To address this limitation, we introduce a data-efficient ViT method that uses only the encoder of the standard transformer. We find that incorporating a Convolutional Neural Network (CNN) for feature extraction instead of the original patch embedding and employ Sharpness-Aware Minimization (SAM) optimizer to ensure that the model can converge towards flatter minima and yield notable enhancements. Furthermore, our introduction of the span mask technique, which masks interconnected features in the feature map, acts as an effective regularizer. Empirically, our approach competes favorably with traditional CNN-based models on small datasets like IAM and READ2016. Additionally, it establishes a new benchmark on the LAM dataset, currently the largest dataset with 19,830 training text lines. The code is publicly available at: https://github.com/YutingLi0606/HTR-VT.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# 高次元ベル状態量子照明の性能解析

Performance analysis for high-dimensional Bell-state quantum illumination ( http://arxiv.org/abs/2409.08574v1 )

ライセンス: Link先を確認
Jeffrey H. Shapiro, (参考訳) 量子照明(QI)は、同じ平均伝達エネルギーの古典的なライダー/レーダーができることを超えて、未解決ターゲットのライダー/レーダー検出を改善するための絡み合いベースのプロトコルである。 ロイドはもともと離散変数の量子ライダーとして提案していたが、すぐに彼の提案は古典的な競合よりも量子上の優位性は示さなかった。 連続変数、特にガウス状態のQIは、理論とテーブルトップ実験の両方において真の量子優位性を示すことが示されている。 さらに、そのかなりの欠点にもかかわらず、ガウス状態QIのマイクロ波版は研究の注目を集めている。 しかし、最近、Pannu et al (arXiv:2407.08005 [quant-ph]) は、(1) ロイドのQIからの絡み合った状態とガウス状態QIからのチャネルモデルを組み合わせる、(2) 合成構成のための新しい正の演算子値測定を提案し、(3) ガウス状態QIとは異なり、これらのQI はQI の目標検出誤差確率に対する Nair-Gu の低い境界を達成することを示した。 Pannu~\emph{et al}.の解析は漸近的、すなわち無限次元の絡み合いを仮定した。 本稿では,Pannu et al's QIの有限次元性能について述べる。 これは、量子的優位性がない下にある絡み合った状態の次元に対してしきい値が存在し、上述のNair-Gu境界が漸近的に近づいていることを示している。 さらに、高輝度雑音では、両方の系がNair-Gu境界の誤差確率指数より1dB以下で動作しているため、Pannu et alのQIはガウス状態QIよりもはるかに高いエンタングル状態次元を必要とする。

Quantum illumination (QI) is an entanglement-based protocol for improving lidar/radar detection of unresolved targets beyond what a classical lidar/radar of the same average transmitted energy can do. Originally proposed by Lloyd as a discrete-variable quantum lidar, it was soon shown that his proposal offered no quantum advantage over its best classical competitor. Continuous-variable, specifically Gaussian-state, QI has been shown to offer true quantum advantage, both in theory and in table-top experiments. Moreover, despite its considerable drawbacks, the microwave version of Gaussian-state QI continues to attract research attention. Recently, however, Pannu et al. (arXiv:2407.08005 [quant-ph]) have: (1) combined the entangled state from Lloyd's QI with the channel models from Gaussian-state QI; (2) proposed a new positive operator-valued measurement for that composite setup; and (3) showed that, unlike Gaussian-state QI, their QI achieves the Nair-Gu lower bound on QI target-detection error probability at all noise brightnesses. Pannu~\emph{et al}.'s analysis was asymptotic, i.e., it presumed infinite-dimensional entanglement. This paper works out the finite-dimensional performance of Pannu et al.'s QI. It shows that there is a threshold value for the entangled-state dimensionality below which there is no quantum advantage, and above which the Nair-Gu bound is approached asymptotically. Moreover, in high-brightness noise, with both systems operating 1 dB below the Nair-Gu bound's error-probability exponent, Pannu et al.'s QI requires much higher entangled-state dimensionality than does Gaussian-state QI to achieve useful error probabilities.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# 構造類似情報を用いた分子グラフ表現学習

Molecular Graph Representation Learning via Structural Similarity Information ( http://arxiv.org/abs/2409.08580v1 )

ライセンス: Link先を確認
Chengyu Yao, Hong Huang, Hang Gao, Fengge Wu, Haiming Chen, Junsuo Zhao, (参考訳) グラフニューラルネットワーク(GNN)は分子グラフにおける特徴表現学習に広く用いられている。 したがって,GNNの有効性を確保するため,特徴表現の表現性を高めることが重要である。 しかしながら、現在の研究の大部分は個々の分子の構造的特徴に重点を置いており、しばしば分子間の構造的類似性を見落としている。 したがって、これらのアプローチは分子構造レベルでリッチなセマンティック情報を捕捉することができない。 このギャップを埋めるために、グローバルな視点から分子間の構造的類似情報を捉える新しい分子グラフ表現学習法である「textbf{Molecular Structure similarity Motif GNN」(MSSM-GNN)を導入する。 特に,分子間の類似性を定量的に表現するために,グラフカーネルアルゴリズムを利用した特殊設計グラフを提案する。 その後、分子グラフから特徴表現を学習するためにGNNを用い、追加の分子表現情報を組み込んで特性予測の精度を高めることを目的とした。 最後に、小規模と大規模の両方の分子データセットで実施した一連の実験により、我々のモデルが一貫して11の最先端のベースラインを上回っていることが実証された。 コードはhttps://github.com/yaoyao-yaoyao-cell/MSSM-GNNで公開されている。

Graph Neural Networks (GNNs) have been widely employed for feature representation learning in molecular graphs. Therefore, it is crucial to enhance the expressiveness of feature representation to ensure the effectiveness of GNNs. However, a significant portion of current research primarily focuses on the structural features within individual molecules, often overlooking the structural similarity between molecules, which is a crucial aspect encapsulating rich information on the relationship between molecular properties and structural characteristics. Thus, these approaches fail to capture the rich semantic information at the molecular structure level. To bridge this gap, we introduce the \textbf{Molecular Structural Similarity Motif GNN (MSSM-GNN)}, a novel molecular graph representation learning method that can capture structural similarity information among molecules from a global perspective. In particular, we propose a specially designed graph that leverages graph kernel algorithms to represent the similarity between molecules quantitatively. Subsequently, we employ GNNs to learn feature representations from molecular graphs, aiming to enhance the accuracy of property prediction by incorporating additional molecular representation information. Finally, through a series of experiments conducted on both small-scale and large-scale molecular datasets, we demonstrate that our model consistently outperforms eleven state-of-the-art baselines. The codes are available at https://github.com/yaoyao-yaoyao-cell/MSSM-GNN.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# No or Receiver-Only Channel State Information を用いたフェーディングチャネルのショートコード学習

Learning Short Codes for Fading Channels with No or Receiver-Only Channel State Information ( http://arxiv.org/abs/2409.08581v1 )

ライセンス: Link先を確認
Rishabh Sharad Pomaje, Rajshekhar V Bhat, (参考訳) 次世代無線ネットワークでは、低レイテンシは、チャネル状態情報(CSI)を使用しない短長のコードワードを必要とする場合が多い。 AWGNチャネルのキャパシティを実現するガウス符号は、これらの非CSIやCSIRのみの場合には適さない。 本研究では,これらのケースに対して,オートエンコーダアーキテクチャを用いて短長のコードワードを設計する。 非CSIの場合、学習された符号は、消失する確率変数の実部と虚部の分布が実線全体にわたってサポートされているときに相互直交する。 しかし、サポートが非負の実数直線に制限されている場合、符号は相互直交しない。 CSIRのみの場合、AWGNチャネル用に設計された深層学習ベースのコードは、CSIRでフェーディングチャネル用に特別に設計されたコードと比較して、最適なコヒーレント検出を伴うフェーディングチャネルでより悪く、オートエンコーダは、符号化、コヒーレント結合、復号を共同で学習する。 非CSIとCSIRのみの場合、これらの符号は同じブロック長の古典的符号よりも少なくとも同等以上の性能を発揮する。

In next-generation wireless networks, low latency often necessitates short-length codewords that either do not use channel state information (CSI) or rely solely on CSI at the receiver (CSIR). Gaussian codes that achieve capacity for AWGN channels may be unsuitable for these no-CSI and CSIR-only cases. In this work, we design short-length codewords for these cases using an autoencoder architecture. From the designed codes, we observe the following: In the no-CSI case, the learned codes are mutually orthogonal when the distribution of the real and imaginary parts of the fading random variable has support over the entire real line. However, when the support is limited to the non-negative real line, the codes are not mutually orthogonal. For the CSIR-only case, deep learning-based codes designed for AWGN channels perform worse in fading channels with optimal coherent detection compared to codes specifically designed for fading channels with CSIR, where the autoencoder jointly learns encoding, coherent combining, and decoding. In both no-CSI and CSIR-only cases, the codes perform at least as well as or better than classical codes of the same block length.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# ChangeChat:マルチモーダルインストラクションチューニングによるリモートセンシング変更分析のためのインタラクティブモデル

ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning ( http://arxiv.org/abs/2409.08582v1 )

ライセンス: Link先を確認
Pei Deng, Wenqian Zhou, Hanlin Wu, (参考訳) リモートセンシング(RS)の変化分析は、時間の経過とともに画像の変化を検出することによって地球のダイナミックなプロセスをモニタリングするために不可欠である。 従来の変更検出は、ピクセルレベルの変更を特定するのに優れるが、これらの変更を文脈化する能力に欠ける。 変更キャプションの最近の進歩は、変更の自然言語記述を提供するが、インタラクティブでユーザ固有のクエリをサポートしない。 これらの制約に対処するために、RS変化解析に特化したバイテンポラル視覚言語モデル(VLM)であるChangeChatを導入する。 ChangeChatはマルチモーダルな命令チューニングを使用して、変更キャプション、カテゴリ固有の定量化、変更ローカライゼーションといった複雑なクエリを処理できる。 モデルの性能を向上させるため,ルールベース手法とGPT支援手法を組み合わせたChangeChat-87kデータセットを開発した。 実験によると、ChangeChatはRS変更分析のための総合的でインタラクティブなソリューションを提供し、特定のタスクにおける最新技術(SOTA)メソッドに匹敵するパフォーマンスを達成し、最新の汎用ドメインモデルであるGPT-4を大幅に上回っている。 コードとトレーニング済みのウェイトはhttps://github.com/hanlinwu/ChangeChat.comで公開されている。

Remote sensing (RS) change analysis is vital for monitoring Earth's dynamic processes by detecting alterations in images over time. Traditional change detection excels at identifying pixel-level changes but lacks the ability to contextualize these alterations. While recent advancements in change captioning offer natural language descriptions of changes, they do not support interactive, user-specific queries. To address these limitations, we introduce ChangeChat, the first bitemporal vision-language model (VLM) designed specifically for RS change analysis. ChangeChat utilizes multimodal instruction tuning, allowing it to handle complex queries such as change captioning, category-specific quantification, and change localization. To enhance the model's performance, we developed the ChangeChat-87k dataset, which was generated using a combination of rule-based methods and GPT-assisted techniques. Experiments show that ChangeChat offers a comprehensive, interactive solution for RS change analysis, achieving performance comparable to or even better than state-of-the-art (SOTA) methods on specific tasks, and significantly surpassing the latest general-domain model, GPT-4. Code and pre-trained weights are available at https://github.com/hanlinwu/ChangeChat.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# LHQ-SVC:軽量で高品質な歌声変換モデル

LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling ( http://arxiv.org/abs/2409.08583v1 )

ライセンス: Link先を確認
Yubo Huang, Xin Lai, Muyang Ye, Anran Zhu, Zixi Wang, Jingzehua Xu, Shuai Zhang, Zhiyuan Zhou, Weijie Niu, (参考訳) SVC(Singing Voice Conversion)はVoice Conversion(VC)の重要なサブフィールドとして現れ、メロディ、リズム、音色などの音楽的要素を保存しながら、ある歌手の声を別の歌手に変換することを可能にする。 従来のSVC手法は、オーディオ品質、データ要求、計算複雑性の点で制限がある。 本稿では,SVCフレームワークと拡散モデルに基づく軽量CPU互換モデルであるLHQ-SVCを提案する。 性能チューニングツールと並列コンピューティングフレームワークを用いて,推論品質の向上とCPU実行の最適化を実現した。 我々の実験は、LHQ-SVCが競合性能を維持しており、異なるデバイス間での処理速度と効率が大幅に向上していることを示した。 結果は、LHQ-SVCが満たせることを示唆している

Singing Voice Conversion (SVC) has emerged as a significant subfield of Voice Conversion (VC), enabling the transformation of one singer's voice into another while preserving musical elements such as melody, rhythm, and timbre. Traditional SVC methods have limitations in terms of audio quality, data requirements, and computational complexity. In this paper, we propose LHQ-SVC, a lightweight, CPU-compatible model based on the SVC framework and diffusion model, designed to reduce model size and computational demand without sacrificing performance. We incorporate features to improve inference quality, and optimize for CPU execution by using performance tuning tools and parallel computing frameworks. Our experiments demonstrate that LHQ-SVC maintains competitive performance, with significant improvements in processing speed and efficiency across different devices. The results suggest that LHQ-SVC can meet
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# CompressedMediQ:高次元神経画像データのためのハイブリッド量子機械学習パイプライン

CompressedMediQ: Hybrid Quantum Machine Learning Pipeline for High-Dimentional Neuroimaging Data ( http://arxiv.org/abs/2409.08584v1 )

ライセンス: Link先を確認
Kuan-Cheng Chen, Yi-Tien Li, Tai-Yu Li, Chen-Yu Liu, (参考訳) 本稿では,高次元マルチクラスニューロイメージングデータ解析に関連する計算課題に対処するために開発された,新しいハイブリッド量子古典型機械学習パイプラインであるCompressedMediQを紹介する。 アルツハイマー病神経画像イニシアチブ(英語版)(ADNI)の4D MRIデータや、前頭側頭型認知症(英語版)(NIFD)におけるニューロイメージングなどの標準的な神経画像データセットは、その大きさと複雑さのために大きなハードルを呈している。 CompressedMediQは、高度なMRI前処理のための古典的ハイパフォーマンスコンピューティング(HPC)ノードと、CNN(Convolutional Neural Network)ベースの特徴抽出と削減を統合し、NISQ(Noisy Intermediate-Scale Quantum)時代の量子データ符号化の限定量子可用性に対処する。 次にQuantum Support Vector Machine (QSVM) という分類が続く。 量子カーネルの手法を利用することで、パイプラインは特徴マッピングと分類を最適化し、データの分離性を高め、従来のニューロイメージング分析技術より優れた性能を発揮する。 実験的結果は、認知症のステージングにおけるパイプラインの優れた精度を強調し、臨床診断における量子機械学習の実践的利用を検証する。 NISQデバイスの限界にもかかわらず、この概念実証は量子化学習の変革の可能性を示し、医療や信号処理におけるスケーラブルで正確な診断ツールの道を開いた。

This paper introduces CompressedMediQ, a novel hybrid quantum-classical machine learning pipeline specifically developed to address the computational challenges associated with high-dimensional multi-class neuroimaging data analysis. Standard neuroimaging datasets, such as 4D MRI data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and Neuroimaging in Frontotemporal Dementia (NIFD), present significant hurdles due to their vast size and complexity. CompressedMediQ integrates classical high-performance computing (HPC) nodes for advanced MRI pre-processing and Convolutional Neural Network (CNN)-PCA-based feature extraction and reduction, addressing the limited-qubit availability for quantum data encoding in the NISQ (Noisy Intermediate-Scale Quantum) era. This is followed by Quantum Support Vector Machine (QSVM) classification. By utilizing quantum kernel methods, the pipeline optimizes feature mapping and classification, enhancing data separability and outperforming traditional neuroimaging analysis techniques. Experimental results highlight the pipeline's superior accuracy in dementia staging, validating the practical use of quantum machine learning in clinical diagnostics. Despite the limitations of NISQ devices, this proof-of-concept demonstrates the transformative potential of quantum-enhanced learning, paving the way for scalable and precise diagnostic tools in healthcare and signal processing.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# ウェーブレットによる低照度映像強調のための4次元ルックアップテーブルの最適化

Optimizing 4D Lookup Table for Low-light Video Enhancement via Wavelet Priori ( http://arxiv.org/abs/2409.08585v1 )

ライセンス: Link先を確認
Jinhong He, Minglong Xue, Wenhai Wang, Mingliang Zhou, (参考訳) 低照度映像の強調は時空間色調の維持に強く要求されている。 したがって、カラーマッピングの精度を改善し、レイテンシを低く保つことは困難である。 そこで本研究では,低レイテンシを維持しつつ,映像フレーム間のカラーコヒーレンスとカラーマッピングの精度を効果的に向上する4Dルックアップテーブル(WaveLUT)にWavelet-prioriを導入することを提案する。 具体的には、ウェーブレット低周波領域を用いて、最適化されたルックアップを事前に構築し、設計したウェーブレット優先4Dルックアップテーブルを用いて適応的な拡張効果を実現する。 低光域における先行損失を効果的に補償するために、ウェーブレット照明と目標強度構造との相関に基づいて空間重みを適応的に決定する動的融合戦略を探索する。 さらに、トレーニング期間中に、マルチモーダルセマンティクス駆動のフーリエスペクトルを用いて、輝度とコンテンツを動的にバランスさせるテキスト駆動の外観再構成法を考案した。 広い範囲のベンチマークデータセットにおいて、この手法は色空間を知覚する前の手法の能力を効果的に向上し、高効率を維持しつつ、メートル法に好意的かつ知覚的に指向されたリアルタイムの強化を実現することを示す。

Low-light video enhancement is highly demanding in maintaining spatiotemporal color consistency. Therefore, improving the accuracy of color mapping and keeping the latency low is challenging. Based on this, we propose incorporating Wavelet-priori for 4D Lookup Table (WaveLUT), which effectively enhances the color coherence between video frames and the accuracy of color mapping while maintaining low latency. Specifically, we use the wavelet low-frequency domain to construct an optimized lookup prior and achieve an adaptive enhancement effect through a designed Wavelet-prior 4D lookup table. To effectively compensate the a priori loss in the low light region, we further explore a dynamic fusion strategy that adaptively determines the spatial weights based on the correlation between the wavelet lighting prior and the target intensity structure. In addition, during the training phase, we devise a text-driven appearance reconstruction method that dynamically balances brightness and content through multimodal semantics-driven Fourier spectra. Extensive experiments on a wide range of benchmark datasets show that this method effectively enhances the previous method's ability to perceive the color space and achieves metric-favorable and perceptually oriented real-time enhancement while maintaining high efficiency.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# ASPPコーディネートアテンション機構に基づく脳腫瘍画像セグメンテーションのためのUnetモデルの改良

Improved Unet model for brain tumor image segmentation based on ASPP-coordinate attention mechanism ( http://arxiv.org/abs/2409.08588v1 )

ライセンス: Link先を確認
Zixuan Wang, Yanlin Chen, Feiyang Wang, Qiaozhi Bao, (参考訳) 本稿では,脳腫瘍画像分割のための改良されたUnetモデルを提案する。 データセットが分割された後、必要な事前処理を行い、改良されたモデルを使って実験する。 まず、従来のUnetモデルをトレーニングし、検証しました。 トレーニングセットと検証セットの損失曲線を解析することにより、損失値が第1のエポックで減少し続け、第8のエポックでは安定であることが分かる。 このプロセスは、モデルが常にパラメータを最適化してパフォーマンスを改善することを示している。 同時に、ミオ指数の変化は、ミオ値は15世紀で0.6を超え、その後0.6を超え、46世紀で0.7以上に達したことを示している。 以上の結果から,脳腫瘍画像のセグメンテーションには基本Unetモデルが有効であることが示唆された。 次に,座標アテンション機構と実験用ASPPモジュールに基づく改良されたUnetアルゴリズムを提案する。 トレーニングセットと検証セットの損失変化曲線を観察することにより、損失値が第6エポックの最低点に達し、その後比較的安定であることが判明した。 同時に、ミオ指標は20世紀以降0.7以上安定し、最大0.76に達した。 これらの結果から,新しいメカニズムはモデルのセグメンテーション能力を大幅に向上させることが示された。 最後に,脳腫瘍画像のセグメンテーション予測のためのテストセットに,座標注意機構とASPPモジュールに基づくトレーニングされた従来のUnetモデルと改良されたUnetモデルを適用した。 従来のUnetと比較して、拡張モデルはより優れたセグメンテーションとエッジ精度を提供し、座標注意機構とASPPモジュールを用いた医用画像解析のための信頼性の高い方法を提供する。

In this paper, we propose an improved Unet model for brain tumor image segmentation, which combines coordinate attention mechanism and ASPP module to improve the segmentation effect. After the data set is divided, we do the necessary preprocessing to the image and use the improved model to experiment. First, we trained and validated the traditional Unet model. By analyzing the loss curve of the training set and the validation set, we can see that the loss value continues to decline at the first epoch and becomes stable at the eighth epoch. This process shows that the model constantly optimizes its parameters to improve performance. At the same time, the change in the miou (mean Intersection over Union) index shows that the miou value exceeded 0.6 at the 15th epoch, remained above 0.6 thereafter, and reached above 0.7 at the 46th epoch. These results indicate that the basic Unet model is effective in brain tumor image segmentation. Next, we introduce an improved Unet algorithm based on coordinate attention mechanism and ASPP module for experiments. By observing the loss change curves of the training set and the verification set, it is found that the loss value reaches the lowest point at the sixth epoch and then remains relatively stable. At the same time, the miou indicator has stabilized above 0.7 since the 20th epoch and has reached a maximum of 0.76. These results show that the new mechanism introduced significantly improves the segmentation ability of the model. Finally, we apply the trained traditional Unet model and the improved Unet model based on the coordinate attention mechanism and ASPP module to the test set for brain tumor image segmentation prediction. Compared to the traditional Unet, the enhanced model offers superior segmentation and edge accuracy, providing a more reliable method for medical image analysis with the coordinate attention mechanism and ASPP module.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# ディープニューラルネットワーク加速器の高速・高精度性能モデルの自動生成

Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators ( http://arxiv.org/abs/2409.08595v1 )

ライセンス: Link先を確認
Konstantin Lübeck, Alexander Louis-Ferdinand Jung, Felix Wedlich, Mika Markus Müller, Federico Nicolás Peccia, Felix Thömmes, Jannik Steinmetz, Valentin Biermaier, Adrian Frischknecht, Paul Palomero Bernardo, Oliver Bringmann, (参考訳) リソース制約のあるエッジデバイス上でのディープニューラルネットワーク(DNN)の実装は、ハードウェアアクセラレーションアーキテクチャの調整と、意図したAIワークロードの実行時のパフォーマンス特性の明確化を必要とする、困難な作業である。 これを容易にするために,高速な性能モデルのための自動生成手法を提案し,システム的モデル化および簡潔に記述されたアクセラレータアーキテクチャ上にマッピングされたDNNのレイテンシを正確に推定する。 提案手法を用いて,Gemmini,UltraTrail,Plastinine由来,パラメータ化可能なsystolic配列などの代表的DNNアクセラレータをモデル化した。 モデル化アーキテクチャのDNNマッピングと組み合わせて,DNN/ハードウェア依存グラフ解析を行い,最大154回のループカーネルイテレーションのみを評価し,その性能を490億の命令で推定し,大幅な高速化を実現した。 平均絶対パーセンテージ誤差(MAPE)を用いて回帰モデルと解析モデルの性能をシミュレーション結果と比較し, RTLシミュレーションよりも数桁高速である。

Implementing Deep Neural Networks (DNNs) on resource-constrained edge devices is a challenging task that requires tailored hardware accelerator architectures and a clear understanding of their performance characteristics when executing the intended AI workload. To facilitate this, we present an automated generation approach for fast performance models to accurately estimate the latency of a DNN mapped onto systematically modeled and concisely described accelerator architectures. Using our accelerator architecture description method, we modeled representative DNN accelerators such as Gemmini, UltraTrail, Plasticine-derived, and a parameterizable systolic array. Together with DNN mappings for those modeled architectures, we perform a combined DNN/hardware dependency graph analysis, which enables us, in the best case, to evaluate only 154 loop kernel iterations to estimate the performance for 4.19 billion instructions achieving a significant speedup. We outperform regression and analytical models in terms of mean absolute percentage error (MAPE) compared to simulation results, while being several magnitudes faster than an RTL simulation.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# マルチ話者シナリオにおける多言語モデルによる音声の書き起こし

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions ( http://arxiv.org/abs/2409.08596v1 )

ライセンス: Link先を確認
Lingwei Meng, Shujie Hu, Jiawen Kang, Zhaoqing Li, Yuejiao Wang, Wenxuan Wu, Xixin Wu, Xunying Liu, Helen Meng, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域に革命をもたらし、大きな進歩と新たな機会をもたらした。 音声関連タスクの進歩にもかかわらず、LLMはマルチトーカーのシナリオでは十分に研究されていない。 本研究では,複数話者環境における音声の書き起こしにおけるLLMの能力について,性別,発生順序,言語,キーワード音声などの特定の話者属性に基づいて,多話者自動音声認識(ASR),ターゲット話者音声認識(ASR),ASR(ASR)に関連する汎用的指示に従って検討する。 提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。 これらの表現は、LoRAを使用して微調整されたLLMに入力され、音声の理解と転写を可能にする。 包括的実験により,提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能を明らかにし,このような複雑な環境下でのユーザ指示に基づく音声関連タスク処理の可能性を明らかにする。

Recent advancements in large language models (LLMs) have revolutionized various domains, bringing significant progress and new opportunities. Despite progress in speech-related tasks, LLMs have not been sufficiently explored in multi-talker scenarios. In this work, we present a pioneering effort to investigate the capability of LLMs in transcribing speech in multi-talker environments, following versatile instructions related to multi-talker automatic speech recognition (ASR), target talker ASR, and ASR based on specific talker attributes such as sex, occurrence order, language, and keyword spoken. Our approach utilizes WavLM and Whisper encoder to extract multi-faceted speech representations that are sensitive to speaker characteristics and semantic context. These representations are then fed into an LLM fine-tuned using LoRA, enabling the capabilities for speech comprehension and transcription. Comprehensive experiments reveal the promising performance of our proposed system, MT-LLM, in cocktail party scenarios, highlighting the potential of LLM to handle speech-related tasks based on user instructions in such complex settings.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# LA-RAG:Retrieval-Augmented GenerationによるLLMベースのASR精度向上

LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation ( http://arxiv.org/abs/2409.08597v1 )

ライセンス: Link先を確認
Shaojun Li, Hengchao Shang, Daimeng Wei, Jiaxin Guo, Zongyao Li, Xianghui He, Min Zhang, Hao Yang, (参考訳) 近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。 しかし、既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。 そこで我々は,LLMベースのASRのための新しいRAGパラダイムであるLA-RAGを提案する。 LA-RAGは、粒度の細かいトークンレベルの音声データストアと音声音声検索機構を活用し、LLMインコンテキスト学習(ICL)機能を介してASRの精度を向上させる。 マンダリンおよび各種中国語方言データセットの実験は、既存の手法と比較して、ASRの精度が大幅に向上し、特にアクセント変動の処理において、我々のアプローチの有効性が検証された。

Recent advancements in integrating speech information into large language models (LLMs) have significantly improved automatic speech recognition (ASR) accuracy. However, existing methods often constrained by the capabilities of the speech encoders under varied acoustic conditions, such as accents. To address this, we propose LA-RAG, a novel Retrieval-Augmented Generation (RAG) paradigm for LLM-based ASR. LA-RAG leverages fine-grained token-level speech datastores and a speech-to-speech retrieval mechanism to enhance ASR accuracy via LLM in-context learning (ICL) capabilities. Experiments on Mandarin and various Chinese dialect datasets demonstrate significant improvements in ASR accuracy compared to existing methods, validating the effectiveness of our approach, especially in handling accent variations.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# 感情-ニュートラル変換を用いた知識強調顔表情認識

Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation ( http://arxiv.org/abs/2409.08598v1 )

ライセンス: Link先を確認
Hangyu Li, Yihan Xu, Jiangchao Yao, Nannan Wang, Xinbo Gao, Bo Han, (参考訳) 既存の顔表情認識(FER)法は、通常、離散ラベルを用いて訓練済みの視覚エンコーダを微調整する。 しかし、この形態の監督は、異なる表情の感情的概念を特定することに制限される。 本稿では,視覚言語モデルが生成するテキスト埋め込みの豊富な知識が,識別的表情表現の学習に有望な代替手段であることを示す。 そこで本研究では,感情-中性変換を用いた知識強化FER法を提案する。 具体的には、表情表現とテキスト埋め込みの類似性を一致させるプロセスとしてFER問題を定式化する。 そして,テキスト表現からテキスト表現への埋め込みの違いをシミュレートすることにより,表情表現を中立表現に変換する。 最後に、自己コントラスト目標を導入し、中性表現から遠くまで押しながら、表情表現をテキストの表情に近づける。 本研究では,ResNet-18 や Swin-T など,訓練済みの多様なビジュアルエンコーダを用いて,顔表情データセットを4つ評価する。 大規模な実験により,本手法は最先端のFER法より有意に優れていることが示された。 コードは公開されます。

Existing facial expression recognition (FER) methods typically fine-tune a pre-trained visual encoder using discrete labels. However, this form of supervision limits to specify the emotional concept of different facial expressions. In this paper, we observe that the rich knowledge in text embeddings, generated by vision-language models, is a promising alternative for learning discriminative facial expression representations. Inspired by this, we propose a novel knowledge-enhanced FER method with an emotional-to-neutral transformation. Specifically, we formulate the FER problem as a process to match the similarity between a facial expression representation and text embeddings. Then, we transform the facial expression representation to a neutral representation by simulating the difference in text embeddings from textual facial expression to textual neutral. Finally, a self-contrast objective is introduced to pull the facial expression representation closer to the textual facial expression, while pushing it farther from the neutral representation. We conduct evaluation with diverse pre-trained visual encoders including ResNet-18 and Swin-T on four challenging facial expression datasets. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art FER methods. The code will be publicly available.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# 深層学習に基づくショットドメイン地震探査

Deep learning-based shot-domain seismic deblending ( http://arxiv.org/abs/2409.08602v1 )

ライセンス: Link先を確認
Jing Sun, Song Hou, Vetle Vinje, Gordon Poole, Leiv-J Gelius, (参考訳) 大規模データボリュームの高速トラック処理を効率化するため,我々は,高品質なトレーニングデータを生成するための実践的戦略と,データ駆動モデルの性能向上のためのデータ条件付け手法の一覧に基づいて,ショット領域の地震データを分解する深層学習手法を開発した。 各帆行の終端で獲得した未完成のショット収集を利用して、ブレンドされた取得以外の追加の時間や労働コストを必要としないようにします。 これらのデータを手動でブレンドすることで、地上の真実を十分に制御し、与えられた調査に完全に適応したトレーニングデータが得られる。 さらに、隣接するブレンドショットを付加チャネルとして含むマルチチャネル入力を用いて、ディープニューラルネットワークを訓練する。 ブレンディングノイズの予測は、一次ソースイベントの予測であるネットワークのメインタスクと関連する、補助的なタスクとして追加される。 過度に強い振幅のため、トレーニングと検証の過程で、地中真理におけるブラディングノイズはスケールダウンされる。 この工程の一環として、折り畳み式ショット集束をブレンドノイズで整列させる。 フィールドブレンド・バイ・アセプションデータの実装は,提案したデータコンディショニング手順を導入することで,ブレンド部の深部における一次ソースイベントの漏洩を著しく低減できることを示す。 提案手法は浅部部における従来のアルゴリズムとほぼ同等に動作し,効率性に大きな利点を示す。 より大きな走行時間では若干悪化するが、それでもブレンドノイズを効率よく除去する。

To streamline fast-track processing of large data volumes, we have developed a deep learning approach to deblend seismic data in the shot domain based on a practical strategy for generating high-quality training data along with a list of data conditioning techniques to improve performance of the data-driven model. We make use of unblended shot gathers acquired at the end of each sail line, to which the access requires no additional time or labor costs beyond the blended acquisition. By manually blending these data we obtain training data with good control of the ground truth and fully adapted to the given survey. Furthermore, we train a deep neural network using multi-channel inputs that include adjacent blended shot gathers as additional channels. The prediction of the blending noise is added in as a related and auxiliary task with the main task of the network being the prediction of the primary-source events. Blending noise in the ground truth is scaled down during the training and validation process due to its excessively strong amplitudes. As part of the process, the to-be-deblended shot gathers are aligned by the blending noise. Implementation on field blended-by-acquisition data demonstrates that introducing the suggested data conditioning steps can considerably reduce the leakage of primary-source events in the deep part of the blended section. The complete proposed approach performs almost as well as a conventional algorithm in the shallow section and shows great advantage in efficiency. It performs slightly worse for larger traveltimes, but still removes the blending noise efficiently.
翻訳日:2024-09-16 17:28:47 公開日:2024-09-13
# 畳み込み型ニューラルネットワークによる海洋地震探査

Using Convolutional Neural Networks for Denoising and Deblending of Marine Seismic Data ( http://arxiv.org/abs/2409.08603v1 )

ライセンス: Link先を確認
Sigmund Slang, Jing Sun, Thomas Elboth, Steven McDonald, Leiv-J. Gelius, (参考訳) 海洋地震データの処理は計算的に要求され、複数の時間を要するステップから構成される。 ニューラルネットワークに基づく処理は、理論的には、処理時間を著しく削減し、地震処理の方法を変える可能性がある。 本稿では、深部畳み込みニューラルネットワーク(CNN)を用いて、地震干渉ノイズを除去し、地震データを損なう。 このようなネットワークをトレーニングするには、単一のショット収集が106以上のデータサンプルで構成されているため、かなりの量の計算メモリが必要である。 予備的な結果は、デノベーションとデノベーションの両方を約束する。 しかし,信号対雑音比 (SnR) の影響もみられた。 共通チャネル領域への移行は、ノイズのコヒーレンシーを破り、入力ボリュームを小さくする手段である。 これにより、ネットワークは信号とノイズを区別しやすくなる。 また、マルチコア処理のより良い利用を可能にすることにより、GPUメモリの使用効率も向上する。 CNNを用いた共通チャネル領域の検証は比較的良好であり,ショット領域と比較して改善されている。

Processing marine seismic data is computationally demanding and consists of multiple time-consuming steps. Neural network based processing can, in theory, significantly reduce processing time and has the potential to change the way seismic processing is done. In this paper we are using deep convolutional neural networks (CNNs) to remove seismic interference noise and to deblend seismic data. To train such networks, a significant amount of computational memory is needed since a single shot gather consists of more than 106 data samples. Preliminary results are promising both for denoising and deblending. However, we also observed that the results are affected by the signal-to-noise ratio (SnR). Moving to common channel domain is a way of breaking the coherency of the noise while also reducing the input volume size. This makes it easier for the network to distinguish between signal and noise. It also increases the efficiency of the GPU memory usage by enabling better utilization of multi core processing. Deblending in common channel domain with the use of a CNN yields relatively good results and is an improvement compared to shot domain.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# 動的シークエンシャル・クーポン・アロケーション・フレームワークを用いたC2Cマーケットプレースにおける商品ベースのマーケティング促進効率の最適化

Optimizing Item-based Marketing Promotion Efficiency in C2C Marketplace with Dynamic Sequential Coupon Allocation Framework ( http://arxiv.org/abs/2409.08609v1 )

ライセンス: Link先を確認
Jie Yang, Padunna Valappil Krishnaraj Sekhar, Sho Sekine, Yilin Li, (参考訳) 電子商取引プラットフォームでは、クーポンは取引を促進する上で重要な役割を果たす。 カスタマ・ツー・カスタマ(C2C)マーケットプレースでは、買い手と売り手の双方の満足度を確保することが不可欠である。 買い手中心のマーケティング戦略は注目されることが多いが、売り手のニーズに対処することが重要である。 さらに、既存の戦略は、各プロモーションを個別に最適化する傾向にあり、結果として、プロモーション期間内の短期的な影響を追求する上で、プロモーションと不要なコストの間に連続性の欠如が生じている。 一連のプロモーションにおけるアイテムクーポン割当戦略を最適化する動的シーケンスクーポン割当フレームワーク(DSCAF)を導入する。 DSCAFは、クーポンの設定とターゲットアイテムのタイミングに関するシーケンシャルなレコメンデーションを提供する。 最初の提案が販売につながらない場合、戦略を動的に調整し、その後のソリューションを提供する。 クーポン割当の現在及びその後のラウンドにおける販売確率を推定するための2つの予測器と、クーポン割当ソリューションを決定する意思決定プロセスとを統合する。 商品が販売されるまで反復的に実行される。 フレームワークの目標は、リターン・オン・インベストメント(ROI)を最大化し、リフティング・セルスルー・レート(STR)が指定された閾値を超えることを確実にすることである。 DSCAFは、個別のプロモーションで達成されるリフトのみに焦点を当てるのではなく、長期的な視点でシーケンシャルクーポン効率を最適化することを目的としている。 メルサリでのクーポンの割り当てに応用されている。

In e-commerce platforms, coupons play a crucial role in boosting transactions. In the customer-to-customer (C2C) marketplace, ensuring the satisfaction of both buyers and sellers is essential. While buyer-focused marketing strategies often receive more attention, addressing the needs of sellers is equally important. Additionally, the existing strategies tend to optimize each promotion independently, resulting in a lack of continuity between promotions and unnecessary costs in the pursuit of short-term impact within each promotion period. We introduce a Dynamic Sequential Coupon Allocation Framework (DSCAF) to optimize item coupon allocation strategies across a series of promotions. DSCAF provides sequential recommendations for coupon configurations and timing to target items. In cases where initial suggestions do not lead to sales, it dynamically adjusts the strategy and offers subsequent solutions. It integrates two predictors for estimating the sale propensity in the current and subsequent rounds of coupon allocation, and a decision-making process to determine the coupon allocation solution. It runs iteratively until the item is sold. The goal of the framework is to maximize Return on Investment (ROI) while ensuring lift Sell-through Rate (STR) remains above a specified threshold. DSCAF aims to optimize sequential coupon efficiency with a long-term perspective rather than solely focusing on the lift achieved in each individual promotion. It has been applied for item coupon allocation in Mercari.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# Dense Point Clouds Matter: Dust-GS for Scene Reconstruction from Sparse Views

Dense Point Clouds Matter: Dust-GS for Scene Reconstruction from Sparse Viewpoints ( http://arxiv.org/abs/2409.08613v1 )

ライセンス: Link先を確認
Shan Chen, Jiale Zhou, Lei Li, (参考訳) 3D Gaussian Splatting (3DGS) はシーン合成および新しいビュー合成タスクにおいて顕著な性能を示した。 通常、3Dガウス原始体の初期化は、Structure-from-Motion (SfM) 法に由来する点雲に依存する。 しかし、3DGSの有効性は、これらの初期点雲の品質と入力画像の限られた数によって著しく制約されている。 本研究では,スパース視点条件下での3DGSの限界を克服する新しいフレームワークであるDust-GSを提案する。 SfMのみに頼る代わりに、Dust-GSは、少ない入力データでも有効である革新的なポイントクラウド初期化技術を導入している。 提案手法は,適応深度に基づくマスキング技術を統合したハイブリッド戦略を利用して,再構成シーンの精度と細部を向上する。 いくつかのベンチマークデータセットで実施された大規模な実験により、Dust-GSは、少ない視点のシナリオで従来の3DGS手法を超越し、入力画像の少ないシーン再構成品質を達成していることが示された。

3D Gaussian Splatting (3DGS) has demonstrated remarkable performance in scene synthesis and novel view synthesis tasks. Typically, the initialization of 3D Gaussian primitives relies on point clouds derived from Structure-from-Motion (SfM) methods. However, in scenarios requiring scene reconstruction from sparse viewpoints, the effectiveness of 3DGS is significantly constrained by the quality of these initial point clouds and the limited number of input images. In this study, we present Dust-GS, a novel framework specifically designed to overcome the limitations of 3DGS in sparse viewpoint conditions. Instead of relying solely on SfM, Dust-GS introduces an innovative point cloud initialization technique that remains effective even with sparse input data. Our approach leverages a hybrid strategy that integrates an adaptive depth-based masking technique, thereby enhancing the accuracy and detail of reconstructed scenes. Extensive experiments conducted on several benchmark datasets demonstrate that Dust-GS surpasses traditional 3DGS methods in scenarios with sparse viewpoints, achieving superior scene reconstruction quality with a reduced number of input images.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# TapToTab : AIとオーディオ分析を用いたビデオベースギタータブ生成

TapToTab : Video-Based Guitar Tabs Generation using AI and Audio Analysis ( http://arxiv.org/abs/2409.08618v1 )

ライセンス: Link先を確認
Ali Ghaleb, Eslam ElSadawy, Ihab Essam, Mohamed Abdelhakim, Seif-Eldin Zaki, Natalie Fahim, Razan Bayoumi, Hanan Hindy, (参考訳) ビデオ入力によるギター・タブチュア生成の自動化は、音楽教育、転写精度、演奏解析を向上させる大きな可能性を秘めている。 既存の手法は、一貫性と完全性、特にフレットボードを検出し、正確に音符を識別する際の課題に直面している。 これらの問題に対処するために,ディープラーニング,特にリアルタイムフレッシュボード検出のためのYOLOモデルと,正確な音符識別のためのフーリエ変換に基づく音声解析の高度なアプローチを提案する。 実験の結果,従来の手法に比べて検出精度とロバスト性は著しく向上した。 本稿では,これらの手法の開発,実装,評価について概説し,ビデオ録音からギタータブを自動生成することでギター指導に革命をもたらすことを目的とする。

The automation of guitar tablature generation from video inputs holds significant promise for enhancing music education, transcription accuracy, and performance analysis. Existing methods face challenges with consistency and completeness, particularly in detecting fretboards and accurately identifying notes. To address these issues, this paper introduces an advanced approach leveraging deep learning, specifically YOLO models for real-time fretboard detection, and Fourier Transform-based audio analysis for precise note identification. Experimental results demonstrate substantial improvements in detection accuracy and robustness compared to traditional techniques. This paper outlines the development, implementation, and evaluation of these methodologies, aiming to revolutionize guitar instruction by automating the creation of guitar tabs from video recordings.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# 不整合表現学習モデルを用いた自由呼吸におけるリアルタイム心磁図の同時再構成とセグメント化

Joint image reconstruction and segmentation of real-time cardiac MRI in free-breathing using a model based on disentangled representation learning ( http://arxiv.org/abs/2409.08619v1 )

ライセンス: Link先を確認
Tobias Wech, Oliver Schad, Simon Sauer, Jonas Kleineisel, Nils Petri, Peter Nordbeck, Thorsten A. Bley, Bettina Baeßler, Bernhard Petritsch, Julius F. Heidenreich, (参考訳) アンタングル表現学習に基づく共同画像再構成とセグメンテーションの手法を訓練し, リアルタイムおよび自由呼吸下での心血管MR画像撮影を可能にした。 健常者8名と間欠性心房細動患者5名を対象に,社内で開発されたスパイラルbSSFPパルスシーケンスに基づくリアルタイム取得のアンダーサンプリング手法を検討した。 呼吸ホールドとそれに対応する手動セグメンテーションにおいて,心電図で区切られたカルテシアンの基準基準と画像および予測LVセグメンテーションを比較した。 5-point Likertスケールでは、リアルタイム呼吸保持アプローチの画質とカルテシアンのシネは健康な参加者(RT-BH: 1.99 $\pm$ .98, Cartesian: 1.94 $\pm$ .86, p=.052)に匹敵するが、フリーブレスティングではわずかに劣る(RT-FB: 2.40 $\pm$ .98, p<.001)。 不整脈患者では、両方のリアルタイムアプローチによる画質が好ましい(RT-BH: 2.10 $\pm$ 1.28, p<.001, RT-FB: 2.40 $\pm$ 1.13, p<.001, Cartesian: 2.68 $\pm$ 1.13)。 サーバ内信頼性は良好であった(ICC=.77,95%信頼区間 [.75, .79], p<.001)。 機能分析では, 提案したモデルから抽出した射出率に対して, 臨床基準値と比較して正の偏差が認められた( EF: 58.5 $\pm$ 5.6%, バイアス: +3.47%, 95%信頼区間 [-.86, 7.79%], RT-FB平均: 57.9 $\pm$ 10.6%, バイアス: +1.45%, [-3.02, 5.91%], カルテシア平均: 54.9 $\pm$ 6.7%)。 紹介されたリアルタイムMRイメージング技術は、心電図のゲーティングや呼吸ホールドを必要とせずに、1~2分で高品質な心血管データを取得できる。 これにより、分節的取得の現在の臨床実践に代わる有望な代替手段が提供され、スキャン時間が短く、患者の快適さが向上し、不整脈に対する堅牢性が向上し、患者が順応する。

A joint image reconstruction and segmentation approach based on disentangled representation learning was trained to enable cardiac cine MR imaging in real-time and under free-breathing. An exploratory feasibility study tested the proposed method in undersampled real-time acquisitions based on an in-house developed spiral bSSFP pulse sequence in eight healthy participants and five patients with intermittent atrial fibrillation. Images and predicted LV segmentations were compared to the reference standard of ECG-gated segmented Cartesian cine in repeated breath-holds and corresponding manual segmentation. On a 5-point Likert scale, image quality of the real-time breath-hold approach and Cartesian cine was comparable in healthy participants (RT-BH: 1.99 $\pm$ .98, Cartesian: 1.94 $\pm$ .86, p=.052), but slightly inferior in free-breathing (RT-FB: 2.40 $\pm$ .98, p<.001). In patients with arrhythmia, image quality from both real-time approaches was favourable (RT-BH: 2.10 $\pm$ 1.28, p<.001, RT-FB: 2.40 $\pm$ 1.13, p<.001, Cartesian: 2.68 $\pm$ 1.13). Intra-observer reliability was good (ICC=.77, 95%-confidence interval [.75, .79], p<.001). In functional analysis, a positive bias was observed for ejection fractions derived from the proposed model compared to the clinical reference standard (RT-BH mean EF: 58.5 $\pm$ 5.6%, bias: +3.47%, 95%-confidence interval [-.86, 7.79%], RT-FB mean: 57.9 $\pm$ 10.6%, bias: +1.45%, [-3.02, 5.91%], Cartesian mean: 54.9 $\pm$ 6.7%). The introduced real-time MR imaging technique is capable of acquiring high-quality cardiac cine data in 1-2 minutes without the need for ECG gating and breath-holds. It thus offers a promising alternative to the current clinical practice of segmented acquisition, with shorter scan times, higher patient comfort and increased robustness to arrhythmia and patient incompliance.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# ロボット設計と制御の協調最適化:性能向上と設計複雑さの理解

Co-Optimization of Robot Design and Control: Enhancing Performance and Understanding Design Complexity ( http://arxiv.org/abs/2409.08621v1 )

ライセンス: Link先を確認
Etor Arza, Frank Veenstra, Tønnes F. Nygaard, Kyrre Glette, (参考訳) ロボットの設計(形状)は通常、制御を実装する前に決定される。 ロボットがタスクにどの程度うまく適応するかは、設計とコントローラの両方を必要とするため、設計の適合性によって制限される可能性がある。 ロボットの設計と制御の同時最適化あるいは同時最適化は、タスクに適合した設計と制御を作成することにより、この制限に対処する。 本稿では,設計と制御の協調最適化に係わる課題について考察する。 協調最適化プロセス終了後に追加のリソースでロボットのコントローラを再訓練することで、ロボットの性能が大幅に向上することを示す。 さらに,より単純な設計が低いトレーニング予算に結びついている設計の複雑さに,各設計のためのコントローラのトレーニングに割り当てられたリソースが影響することが実証された。 実験は、設計と制御の協調最適化のための4つの公開シミュレーション環境で行われ、その結果は一般的なケースにもっと当てはまる。 本論文は,ロボットの設計と制御の協調最適化において,他の実践者を導くことを目的としている。

The design (shape) of a robot is usually decided before the control is implemented. This might limit how well the design is adapted to a task, as the suitability of the design is given by how well the robot performs in the task, which requires both a design and a controller. The co-optimization or simultaneous optimization of the design and control of robots addresses this limitation by producing a design and control that are both adapted to the task. In this paper, we investigate some of the challenges inherent in the co-optimization of design and control. We show that retraining the controller of a robot with additional resources after the co-optimization process terminates significantly improves the robot's performance. In addition, we demonstrate that the resources allocated to training the controller for each design influence the design complexity, where simpler designs are associated with lower training budgets. The experimentation is conducted in four publicly available simulation environments for co-optimization of design and control, making the findings more applicable to the general case. The results presented in this paper hope to guide other practitioners in the co-optimization of design and control of robots.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# 非線形ボゾン量子電池におけるジェヌイン量子優位性

Genuine quantum advantage in non-linear bosonic quantum batteries ( http://arxiv.org/abs/2409.08627v1 )

ライセンス: Link先を確認
Gian Marcello Andolina, Vittoria Stanzione, Vittorio Giovannetti, Marco Polini, (参考訳) 真の量子優位性を示す量子バッテリモデルを見つけることは、実験的な製造が難しい一方で、非常に難しい作業である。 本稿では,量子速度制限を飽和させて,真に量子的優位性を示す,知覚的にシンプルな量子バッテリモデルを提案する。 2つの高調波発振器(充電器と電池)で構成され、非線形相互作用によって非平衡帯電ダイナミクス中に結合される。 まず、このモデルを提示し、次に真の量子優位性を証明し、最後に超伝導回路を用いて電池をどうやって製造できるかを簡単に議論する。

Finding a quantum battery model that displays a genuine quantum advantage, while being prone to experimental fabrication, is an extremely challenging task. In this Letter we propose a deceptively simple quantum battery model that displays a genuine quantum advantage, saturating the quantum speed limit. It consists of two harmonic oscillators (the charger and the battery), coupled during the non-equilibrium charging dynamics by a non-linear interaction. We first present the model, then certify the genuine quantum advantage, and finally briefly discuss how the battery can be fabricated through the use of superconducting circuits.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# ナノミラーによる3レベル量子熱エンジン

Nano-mirror induced three-level quantum heat engine ( http://arxiv.org/abs/2409.08629v1 )

ライセンス: Link先を確認
Rejjak Laskar, (参考訳) 本稿では,3レベル$\Lambda$型量子熱エンジンと振動するナノミラーを統合する理論モデルを提案する。 熱と冷熱の両方の熱光浴の存在下では、原子はレーザー場と相互作用し、光子を出力として生成し、ナノミラー振動によって駆動される熱エンジンの動作を模倣する。 半古典的手法を用いて, 浴槽内の光子分布が増大するにつれて, 量子熱機関の古典的な出力やゲインが最大化され, ナノミラーとエンジンとの結合強度が最小化される。 モデルから, 熱水貯留層と冷水貯留層との温度差が大きくなると, より有効な正の利得が得られることが示唆された。 提案したモデルの熱力学解析は、原子系によって吸収される総エネルギーが系によって放出されるエネルギーと等しいことを示し、したがって熱力学の最初の法則を満たす。 提案エンジンの効率は, 高温貯留層における光子分布数の増加とともに低下し, 原子-ミラー結合強度が高い値でより顕著に低下する。

We propose a theoretical model that integrates a three-level $\Lambda$-type quantum heat engine with a vibrating nanomirror, where the connection is established via a laser field. In the presence of both hot and cold thermal photonic baths, the atom interacts with the laser field, generating photons as output, mimicking the operation of a heat engine driven by nanomirror vibrations. Using a semiclassical approach, we observe that the classical output or gain of the quantum heat engine is maximized as the photon distribution in the baths increases, provided that the coupling strength between the nanomirror and the engine is minimized. The model suggests that a greater temperature difference between the hot and cold reservoirs results in a more effective positive gain in the output. Thermodynamic analysis of the proposed model indicates that the total energy absorbed by the atomic system is equal to the energy released by the system, thus satisfying the first law of thermodynamics. The efficiency of the proposed engine decreases with an increasing photon distribution number in the hot reservoir, with a more pronounced decrease observed at higher values of atom-mirror coupling strength.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# グラフニューラルネットワークを用いた安定化検出

Sybil Detection using Graph Neural Networks ( http://arxiv.org/abs/2409.08631v1 )

ライセンス: Link先を確認
Stuart Heeb, Andreas Plesner, Roger Wattenhofer, (参考訳) 本稿では,グラフ注意ネットワーク(GAT)を用いたソーシャルネットワークにおけるSybil検出の新しいアプローチであるSYBILGATを提案する。 従来のシビル検出法は主にネットワークの構造特性を利用するが、多くの攻撃エッジに苦しむ傾向にあり、既知のシビルノードと正直なノードの両方を同時に利用できないことが多い。 提案手法は,アグリゲーション中に異なるノードに注意重みを動的に割り当て,検出性能を向上させることで,これらの制約に対処する。 攻撃対象のサブグラフ, 合成ネットワーク, ネットワークの事前学習など, 様々なシナリオで広範な実験を行った。 その結果、SYBILGATは、特に攻撃の複雑さが高い場合や攻撃エッジ数が増加する場合において、最先端のアルゴリズムを著しく上回っていることがわかった。 提案手法は,検出タスクがより困難になっても,異なるネットワークモデルとサイズで堅牢な性能を示す。 269kのノードと6.8Mのエッジを持つ実世界のTwitterグラフに、このモデルをうまく適用しました。 SYBILGATの柔軟性と一般化性は、構造化情報だけで、オンラインソーシャルネットワークにおけるSybil攻撃を防御する有望なツールとなる。

This paper presents SYBILGAT, a novel approach to Sybil detection in social networks using Graph Attention Networks (GATs). Traditional methods for Sybil detection primarily leverage structural properties of networks; however, they tend to struggle with a large number of attack edges and are often unable to simultaneously utilize both known Sybil and honest nodes. Our proposed method addresses these limitations by dynamically assigning attention weights to different nodes during aggregations, enhancing detection performance. We conducted extensive experiments in various scenarios, including pretraining in sampled subgraphs, synthetic networks, and networks under targeted attacks. The results show that SYBILGAT significantly outperforms the state-of-the-art algorithms, particularly in scenarios with high attack complexity and when the number of attack edges increases. Our approach shows robust performance across different network models and sizes, even as the detection task becomes more challenging. We successfully applied the model to a real-world Twitter graph with more than 269k nodes and 6.8M edges. The flexibility and generalizability of SYBILGAT make it a promising tool to defend against Sybil attacks in online social networks with only structural information.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# アナログニューラルネットワークのロバスト性の向上:説明可能な正規化を用いたノイズ非依存アプローチ

Improving Analog Neural Network Robustness: A Noise-Agnostic Approach with Explainable Regularizations ( http://arxiv.org/abs/2409.08633v1 )

ライセンス: Link先を確認
Alice Duque, Pedro Freire, Egor Manuylovich, Dmitrii Stoliarov, Jaroslaw Prilepsky, Sergei Turitsyn, (参考訳) この研究は、アナログ信号処理装置の進歩における大きな障害であるディープアナログニューラルネットワークにおける「ハードウェアノイズ」を緩和する重要な課題に取り組む。 本稿では、ディープニューラルネットワークの活性化層に影響を与える相関ノイズと非相関ノイズの両方に対処する、包括的でハードウェアに依存しないソリューションを提案する。 我々のアプローチの斬新さは、ノイズに対する感受性を低下させる基盤となるメカニズムを明らかにすることによって、ノイズ耐性ネットワークの「ブラックボックス」の性質をデミストする能力にある。 そこで我々は,これらのメカニズムを活用して,ディープラーニングアーキテクチャにおける雑音の堅牢性を大幅に向上する,説明可能な新たな正規化フレームワークを提案する。

This work tackles the critical challenge of mitigating "hardware noise" in deep analog neural networks, a major obstacle in advancing analog signal processing devices. We propose a comprehensive, hardware-agnostic solution to address both correlated and uncorrelated noise affecting the activation layers of deep neural models. The novelty of our approach lies in its ability to demystify the "black box" nature of noise-resilient networks by revealing the underlying mechanisms that reduce sensitivity to noise. In doing so, we introduce a new explainable regularization framework that harnesses these mechanisms to significantly enhance noise robustness in deep neural architectures.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# 時系列分類におけるプライバシ保護アルゴリズム選択のためのデータフィンガープリントの利用:未確認データセットの性能と不確かさ推定

Utilizing Data Fingerprints for Privacy-Preserving Algorithm Selection in Time Series Classification: Performance and Uncertainty Estimation on Unseen Datasets ( http://arxiv.org/abs/2409.08636v1 )

ライセンス: Link先を確認
Lars Böcking, Leopold Müller, Niklas Kühl, (参考訳) アルゴリズムの選択は、実世界の時系列分類ユースケースのためにAIサービスを設計する上で重要なステップである。 ニューラルネットワーク探索、自動機械学習、組み合わせアルゴリズムの選択、ハイパーパラメータ最適化といった従来の手法は効果的だが、膨大な計算資源が必要であり、最適化を実行するにはすべてのデータポイントにアクセスする必要がある。 本研究では,任意の時系列分類データセットをプライバシ保護方式で記述し,(目に見えない)データセットのトレーニングを必要とせずにアルゴリズム選択問題に対する洞察を提供する新しいデータ指紋を提案する。 マルチターゲット回帰問題を分解することにより、我々のデータフィンガープリントのみが、スケーラブルで適応可能な方法でアルゴリズムの性能と不確実性を推定するために使用される。 提案手法はカリフォルニア大学リバーサイドベンチマークデータセット112を用いて評価され,35の最先端アルゴリズムの性能予測と時系列分類サービスシステムにおける効果的なアルゴリズム選択のための有用な洞察の提供,平均性能推定における平均ベースラインの7.32%,不確実性推定における15.81%の改善を実証した。

The selection of algorithms is a crucial step in designing AI services for real-world time series classification use cases. Traditional methods such as neural architecture search, automated machine learning, combined algorithm selection, and hyperparameter optimizations are effective but require considerable computational resources and necessitate access to all data points to run their optimizations. In this work, we introduce a novel data fingerprint that describes any time series classification dataset in a privacy-preserving manner and provides insight into the algorithm selection problem without requiring training on the (unseen) dataset. By decomposing the multi-target regression problem, only our data fingerprints are used to estimate algorithm performance and uncertainty in a scalable and adaptable manner. Our approach is evaluated on the 112 University of California riverside benchmark datasets, demonstrating its effectiveness in predicting the performance of 35 state-of-the-art algorithms and providing valuable insights for effective algorithm selection in time series classification service systems, improving a naive baseline by 7.32% on average in estimating the mean performance and 15.81% in estimating the uncertainty.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# 圧縮モーメントフィルタによるビザンチン・ロバストとコミュニケーション効率の高い分散学習

Byzantine-Robust and Communication-Efficient Distributed Learning via Compressed Momentum Filtering ( http://arxiv.org/abs/2409.08640v1 )

ライセンス: Link先を確認
Changxin Liu, Yanghao Li, Yuhao Yi, Karl H. Johansson, (参考訳) 分散学習は、プライベートデータサイロにわたる大規模機械学習モデルをトレーニングするための標準アプローチとなっている。 分散学習はプライバシーの保護とトレーニングの効率を高めるが、ビザンティンの堅牢性とコミュニケーションの削減に関連する重要な課題に直面している。 既存のビザンチン・ロバストおよび通信効率のよい手法は、全ての反復または確率のある特定の反復において完全な勾配情報に依存しており、それらは解の周りの不要な大きな近傍に収束するだけである。 これらの課題に乗じて,バッチサイズに要件を課さず,既存のすべての方法よりも小さな近傍に収束し,理論的下界と整合する,ビザンチン・ロバスト・通信効率の高い確率的分散学習手法を提案する。 我々の重要な革新は、Polyak Momentumを利用してバイアス圧縮機と確率勾配の両方によるノイズを緩和し、情報圧縮の下でビザンチン労働者を防衛することである。 非凸な滑らかな損失関数の文脈におけるアルゴリズムの厳密な複雑性境界の証明を行い、これらの境界がビザンチン自由シナリオの下位境界と一致することを示す。 最後に,2値分類タスクと画像分類タスクの両方において,その性能をベンチマークすることで,アルゴリズムの実用的意義を検証した。

Distributed learning has become the standard approach for training large-scale machine learning models across private data silos. While distributed learning enhances privacy preservation and training efficiency, it faces critical challenges related to Byzantine robustness and communication reduction. Existing Byzantine-robust and communication-efficient methods rely on full gradient information either at every iteration or at certain iterations with a probability, and they only converge to an unnecessarily large neighborhood around the solution. Motivated by these issues, we propose a novel Byzantine-robust and communication-efficient stochastic distributed learning method that imposes no requirements on batch size and converges to a smaller neighborhood around the optimal solution than all existing methods, aligning with the theoretical lower bound. Our key innovation is leveraging Polyak Momentum to mitigate the noise caused by both biased compressors and stochastic gradients, thus defending against Byzantine workers under information compression. We provide proof of tight complexity bounds for our algorithm in the context of non-convex smooth loss functions, demonstrating that these bounds match the lower bounds in Byzantine-free scenarios. Finally, we validate the practical significance of our algorithm through an extensive series of experiments, benchmarking its performance on both binary classification and image classification tasks.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# スケジューリング問題におけるグリーンコンフィグレーションのためのアルゴリズムセレクタの開発

Developing an Algorithm Selector for Green Configuration in Scheduling Problems ( http://arxiv.org/abs/2409.08641v1 )

ライセンス: Link先を確認
Carlos March, Christian Perez, Miguel A. Salido, (参考訳) ジョブショップスケジューリング問題(JSP:Job Shop Scheduling Problem)は、主に環境と経済の深い影響によりエネルギー効率を最適化するオペレーション研究の中心である。 効率的なスケジューリングは生産指標を強化し、エネルギー消費を軽減し、生産性と持続可能性の目標を効果的にバランスさせる。 これらの課題に対処するために開発されたアルゴリズムの配列とともに、JSPインスタンスの複雑で多様な性質を考えると、インテリジェントなアルゴリズム選択ツールが最重要である。 本稿では,その複雑性を特徴付ける重要な問題の特徴を識別し,適切なアルゴリズムの選択を導くフレームワークを提案する。 機械学習技術、特にXGBoostを利用するこのフレームワークは、効率的なJSPスケジューリングのために、GUROBI、CPLEX、GECODEなどの最適解法を推奨している。 GUROBIは小さなインスタンスに優れており、GECODEは複雑なシナリオに対して堅牢なスケーラビリティを示している。 提案アルゴリズムセレクタは,新しいJSPインスタンスを解くための最適なアルゴリズムを推奨し,アルゴリズム選択の有効性を強調した84.51\%の精度を実現する。 本フレームワークは, 特徴抽出手法を改良することにより, 多様なJSPシナリオに適用可能性を広げ, 製造物流の効率化と持続可能性を高めることを目的としている。

The Job Shop Scheduling Problem (JSP) is central to operations research, primarily optimizing energy efficiency due to its profound environmental and economic implications. Efficient scheduling enhances production metrics and mitigates energy consumption, thus effectively balancing productivity and sustainability objectives. Given the intricate and diverse nature of JSP instances, along with the array of algorithms developed to tackle these challenges, an intelligent algorithm selection tool becomes paramount. This paper introduces a framework designed to identify key problem features that characterize its complexity and guide the selection of suitable algorithms. Leveraging machine learning techniques, particularly XGBoost, the framework recommends optimal solvers such as GUROBI, CPLEX, and GECODE for efficient JSP scheduling. GUROBI excels with smaller instances, while GECODE demonstrates robust scalability for complex scenarios. The proposed algorithm selector achieves an accuracy of 84.51\% in recommending the best algorithm for solving new JSP instances, highlighting its efficacy in algorithm selection. By refining feature extraction methodologies, the framework aims to broaden its applicability across diverse JSP scenarios, thereby advancing efficiency and sustainability in manufacturing logistics.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# CPL:批判的計画段階の学習は、推論タスクにおけるLLMの一般化を促進する

CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks ( http://arxiv.org/abs/2409.08642v1 )

ライセンス: Link先を確認
Tianlong Wang, Xueting Han, Jing Bai, (参考訳) 推論能力を開発するための学習後の大規模言語モデル(LLM)は、数学的推論やコード生成など、様々な領域で有効であることが証明されている。 しかし、既存の手法は主にタスク固有の推論を改善することに重点を置いているが、広範囲の推論タスクにわたってモデルの一般化能力に適切に対処していない。 この課題に対処するために,モンテカルロ木探索(MCTS)を活用し,多段階推論タスクにおける多様な計画ステップを探索するクリティカルプランニングステップ学習(CPL)を紹介した。 長期的な結果に基づいて、CPLは、モデルの計画能力を改善し、その結果、一般的な推論能力を向上させるために、ステップレベルの計画の好みを学ぶ。 さらに、LLMの整合性に多くのシナリオにおいて有効であるが、DPO(Direct Preference Optimization)のような既存の選好学習アプローチは、各ステップできめ細かい監督を捉えることができないため、複雑な多段階推論タスクに苦慮している。 本稿では,MCTSを介して得られるステップレベルの選好ペアの利点推定をDPOに組み込むステップレベルアドバンテージ選好最適化(Step-APO)を提案する。 これにより、モデルが重要な中間計画ステップをより効果的に学習し、推論タスクにおける一般化をさらに改善することができる。 GSM8K(+10.5%),MATH(+6.5%),ARC-C(+4.0%),BBH(+1.8%),MMLU-STEM(+2.2%),MMLU(+0.9%),などの領域外推論ベンチマークも向上した。

Post-training large language models (LLMs) to develop reasoning capabilities has proven effective across diverse domains, such as mathematical reasoning and code generation. However, existing methods primarily focus on improving task-specific reasoning but have not adequately addressed the model's generalization capabilities across a broader range of reasoning tasks. To tackle this challenge, we introduce Critical Planning Step Learning (CPL), which leverages Monte Carlo Tree Search (MCTS) to explore diverse planning steps in multi-step reasoning tasks. Based on long-term outcomes, CPL learns step-level planning preferences to improve the model's planning capabilities and, consequently, its general reasoning capabilities. Furthermore, while effective in many scenarios for aligning LLMs, existing preference learning approaches like Direct Preference Optimization (DPO) struggle with complex multi-step reasoning tasks due to their inability to capture fine-grained supervision at each step. We propose Step-level Advantage Preference Optimization (Step-APO), which integrates an advantage estimate for step-level preference pairs obtained via MCTS into the DPO. This enables the model to more effectively learn critical intermediate planning steps, thereby further improving its generalization in reasoning tasks. Experimental results demonstrate that our method, trained exclusively on GSM8K and MATH, not only significantly improves performance on GSM8K (+10.5%) and MATH (+6.5%), but also enhances out-of-domain reasoning benchmarks, such as ARC-C (+4.0%), BBH (+1.8%), MMLU-STEM (+2.2%), and MMLU (+0.9%).
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# 分類作業のためのラベルノイズを含む接尾辞データを用いた学習勾配強化決定木

Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks ( http://arxiv.org/abs/2409.08647v1 )

ライセンス: Link先を確認
Anita Eisenbürger, Daniel Otten, Anselm Hudde, Frank Hopfgartner, (参考訳) ラベルノイズとは、データセットのインスタンスが間違ったラベルに割り当てられる現象を指す。 ラベルノイズは分類器の性能に有害であり、モデルの複雑さを高め、特徴選択を損なう。 ラベルノイズに対処することが重要であるが、現在の研究は主にディープニューラルネットワークを用いた画像とテキストデータに焦点を当てている。 このことは、表データの先行アルゴリズムである表型データと勾配型決定木(GBDT)の研究にギャップを残している。 ラベルノイズが存在する場合でも学習アルゴリズムを学習しながら、ラベルノイズ、モデルラベルノイズをフィルタリングする様々な手法がすでに開発されている。 本研究は,ラベルノイズが勾配型決定木に及ぼす影響とそれらの効果を緩和する方法について,さらに検討することを目的とする。 提案手法は,アダルトデータセット上での最先端ノイズ検出性能を実証し,アダルトデータセットと乳がんデータセットの最も高い分類精度とリコールを実現する。 本稿では,GBDTにおけるラベルノイズの影響の理解を深め,ノイズ検出・補正手法の今後の研究の基盤となるものについて述べる。

Label noise refers to the phenomenon where instances in a data set are assigned to the wrong label. Label noise is harmful to classifier performance, increases model complexity and impairs feature selection. Addressing label noise is crucial, yet current research primarily focuses on image and text data using deep neural networks. This leaves a gap in the study of tabular data and gradient-boosted decision trees (GBDTs), the leading algorithm for tabular data. Different methods have already been developed which either try to filter label noise, model label noise while simultaneously training a classifier or use learning algorithms which remain effective even if label noise is present. This study aims to further investigate the effects of label noise on gradient-boosted decision trees and methods to mitigate those effects. Through comprehensive experiments and analysis, the implemented methods demonstrate state-of-the-art noise detection performance on the Adult dataset and achieve the highest classification precision and recall on the Adult and Breast Cancer datasets, respectively. In summary, this paper enhances the understanding of the impact of label noise on GBDTs and lays the groundwork for future research in noise detection and correction methods.
翻訳日:2024-09-16 17:18:35 公開日:2024-09-13
# SkinFormer: 皮膚病変セグメンテーションのための変換器を用いた統計的テクスチャ表現の学習

SkinFormer: Learning Statistical Texture Representation with Transformer for Skin Lesion Segmentation ( http://arxiv.org/abs/2409.08652v1 )

ライセンス: Link先を確認
Rongtao Xu, Changwei Wang, Jiguang Zhang, Shibiao Xu, Weiliang Meng, Xiaopeng Zhang, (参考訳) 皮膚内視鏡像からの皮膚病変の正確な分画は,皮膚癌診断において極めて重要である。 しかし,メラノーマの自動セグメンテーションは有用なテクスチャ表現を学習プロセスに組み込むのが難しいため,依然として難しい課題である。 テクスチャ表現は、CNNが学習した局所構造情報だけでなく、入力画像のグローバルな統計テクスチャ情報も含んでいる。 本稿では, 統計的テクスチャ表現を効率的に抽出し, 融合する Trans\textbf{Former} ネットワーク (\textbf{SkinFormer}) を提案する。 具体的には、入力特徴の統計的テクスチャを定量化するために、クルトーシス誘導統計計数演算子を設計する。 我々は,この変換器のグローバルアテンション機構を利用して,クルトーシス誘導型統計計数演算子の助けを借りて,統計テクスチュアフュージョン変換器と統計テクスチュアエンハンス変換器を提案する。 前者は構造的テクスチャ情報と統計的テクスチャ情報を融合し、後者はマルチスケール特徴の統計的テクスチャを強化する。 2) SkinFormerが他のSOATメソッドよりも優れており,本手法はISIC 2018で93.2\%のDiceスコアを達成している。 将来、SkinFormerを3Dイメージのセグメントに拡張するのは簡単です。 私たちのコードはhttps://github.com/Rongtao-Xu/SkinFormer.comで利用可能です。

Accurate skin lesion segmentation from dermoscopic images is of great importance for skin cancer diagnosis. However, automatic segmentation of melanoma remains a challenging task because it is difficult to incorporate useful texture representations into the learning process. Texture representations are not only related to the local structural information learned by CNN, but also include the global statistical texture information of the input image. In this paper, we propose a trans\textbf{Former} network (\textbf{SkinFormer}) that efficiently extracts and fuses statistical texture representation for \textbf{Skin} lesion segmentation. Specifically, to quantify the statistical texture of input features, a Kurtosis-guided Statistical Counting Operator is designed. We propose Statistical Texture Fusion Transformer and Statistical Texture Enhance Transformer with the help of Kurtosis-guided Statistical Counting Operator by utilizing the transformer's global attention mechanism. The former fuses structural texture information and statistical texture information, and the latter enhances the statistical texture of multi-scale features. {Extensive experiments on three publicly available skin lesion datasets validate that our SkinFormer outperforms other SOAT methods, and our method achieves 93.2\% Dice score on ISIC 2018. It can be easy to extend SkinFormer to segment 3D images in the future.} Our code is available at https://github.com/Rongtao-Xu/SkinFormer.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# デジタルパウンドと商業銀行マネーをまたがる相互運用・資金運用のための支払いユースケースと設計オプション

Payments Use Cases and Design Options for Interoperability and Funds Locking across Digital Pounds and Commercial Bank Money ( http://arxiv.org/abs/2409.08653v1 )

ライセンス: Link先を確認
Lee Braine, Shreepad Shukla, Piyush Agrawal, Shrirang Khedekar, Aishwarya Nair, (参考訳) 中央銀行は英中央銀行のデジタル通貨(CBDC)を積極的に検討しており、イングランド銀行は現在、英国の小売CBDC(デジタルポンド)の設計段階にある。 先程の論文では,機能的整合性(異なる形態の資金が同じ運用特性を持つという原則)という重要な概念を定義し,重要な機能セットに基づいて,デジタルポンドおよび商業銀行マネー間の機能的整合性をサポートする設計オプションの評価を行った。 本稿では,機能整合性をサポートするための設計オプションを引き続き分析し,詳細な分析を行うために,デジタルポンドエコシステム参加者間のコミュニケーション,資金ロック,デジタルポンドおよび商業銀行マネー間の相互運用という,3つの重要な機能に注目した。 個人間プッシュ支払い、商人主導の支払い要求、資金のロックと物理的配送の支払いという3つのユースケースを通じて、これらの重要な機能を探求する。 次に、各ユースケースに特有の機能を提供し、初期洞察を引き出すために、設計オプションの適合性を提示し、評価します。 具体的機能を備えた金融市場インフラ(FMI)は、エコシステム参加者の体験を簡素化し、イングランド銀行とデジタルポンド決済インターフェースプロバイダ(PIP)の両方の運用プラットフォームを簡素化し、革新的なサービスの構築を促進することができると結論付けている。 また、次のステップも特定します。

Central banks are actively exploring retail central bank digital currencies (CBDCs), with the Bank of England currently in the design phase for a potential UK retail CBDC, the digital pound. In a previous paper, we defined and explored the important concept of functional consistency (which is the principle that different forms of money have the same operational characteristics) and evaluated design options to support functional consistency across digital pounds and commercial bank money, based on a set of key capabilities. In this paper, we continue to analyse the design options for supporting functional consistency and, in order to perform a detailed analysis, we focus on three key capabilities: communication between digital pound ecosystem participants, funds locking, and interoperability across digital pounds and commercial bank money. We explore these key capabilities via three payments use cases: person-to-person push payment, merchant-initiated request to pay, and lock funds and pay on physical delivery. We then present and evaluate the suitability of design options to provide the specific capabilities for each use case and draw initial insights. We conclude that a financial market infrastructure (FMI) providing specific capabilities could simplify the experience of ecosystem participants, simplify the operating platforms for both the Bank of England and digital pound Payment Interface Providers (PIPs), and facilitate the creation of innovative services. We also identify potential next steps.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# LMAC-TD:音声分類のための時間領域記述法

LMAC-TD: Producing Time Domain Explanations for Audio Classifiers ( http://arxiv.org/abs/2409.08655v1 )

ライセンス: Link先を確認
Eleonora Mancini, Francesco Paissan, Mirco Ravanelli, Cem Subakan, (参考訳) ニューラルネットワークは通常、その決定機構に関して不透明なままであるブラックボックスである。 文学におけるいくつかの研究は、この問題を緩和するためのポストホックな説明法を提案している。 本稿では,デコーダの時間領域における説明を直接生成するよう訓練するポストホックな説明法であるLMAC-TDを提案する。 この方法論は、忠実で聞きやすい説明を生成するL-MAC, Listenable Maps for Audio Classifiersの基盤となっている。 我々は、人気のあるトランスフォーマーベースの時間領域ソース分離アーキテクチャであるSepFormerを組み込んだ。 我々は,LMAC-TDが忠実さを犠牲にすることなく,生成した説明の質を著しく向上させることを示す。

Neural networks are typically black-boxes that remain opaque with regards to their decision mechanisms. Several works in the literature have proposed post-hoc explanation methods to alleviate this issue. This paper proposes LMAC-TD, a post-hoc explanation method that trains a decoder to produce explanations directly in the time domain. This methodology builds upon the foundation of L-MAC, Listenable Maps for Audio Classifiers, a method that produces faithful and listenable explanations. We incorporate SepFormer, a popular transformer-based time-domain source separation architecture. We show through a user study that LMAC-TD significantly improves the audio quality of the produced explanations while not sacrificing from faithfulness.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# グラフ強化によるリンク予測の公平性向上

Promoting Fairness in Link Prediction with Graph Enhancement ( http://arxiv.org/abs/2409.08658v1 )

ライセンス: Link先を確認
Yezi Liu, Hanning Chen, Mohsen Imani, (参考訳) リンク予測はネットワーク分析において重要な課題であるが、特に異なるセンシティブなグループのノード間でリンクが不公平に予測される場合、バイアス付き予測に傾向があることが示されている。 本稿では,予測されたリンク確率が接続ノードの感度特性に依存しないことを保証することを目的とした,フェアリンク予測問題について検討する。 既存の手法では、この問題を緩和するために、グラフ埋め込みにデバイアス技術が組み込まれているのが一般的である。 しかし、大規模な実世界のグラフのトレーニングは、すでに困難であり、公正性の制約を加えると、さらにプロセスが複雑になる可能性がある。 この課題を解決するために,FairLinkを提案する。このFairLinkは,リンク予測器のトレーニング中にデバイアスを回避し,公平性向上したグラフを学習する手法である。 FairLinkは、拡張グラフが元の入力グラフと同様の訓練軌跡に従うことを保証することにより、リンク予測の精度を維持する。 一方、同一感度群内のノードペアと異なる感度群からのノードペア間のリンク確率の絶対差を最小化することにより、公正性を高める。 複数の大規模グラフに対する広範な実験により、FairLinkは公正性を促進できるだけでなく、ベースライン法に匹敵するリンク予測精度も達成できることが示された。 最も重要なことは、拡張グラフは異なるGNNアーキテクチャ間で強い一般化性を示すことである。

Link prediction is a crucial task in network analysis, but it has been shown to be prone to biased predictions, particularly when links are unfairly predicted between nodes from different sensitive groups. In this paper, we study the fair link prediction problem, which aims to ensure that the predicted link probability is independent of the sensitive attributes of the connected nodes. Existing methods typically incorporate debiasing techniques within graph embeddings to mitigate this issue. However, training on large real-world graphs is already challenging, and adding fairness constraints can further complicate the process. To overcome this challenge, we propose FairLink, a method that learns a fairness-enhanced graph to bypass the need for debiasing during the link predictor's training. FairLink maintains link prediction accuracy by ensuring that the enhanced graph follows a training trajectory similar to that of the original input graph. Meanwhile, it enhances fairness by minimizing the absolute difference in link probabilities between node pairs within the same sensitive group and those between node pairs from different sensitive groups. Our extensive experiments on multiple large-scale graphs demonstrate that FairLink not only promotes fairness but also often achieves link prediction accuracy comparable to baseline methods. Most importantly, the enhanced graph exhibits strong generalizability across different GNN architectures.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# グラフの拡張に関するオンライン学習

Online Learning Of Expanding Graphs ( http://arxiv.org/abs/2409.08660v1 )

ライセンス: Link先を確認
Samuel Rey, Bishwadeep Das, Elvin Isufi, (参考訳) 本稿では,時空間信号ストリームからグラフを拡張するためのオンラインネットワークトポロジ推論の問題に対処する。 動的グラフ学習のためのオンラインアルゴリズムは、遅延に敏感なアプリケーションやトポロジの変化が急速に起こる場合に重要である。 既存の作業では、固定されたノードセット内の接続性の推定に重点を置いているが、実際には、新しいノードがネットワークに加わるにつれてグラフが成長する可能性がある。 これは、異なる大きさの信号とグラフを含む時間的ダイナミクスをモデル化するなど、さらなる課題を引き起こす。 この成長はまた、学習プロセスの計算複雑性を増大させ、それが禁止される可能性がある。 私たちの知る限りでは、この設定に対処する最初の作業です。 本稿では,各反復におけるグラフサイズの増加を考慮に入れた,予測近位勾配勾配に基づく一般的なオンラインアルゴリズムを提案する。 サンプル共分散行列を逐次更新することが,我々のアプローチの重要な側面である。 ネットワークに加入したばかりのノードや,それまでのノードに対して,さまざまなタイプの更新を可能にする戦略を導入する。 提案手法のさらなる洞察を得るために,我々はガウスマルコフ確率場設定を専門とし,計算複雑性を分析し,動的累積後悔を特徴づける。 最後に,疫病や金融ネットワークから得られた実世界のデータセットと制御実験を用いて,提案手法の有効性を実証する。

This paper addresses the problem of online network topology inference for expanding graphs from a stream of spatiotemporal signals. Online algorithms for dynamic graph learning are crucial in delay-sensitive applications or when changes in topology occur rapidly. While existing works focus on inferring the connectivity within a fixed set of nodes, in practice, the graph can grow as new nodes join the network. This poses additional challenges like modeling temporal dynamics involving signals and graphs of different sizes. This growth also increases the computational complexity of the learning process, which may become prohibitive. To the best of our knowledge, this is the first work to tackle this setting. We propose a general online algorithm based on projected proximal gradient descent that accounts for the increasing graph size at each iteration. Recursively updating the sample covariance matrix is a key aspect of our approach. We introduce a strategy that enables different types of updates for nodes that just joined the network and for previously existing nodes. To provide further insights into the proposed method, we specialize it in Gaussian Markov random field settings, where we analyze the computational complexity and characterize the dynamic cumulative regret. Finally, we demonstrate the effectiveness of the proposed approach using both controlled experiments and real-world datasets from epidemic and financial networks.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# 韻律モデリングのための音素レベル音声コーデックにおけるゆがみの検討

Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling ( http://arxiv.org/abs/2409.08664v1 )

ライセンス: Link先を確認
Sotirios Karapiperis, Nikolaos Ellinas, Alexandra Vioni, Junkwang Oh, Gunu Jho, Inchul Hwang, Spyros Raptis, (参考訳) 音声韻律モデリングにおける一般的なアプローチのほとんどは、参照音声の属性を符号化し転送する連続潜在空間におけるグローバルなスタイル表現の学習に依存している。 しかし、Residual Vector Quantization(RVQ)をベースとしたニューラルコーデックに関する最近の研究は、すでに大きな可能性を示している。 本研究では,このようなRVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの動作に改良を加えた。 言語表現におけるモデルのエンコーダとデコーダの両方を条件にし,グローバルな話者埋め込みを適用し,音声情報と話者情報の両方を分解する。 この方法で得られた音素レベルの離散潜在表現が,頑健かつ伝達可能な微細な韻律情報を収集し,高度に絡み合うことができることを示すために,主観的な実験と客観的な尺度に基づく広範な調査を行う。 潜在空間は、その主成分がピッチとエネルギーに対応する解釈可能な構造を持つことが判明した。

Most of the prevalent approaches in speech prosody modeling rely on learning global style representations in a continuous latent space which encode and transfer the attributes of reference speech. However, recent work on neural codecs which are based on Residual Vector Quantization (RVQ) already shows great potential offering distinct advantages. We investigate the prosody modeling capabilities of the discrete space of such an RVQ-VAE model, modifying it to operate on the phoneme-level. We condition both the encoder and decoder of the model on linguistic representations and apply a global speaker embedding in order to factor out both phonetic and speaker information. We conduct an extensive set of investigations based on subjective experiments and objective measures to show that the phoneme-level discrete latent representations obtained this way achieves a high degree of disentanglement, capturing fine-grained prosodic information that is robust and transferable. The latent space turns out to have interpretable structure with its principal components corresponding to pitch and energy.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# 航空における認証AIを目指して--ランドスケープ、チャレンジ、チャンス

Towards certifiable AI in aviation: landscape, challenges, and opportunities ( http://arxiv.org/abs/2409.08666v1 )

ライセンス: Link先を確認
Hymalai Bello, Daniel Geißler, Lala Ray, Stefan Müller-Divéky, Peter Müller, Shannon Kittrell, Mengxi Liu, Bo Zhou, Paul Lukowicz, (参考訳) 人工知能(AI)メソッドは、アビオニクスなどの重要な分野を含む、さまざまな分野の強力なツールである。 安全クリティカルシステムに対する一般的な解決策は、3つの主要な問題に対処する必要がある。 システムの決定を駆動する要因は何か? エラーや攻撃に対して堅牢か? これは従来の方法よりもAIにおいて複雑です。 本稿では,アビオニクスにおける形式的AI認証の総合的なマインドマップを提案する。 パフォーマンス指標を超えた資格の必要性を強調する例として、AI開発を認定する上での課題を強調している。

Artificial Intelligence (AI) methods are powerful tools for various domains, including critical fields such as avionics, where certification is required to achieve and maintain an acceptable level of safety. General solutions for safety-critical systems must address three main questions: Is it suitable? What drives the system's decisions? Is it robust to errors/attacks? This is more complex in AI than in traditional methods. In this context, this paper presents a comprehensive mind map of formal AI certification in avionics. It highlights the challenges of certifying AI development with an example to emphasize the need for qualification beyond performance metrics.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# ハイパースペクトル画像超解像のための試験時間トレーニング

Test-time Training for Hyperspectral Image Super-resolution ( http://arxiv.org/abs/2409.08667v1 )

ライセンス: Link先を確認
Ke Li, Luc Van Gool, Dengxin Dai, (参考訳) ハイパースペクトル画像(HSI)超解像(SR)の進歩は、RGB画像SRの研究に遅れを取っている。 HSIは通常、多くのスペクトルバンドを持つため、HSI SRのスペクトルバンド相互作用を正確にモデル化するのは困難である。 また、HSI SRのトレーニングデータを得るのは難しいため、データセットは通常かなり小さい。 本研究では,この問題に対処するための新しいテストタイムトレーニング手法を提案する。 具体的には、より正確な擬似ラベルとより正確なLR-HR関係を生成できる新しい自己学習フレームワークを開発した。 また,テスト時の学習方法を改善するために,スペクトル帯域間相互作用をモデル化せずにHSI SRを学習するための新しいネットワークアーキテクチャを提案し,テスト時のトレーニングデータの多様性を高めるために,新しいデータ拡張手法であるSpectral Mixupを提案する。 また、食品、植生、材料、一般的な場面など、興味深い対象の多様な画像を含む新しいHSIデータセットも収集する。 複数のデータセットに対する大規模な実験により,テスト時間トレーニング後の事前学習モデルの性能は有意に向上し,HSI SRでは競合手法よりも優れていた。

The progress on Hyperspectral image (HSI) super-resolution (SR) is still lagging behind the research of RGB image SR. HSIs usually have a high number of spectral bands, so accurately modeling spectral band interaction for HSI SR is hard. Also, training data for HSI SR is hard to obtain so the dataset is usually rather small. In this work, we propose a new test-time training method to tackle this problem. Specifically, a novel self-training framework is developed, where more accurate pseudo-labels and more accurate LR-HR relationships are generated so that the model can be further trained with them to improve performance. In order to better support our test-time training method, we also propose a new network architecture to learn HSI SR without modeling spectral band interaction and propose a new data augmentation method Spectral Mixup to increase the diversity of the training data at test time. We also collect a new HSI dataset with a diverse set of images of interesting objects ranging from food to vegetation, to materials, and to general scenes. Extensive experiments on multiple datasets show that our method can improve the performance of pre-trained models significantly after test-time training and outperform competing methods significantly for HSI SR.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# AdR-Gaussian:Adaptive Radiusによるガウス切削の高速化

AdR-Gaussian: Accelerating Gaussian Splatting with Adaptive Radius ( http://arxiv.org/abs/2409.08669v1 )

ライセンス: Link先を確認
Xinzhe Wang, Ran Yi, Lizhuang Ma, (参考訳) 3D Gaussian Splatting (3DGS)は、複雑なシーンの高品質な再構成とリアルタイムレンダリングを実現した、最近の明示的な3D表現である。 しかしながら、ラスタライゼーションパイプラインは、回避可能な連続ガウスカリングによる不要なオーバーヘッドと、画素間でレンダリングされるガウスの差による不均一な負荷に悩まされており、3DGSの普及と適用を妨げている。 ガウス分割を高速化するために,Render 段階のシリアルカリングの一部を先行処理段階に移行して並列カリングを実現する AdR-Gaussian を提案し,各ガウスのレンダリング画素範囲を狭めるために適応半径を用い,画素並列レンダリング中のスレッド待ち時間を最小化するロードバランシング手法を提案する。 私たちのコントリビューションは3倍で、レンダリング速度は310%で、最先端技術よりも同等かそれ以上品質を維持しています。 まず,ガウス-並列前処理段階における適応半径に基づいて,ガウス-タイル対の低スプレイト不透明度を早期に除去することを提案する。 次に,2次元方向のガウスサイズを正確に計算することにより,非効率なコスト削減を実現するガウススプラッティングの軸方向境界ボックスに基づく早期カリングを提案する。 第3に,スレッド待ち時間を削減するために重負荷画素の情報を圧縮し,レンダリング品質の低下に対して重負荷画素の情報をヘッジする画素スレッドロードのバランシングアルゴリズムを提案する。 3つのデータセットの実験により、我々のアルゴリズムはガウススプラッティングのレンダリング速度を大幅に改善できることを示した。

3D Gaussian Splatting (3DGS) is a recent explicit 3D representation that has achieved high-quality reconstruction and real-time rendering of complex scenes. However, the rasterization pipeline still suffers from unnecessary overhead resulting from avoidable serial Gaussian culling, and uneven load due to the distinct number of Gaussian to be rendered across pixels, which hinders wider promotion and application of 3DGS. In order to accelerate Gaussian splatting, we propose AdR-Gaussian, which moves part of serial culling in Render stage into the earlier Preprocess stage to enable parallel culling, employing adaptive radius to narrow the rendering pixel range for each Gaussian, and introduces a load balancing method to minimize thread waiting time during the pixel-parallel rendering. Our contributions are threefold, achieving a rendering speed of 310% while maintaining equivalent or even better quality than the state-of-the-art. Firstly, we propose to early cull Gaussian-Tile pairs of low splatting opacity based on an adaptive radius in the Gaussian-parallel Preprocess stage, which reduces the number of affected tile through the Gaussian bounding circle, thus reducing unnecessary overhead and achieving faster rendering speed. Secondly, we further propose early culling based on axis-aligned bounding box for Gaussian splatting, which achieves a more significant reduction in ineffective expenses by accurately calculating the Gaussian size in the 2D directions. Thirdly, we propose a balancing algorithm for pixel thread load, which compresses the information of heavy-load pixels to reduce thread waiting time, and enhance information of light-load pixels to hedge against rendering quality loss. Experiments on three datasets demonstrate that our algorithm can significantly improve the Gaussian Splatting rendering speed.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# 階層的コントラスト学習による個体の音響的識別

Acoustic identification of individual animals with hierarchical contrastive learning ( http://arxiv.org/abs/2409.08673v1 )

ライセンス: Link先を確認
Ines Nolasco, Ilyass Moummad, Dan Stowell, Emmanouil Benetos, (参考訳) 個々の動物(AIID)の音響的識別は、音声に基づく種分類と密接に関連しているが、同一種内の個々の動物を識別するためには、より詳細なレベルでの識別が必要である。 本研究では,AIIDを階層的多ラベル分類タスクとして捉え,分類学と分類学の階層的関係を維持する個々のアイデンティティの堅牢な表現を学習するための階層型認識損失関数の利用を提案する。 その結果,階層的な埋め込みは個々のレベルでの識別精度を高めるだけでなく,より高い分類レベルでも向上し,学習表現における階層構造を効果的に保存することを示した。 このアプローチを非階層モデルと比較することにより、埋め込み空間においてこの構造を強制する利点を浮き彫りにする。 さらに、オープンセット分類シナリオにおいて、新しい個別クラスの分類に評価を拡張し、本手法の可能性を実証する。

Acoustic identification of individual animals (AIID) is closely related to audio-based species classification but requires a finer level of detail to distinguish between individual animals within the same species. In this work, we frame AIID as a hierarchical multi-label classification task and propose the use of hierarchy-aware loss functions to learn robust representations of individual identities that maintain the hierarchical relationships among species and taxa. Our results demonstrate that hierarchical embeddings not only enhance identification accuracy at the individual level but also at higher taxonomic levels, effectively preserving the hierarchical structure in the learned representations. By comparing our approach with non-hierarchical models, we highlight the advantage of enforcing this structure in the embedding space. Additionally, we extend the evaluation to the classification of novel individual classes, demonstrating the potential of our method in open-set classification scenarios.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# グラフフィルタに基づくGNNの再設計によるホモフィリー仮定の緩和

Redesigning graph filter-based GNNs to relax the homophily assumption ( http://arxiv.org/abs/2409.08676v1 )

ライセンス: Link先を確認
Samuel Rey, Madeline Navarro, Victor M. Tenorio, Santiago Segarra, Antonio G. Marques, (参考訳) グラフニューラルネットワーク(GNN)は、不規則領域上で定義されたデータから学習するためのワークホースアプローチとなり、典型的には、データ構造がホモフィルグラフによって表現されていることを暗黙的に仮定する。 しかし、近年の研究では、GNNの性能が著しく損なわれるヘテロ親和性のあるデータを含む多くの関連アプリケーションが明らかにされている。 この課題に対処するために、ホモフィリー仮定の限界を軽減するために設計された、シンプルで効果的なアーキテクチャを提案する。 提案アーキテクチャは、畳み込みGNNにおけるグラフフィルタの役割を再解釈し、フィルタバンクに基づくGNNよりも強い帰納バイアスを取り入れつつ、より一般的なアーキテクチャを実現する。 提案した畳み込み層はアーキテクチャの表現能力を高め、同好性データと異好性データの両方から学習し、過密化の問題を防止できる。 理論的観点から、提案したアーキテクチャは置換同変であることを示す。 最後に、提案したGNNは、同好性データセットと異好性データセットの両方において、最先端のベースラインを好適に比較し、その有望な可能性を示すことを示す。

Graph neural networks (GNNs) have become a workhorse approach for learning from data defined over irregular domains, typically by implicitly assuming that the data structure is represented by a homophilic graph. However, recent works have revealed that many relevant applications involve heterophilic data where the performance of GNNs can be notably compromised. To address this challenge, we present a simple yet effective architecture designed to mitigate the limitations of the homophily assumption. The proposed architecture reinterprets the role of graph filters in convolutional GNNs, resulting in a more general architecture while incorporating a stronger inductive bias than GNNs based on filter banks. The proposed convolutional layer enhances the expressive capacity of the architecture enabling it to learn from both homophilic and heterophilic data and preventing the issue of oversmoothing. From a theoretical standpoint, we show that the proposed architecture is permutation equivariant. Finally, we show that the proposed GNNs compares favorably relative to several state-of-the-art baselines in both homophilic and heterophilic datasets, showcasing its promising potential.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# 微分可能計画を用いたシャドウプログラムインバージョン:統一型ロボットプログラムパラメータと軌道最適化のためのフレームワーク

Shadow Program Inversion with Differentiable Planning: A Framework for Unified Robot Program Parameter and Trajectory Optimization ( http://arxiv.org/abs/2409.08678v1 )

ライセンス: Link先を確認
Benjamin Alt, Claudius Kienle, Darko Katic, Rainer Jäkel, Michael Beetz, (参考訳) 本稿では,ロボットプログラムを高レベルなタスク目標と動作レベルの制約の両方に対して最適化可能な,新しい一階オプティマイザであるSPI-DPを提案する。 そこで,直列N-DoFキネマティクスのための微分自由衝突運動プランナであるDGPMP2-NDを導入する。 SPI-DPは、計画された軌道とプログラムパラメータを、eg衝突の制約を受けるサイクル時間や滑らかさなどの目的に対して一階の最適化が可能であると同時に、人間が最適化されたプログラムを理解したり、修正したり、認定したりすることができる。 我々は,2つの実用的・産業的応用に関する総合的な評価を行う。

This paper presents SPI-DP, a novel first-order optimizer capable of optimizing robot programs with respect to both high-level task objectives and motion-level constraints. To that end, we introduce DGPMP2-ND, a differentiable collision-free motion planner for serial N-DoF kinematics, and integrate it into an iterative, gradient-based optimization approach for generic, parameterized robot program representations. SPI-DP allows first-order optimization of planned trajectories and program parameters with respect to objectives such as cycle time or smoothness subject to e.g. collision constraints, while enabling humans to understand, modify or even certify the optimized programs. We provide a comprehensive evaluation on two practical household and industrial applications.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# NEST-RQ: 自己監督型事前学習のための次のトークン予測

NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training ( http://arxiv.org/abs/2409.08680v1 )

ライセンス: Link先を確認
Minglun Han, Ye Bai, Chen Shen, Youjia Huang, Mingkun Huang, Zehua Lin, Linhao Dong, Lu Lu, Yuxuan Wang, (参考訳) 音声による事前学習は、下流タスクの性能を効果的に向上させることができる。 しかし、HuBERTやBEST-RQといった従来の音声の自己教師付き学習(SSL)手法は、双方向コンテキストの非因果エンコーダの利用に重点を置いており、ダウンストリームストリーミングモデルに対する十分なサポートを欠いている。 この問題に対処するために、ランダム投影量化器(NEST-RQ)を用いた次のトークン予測に基づく事前学習手法を提案する。 NEST-RQでは、左コンテキストのみの因果エンコーダを採用し、トレーニングタスクとして次のトークン予測(NTP)を使用している。 大規模データセットでは、BEST-RQと比較して、提案したNEST-RQは、非ストリーミング自動音声認識(ASR)における同等のパフォーマンスと、ストリーミングASRにおけるより良いパフォーマンスを達成する。 また,ストリーミングASRの今後のコンテキストサイズ,SSLのコードブック品質,エンコーダのモデルサイズについても分析実験を行った。 要約して,本論文は音声SSLにおけるNTPの実現可能性を示し,音声SSL研究の実証的証拠と知見を提供する。

Speech self-supervised pre-training can effectively improve the performance of downstream tasks. However, previous self-supervised learning (SSL) methods for speech, such as HuBERT and BEST-RQ, focus on utilizing non-causal encoders with bidirectional context, and lack sufficient support for downstream streaming models. To address this issue, we introduce the next token prediction based speech pre-training method with random-projection quantizer (NEST-RQ). NEST-RQ employs causal encoders with only left context and uses next token prediction (NTP) as the training task. On the large-scale dataset, compared to BEST-RQ, the proposed NEST-RQ achieves comparable performance on non-streaming automatic speech recognition (ASR) and better performance on streaming ASR. We also conduct analytical experiments in terms of the future context size of streaming ASR, the codebook quality of SSL and the model size of the encoder. In summary, the paper demonstrates the feasibility of the NTP in speech SSL and provides empirical evidence and insights for speech SSL research.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# anyon (複数形 anyons)

Time-domain braiding of anyons ( http://arxiv.org/abs/2409.08685v1 )

ライセンス: Link先を確認
Mélanie Ruelle, Elric Frigerio, Emmanuel Baudin, Jean-Marc Berroir, Bernard Plaçais, Benoit Grémaud, Thibaut Jonckheere, Thierry Martin, Jérôme Rech, Antonella Cavanna, Ulf Gennser, Yong Jin, Gerbold Ménard, Gwendal Fève, (参考訳) フェルミオンやボソンとは対照的に、任意の粒子は準粒子であり、ブレイディング相因子を介して粒子交換の堅牢な記憶を保持する。 これにより、これまでに探索されていないユニークな力学特性が提供される。 分数量子ホール(FQH)流体中の量子点接触(QPC)に対してエノン励起が放出されると、このメモリは、エノン励起がQPCを終了してから長い時間で発生するトンネル現象に変換される。 ここでは,QPC上で発生したエニオンパルスを$\nu=1/3$FQH流体を用いて時間領域内のエニオントンネルを解析する。 温度とエッジ状態の動的特性を特徴付けるエノンスケーリング次元によって設定されたトンネルの時間スケールが、ブレイディングによって増大するのを観察する。 これは、ブレイディングが欠如し、トンネリングの時間スケールが生成された電子パルスの時間幅によって設定される電子の挙動とは対照的である。 本実験では, 軸受位相とエノンのスケーリング次元を特徴付けるための時間領域測定について紹介する。

Contrary to fermions and bosons, anyons are quasiparticles that keep a robust memory of particle exchanges via a braiding phase factor. This provides them with unique dynamical properties so far unexplored. When an anyon excitation is emitted toward a quantum point contact (QPC) in a fractional quantum Hall (FQH) fluid, this memory translates into tunneling events that may occur long after the anyon excitation has exited the QPC. Here, we use triggered anyon pulses incident on a QPC in a $\nu= 1/3$ FQH fluid to investigate anyon tunneling in the time domain. We observe that braiding increases the tunneling timescale, which is set by the temperature and the anyon scaling dimension that characterizes the edge state dynamics. This contrasts with the electron behavior where braiding is absent and the tunneling timescale is set by the temporal width of the generated electron pulses. Our experiment introduces time-domain measurements for characterizing the braiding phase and scaling dimension of anyons.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# xTED:拡散に基づく軌道編集によるドメイン間ポリシー適応

xTED: Cross-Domain Policy Adaptation via Diffusion-Based Trajectory Editing ( http://arxiv.org/abs/2409.08687v1 )

ライセンス: Link先を確認
Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan Zhan, (参考訳) 異なるドメインから事前に収集されたデータを再利用することは、ターゲットドメインではアクセス可能なデータが不十分だが、他のドメインでは比較的豊富である意思決定タスクにおいて魅力的な解決策である。 既存のドメイン間のポリシー伝達手法は主に、ドメイン/タスク固有のモデルコンポーネント、表現、あるいは任意のドメインやタスクに対応するために完全に再利用可能なポリシーを学ぶ必要があるポリシー学習を促進するために、ドメインの対応や修正を学ぶことを目的としている。 複雑なドメイン固有のポリシー転送モデルを開発するのではなく、データ(軌道)レベルでドメインギャップを直接ブリッジできるだろうか? 本研究では,新しい拡散変圧器モデル (DDiT, Decision Diffusion Transformer) を用いたクロスドメイントラジェクトリ・EDiting (xTED) フレームワークを提案する。 提案した拡散トランスフォーマーバックボーンは、状態、動作、報酬シーケンス間の複雑な依存関係と、ターゲットデータトラジェクトリ内の遷移ダイナミクスをキャプチャする。 上記の事前訓練された拡散により、ドメインギャップを持つソースデータトラジェクトリは、拡散ベースの編集プロセスを通じて、ターゲットデータ分布と密接に類似した編集されたトラジェクトリに変換され、基礎となるドメインギャップを暗黙的に修正し、ソーストラジェクトリデータの状態リアリズムと動的信頼性を高め、下流ポリシー学習手法の柔軟な選択を可能にする。 その単純さにもかかわらず、xTEDは広範囲なシミュレーションや実ロボット実験において、他のベースラインよりも優れた性能を示している。

Reusing pre-collected data from different domains is an attractive solution in decision-making tasks where the accessible data is insufficient in the target domain but relatively abundant in other related domains. Existing cross-domain policy transfer methods mostly aim at learning domain correspondences or corrections to facilitate policy learning, which requires learning domain/task-specific model components, representations, or policies that are inflexible or not fully reusable to accommodate arbitrary domains and tasks. These issues make us wonder: can we directly bridge the domain gap at the data (trajectory) level, instead of devising complicated, domain-specific policy transfer models? In this study, we propose a Cross-Domain Trajectory EDiting (xTED) framework with a new diffusion transformer model (Decision Diffusion Transformer, DDiT) that captures the trajectory distribution from the target dataset as a prior. The proposed diffusion transformer backbone captures the intricate dependencies among state, action, and reward sequences, as well as the transition dynamics within the target data trajectories. With the above pre-trained diffusion prior, source data trajectories with domain gaps can be transformed into edited trajectories that closely resemble the target data distribution through the diffusion-based editing process, which implicitly corrects the underlying domain gaps, enhancing the state realism and dynamics reliability in source trajectory data, while enabling flexible choices of downstream policy learning methods. Despite its simplicity, xTED demonstrates superior performance against other baselines in extensive simulation and real-robot experiments.
翻訳日:2024-09-16 17:08:51 公開日:2024-09-13
# GenMapping:ロバストオンラインHDマップ構築のための逆パースペクティブマッピングの可能性

GenMapping: Unleashing the Potential of Inverse Perspective Mapping for Robust Online HD Map Construction ( http://arxiv.org/abs/2409.08688v1 )

ライセンス: Link先を確認
Siyu Li, Kailun Yang, Hao Shi, Song Wang, You Yao, Zhiyong Li, (参考訳) オンラインハイディフィニション(HD)マップは、フレキシブルなアップデート機能とメンテナンスコストの低減により、対向するオフラインHDマップを覆い隠して、自動運転の選択肢として好まれている。 しかし、現代のオンラインHDマップモデルでは、視覚センサのパラメータをトレーニングに組み込むことで、異なるパラメータを持つ視覚センサに適用した場合の一般化性能が大幅に低下する。 カメラパラメータをトレーニングプロセスから切り離した逆パースペクティブマッピング(IPM)の本質的なポテンシャルに着想を得て,汎用地図生成フレームワークGenMappingを設計した。 このフレームワークは、主および二重補助枝を含む三進的なシナジーアーキテクチャで構築されている。 IPMを通した局所歪みのある粗い道路画像に直面すると、主枝は状態空間モデルの下でロバストなグローバルな特徴を学習する。 2つの補助枝は、密度の高いパースペクティブブランチとスパース前のブランチである。 前者は静的オブジェクトと移動オブジェクトの相関情報を利用するが、後者はOpenStreetMap (OSM) の以前の知識を導入する。 トリプルエンハンスド・マージングモジュールは、3つの枝のそれぞれから固有の空間的特徴を相乗的に統合するために設計されている。 一般化能力を更に向上させるために,共通空間における共同学習を実現するために,CVML(Cross-View Map Learning)スキームを活用する。 さらに、データセットへの依存を同時に緩和するために、Bidirectional Data Augmentation (BiDA)モジュールが導入されている。 実験結果の網羅的な配列から,提案手法はセマンティックマッピングとベクトル化マッピングの両方において最先端の手法を超越し,高速な推論速度を維持した。 ソースコードはhttps://github.com/lynn-yu/GenMapping.comで公開されている。

Online High-Definition (HD) maps have emerged as the preferred option for autonomous driving, overshadowing the counterpart offline HD maps due to flexible update capability and lower maintenance costs. However, contemporary online HD map models embed parameters of visual sensors into training, resulting in a significant decrease in generalization performance when applied to visual sensors with different parameters. Inspired by the inherent potential of Inverse Perspective Mapping (IPM), where camera parameters are decoupled from the training process, we have designed a universal map generation framework, GenMapping. The framework is established with a triadic synergy architecture, including principal and dual auxiliary branches. When faced with a coarse road image with local distortion translated via IPM, the principal branch learns robust global features under the state space models. The two auxiliary branches are a dense perspective branch and a sparse prior branch. The former exploits the correlation information between static and moving objects, whereas the latter introduces the prior knowledge of OpenStreetMap (OSM). The triple-enhanced merging module is crafted to synergistically integrate the unique spatial features from all three branches. To further improve generalization capabilities, a Cross-View Map Learning (CVML) scheme is leveraged to realize joint learning within the common space. Additionally, a Bidirectional Data Augmentation (BiDA) module is introduced to mitigate reliance on datasets concurrently. A thorough array of experimental results shows that the proposed model surpasses current state-of-the-art methods in both semantic mapping and vectorized mapping, while also maintaining a rapid inference speed. The source code will be publicly available at https://github.com/lynn-yu/GenMapping.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# 3次元医用画像表現のための自己回帰シーケンスモデリング

Autoregressive Sequence Modeling for 3D Medical Image Representation ( http://arxiv.org/abs/2409.08691v1 )

ライセンス: Link先を確認
Siwen Wang, Churan Wang, Fei Gao, Lixian Su, Fandong Zhang, Yizhou Wang, Yizhou Yu, (参考訳) CT(CT)やMRI(MRI)などの3次元医用画像は臨床応用に不可欠である。 しかし、様々な臓器の多様性、診断タスク、画像モダリティを考慮すると、多様で包括的な表現の必要性は特に顕著である。 複雑な文脈情報を効果的に解釈し、これらの画像から意味のある洞察を抽出する方法は、コミュニティにとってオープンな課題である。 現在の自己教師型学習手法は潜在的な可能性を示しているが、画像全体を1つまたは複数の画像から局所領域間の広範な複雑な関係を見越すことがしばしばある。 本研究では, 自己回帰事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。 提案手法は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像を解析し,トークンシーケンス内の相互接続された視覚トークンとして扱う。 自己回帰的シーケンスモデリングタスクを用いることで、シーケンス内の次の視覚トークンを予測し、3次元医用画像に固有のコンテキスト情報を深く理解し、統合することができる。 さらに,トークン関係の過大評価を回避し,学習の堅牢性を高めるために,ランダムなスタートアップ戦略を実装した。 提案手法の有効性は,公開データセットにおける9つの下流タスクにおいて,他よりも優れた性能を示す。

Three-dimensional (3D) medical images, such as Computed Tomography (CT) and Magnetic Resonance Imaging (MRI), are essential for clinical applications. However, the need for diverse and comprehensive representations is particularly pronounced when considering the variability across different organs, diagnostic tasks, and imaging modalities. How to effectively interpret the intricate contextual information and extract meaningful insights from these images remains an open challenge to the community. While current self-supervised learning methods have shown potential, they often consider an image as a whole thereby overlooking the extensive, complex relationships among local regions from one or multiple images. In this work, we introduce a pioneering method for learning 3D medical image representations through an autoregressive pre-training framework. Our approach sequences various 3D medical images based on spatial, contrast, and semantic correlations, treating them as interconnected visual tokens within a token sequence. By employing an autoregressive sequence modeling task, we predict the next visual token in the sequence, which allows our model to deeply understand and integrate the contextual information inherent in 3D medical images. Additionally, we implement a random startup strategy to avoid overestimating token relationships and to enhance the robustness of learning. The effectiveness of our approach is demonstrated by the superior performance over others on nine downstream tasks in public datasets.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# B4: 可塑性テストによる可塑性コードソリューションの最適評価に向けて

B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests ( http://arxiv.org/abs/2409.08692v1 )

ライセンス: Link先を確認
Mouxiang Chen, Zhongxin Liu, He Tao, Yusu Hong, David Lo, Xin Xia, Jianling Sun, (参考訳) 複数の生成されたコードから最高のコードソリューションを選択することは、コード生成において必須のタスクである。 信頼できるテストケースは必ずしも利用可能ではなく、実際に構築するのにコストがかかるため、研究者はコードソリューションを評価するためにテストケースを自動的に生成することを提案している。 しかしながら、コードソリューションとテストケースの両方が信頼性が高く、信頼性が低い場合には、最良のソリューションを選択することは難しくなります。 この問題に対処するためにいくつかのヒューリスティック戦略が提案されているが、それらには強い理論的保証がなく、最適な選択戦略が存在するかどうかという未解決の問題である。 私たちの仕事は2つの方法で貢献する。 第一に、ベイズフレームワークにおいて、最適選択戦略は、解と試験の間の観測された通過状態の後続確率に基づいて定義できることを示す。 最適解を識別する問題は、整数プログラミング問題としてフレーム化される。 第2に,近似誤差が事前知識の正確さによって制限される最適(計算不可能)戦略を近似する効率的な手法を提案する。 次に、コード生成タスクの調整に効果的な事前知識を取り入れます。 理論的および実証的研究の両方で、既存のヒューリスティックスは、妥当なテストケースを持つ最良の解を選択する際に制限されていることが確認されている。 提案した最適戦略 B4 は,LLM を用いた大規模言語モデル (LLM) が生成するコードソリューションの選択において,既存のヒューリスティックをはるかに上回り,最強のヒューリスティックよりも50%,最も難しいシナリオでは246% の相対的な性能向上を実現している。 私たちのコードはhttps://github.com/ZJU-CTAG/B4.comで公開されています。

Selecting the best code solution from multiple generated ones is an essential task in code generation, which can be achieved by using some reliable validators (e.g., developer-written test cases) for assistance. Since reliable test cases are not always available and can be expensive to build in practice, researchers propose to automatically generate test cases to assess code solutions. However, when both code solutions and test cases are plausible and not reliable, selecting the best solution becomes challenging. Although some heuristic strategies have been proposed to tackle this problem, they lack a strong theoretical guarantee and it is still an open question whether an optimal selection strategy exists. Our work contributes in two ways. First, we show that within a Bayesian framework, the optimal selection strategy can be defined based on the posterior probability of the observed passing states between solutions and tests. The problem of identifying the best solution is then framed as an integer programming problem. Second, we propose an efficient approach for approximating this optimal (yet uncomputable) strategy, where the approximation error is bounded by the correctness of prior knowledge. We then incorporate effective prior knowledge to tailor code generation tasks. Both theoretical and empirical studies confirm that existing heuristics are limited in selecting the best solutions with plausible test cases. Our proposed approximated optimal strategy B4 significantly surpasses existing heuristics in selecting code solutions generated by large language models (LLMs) with LLM-generated tests, achieving a relative performance improvement by up to 50% over the strongest heuristic and 246% over the random selection in the most challenging scenarios. Our code is publicly available at https://github.com/ZJU-CTAG/B4.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# 精密養殖:最適化ティラピア給餌のための統合型コンピュータビジョンとIoTアプローチ

Precision Aquaculture: An Integrated Computer Vision and IoT Approach for Optimized Tilapia Feeding ( http://arxiv.org/abs/2409.08695v1 )

ライセンス: Link先を確認
Rania Hossam, Ahmed Heakl, Walid Gomaa, (参考訳) 伝統的な魚の養殖は、しばしば非効率な給餌につながり、環境問題と生産性の低下をもたらす。 我々はコンピュータビジョンとIoT技術を組み合わせて、ティラピアの正確な給餌を行う革新的なシステムを開発した。 我々のソリューションは、リアルタイムIoTセンサを使用して水質パラメータとコンピュータビジョンアルゴリズムを監視し、魚の大きさと数を分析し、最適な餌量を決定する。 モバイルアプリはリモート監視とコントロールを可能にする。 YOLOv8をキーポイント検出に利用し,3500枚の注釈付き画像に対して,テラピア重量を長さから測定し,精度を<textbf{94\%}とした。 精密給餌計算のための深度推定法を用いて, 画素による測定をセンチメートルに変換した。 提案手法は,データ収集ミラーリング推定条件を用いて,結果を大幅に改善した。 予備推計では、従来の農場に比べて58倍の増産が期待されている。 私たちのモデル、コード、データセットはオープンソースです。

Traditional fish farming practices often lead to inefficient feeding, resulting in environmental issues and reduced productivity. We developed an innovative system combining computer vision and IoT technologies for precise Tilapia feeding. Our solution uses real-time IoT sensors to monitor water quality parameters and computer vision algorithms to analyze fish size and count, determining optimal feed amounts. A mobile app enables remote monitoring and control. We utilized YOLOv8 for keypoint detection to measure Tilapia weight from length, achieving \textbf{94\%} precision on 3,500 annotated images. Pixel-based measurements were converted to centimeters using depth estimation for accurate feeding calculations. Our method, with data collection mirroring inference conditions, significantly improved results. Preliminary estimates suggest this approach could increase production up to 58 times compared to traditional farms. Our models, code, and dataset are open-source~\footnote{The code, dataset, and models are available upon reasonable request.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# ウェアラブルデバイスと人工知能による個人化体重管理

Personalized Weight Loss Management through Wearable Devices and Artificial Intelligence ( http://arxiv.org/abs/2409.08700v1 )

ライセンス: Link先を確認
Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Blanca Lacruz-Pleguezuelos, Sofia Bosch Pastor, Laura Judith Marcos-Zambrano, Guadalupe X. Bazán, Gala Freixer, Ruben Vera-Rodriguez, Julian Fierrez, Javier Ortega-Garcia, Isabel Espinosa-Salinas, Enrique Carrillo de Santa Pau, (参考訳) 慢性および非免疫性疾患(NCD)の早期発見は、初期治療において極めて重要である。 本研究では,過体重および肥満者の体重減少変化を予測するために,ウェアラブルデバイスと人工知能(AI)の適用について検討する。 バイオマーカー,バイタルサイン,行動データを含む,AI4FoodDBデータベースから約100名の被験者を対象とする1ヶ月のトライアルから得られたウェアラブルデータを用いて,体重減少(初期体重の>=2%)を達成した人と,そうでない人の重要な違いを同定する。 特徴選択技術と分類アルゴリズムは有望な結果を示し、グラディエントブースティング分類器は84.44%のエリア・アンダー・ザ・カーブ(AUC)を達成した。 複数のデータソース(例えば、バイタルサイン、身体的および睡眠活動など)を統合することで、パフォーマンスが向上し、パーソナライズされたヘルスケアにおけるウェアラブルデバイスとAIの可能性が示唆される。

Early detection of chronic and Non-Communicable Diseases (NCDs) is crucial for effective treatment during the initial stages. This study explores the application of wearable devices and Artificial Intelligence (AI) in order to predict weight loss changes in overweight and obese individuals. Using wearable data from a 1-month trial involving around 100 subjects from the AI4FoodDB database, including biomarkers, vital signs, and behavioral data, we identify key differences between those achieving weight loss (>= 2% of their initial weight) and those who do not. Feature selection techniques and classification algorithms reveal promising results, with the Gradient Boosting classifier achieving 84.44% Area Under the Curve (AUC). The integration of multiple data sources (e.g., vital signs, physical and sleep activity, etc.) enhances performance, suggesting the potential of wearable devices and AI in personalized healthcare.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# DM:Dual-path Magnitude Network for General Speech Restoration (英語)

DM: Dual-path Magnitude Network for General Speech Restoration ( http://arxiv.org/abs/2409.08702v1 )

ライセンス: Link先を確認
Da-Hee Yang, Dail Kim, Joon-Hyuk Chang, Jeonghwan Choi, Han-gil Moon, (参考訳) 本稿では, 雑音, 残響, 帯域幅の劣化など複数の歪みを効果的に解消するために設計された, 新しい一般音声復元モデルであるDual-path Magnitude (DM) ネットワークを提案する。 DMネットワークはパラメータを共有する並列デコーダを用いており、一方は歪み除去にマスキングベースのアルゴリズム、もう一方は音声の復元にマッピングベースのアプローチを採用している。 DMネットワークの新たな側面は、マスクデコーダから出力されるマグニチュード・スペクトログラムをスキップ接続を介してマッピングデコーダに統合し、全体的な復元能力を高めることである。 この統合されたアプローチは、ステップバイステップ分析で詳述されたように、以前のモデルで観察された固有の制限を克服する。 実験の結果,DMネットワークは一般的な音声復元の包括的側面において,他のベースラインモデルよりも優れており,パラメータが少なく,実質的な復元を実現していることがわかった。

In this paper, we introduce a novel general speech restoration model: the Dual-path Magnitude (DM) network, designed to address multiple distortions including noise, reverberation, and bandwidth degradation effectively. The DM network employs dual parallel magnitude decoders that share parameters: one uses a masking-based algorithm for distortion removal and the other employs a mapping-based approach for speech restoration. A novel aspect of the DM network is the integration of the magnitude spectrogram output from the masking decoder into the mapping decoder through a skip connection, enhancing the overall restoration capability. This integrated approach overcomes the inherent limitations observed in previous models, as detailed in a step-by-step analysis. The experimental results demonstrate that the DM network outperforms other baseline models in the comprehensive aspect of general speech restoration, achieving substantial restoration with fewer parameters.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# NeSHFS:クリックスルーレート予測のためのヒューリスティックな特徴選択による周辺検索

NeSHFS: Neighborhood Search with Heuristic-based Feature Selection for Click-Through Rate Prediction ( http://arxiv.org/abs/2409.08703v1 )

ライセンス: Link先を確認
Dogukan Aksu, Ismail Hakki Toroslu, Hasan Davulcu, (参考訳) クリックスルーレート(CTR)予測は、オンライン広告や広告推薦システムにおいて重要な役割を果たす。 過去10年間、CTRの最大化は、モデル開発とソリューション作成の主な焦点であった。 そのため、研究者や実践者は、CTR予測の有効性を高めるための様々なモデルと解決策を提案している。 既存の文献のほとんどは、暗黙的または明示的な特徴の相互作用を捉えることに重点を置いている。 暗黙的な相互作用はいくつかの研究でうまく捉えられているが、明示的な相互作用は低次と高次の両方の特徴的相互作用を抽出することによって高いCTRを達成するための課題を示す。 不要かつ無関係な特徴は、高い計算時間と低い予測性能を引き起こす可能性がある。 さらに、特定の機能は特定の予測モデルでうまく機能するが、他の機能では性能が劣る。 また、交通量の変化により特徴分布が変動することがある。 最も重要なことは、実運用環境ではリソースが限られており、推論の時間はトレーニング時間と同じくらい重要です。 これらの理由により、特徴選択はCTR予測モデルの性能を向上させる上で最も重要な要因の1つである。 単純なフィルタベースの特徴選択アルゴリズムは、うまく機能せず、不十分である。 ライブCTR予測プロセスにおいて、最も有用な特徴を一貫してフィルタするために、効率的かつ効率的な特徴選択アルゴリズムが必要である。 本論文では,CTR予測性能を向上し,次元とトレーニング時間コストの低減を図るため,NeSHFS (Neighborhood Search with Heuristic-based Feature Selection) というヒューリスティックアルゴリズムを提案する。 提案手法の有効性と有効性を検証するために,3つの公開データセットに関する総合的な実験を行った。

Click-through-rate (CTR) prediction plays an important role in online advertising and ad recommender systems. In the past decade, maximizing CTR has been the main focus of model development and solution creation. Therefore, researchers and practitioners have proposed various models and solutions to enhance the effectiveness of CTR prediction. Most of the existing literature focuses on capturing either implicit or explicit feature interactions. Although implicit interactions are successfully captured in some studies, explicit interactions present a challenge for achieving high CTR by extracting both low-order and high-order feature interactions. Unnecessary and irrelevant features may cause high computational time and low prediction performance. Furthermore, certain features may perform well with specific predictive models while underperforming with others. Also, feature distribution may fluctuate due to traffic variations. Most importantly, in live production environments, resources are limited, and the time for inference is just as crucial as training time. Because of all these reasons, feature selection is one of the most important factors in enhancing CTR prediction model performance. Simple filter-based feature selection algorithms do not perform well and they are not sufficient. An effective and efficient feature selection algorithm is needed to consistently filter the most useful features during live CTR prediction process. In this paper, we propose a heuristic algorithm named Neighborhood Search with Heuristic-based Feature Selection (NeSHFS) to enhance CTR prediction performance while reducing dimensionality and training time costs. We conduct comprehensive experiments on three public datasets to validate the efficiency and effectiveness of our proposed solution.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# 量子列の最適識別

Optimal discrimination of quantum sequences ( http://arxiv.org/abs/2409.08705v1 )

ライセンス: Link先を確認
Tathagata Gupta, Shayeef Murshid, Vincent Russo, Somshubhro Bandyopadhyay, (参考訳) 量子情報理論の鍵となる概念は、量子システムに符号化された情報にアクセスするためには、システムが持つ可能性のあるいくつかの状態の区別が必要であるということである。 この問題の自然な一般化、すなわち量子列判別は、量子状態の有限列の状態を決定することを目的として、様々な量子情報処理タスクに現れる。 そのようなシーケンスは複合量子系であるため、基本的な問題は、最適な測定が局所的であるかどうか、すなわち、個々のメンバーの測度を構成するか、または、共同測度を必要とする集合的であるかである。 この問題のいくつかの既知の例では、最適測定は局所的であるが、他の例では集合的である。 しかし、今のところは、問題記述のみに基づく明確な処方薬が不足している。 本稿では、与えられたシーケンスのメンバがアンサンブルから秘密に、あるいは異なるアンサンブルから独立して引き出される場合、そのシーケンスの個々のメンバの固定された局所的な測定によって最適な成功確率が得られ、集合的な測定は不要であることを示す。 これは、最小限のエラーと曖昧な州差別のパラダイムの両方に当てはまる。

A key concept of quantum information theory is that accessing information encoded in a quantum system requires us to discriminate between several possible states the system could be in. A natural generalization of this problem, namely, quantum sequence discrimination, appears in various quantum information processing tasks, the objective being to determine the state of a finite sequence of quantum states. Since such a sequence is a composite quantum system, the fundamental question is whether an optimal measurement is local, i.e., comprising measurements on the individual members, or collective, i.e. requiring joint measurement(s). In some known instances of this problem, the optimal measurement is local, whereas in others, it is collective. But, so far, a definite prescription based solely on the problem description has been lacking. In this paper, we prove that if the members of a given sequence are drawn secretly and independently from an ensemble or even from different ensembles, the optimum success probability is achievable by fixed local measurements on the individual members of the sequence, and no collective measurement is necessary. This holds for both minimum-error and unambiguous state discrimination paradigms.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# L3Cube-IndicQuest: インデックス文脈におけるLLMの知識評価のためのベンチマーク検索データセット

L3Cube-IndicQuest: A Benchmark Questing Answering Dataset for Evaluating Knowledge of LLMs in Indic Context ( http://arxiv.org/abs/2409.08706v1 )

ライセンス: Link先を確認
Pritika Rohera, Chaitrali Ginimav, Akanksha Salunke, Gayatri Sawant, Raviraj Joshi, (参考訳) 大規模言語モデル(LLM)は多言語モデルにインデックス言語を組み込むことで大きな進歩を遂げた。 しかし、これらの言語が、英語などの世界的に支配的な言語と相容れないかどうかを定量的に評価することが重要である。 現在、様々な Indic 言語における LLM の地域的知識を評価するために特別に設計されたベンチマークデータセットが不足している。 本稿では,多言語LLMが多言語言語間における地域知識をいかに捉えているかを評価するために,ゴールドスタンダードな質問応答ベンチマークデータセットであるL3Cube-IndicQuestを提案する。 データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。 本データセットは,インドにおける文脈に関する知識の理解と表現において,LLMの性能を評価するための基礎的真実を提供するためのベンチマークとして機能することを目的としている。 IndicQuestは、参照ベース評価とLCM-as-a-judge評価の両方に使用することができる。 データセットはhttps://github.com/l3cube-pune/indic-nlp で公開されています。

Large Language Models (LLMs) have made significant progress in incorporating Indic languages within multilingual models. However, it is crucial to quantitatively assess whether these languages perform comparably to globally dominant ones, such as English. Currently, there is a lack of benchmark datasets specifically designed to evaluate the regional knowledge of LLMs in various Indic languages. In this paper, we present the L3Cube-IndicQuest, a gold-standard question-answering benchmark dataset designed to evaluate how well multilingual LLMs capture regional knowledge across various Indic languages. The dataset contains 200 question-answer pairs, each for English and 19 Indic languages, covering five domains specific to the Indic region. We aim for this dataset to serve as a benchmark, providing ground truth for evaluating the performance of LLMs in understanding and representing knowledge relevant to the Indian context. The IndicQuest can be used for both reference-based evaluation and LLM-as-a-judge evaluation. The dataset is shared publicly at https://github.com/l3cube-pune/indic-nlp .
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# Rustの条件/決定カバレッジの修正に向けて

Towards Modified Condition/Decision Coverage of Rust ( http://arxiv.org/abs/2409.08708v1 )

ライセンス: Link先を確認
Wanja Zaeske, Pietro Albini, Florian Gilcher, Umut Durak, (参考訳) テストは、特にセーフティクリティカルなアプリケーションにおいて、ソフトウェアを保証する上で不可欠なツールです。 ソフトウェア項目がどの程度徹底的にテストされたかの定量化には、テストカバレッジメトリクスが必要である。 安全クリティカルシステムで知られている最も厳密な測定基準は、修正条件/決定カバレッジ(MC/DC)であり、DO-178Cは航空におけるソフトウェア保証の最高レベルを規定している。 過去には、MC/DCの解釈の曖昧さは既に解決されている。 E CAST-10で。 しかしながら、Rustプログラミング言語のいくつかの中心的な特徴は、さらなる明確化を必要としている。 本稿では、前述の機能、特にパターンマッチングを調査し、RustにMC/DCを適用する方法について一貫したビューを提供する。 そこで本稿では,Rust MC/DCツールの実装について報告する。

Testing is an essential tool to assure software, especially so in safety-critical applications. To quantify how thoroughly a software item has been tested, a test coverage metric is required. Maybe the strictest such metric known in the safety critical systems is Modified Condition/Decision Coverage (MC/DC), which DO-178C prescribes for the highest software assurance level in aviation. In the past, ambiguities in the interpretation of MC/DC have been resolved already, i. e. in CAST-10. However, some central features of the Rust programming language necessitate further clarification. This work investigates aforementioned features, in particular pattern matching, providing a consistent view on how to apply MC/DC to Rust. Hence, this paper informs the implementation of Rust MC/DC tools, paving the road towards Rust in high-assurance applications.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# 野生におけるテキスト音声合成

Text-To-Speech Synthesis In The Wild ( http://arxiv.org/abs/2409.08711v1 )

ライセンス: Link先を確認
Jee-weon Jung, Wangyou Zhang, Soumi Maiti, Yihan Wu, Xin Wang, Ji-Hoon Kim, Yuta Matsunaga, Seyun Um, Jinchuan Tian, Hye-jin Shim, Nicholas Evans, Joon Son Chung, Shinnosuke Takamichi, Shinji Watanabe, (参考訳) テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。 しかしながら、最近の文献では、野生で収集されたデータを使ってTSシステムのトレーニングを行っている。 このアプローチは、大量の自然言語を使用できるが、これまでは一般的なデータセットは存在しなかった。 本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全自動パイプラインの結果であるTS In the Wild(TITW)データセットを紹介する。 さらに2つのトレーニングセットを提案します。 TITW-Hardは、VoxCeleb1ソースデータの転写、セグメンテーション、選択に由来する。 TITW-Easyは、DNSMOSに基づいた拡張と追加データ選択のアプリケーションから派生したものだ。 我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。 データセットとプロトコルはいずれも公開されており、TITWデータを使用してトレーニングされたTSシステムのベンチマークをサポートする。

Text-to-speech (TTS) systems are traditionally trained using modest databases of studio-quality, prompted or read speech collected in benign acoustic environments such as anechoic rooms. The recent literature nonetheless shows efforts to train TTS systems using data collected in the wild. While this approach allows for the use of massive quantities of natural speech, until now, there are no common datasets. We introduce the TTS In the Wild (TITW) dataset, the result of a fully automated pipeline, in this case, applied to the VoxCeleb1 dataset commonly used for speaker recognition. We further propose two training sets. TITW-Hard is derived from the transcription, segmentation, and selection of VoxCeleb1 source data. TITW-Easy is derived from the additional application of enhancement and additional data selection based on DNSMOS. We show that a number of recent TTS models can be trained successfully using TITW-Easy, but that it remains extremely challenging to produce similar results using TITW-Hard. Both the dataset and protocols are publicly available and support the benchmarking of TTS systems trained using TITW data.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# ニューラルネットワークにおける知識の階層的変化

Layerwise Change of Knowledge in Neural Networks ( http://arxiv.org/abs/2409.08712v1 )

ライセンス: Link先を確認
Xu Cheng, Lei Cheng, Zhaoran Peng, Yang Xu, Tian Han, Quanshi Zhang, (参考訳) 本稿では、ディープニューラルネットワーク(DNN)が新しい知識を徐々に抽出し、前方伝播の層を通してノイズのある特徴を忘れていく方法について説明する。 これまでのところ、DNNによって符号化された知識の定義は合意に達していないが、先史研究は、相互作用をDNNによって符号化された記号的原始推論パターンとして捉えるための一連の数学的証拠を導出した。 相互作用の定義を拡張し、中間層によって符号化された相互作用を初めて抽出する。 本研究は,DNNの学習行動に新たな光を当てた前方伝播において,新たに出現した相互作用と,各層における忘れられた相互作用を定量化し,追跡する。 層レベルでの相互作用の変化は、DNNの特徴表現の一般化能力と不安定性の変化も示している。

This paper aims to explain how a deep neural network (DNN) gradually extracts new knowledge and forgets noisy features through layers in forward propagation. Up to now, although the definition of knowledge encoded by the DNN has not reached a consensus, Previous studies have derived a series of mathematical evidence to take interactions as symbolic primitive inference patterns encoded by a DNN. We extend the definition of interactions and, for the first time, extract interactions encoded by intermediate layers. We quantify and track the newly emerged interactions and the forgotten interactions in each layer during the forward propagation, which shed new light on the learning behavior of DNNs. The layer-wise change of interactions also reveals the change of the generalization capacity and instability of feature representations of a DNN.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# Fusing Dynamics Equation: LLMエージェントを用いたソーシャルオピニオン予測アルゴリズム

Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents ( http://arxiv.org/abs/2409.08717v1 )

ライセンス: Link先を確認
Junchi Yao, Hongjie Zhang, Jie Ou, Dingyi Zuo, Zheng Yang, Zhicheng Dong, (参考訳) ソーシャルメディアが社会運動や世論形成の重要な基盤になりつつある中で、ユーザの意見のダイナミクスを正確にシミュレートし、予測することは、社会現象を理解し、政策を立て、世論を導く上で非常に重要である。 しかし、既存のシミュレーション手法では、ユーザの振る舞いの複雑さやダイナミクスを捉えるのが困難である。 本稿では,ソーシャルメディア利用者の意見を動的に表現するための革新的なシミュレーション手法であるFDE-LLMアルゴリズムを提案する。 これは、大規模言語モデル(LLM)の行動と意見の進化過程を効果的に制限し、実際のサイバー世界との整合性を高める。 特にFDE-LLMは、ユーザーを意見のリーダーとフォロワーに分類している。 意見のリーダーはLLMロールプレイングに基づいており、CAモデルによって制約されている一方、意見の支持者はCAモデルとSIRモデルを組み合わせた動的システムに統合されている。 この革新的な設計はシミュレーションの精度と効率を大幅に改善する。 4つの実際のWeiboデータセットで実験を行い、オープンソースのモデルChatGLMを用いて検証した。 その結果,従来のエージェント・ベース・モデリング(ABM)の意見拡散アルゴリズムやLLMの意見拡散アルゴリズムと比較して,FDE-LLMの精度と解釈性が高いことがわかった。

In the context where social media is increasingly becoming a significant platform for social movements and the formation of public opinion, accurately simulating and predicting the dynamics of user opinions is of great importance for understanding social phenomena, policy making, and guiding public opinion. However, existing simulation methods face challenges in capturing the complexity and dynamics of user behavior. Addressing this issue, this paper proposes an innovative simulation method for the dynamics of social media user opinions, the FDE-LLM algorithm, which incorporates opinion dynamics and epidemic model. This effectively constrains the actions and opinion evolution process of large language models (LLM), making them more aligned with the real cyber world. In particular, the FDE-LLM categorizes users into opinion leaders and followers. Opinion leaders are based on LLM role-playing and are constrained by the CA model, while opinion followers are integrated into a dynamic system that combines the CA model with the SIR model. This innovative design significantly improves the accuracy and efficiency of the simulation. Experiments were conducted on four real Weibo datasets and validated using the open-source model ChatGLM. The results show that, compared to traditional agent-based modeling (ABM) opinion dynamics algorithms and LLM-based opinion diffusion algorithms, our FDE-LLM algorithm demonstrates higher accuracy and interpretability.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# 単言語およびクロスリンガル単語の文脈表現の蒸留

Distilling Monolingual and Crosslingual Word-in-Context Representations ( http://arxiv.org/abs/2409.08719v1 )

ライセンス: Link先を確認
Yuki Arase, Tomoyuki Kajiwara, (参考訳) 本研究では,モノリンガルとクロスリンガルの両方の設定において,事前学習したマスキング言語モデルから文脈における単語の意味表現を除去する手法を提案する。 単語表現は文脈対応の語彙意味論と教師なし意味的テキスト類似性(STS)推定の基礎である。 既存の手法と異なり,本手法では,事前学習したモデルのコーパスやパラメータの更新は必要としない。 後者の特徴は、オフザシェルフ事前訓練モデルが異なるアプリケーション間で共通の資産である、実践的なシナリオにアピールする。 特に,本手法では,事前学習したモデルの隠蔽層の出力を自己注意を用いて組み合わせることについて学習する。 自動エンコーダベースのトレーニングでは、自動生成されたコーパスのみが必要になります。 提案手法の性能を評価するため,様々なベンチマークタスクを用いて広範囲な実験を行った。 単言語タスクの結果,従来の文脈対応語彙意味タスクと比較すると,我々の表現は競合的な性能を示し,STS推定では優れていたことが確認された。 その結果,提案手法は多言語事前学習モデルの言語間単語表現を大幅に改善することがわかった。

In this study, we propose a method that distils representations of word meaning in context from a pre-trained masked language model in both monolingual and crosslingual settings. Word representations are the basis for context-aware lexical semantics and unsupervised semantic textual similarity (STS) estimation. Different from existing approaches, our method does not require human-annotated corpora nor updates of the parameters of the pre-trained model. The latter feature is appealing for practical scenarios where the off-the-shelf pre-trained model is a common asset among different applications. Specifically, our method learns to combine the outputs of different hidden layers of the pre-trained model using self-attention. Our auto-encoder based training only requires an automatically generated corpus. To evaluate the performance of the proposed approach, we performed extensive experiments using various benchmark tasks. The results on the monolingual tasks confirmed that our representations exhibited a competitive performance compared to that of the previous study for the context-aware lexical semantic tasks and outperformed it for STS estimation. The results of the crosslingual tasks revealed that the proposed method largely improved crosslingual word representations of multilingual pre-trained models.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# ディエンスリワードを持つ擬似値関数

Quasimetric Value Functions with Dense Rewards ( http://arxiv.org/abs/2409.08724v1 )

ライセンス: Link先を確認
Khadichabonu Valieva, Bikramjit Banerjee, (参考訳) パラメトリザブルゴールへの強化学習(RL)の一般化として、ゴール条件付きRL(GCRL)は、特にロボット工学における挑戦的なタスクにおいて幅広い用途を持つ。 近年の研究では、GCRL $Q^\ast(s,a,g)$の最適値関数が準計量構造を持ち、そのような構造を尊重する標的となるニューラルネットワークが確立されている。 しかし、関連する分析では、複雑さをサンプリングする既知の増進因子であるスパース報酬設定を仮定している。 準計量的ビズ(三角形の不等式)の鍵となる性質は、密度の高い報酬設定の下でも保存されることを示す。 GCRLに重み付けされた報酬が有害であることを示す以前の知見とは対照的に,三角不等式に必要となる重要な条件を同定した。 この条件を満たす厳密な報酬関数は、サンプルの複雑さを改善、悪化させることなく改善することができる。 これにより、効率の良いニューラルネットワークを高い報酬でトレーニングする機会が開かれ、そのメリットを複雑さのサンプリングに生かしている。 我々は,この提案をGCRLの12の標準ベンチマーク環境において,挑戦的な連続制御タスクを特徴とする評価を行った。 実験結果から,厳密な報酬設定における擬似値関数のトレーニングは,スパース報酬によるトレーニングよりも優れていたことが確認された。

As a generalization of reinforcement learning (RL) to parametrizable goals, goal conditioned RL (GCRL) has a broad range of applications, particularly in challenging tasks in robotics. Recent work has established that the optimal value function of GCRL $Q^\ast(s,a,g)$ has a quasimetric structure, leading to targetted neural architectures that respect such structure. However, the relevant analyses assume a sparse reward setting -- a known aggravating factor to sample complexity. We show that the key property underpinning a quasimetric, viz., the triangle inequality, is preserved under a dense reward setting as well. Contrary to earlier findings where dense rewards were shown to be detrimental to GCRL, we identify the key condition necessary for triangle inequality. Dense reward functions that satisfy this condition can only improve, never worsen, sample complexity. This opens up opportunities to train efficient neural architectures with dense rewards, compounding their benefits to sample complexity. We evaluate this proposal in 12 standard benchmark environments in GCRL featuring challenging continuous control tasks. Our empirical results confirm that training a quasimetric value function in our dense reward setting indeed outperforms training with sparse rewards.
翻訳日:2024-09-16 16:58:47 公開日:2024-09-13
# サイバーリスク・プレミアの原因を解明する

Disentangling the sources of cyber risk premia ( http://arxiv.org/abs/2409.08728v1 )

ライセンス: Link先を確認
Loïc Maréchal, Nathan Monnet, (参考訳) 我々は、機械学習アルゴリズムに基づく方法論を用いて、企業の情報開示と専用サイバーコーパスに基づいて、企業のサイバーリスクを定量化する。 このモデルは、決定されたサイバー脅威タイプに関連する段落を特定し、それに従っていくつかの関連するサイバースコアを会社に割り当てる。 サイバースコアは他の会社の特徴とは無関係である。 サイバースコアの高い銘柄は他の銘柄よりも大幅に上回っている。 長短のサイバーリスク要因は、肯定的なリスク・プレミアを持ち、すべての要因のベンチマークに対して堅牢であり、価格のリターンに役立つ。 さらに、市場は異なるタイプのサイバーリスクを区別せず、単一の総合サイバーリスクと見なしていることを示唆している。

We use a methodology based on a machine learning algorithm to quantify firms' cyber risks based on their disclosures and a dedicated cyber corpus. The model can identify paragraphs related to determined cyber-threat types and accordingly attribute several related cyber scores to the firm. The cyber scores are unrelated to other firms' characteristics. Stocks with high cyber scores significantly outperform other stocks. The long-short cyber risk factors have positive risk premia, are robust to all factors' benchmarks, and help price returns. Furthermore, we suggest the market does not distinguish between different types of cyber risks but instead views them as a single, aggregate cyber risk.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# グロースキャストGDPのためのブリッジング動的因子モデルとニューラル制御微分方程式

Bridging Dynamic Factor Models and Neural Controlled Differential Equations for Nowcasting GDP ( http://arxiv.org/abs/2409.08732v1 )

ライセンス: Link先を確認
Seonkyu Lim, Jeongwhan Choi, Noseong Park, Sang-Ha Yoon, ShinHyuck Kang, Young-Min Kim, Hyunjoong Kang, (参考訳) GDP成長が経済状況の重要な指標であるため、政策立案には国内総生産(GDP)の投機が不可欠である。 ダイナミックファクターモデル(DFM)は、不規則または欠落したマクロ経済指標とそれらの解釈可能性に対処する能力があるため、政府の機関によってGDPの流産に広く採用されている。 しかし、DFMは2つの大きな課題に直面している。 一 急激な景気後退又は景気不況等の経済不透明感を捕えることの欠如 二 混合周波数データから不規則な力学を捉えることの制限 これらの課題に対処するために,ニューラル制御微分方程式 (NCDE) と DFM を統合する新しい GDP nowcasting framework であるNCDENow を紹介する。 この積分は、不規則時系列の力学を効果的に扱う。 NCDENowは3つの主要なモジュールから構成される。 一 DFMを利用した要因抽出 二 NCDEを用いた動的モデリング及び 三 回帰によるGDP成長予測 NCDENowを韓国とイギリスにおける2つの実世界のGDPデータセットに基づく6つのベースラインに対して評価し,その予測能力の向上を実証した。 実験結果から, NCDE を Nowcasting モデルに組み込む可能性を強調した。 私たちのコードとデータセットはhttps://github.com/sklim84/NCDENow_CIKM2024で公開されています。

Gross domestic product (GDP) nowcasting is crucial for policy-making as GDP growth is a key indicator of economic conditions. Dynamic factor models (DFMs) have been widely adopted by government agencies for GDP nowcasting due to their ability to handle irregular or missing macroeconomic indicators and their interpretability. However, DFMs face two main challenges: i) the lack of capturing economic uncertainties such as sudden recessions or booms, and ii) the limitation of capturing irregular dynamics from mixed-frequency data. To address these challenges, we introduce NCDENow, a novel GDP nowcasting framework that integrates neural controlled differential equations (NCDEs) with DFMs. This integration effectively handles the dynamics of irregular time series. NCDENow consists of 3 main modules: i) factor extraction leveraging DFM, ii) dynamic modeling using NCDE, and iii) GDP growth prediction through regression. We evaluate NCDENow against 6 baselines on 2 real-world GDP datasets from South Korea and the United Kingdom, demonstrating its enhanced predictive capability. Our empirical results favor our method, highlighting the significant potential of integrating NCDE into nowcasting models. Our code and dataset are available at https://github.com/sklim84/NCDENow_CIKM2024.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# シークエンシャルレコメンデーションのためのマルチインテントアウェアコントラスト学習

Multi-intent Aware Contrastive Learning for Sequential Recommendation ( http://arxiv.org/abs/2409.08733v1 )

ライセンス: Link先を確認
Junshu Huang, Zi Long, Xianghua Fu, Yin Chen, (参考訳) Intentは、ユーザとイテムの相互作用シーケンスに影響を与える重要な潜伏因子である。 コントラスト学習を利用する一般的なシーケンスレコメンデーションモデルは、トレーニングプロセスを指示するために、主に単一インテント表現に依存している。 しかし、このパラダイムは現実世界のレコメンデーションシナリオを過度に単純化し、インテントの多様性を単一のインテントレベル表現にカプセル化しようとする。 フレームワーク内の多視点情報を考慮したSRモデルは、現実のレコメンデーションシナリオを正確に反映する傾向にある。

Intent is a significant latent factor influencing user-item interaction sequences. Prevalent sequence recommendation models that utilize contrastive learning predominantly rely on single-intent representations to direct the training process. However, this paradigm oversimplifies real-world recommendation scenarios, attempting to encapsulate the diversity of intents within the single-intent level representation. SR models considering multi-intent information in their framework are more likely to reflect real-life recommendation scenarios accurately.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# ハイゼンベルクスピン鎖における動的対称性の復元

Dynamical symmetry restoration in the Heisenberg spin chain ( http://arxiv.org/abs/2409.08735v1 )

ライセンス: Link先を確認
Colin Rylands, Eric Vernier, Pasquale Calabrese, (参考訳) 絡み合い非対称性(英: entanglement asymmetric)は、力学の初期の対称性の復元を通じて、多くの量子系の緩和を研究する観測可能な独立ツールである。 本稿では、この手法を用いて、パラダイム的可積分モデルにおける相互作用が量子緩和に与える影響について検討する。 具体的には、傾いた強磁性状態から焼成されたXXZモデルにおいて、$U(1)$対称性の回転に対応する動的復元について検討する。 モデル間の相互作用によって異なる2つの行動パターンが見つかる。 ギャップレス状態では、ユニティの根において、対称性の復元は主に最大長さのスピノンの境界状態によって行われる。 これらの境界状態の速度は、異方性が等方点に向かって減少し、対称性の回復が遅くなるにつれて抑制される。 最初の傾き角を変えることで、対称性の回復は、初期的により小さな傾き角に対して遅く、量子Mpemba効果の存在を示す。 しかし、ギャップ化された状態では、非最大傾斜状態のスピン輸送はより小さな境界状態によって支配され、長い境界状態は凍結する。 これは、隙間のない体制に比べて、復元の時間スケールをはるかに長くする。 加えて、量子ムペンバ効果はギャップ化された状態には存在しない。

The entanglement asymmetry is an observable independent tool to investigate the relaxation of quantum many body systems through the restoration of an initially broken symmetry of the dynamics. In this paper we use this to investigate the effects of interactions on quantum relaxation in a paradigmatic integrable model. Specifically, we study the dynamical restoration of the $U(1)$ symmetry corresponding to rotations about the $z$-axis in the XXZ model quenched from a tilted ferromagnetic state. We find two distinct patterns of behaviour depending upon the interaction regime of the model. In the gapless regime, at roots of unity, we find that the symmetry restoration is predominantly carried out by bound states of spinons of maximal length. The velocity of these bound states is suppressed as the anisotropy is decreased towards the isotropic point leading to slower symmetry restoration. By varying the initial tilt angle, one sees that symmetry restoration is slower for an initally smaller tilt angle, signifying the presence of the quantum Mpemba effect. In the gapped regime however, spin transport for non maximally tilted states, is dominated by smaller bound states with longer bound states becoming frozen. This leads to a much longer time scales for restoration compared to the gapless regime. In addition, the quantum Mpemba effect is absent in the gapped regime.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# 連続群同変ニューラルネットワークの適応サンプリング

Adaptive Sampling for Continuous Group Equivariant Neural Networks ( http://arxiv.org/abs/2409.08741v1 )

ライセンス: Link先を確認
Berfin Inal, Gabriele Cesa, (参考訳) 固有対称性を持つデータを処理するステアブルネットワークは、しばしばフーリエに基づく非線形性を使用し、グループ全体のサンプリングを必要とするため、連続したグループにおける離散化の必要性が生じる。 サンプルの数が増えるにつれて、性能と等価性が向上するが、計算コストも高くなる。 そこで本研究では,データ中の対称性に対するサンプリングプロセスを動的に調整し,必要なグループサンプル数を減らし,計算要求を減らし,適応サンプリング手法を提案する。 モデルの性能, 同値性, 計算効率に対する様々な実装とその効果について検討する。 その結果,モデル性能は向上し,メモリ効率は限界的に向上した。

Steerable networks, which process data with intrinsic symmetries, often use Fourier-based nonlinearities that require sampling from the entire group, leading to a need for discretization in continuous groups. As the number of samples increases, both performance and equivariance improve, yet this also leads to higher computational costs. To address this, we introduce an adaptive sampling approach that dynamically adjusts the sampling process to the symmetries in the data, reducing the number of required group samples and lowering the computational demands. We explore various implementations and their effects on model performance, equivariance, and computational efficiency. Our findings demonstrate improved model performance, and a marginal increase in memory efficiency.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# 地球観測の基礎モデルの不確かさと一般化可能性

Uncertainty and Generalizability in Foundation Models for Earth Observation ( http://arxiv.org/abs/2409.08744v1 )

ライセンス: Link先を確認
Raul Ramos-Pollan, Freddie Kalaitzis, Karthick Panner Selvam, (参考訳) 我々は,特定の関心領域(AOI)において,限られたラベル付け予算で下流タスク(植生被覆の推定など)を設計したいという視点を採っている。 既存のファンデーションモデル(FM)を活用することで、AOIがAOIに一般化することを望んで、異なるがラベルに富んだAOIで下流モデルをトレーニングするか、トレーニングと検証のためにAOIにラベルを分割するかを判断する必要があります。 いずれの場合も、FMが何を使うか、ラベル付けのためにAOIをサンプルする方法など、結果のパフォーマンスと不確実性の両方に影響を与える選択肢に直面します。 本研究では,Sentinel 1 または Sentinel 2 の既存の8つの FM を入力データとして,ESA World Cover 製品からのクラスを,11個の AOI の下流タスクとして,大規模なアブレーション研究を行う。 我々は繰り返しサンプリングとトレーニングを行い、結果として500Kの単純な線形回帰モデルがアブレーションされる。 その結果,AOIにおける空間一般化可能性の限界と,異なるチップレベルの予測タスクにおいて,予測値と目標値との相関係数が0.9以上となるFMのパワーの両方が示された。 それでも、パフォーマンスと不確実性は、AOI、タスク、FMで大きく異なります。 なぜなら、各FMタスクと下流タスク(インプットモダリティ、サンプリング、アーキテクチャ、事前トレーニングなど)の背後には多くの設計上の決定があり、通常、下流タスクデザイナが認識し、そのいくつかを決定することができるからです。 本研究を通じて,本稿では,新たなFMを公開する際の方法論(参照グローバルラベルと簡単なプローブ)の活用と,ダウンストリームタスクを設計して使用する際の情報的意思決定の両面について論じる。

We take the perspective in which we want to design a downstream task (such as estimating vegetation coverage) on a certain area of interest (AOI) with a limited labeling budget. By leveraging an existing Foundation Model (FM) we must decide whether we train a downstream model on a different but label-rich AOI hoping it generalizes to our AOI, or we split labels in our AOI for training and validating. In either case, we face choices concerning what FM to use, how to sample our AOI for labeling, etc. which affect both the performance and uncertainty of the results. In this work, we perform a large ablative study using eight existing FMs on either Sentinel 1 or Sentinel 2 as input data, and the classes from the ESA World Cover product as downstream tasks across eleven AOIs. We do repeated sampling and training, resulting in an ablation of some 500K simple linear regression models. Our results show both the limits of spatial generalizability across AOIs and the power of FMs where we are able to get over 0.9 correlation coefficient between predictions and targets on different chip level predictive tasks. And still, performance and uncertainty vary greatly across AOIs, tasks and FMs. We believe this is a key issue in practice, because there are many design decisions behind each FM and downstream task (input modalities, sampling, architectures, pretraining, etc.) and usually a downstream task designer is aware of and can decide upon a few of them. Through this work, we advocate for the usage of the methodology herein described (large ablations on reference global labels and simple probes), both when publishing new FMs, and to make informed decisions when designing downstream tasks to use them.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# 開系における情報フローの位相空間測度:非マルコビアン性に関する量子的および古典的視点

Phase space measures of information flow in open systems: A quantum and classical perspective of non-Markovianity ( http://arxiv.org/abs/2409.08749v1 )

ライセンス: Link先を確認
Moritz F. Richter, Heinz-Peter Breuer, (参考訳) オープン量子システムとその環境、特に環境から非マルコビアン性の量子概念に関連するオープンシステムへの情報のバックフローの間の情報の交換は、近年広く議論されているトピックである。 この情報の流れは、状態の区別可能性の尺度を提供する量子状態のペアのトレース距離によって定量化することができる。 同じ考え方は、位相空間上の確率分布の適切な距離測度を通じて、古典的開系における情報の流れを特徴づけるためにも用いられる。 ここでは、位相空間上の異なる順序の準確率分布に対するトレース距離に基づく量子測度とコルモゴロフ距離との接続について検討する。 特に、任意の量子状態に対して、コルモゴロフ距離がトレース距離と一致するユニークな準確率分布を見つけることができることを示す。 さらに、距離測度の量子-古典的遷移について研究する。 量子ブラウン運動のカルデイラ・レゲットモデル(Caldeira-Legget model)を原型的な例として用いて、数値シミュレーションにより、ウィグナー関数のコルモゴロフ距離が古典的不確実性限界のトレース距離に特に急速に収束していることが示され、これは半古典的な情報バックフローの測定と開連続変数量子系における非マルコフ性の定量化のための最適なツールとしてウィグナー関数距離を確立する。

The exchange of information between an open quantum system and its environment, especially the backflow of information from the environment to the open system associated with quantum notions of non-Markovianity, is a widely discussed topic for years now. This information flow can be quantified by means of the trace distance of pairs of quantum states which provides a measure for the distinguishability of the states. The same idea can also be used to characterize the information flow in classical open systems through a suitable distance measure for their probability distributions on phase space. Here, we investigate the connection between the trace distance based quantum measure and the Kolmogorov distance for differently ordered quasi-probability distributions on phase space. In particular, we show that for any pair of quantum states one can find a unique quasi-probability distribution for which the Kolmogorov distance coincides with the trace distance. We further study the quantum-to-classical transition of the distance measures. Employing the Caldeira-Legget model of quantum Brownian motion as a prototypical example, numerical simulations indicate a particularly rapid convergence of the Kolmogorov distance of the Wigner functions to the trace distance in the classical uncertainty limit, which establishes the Wigner function distance as an optimal tool for measuring semi-classical information backflow and for quantifying non-Markovianity in open continuous variable quantum systems.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# AI安全フレームワークのためのグラディングルーブリック

A Grading Rubric for AI Safety Frameworks ( http://arxiv.org/abs/2409.08751v1 )

ライセンス: Link先を確認
Jide Alaga, Jonas Schuett, Markus Anderljung, (参考訳) 過去1年間、人工知能(AI)企業は、AI安全フレームワークをますます採用してきた。 これらのフレームワークは、企業がフロンティアAIシステムの開発とデプロイに関連する潜在的なリスクを許容できるレベルに維持する方法について概説している。 Anthropic、OpenAI、Google DeepMindといった主要企業がすでにフレームワークを公開しており、2025年2月までに同様のフレームワークをリリースする意向を示している企業が13社いる。 システムから受け入れられないリスクを特定し、対処するAI企業の取り組みにおける中心的な役割を考えると、AI安全フレームワークは重大な精査を保証している。 本稿では,政府,学界,市民社会がこれらの枠組みについて判断を下すために,段階的なルーリックを提案する。 ルーブリックは7つの評価基準と21の指標から成り、基準を補強する。 各基準は、A(金標準)からF(準標準)までのスケールで等級化することができる。 また, 調査, デルフィ研究, 監査の3つの手法を提案する。 グレーディングルーリックの目的は、フレームワーク間の微妙な比較を可能にし、潜在的な改善領域を特定し、責任あるAI開発のトップへのレースを促進することである。

Over the past year, artificial intelligence (AI) companies have been increasingly adopting AI safety frameworks. These frameworks outline how companies intend to keep the potential risks associated with developing and deploying frontier AI systems to an acceptable level. Major players like Anthropic, OpenAI, and Google DeepMind have already published their frameworks, while another 13 companies have signaled their intent to release similar frameworks by February 2025. Given their central role in AI companies' efforts to identify and address unacceptable risks from their systems, AI safety frameworks warrant significant scrutiny. To enable governments, academia, and civil society to pass judgment on these frameworks, this paper proposes a grading rubric. The rubric consists of seven evaluation criteria and 21 indicators that concretize the criteria. Each criterion can be graded on a scale from A (gold standard) to F (substandard). The paper also suggests three methods for applying the rubric: surveys, Delphi studies, and audits. The purpose of the grading rubric is to enable nuanced comparisons between frameworks, identify potential areas of improvement, and promote a race to the top in responsible AI development.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# コンテキスト特有な多目的推薦最適化のためのハイブリッドメタラーニングとマルチアーマドバンドアプローチ

A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization ( http://arxiv.org/abs/2409.08752v1 )

ライセンス: Link先を確認
Tiago Cunha, Andrea Marchini, (参考訳) オンラインマーケットプレースのレコメンダシステムは、顧客やプロバイダ、プラットフォームなど、さまざまな利害関係者を満たすために、複数の目標のバランスをとるという課題に直面しています。 本稿では, メタラーニングとマルチアーマッド・バンディット(MAB)を組み合わせるハイブリッドアプローチであるJuggler-MABを紹介し, 既存のマルチステークホルダ・リコメンデーションシステムの限界に対処する。 提案手法は,MABコンポーネントをリアルタイム・コンテキスト特化処理に組み込むことで,メタラーニングを用いてユーティリティと補償調整のための最適な重み付けを予測できるJugglerフレームワークを拡張した。 本稿では,Jugglerが初期重み予測を行うための2段階のアプローチを提案する。 本システムでは,デバイスタイプやブランドなどのコンテキスト特性を活用して,特定のセグメントに基づいて微粒な重量調整を行う。 提案手法を評価するために,Expediaの宿泊予約プラットフォームから0.6百万件の検索データセットを用いたシミュレーションフレームワークを開発した。 結果は、Juggler-MABが元のJugglerモデルよりも優れており、NDCGの改善は2.9%、後悔の13.7%、最高の腕選択率の9.8%が向上していることを示している。

Recommender systems in online marketplaces face the challenge of balancing multiple objectives to satisfy various stakeholders, including customers, providers, and the platform itself. This paper introduces Juggler-MAB, a hybrid approach that combines meta-learning with Multi-Armed Bandits (MAB) to address the limitations of existing multi-stakeholder recommendation systems. Our method extends the Juggler framework, which uses meta-learning to predict optimal weights for utility and compensation adjustments, by incorporating a MAB component for real-time, context-specific refinements. We present a two-stage approach where Juggler provides initial weight predictions, followed by MAB-based adjustments that adapt to rapid changes in user behavior and market conditions. Our system leverages contextual features such as device type and brand to make fine-grained weight adjustments based on specific segments. To evaluate our approach, we developed a simulation framework using a dataset of 0.6 million searches from Expedia's lodging booking platform. Results show that Juggler-MAB outperforms the original Juggler model across all metrics, with NDCG improvements of 2.9%, a 13.7% reduction in regret, and a 9.8% improvement in best arm selection rate.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# 情報深層学習を考慮した密度認識による不確かさ推定

Uncertainty Estimation by Density Aware Evidential Deep Learning ( http://arxiv.org/abs/2409.08754v1 )

ライセンス: Link先を確認
Taeseong Yoon, Heeyoung Kim, (参考訳) Evidential Deep Learning (EDL) は不確実性評価において顕著な成功を収めた。 しかし、特にアウト・オブ・ディストリビューション(OOD)の検出と分類タスクにおいて、改善の余地は残っている。 EDLの限られたOOD検出性能は、不確実性を定量化する際の試験例とトレーニングデータの距離を反映できないことに起因するが、その限定された分類性能は、その濃度パラメータのパラメータ化に由来する。 これらの制約に対処するため,本研究では,DAEDL(Dedentity Aware Evidential Deep Learning)と呼ばれる新しい手法を提案する。 DAEDLはテスト例の特徴空間密度を予測段階のEDLの出力と統合し、従来のパラメータ化の問題を解決する新しいパラメータ化を使用する。 DAEDLが多くの理論的性質を享受していることを証明する。 DAEDLは不確実性推定と分類に関連する様々な下流タスクにまたがる最先端性能を実証する

Evidential deep learning (EDL) has shown remarkable success in uncertainty estimation. However, there is still room for improvement, particularly in out-of-distribution (OOD) detection and classification tasks. The limited OOD detection performance of EDL arises from its inability to reflect the distance between the testing example and training data when quantifying uncertainty, while its limited classification performance stems from its parameterization of the concentration parameters. To address these limitations, we propose a novel method called Density Aware Evidential Deep Learning (DAEDL). DAEDL integrates the feature space density of the testing example with the output of EDL during the prediction stage, while using a novel parameterization that resolves the issues in the conventional parameterization. We prove that DAEDL enjoys a number of favorable theoretical properties. DAEDL demonstrates state-of-the-art performance across diverse downstream tasks related to uncertainty estimation and classification
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# 隠れノードを持つグラフ構造信号からのオンラインネットワーク推論

Online Network Inference from Graph-Stationary Signals with Hidden Nodes ( http://arxiv.org/abs/2409.08760v1 )

ライセンス: Link先を確認
Andrei Buciulea, Madeline Navarro, Samuel Rey, Santiago Segarra, Antonio G. Marques, (参考訳) グラフ学習は、利用可能なデータから未知のグラフ接続を推定する基本的なタスクである。 典型的なアプローチは、すべての情報が同時に利用できるだけでなく、すべてのノードを観測できると仮定する。 しかし、多くの現実世界のシナリオでは、データは完全には知られず、一度にすべてを取得することもできない。 本稿では,隠れノードの存在を考慮したオンライングラフ推定手法を提案する。 隠れノードへの未知接続のモデルを提供する基礎となるグラフ上に静止している信号について検討する。 次に、ストリーミング不完全グラフ信号からのグラフ学習のための凸最適化問題を定式化する。 提案手法は,データの逐次到着時にリアルタイムに動作可能な効率的な近位勾配アルゴリズムによって解決される。 さらに、オンラインアルゴリズムがバッチワイズソリューションと類似している理論的条件を提供する。 合成および実世界のデータに関する実験結果から, オンライングラフ学習へのアプローチが, 欠落した観察の存在下で実現可能であることを実証した。

Graph learning is the fundamental task of estimating unknown graph connectivity from available data. Typical approaches assume that not only is all information available simultaneously but also that all nodes can be observed. However, in many real-world scenarios, data can neither be known completely nor obtained all at once. We present a novel method for online graph estimation that accounts for the presence of hidden nodes. We consider signals that are stationary on the underlying graph, which provides a model for the unknown connections to hidden nodes. We then formulate a convex optimization problem for graph learning from streaming, incomplete graph signals. We solve the proposed problem through an efficient proximal gradient algorithm that can run in real-time as data arrives sequentially. Additionally, we provide theoretical conditions under which our online algorithm is similar to batch-wise solutions. Through experimental results on synthetic and real-world data, we demonstrate the viability of our approach for online graph learning in the presence of missing observations.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# ジャーナリスト、感情、そして生成型AIチャットボットの導入:ChatGPTのローンチ前後におけるツイートの大規模分析

Journalists, Emotions, and the Introduction of Generative AI Chatbots: A Large-Scale Analysis of Tweets Before and After the Launch of ChatGPT ( http://arxiv.org/abs/2409.08761v1 )

ライセンス: Link先を確認
Seth C. Lewis, David M. Markowitz, Jon Benedik Bunquin, (参考訳) 本研究は、生成的AIが及ぼす影響のより広範な考察の一環として、ジャーナリストのChatGPTリリースに対する感情的反応を調査した。 2022年11月のChatGPT導入前後の感情のトーンと感情の変化を、米国大手ニュースメディアのジャーナリストから100万近いツイートを分析した。 様々な計算および自然言語処理技術を用いて、ChatGPTのリリースに反応して感情の変化を測定することで、ポジティブな感情の増加と、ローンチ後のより好意的なトーンが発見され、AIの可能性に対する最初の楽観性が示唆された。 この研究は、ジャーナリストが技術革新と破壊の通訳として重要な役割を担い、彼らの感情的な反応が新興技術に関する大衆の物語をいかに形作るかを強調している。 この研究は、ジャーナリズム、感情、AIの交わりを理解することに寄与し、生成型AIツールのより広範な社会的影響に関する洞察を提供する。

As part of a broader look at the impact of generative AI, this study investigated the emotional responses of journalists to the release of ChatGPT at the time of its launch. By analyzing nearly 1 million Tweets from journalists at major U.S. news outlets, we tracked changes in emotional tone and sentiment before and after the introduction of ChatGPT in November 2022. Using various computational and natural language processing techniques to measure emotional shifts in response to ChatGPT's release, we found an increase in positive emotion and a more favorable tone post-launch, suggesting initial optimism toward AI's potential. This research underscores the pivotal role of journalists as interpreters of technological innovation and disruption, highlighting how their emotional reactions may shape public narratives around emerging technologies. The study contributes to understanding the intersection of journalism, emotion, and AI, offering insights into the broader societal impact of generative AI tools.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# 音響イベント検出システムにおけるエネルギー消費動向

Energy Consumption Trends in Sound Event Detection Systems ( http://arxiv.org/abs/2409.08763v1 )

ライセンス: Link先を確認
Constance Douwes, Romain Serizel, (参考訳) ディープラーニングシステムは、ますますエネルギーと計算集約化が進み、環境への影響に対する懸念が高まっている。 音響シーン・イベントの検出・分類(DCASE)課題のオーガナイザとして,この問題に対処することの重要性を認識した。 過去3年間,我々は,音事象検出(SED)システムの評価にエネルギー消費指標を統合してきた。 本稿では,このエネルギー基準が課題結果に与える影響を分析し,長年にわたるシステム複雑性とエネルギー消費の進化について考察する。 パフォーマンスを損なうことなく、トレーニング中によりエネルギー効率の良いアプローチに移行する一方で、運用数やシステムの複雑さは増加し続けています。 この分析を通じて,SEDコミュニティ内でのより環境に優しい実践の促進を期待する。

Deep learning systems have become increasingly energy- and computation-intensive, raising concerns about their environmental impact. As organizers of the Detection and Classification of Acoustic Scenes and Events (DCASE) challenge, we recognize the importance of addressing this issue. For the past three years, we have integrated energy consumption metrics into the evaluation of sound event detection (SED) systems. In this paper, we analyze the impact of this energy criterion on the challenge results and explore the evolution of system complexity and energy consumption over the years. We highlight a shift towards more energy-efficient approaches during training without compromising performance, while the number of operations and system complexity continue to grow. Through this analysis, we hope to promote more environmentally friendly practices within the SED community.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# データ分散領域における気候抵抗性と局部マッピングのクロスカウンタリー比較分析

Cross-Country Comparative Analysis of Climate Resilience and Localized Mapping in Data-Sparse Regions ( http://arxiv.org/abs/2409.08765v1 )

ライセンス: Link先を確認
Ronald Katende, (参考訳) 気候の回復力は低所得国(一般)で大きく異なり、農業は気候変動に対して最も脆弱である。 既存の研究は、一般的に個々の国に焦点を当て、適応と脆弱性のより広い国間のパターンに関する限られた洞察を提供する。 本稿では、メタ分析とクロスカントリーパネルデータ技術を用いて、セクター気候の弾力性に関するクロスカントリー比較分析の枠組みを導入することにより、これらのギャップに対処する。 この研究は、lic間の共有脆弱性と適応戦略を特定し、より効果的なポリシー設計を可能にした。 さらに, 環境負荷下での農業生産性の微粒化マップを作成するために, 高解像度の衛星画像と疎農業データを融合して, 新たな局部的な温暖化マッピング技術を開発した。 クリギングのような空間補間法は、データギャップに対処するために使われ、地域の農業生産性とレジリエンスに関する詳細な洞察を提供する。 この発見は、気候適応の取り組みを優先順位付けし、地域と国家の両方で資源配分を最適化する政策立案者ツールを提供する。

Climate resilience across sectors varies significantly in low-income countries (LICs), with agriculture being the most vulnerable to climate change. Existing studies typically focus on individual countries, offering limited insights into broader cross-country patterns of adaptation and vulnerability. This paper addresses these gaps by introducing a framework for cross-country comparative analysis of sectoral climate resilience using meta-analysis and cross-country panel data techniques. The study identifies shared vulnerabilities and adaptation strategies across LICs, enabling more effective policy design. Additionally, a novel localized climate-agriculture mapping technique is developed, integrating sparse agricultural data with high-resolution satellite imagery to generate fine-grained maps of agricultural productivity under climate stress. Spatial interpolation methods, such as kriging, are used to address data gaps, providing detailed insights into regional agricultural productivity and resilience. The findings offer policymakers tools to prioritize climate adaptation efforts and optimize resource allocation both regionally and nationally.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# SAUC:グラフニューラルネットワークを用いた時空間予測のための空間的不確実性校正

SAUC: Sparsity-Aware Uncertainty Calibration for Spatiotemporal Prediction with Graph Neural Networks ( http://arxiv.org/abs/2409.08766v1 )

ライセンス: Link先を確認
Dingyi Zhuang, Yuheng Bu, Guang Wang, Shenhao Wang, Jinhua Zhao, (参考訳) 不確実性の定量化は、堅牢で信頼性の高い予測に不可欠である。 しかし、既存の時空間深層学習は主に決定論的予測に焦点を当てており、そのような予測に固有の不確実性を見落としている。 特に、高粒度の時空間データセットは希薄であり、予測と不確実性定量化においてさらなる課題を提起する。 これらの問題に対処するために,ゼロ値と非ゼロ値の両方の不確実性を校正する,ポストホックな不確実性校正(SAUC)フレームワークを提案する。 SAUCを開発するために、我々はまず、最先端の決定論的時空間グラフニューラルネットワーク(ST-GNN)を、事前校正フェーズにおける確率論的ニューラルネットワークに修正する。 次に、量子的アプローチを用いて確率的ST-GNNをゼロ値と非ゼロ値でキャリブレーションし、より広範な実験により、SAUCがスパースデータの分散に効果的に適合し、2つの実世界の時空間データセットを様々な粒度で一般化できることを実証した。 具体的には, スパース交通事故と都市犯罪予測のゼロ項目において, 校正誤差を20倍に削減する実験を行った。 全体として、この研究はSAUCフレームワークの理論的および経験的価値を示し、不確実性定量化と時空間予測の間に大きなギャップを埋める。

Quantifying uncertainty is crucial for robust and reliable predictions. However, existing spatiotemporal deep learning mostly focuses on deterministic prediction, overlooking the inherent uncertainty in such prediction. Particularly, highly-granular spatiotemporal datasets are often sparse, posing extra challenges in prediction and uncertainty quantification. To address these issues, this paper introduces a novel post-hoc Sparsity-awar Uncertainty Calibration (SAUC) framework, which calibrates uncertainty in both zero and non-zero values. To develop SAUC, we firstly modify the state-of-the-art deterministic spatiotemporal Graph Neural Networks (ST-GNNs) to probabilistic ones in the pre-calibration phase. Then we calibrate the probabilistic ST-GNNs for zero and non-zero values using quantile approaches.Through extensive experiments, we demonstrate that SAUC can effectively fit the variance of sparse data and generalize across two real-world spatiotemporal datasets at various granularities. Specifically, our empirical experiments show a 20\% reduction in calibration errors in zero entries on the sparse traffic accident and urban crime prediction. Overall, this work demonstrates the theoretical and empirical values of the SAUC framework, thus bridging a significant gap between uncertainty quantification and spatiotemporal prediction.
翻訳日:2024-09-16 16:49:03 公開日:2024-09-13
# HOLA-Drone: ゼロショット多次元協調探索のためのハイパーグラフィックオープンエンドラーニング

HOLA-Drone: Hypergraphic Open-ended Learning for Zero-Shot Multi-Drone Cooperative Pursuit ( http://arxiv.org/abs/2409.08767v1 )

ライセンス: Link先を確認
Yang Li, Dengyu Zhang, Junfan Chen, Ying Wen, Qingrui Zhang, Shaoshuai Mou, Wei Pan, (参考訳) ゼロショットコーディネート(ZSC)は、これまで遭遇したことのないパートナーと協調できるエージェントを開発することを目的として、マルチエージェントコラボレーションにおいて重要な課題である。 最近の最先端ZSC手法は、主にOverCooked!のような2プレイヤーのビデオゲームに焦点を当てている。 2とハナビ。 本稿では,ZSC研究の範囲を,複数の未確認パートナーと協調して複数のエバダを捕獲できるドローンエージェントを構築する方法について検討する。 本稿では,複数の未知のドローンチームメイトとの協調能力向上を目的とした,ハイパーグラフィック形式のゲームモデリングに基づく学習目標を継続的に適用する新しいハイパーグラフィックオープンエンド学習アルゴリズム(HOLA-Drone)を提案する。 HOLA-Droneの有効性を実証的に検証するため、2つの異なる無人チームメイトプールを構築し、その性能を評価する。 実験の結果,HOLA-Droneは無人ドローンチームメイトとの協調において,ベースライン法よりも優れていた。 さらに、実世界の実験は、物理システムにおけるHOLA-Droneの実現可能性を検証する。 ビデオはプロジェクトのホームページ~\url{https://sites.google.com/view/hola-drone}で見ることができる。

Zero-shot coordination (ZSC) is a significant challenge in multi-agent collaboration, aiming to develop agents that can coordinate with unseen partners they have not encountered before. Recent cutting-edge ZSC methods have primarily focused on two-player video games such as OverCooked!2 and Hanabi. In this paper, we extend the scope of ZSC research to the multi-drone cooperative pursuit scenario, exploring how to construct a drone agent capable of coordinating with multiple unseen partners to capture multiple evaders. We propose a novel Hypergraphic Open-ended Learning Algorithm (HOLA-Drone) that continuously adapts the learning objective based on our hypergraphic-form game modeling, aiming to improve cooperative abilities with multiple unknown drone teammates. To empirically verify the effectiveness of HOLA-Drone, we build two different unseen drone teammate pools to evaluate their performance in coordination with various unseen partners. The experimental results demonstrate that HOLA-Drone outperforms the baseline methods in coordination with unseen drone teammates. Furthermore, real-world experiments validate the feasibility of HOLA-Drone in physical systems. Videos can be found on the project homepage~\url{https://sites.google.com/view/hola-drone}.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 測定-理論的時間遅延埋め込み

Measure-Theoretic Time-Delay Embedding ( http://arxiv.org/abs/2409.08768v1 )

ライセンス: Link先を確認
Jonah Botvinick-Greenhouse, Maria Oprea, Romit Maulik, Yunan Yang, (参考訳) ケインの埋め込み定理は、部分的な観測から力学系の完全な状態を再構築するための理論的な基礎を提供する。 しかし、古典的な定理は、基礎となる系は決定論的であり、観測はノイズフリーであり、実世界のシナリオにおける適用性を制限すると仮定する。 これらの制限によって動機付けられた測度理論の一般化を厳密に確立し、力学のユーレアン記述を採用し、埋め込みを確率空間間のプッシュフォワード写像として再キャストする。 我々の数学的結果は、最適輸送理論の最近の進歩を活用している。 我々は,新しい測度理論に基づく時間遅延埋め込み理論を構築し,時間差のある部分的な観測から動的システムの完全状態を予測し,疎結合でノイズの多いデータを扱うために,より堅牢性を備えた新しい計算フレームワークを開発した。 従来のLorenz-63システムからNOAA海面温度予測やERA5風況の再現など,大規模で現実的な応用まで,いくつかの数値的な例を通して,我々のアプローチの有効性と汎用性を実証する。

The celebrated Takens' embedding theorem provides a theoretical foundation for reconstructing the full state of a dynamical system from partial observations. However, the classical theorem assumes that the underlying system is deterministic and that observations are noise-free, limiting its applicability in real-world scenarios. Motivated by these limitations, we rigorously establish a measure-theoretic generalization that adopts an Eulerian description of the dynamics and recasts the embedding as a pushforward map between probability spaces. Our mathematical results leverage recent advances in optimal transportation theory. Building on our novel measure-theoretic time-delay embedding theory, we have developed a new computational framework that forecasts the full state of a dynamical system from time-lagged partial observations, engineered with better robustness to handle sparse and noisy data. We showcase the efficacy and versatility of our approach through several numerical examples, ranging from the classic Lorenz-63 system to large-scale, real-world applications such as NOAA sea surface temperature forecasting and ERA5 wind field reconstruction.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 深部視覚慣性オドメトリーにおける核融合とポス推定のための因果変換器

Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry ( http://arxiv.org/abs/2409.08769v1 )

ライセンス: Link先を確認
Yunus Bilge Kurt, Ahmet Akman, A. Aydın Alatan, (参考訳) 近年、トランスフォーマーベースのアーキテクチャは、ディープラーニングフレームワークにおけるシーケンスモデリングのデファクトスタンダードとなっている。 そこで本研究では, 深部視覚-慣性眼振計測におけるポーズ推定のための視覚-慣性融合変換器 (VIFT) を提案する。 本研究では,近年のリカレントニューラルネットワーク(RNN)に基づく手法と比較して,過去のデータを利用するトランスフォーマーの注意機構を活用することにより,ポーズ推定精度を向上させることを目的とする。 トランスフォーマーは通常、トレーニングのために大規模なデータを必要とする。 この問題に対処するために、深いVIOネットワークの帰納バイアスを利用する。 潜時視覚慣性特徴ベクトルはポーズ推定に不可欠な情報を含むため、潜時ベクトルを時間的に更新することでポーズ推定を洗練するためにトランスフォーマーを用いる。 また,SE$(3)$グループの要素のバックプロパゲーションにおける特殊勾配を利用して,視覚慣性計測の教師付きエンドツーエンド学習におけるデータ不均衡と回転学習の効果について検討した。 提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。 実験により,VIFTは単分子VIOネットワークの精度を向上し,KITTIデータセットの従来の手法と比較して最先端の結果が得られることが示された。 コードはhttps://github.com/ybkurt/VIFT.comから入手できる。

In recent years, transformer-based architectures become the de facto standard for sequence modeling in deep learning frameworks. Inspired by the successful examples, we propose a causal visual-inertial fusion transformer (VIFT) for pose estimation in deep visual-inertial odometry. This study aims to improve pose estimation accuracy by leveraging the attention mechanisms in transformers, which better utilize historical data compared to the recurrent neural network (RNN) based methods seen in recent methods. Transformers typically require large-scale data for training. To address this issue, we utilize inductive biases for deep VIO networks. Since latent visual-inertial feature vectors encompass essential information for pose estimation, we employ transformers to refine pose estimates by updating latent vectors temporally. Our study also examines the impact of data imbalance and rotation learning methods in supervised end-to-end learning of visual inertial odometry by utilizing specialized gradients in backpropagation for the elements of SE$(3)$ group. The proposed method is end-to-end trainable and requires only a monocular camera and IMU during inference. Experimental results demonstrate that VIFT increases the accuracy of monocular VIO networks, achieving state-of-the-art results when compared to previous methods on the KITTI dataset. The code will be made available at https://github.com/ybkurt/VIFT.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# バッチサイズと学習速度の増大は確率的勾配の進行を加速させる

Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent ( http://arxiv.org/abs/2409.08770v1 )

ライセンス: Link先を確認
Hikaru Umeda, Hideaki Iiduka, (参考訳) ミニバッチ確率勾配降下(SGD)の性能は、ディープニューラルネットワークのトレーニングにおける経験的損失を最小限に抑えるためにバッチサイズと学習率の設定に強く依存する。 本稿では,4つのスケジューラを用いたミニバッチSGDの理論解析について述べる。 一 一定のバッチサイズ及び減衰学習率スケジューラ (ii)バッチサイズの増加と学習速度の低下 三 バッチサイズの増加及び学習率スケジューラの増加 (4) バッチサイズの増加と温暖化学習率スケジューラ。 スケジューラを用いたミニバッチSGDについて示す。 i) 必ずしも経験的損失の完全な勾配ノルムの期待を最小化するわけではないが、スケジューラは一切使用しない。 (ii) (三)及び(三) (4)。 さらにスケジューラ (三)及び(三) (4)ミニバッチSGDを加速する。 また,スケジューラを用いた解析結果の数値化も行う。 (iii)? (iv)スケジューラを使用するよりも高速に経験的損失の完全な勾配ノルムを最小化する (i)または (II)。

The performance of mini-batch stochastic gradient descent (SGD) strongly depends on setting the batch size and learning rate to minimize the empirical loss in training the deep neural network. In this paper, we present theoretical analyses of mini-batch SGD with four schedulers: (i) constant batch size and decaying learning rate scheduler, (ii) increasing batch size and decaying learning rate scheduler, (iii) increasing batch size and increasing learning rate scheduler, and (iv) increasing batch size and warm-up decaying learning rate scheduler. We show that mini-batch SGD using scheduler (i) does not always minimize the expectation of the full gradient norm of the empirical loss, whereas it does using any of schedulers (ii), (iii), and (iv). Furthermore, schedulers (iii) and (iv) accelerate mini-batch SGD. The paper also provides numerical results of supporting analyses showing that using scheduler (iii) or (iv) minimizes the full gradient norm of the empirical loss faster than using scheduler (i) or (ii).
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# フェデレート設定における低ランク行列分解の深さ解析

In-depth Analysis of Low-rank Matrix Factorisation in a Federated Setting ( http://arxiv.org/abs/2409.08771v1 )

ライセンス: Link先を確認
Constantin Philippenko, Kevin Scaman, Laurent Massoulié, (参考訳) 我々は分散アルゴリズムを用いて$N$クライアント上の低ランク行列分解を計算し、それぞれにローカルデータセット $\mathbf{S}^i \in \mathbb{R}^{n_i \times d}$, 数学的には$min_{\mathbf{U}^i \in \mathbb{R}^{n_i\times r}, \mathbf{V}\in \mathbb{R}^{d \times r} } \frac{1}{2} \sum_{i=1}^N \|\mathbf{S}^i - \mathbf{U}^i \mathbf{V}^\top\|^2_{\text{F}} を解く。 $\mathbf{V}$ の電力初期化を考えると、以前の滑らかな非凸問題を滑らかな強凸問題に書き換える。 任意のクライアント $i$ in $\{1, \dots, N\}$ に対して、グローバル $\mathbf{V}$ in $\mathbb{R}^{d \times r}$ はすべてのクライアントと局所変数 $\mathbf{U}^i$ in $\mathbb{R}^{n_i \times r}$ に共通である。 余剰損失の収束率を$\sigma_{\max} / \sigma_{r}$ とすると、$\sigma_{r}$ は連結の $\mathbf{S}$ の特異値 $(\mathbf{S}^i)_{i=1}^N$ である。 この結果は、$\sigma_{\max}^2 / \sigma_{\min}^2$に依存する文献における収束率を改善する。 電力初期化戦略の下でフロベニウス-ノームの復元誤差の上限を与える。 我々は、合成データと実データの両方に関する実験で分析を完了した。

We analyze a distributed algorithm to compute a low-rank matrix factorization on $N$ clients, each holding a local dataset $\mathbf{S}^i \in \mathbb{R}^{n_i \times d}$, mathematically, we seek to solve $min_{\mathbf{U}^i \in \mathbb{R}^{n_i\times r}, \mathbf{V}\in \mathbb{R}^{d \times r} } \frac{1}{2} \sum_{i=1}^N \|\mathbf{S}^i - \mathbf{U}^i \mathbf{V}^\top\|^2_{\text{F}}$. Considering a power initialization of $\mathbf{V}$, we rewrite the previous smooth non-convex problem into a smooth strongly-convex problem that we solve using a parallel Nesterov gradient descent potentially requiring a single step of communication at the initialization step. For any client $i$ in $\{1, \dots, N\}$, we obtain a global $\mathbf{V}$ in $\mathbb{R}^{d \times r}$ common to all clients and a local variable $\mathbf{U}^i$ in $\mathbb{R}^{n_i \times r}$. We provide a linear rate of convergence of the excess loss which depends on $\sigma_{\max} / \sigma_{r}$, where $\sigma_{r}$ is the $r^{\mathrm{th}}$ singular value of the concatenation $\mathbf{S}$ of the matrices $(\mathbf{S}^i)_{i=1}^N$. This result improves the rates of convergence given in the literature, which depend on $\sigma_{\max}^2 / \sigma_{\min}^2$. We provide an upper bound on the Frobenius-norm error of reconstruction under the power initialization strategy. We complete our analysis with experiments on both synthetic and real data.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 学習ビデオコーデックの性能評価のためのビデオ集合上のBDレート計算について

On the Computation of BD-Rate over a Set of Videos for Fair Assessment of Performance of Learned Video Codecs ( http://arxiv.org/abs/2409.08772v1 )

ライセンス: Link先を確認
M. Akin Yilmaz, Onur Keleş, A. Murat Tekalp, (参考訳) Bj{\o}ntegaard Delta (BD)測度は、異なるコーデック間でのレート歪み(RD)性能の変動を評価し定量化するために広く用いられている。 多くの研究者が、異なるコーデックのためのデータセット内の複数のビデオの平均BD値を報告している。 我々は、学習ビデオ圧縮コミュニティにおける、複数のビデオの平均RD曲線に基づくデータセット平均BD値の計算が、誤解を招く可能性があると主張している。 線形RD曲線の簡素なケースの解析と、2つの最近の学習ビデオコーデックによる実験結果から、RD曲線を平均化すると、特に異なるコーデックの動作ビットレート範囲が正確に一致しない場合、平均BD値に不均等に影響を及ぼすことができることを示す。 代わりに、従来のビデオ圧縮コミュニティで一般的に行われているように、ビデオ単位のBD尺度を計算し、学習ビデオコーデックを公平に比較するために、動画よりも個々のBD値を平均化することを提唱する。 実験の結果,近年の2つの学習ビデオコーデックの比較は,平均BD値の評価方法に影響されていることがわかった。

The Bj{\o}ntegaard Delta (BD) measure is widely employed to evaluate and quantify the variations in the rate-distortion(RD) performance across different codecs. Many researchers report the average BD value over multiple videos within a dataset for different codecs. We claim that the current practice in the learned video compression community of computing the average BD value over a dataset based on the average RD curve of multiple videos can lead to misleading conclusions. We show both by analysis of a simplistic case of linear RD curves and experimental results with two recent learned video codecs that averaging RD curves can lead to a single video to disproportionately influence the average BD value especially when the operating bitrate range of different codecs do not exactly match. Instead, we advocate for calculating the BD measure per-video basis, as commonly done by the traditional video compression community, followed by averaging the individual BD values over videos, to provide a fair comparison of learned video codecs. Our experimental results demonstrate that the comparison of two recent learned video codecs is affected by how we evaluate the average BD measure.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 公開鍵暗号システムと署名方式に対する$p$-adicの攻撃

An Attack on $p$-adic Lattice Public-key Cryptosystems and Signature Schemes ( http://arxiv.org/abs/2409.08774v1 )

ライセンス: Link先を確認
Chi Zhang, (参考訳) 格子は暗号に多くの重要な応用がある。 2021年、$p$-adicシグネチャスキームと公開鍵暗号システムが導入された。 それらは、$p$進格子のLongest Vector Problem (LVP) とClosest Vector Problem (CVP) に基づいている。 これらの問題は困難であると考えられており、解くための決定論的多項式時間アルゴリズムは知られていない。 本稿では,局所フィールドにおけるLVPアルゴリズムの改良について述べる。 修正LVPアルゴリズムは、フィールドが完全に分岐し、$p$が入力格子のランクの多項式であるとき、決定論的多項式時間アルゴリズムである。 このアルゴリズムを用いて上記のスキームを攻撃し、任意のメッセージの有効なシグネチャをフォージし、暗号文を復号化できるようにします。 これらのスキームは壊れているが、この研究は、$p$-adic 格子が暗号プリミティブの構築に適さないという意味ではない。 本論文の最後には,攻撃を避けるため,いくつかの可能性のある修正を提案する。

Lattices have many significant applications in cryptography. In 2021, the $p$-adic signature scheme and public-key encryption cryptosystem were introduced. They are based on the Longest Vector Problem (LVP) and the Closest Vector Problem (CVP) in $p$-adic lattices. These problems are considered to be challenging and there are no known deterministic polynomial time algorithms to solve them. In this paper, we improve the LVP algorithm in local fields. The modified LVP algorithm is a deterministic polynomial time algorithm when the field is totally ramified and $p$ is a polynomial in the rank of the input lattice. We utilize this algorithm to attack the above schemes so that we are able to forge a valid signature of any message and decrypt any ciphertext. Although these schemes are broken, this work does not mean that $p$-adic lattices are not suitable in constructing cryptographic primitives. We propose some possible modifications to avoid our attack at the end of this paper.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 何て言ったらいいのか? LLMに必要なことを人間に教える

What You Say = What You Want? Teaching Humans to Articulate Requirements for LLMs ( http://arxiv.org/abs/2409.08775v1 )

ライセンス: Link先を確認
Qianou Ma, Weirui Peng, Hua Shen, Kenneth Koedinger, Tongshuang Wu, (参考訳) ChatGPTに複雑な目標(例えば、カスタマーサポートチャットボットの作成)を達成させるには、流動的な書き込みやチェーン・オブ・ソート技術といった側面を含む、綿密な迅速なエンジニアリングが必要になります。 新たなプロンプトオプティマイザは、これらの側面の多くを自動的に洗練しますが、カスタマイズされた要件(例えば、多様な入力を処理する方法)を明確に伝達することは、人間中心の課題である、と私たちは主張しています。 本研究では,要求指向型プロンプトエンジニアリング(ROPE)について紹介する。 LLM生成フィードバックを意図的に実践する評価・トレーニングスイートを通じてROPEを実装した。 30名の初級者を対象にした研究では,要求重視の訓練が初級者の性能を2倍に向上させ,従来のプロンプトエンジニアリングトレーニングと即時最適化を著しく上回った。 また、高品質のLCM出力が入力要求の品質と直接結びついていることも示している。 我々の研究は、人間とLLMの協調的なプロンプトにおいて、より効果的なタスクデリゲーションの道を開く。

Prompting ChatGPT to achieve complex goals (e.g., creating a customer support chatbot) often demands meticulous prompt engineering, including aspects like fluent writing and chain-of-thought techniques. While emerging prompt optimizers can automatically refine many of these aspects, we argue that clearly conveying customized requirements (e.g., how to handle diverse inputs) remains a human-centric challenge. In this work, we introduce Requirement-Oriented Prompt Engineering (ROPE), a paradigm that focuses human attention on generating clear, complete requirements during prompting. We implement ROPE through an assessment and training suite that provides deliberate practice with LLM-generated feedback. In a study with 30 novices, we show that requirement-focused training doubles novices' prompting performance, significantly outperforming conventional prompt engineering training and prompt optimization. We also demonstrate that high-quality LLM outputs are directly tied to the quality of input requirements. Our work paves the way for more effective task delegation in human-LLM collaborative prompting.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# スケーラブルで解釈可能な量子自然言語処理--イオントラップの実装

Scalable and interpretable quantum natural language processing: an implementation on trapped ions ( http://arxiv.org/abs/2409.08777v1 )

ライセンス: Link先を確認
Tiffany Duneau, Saskia Bruhn, Gabriel Matos, Tuomas Laakkonen, Katerina Saiti, Anna Pearson, Konstantinos Meichanetzidis, Bob Coecke, (参考訳) 我々は、量子コンピューティングとAIが実りある交点を発見した分野である、テキストレベルの量子自然言語処理の最初の実装を提示する。 QDisCoCircモデルは、AIを解釈可能な形でレンダリングするための構成的アプローチによって支えられている: 全体の振る舞いは、部品の振る舞いとそれらがどのように組み立てられるかという観点で理解することができる。 解釈可能性は、AIの望ましくない振る舞いを理解するために不可欠である。 モデルアーキテクチャにおける構成構造を活用することにより、「合成一般化」を可能にする新しいセットアップを導入する: 古典的には、より大きなテストインスタンスを生成するために構成されるコンポーネントを訓練し、漸近的に量子コンピュータを必要とする評価を行う。 このアプローチのもうひとつの大きな利点は、量子機械学習で発生するトレーサビリティの課題を回避できることです。 私たちが考える主な課題は、質問応答のモデルネイティブなタスクであり、実験場として機能する手作りおもちゃのスケールデータである。 我々は、スケーラブルな合成QNLPの概念実装の第一の証明となるQuantinuumのH1-1トラップイオン量子プロセッサについて実験を行った。 また、モデルを古典的にシミュレートするためのリソース推定も提供する。 構成構造により、モデルが各単語について学習する単語を検査し、解釈することができる。 これにより、質問応答タスクへの対処方法の理解が向上します。 古典的ベースラインとの最初の比較として,変換器モデルとLSTMモデル,およびGPT-4を検討したが,いずれのモデルも合成の一般化には成功しなかった。

We present the first implementation of text-level quantum natural language processing, a field where quantum computing and AI have found a fruitful intersection. We focus on the QDisCoCirc model, which is underpinned by a compositional approach to rendering AI interpretable: the behaviour of the whole can be understood in terms of the behaviour of parts, and the way they are put together. Interpretability is crucial for understanding the unwanted behaviours of AI. By leveraging the compositional structure in the model's architecture, we introduce a novel setup which enables 'compositional generalisation': we classically train components which are then composed to generate larger test instances, the evaluation of which asymptotically requires a quantum computer. Another key advantage of our approach is that it bypasses the trainability challenges arising in quantum machine learning. The main task that we consider is the model-native task of question-answering, and we handcraft toy scale data that serves as a proving ground. We demonstrate an experiment on Quantinuum's H1-1 trapped-ion quantum processor, which constitutes the first proof of concept implementation of scalable compositional QNLP. We also provide resource estimates for classically simulating the model. The compositional structure allows us to inspect and interpret the word embeddings the model learns for each word, as well as the way in which they interact. This improves our understanding of how it tackles the question-answering task. As an initial comparison with classical baselines, we considered transformer and LSTM models, as well as GPT-4, none of which succeeded at compositional generalisation.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 手話センスの曖昧さ

Sign Language Sense Disambiguation ( http://arxiv.org/abs/2409.08780v1 )

ライセンス: Link先を確認
Jana Grimm, Miriam Winkler, Oliver Kraus, Tanalp Agustoslu, (参考訳) 本研究は、ドイツ語手話の手話翻訳を強化する手法について検討し、特に同義語の曖昧さに着目したものである。 手話はあいまいで、我々の実験の基礎となっている。 本研究では, トランスフォーマーモデルを用いた様々なボディパーツ表現の訓練により, ボディーパーツに焦点を移すことにより, 改善にアプローチする。 手や口の表現が与える影響を判断するために,我々は異なる組み合わせを用いて実験を行った。 その結果、小さなデータセット設定では、口に焦点を合わせることでパフォーマンスが向上し、手に焦点を移すことで、より大きなデータセット設定ではより良い結果が得られることがわかった。 本研究は,デジタルアシスタントを駆動するシステムを改善し,より正確なインタラクションを実現することにより,非聴取者のアクセシビリティの向上に寄与する。 プロジェクトのコードはGitHubにある。

This project explores methods to enhance sign language translation of German sign language, specifically focusing on disambiguation of homonyms. Sign language is ambiguous and understudied which is the basis for our experiments. We approach the improvement by training transformer-based models on various bodypart representations to shift the focus on said bodypart. To determine the impact of, e.g., the hand or mouth representations, we experiment with different combinations. The results show that focusing on the mouth increases the performance in small dataset settings while shifting the focus on the hands retrieves better results in larger dataset settings. Our results contribute to better accessibility for non-hearing persons by improving the systems powering digital assistants, enabling a more accurate interaction. The code for this project can be found on GitHub.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 3次元グラフマッチングを用いた非接触指紋認識

Contactless Fingerprint Recognition Using 3D Graph Matching ( http://arxiv.org/abs/2409.08782v1 )

ライセンス: Link先を確認
Zhe Cui, Yuwei Jia, Siyang Zheng, Fei Su, (参考訳) コンタクトレス指紋は、新たに開発されたタイプの指紋であり、最近の指紋研究で多くの注目を集めている。 しかし、既存の接触非接触指紋アルゴリズムは、接触非接触指紋を2Dプレーン指紋として扱い、従来の接触型2D指紋と同様の認識方法を使用している。 この認識手法は,非接触指紋と接触指紋のモード差,特に非接触指紋の内在的な3D特性を考慮しない。 本稿では,非接触指紋の3次元特徴を,通常の2次元特徴ではなく,非接触指紋の特徴を捉える新しい非接触指紋認識アルゴリズムを提案する。 提案手法は,入力された非接触指紋から,まず3次元形状モデルと3次元指紋特徴(ミニチュア,オリエンテーションなど)を含む3次元特徴を復元する。 そして、抽出した3D特徴に応じて、新しい3Dグラフマッチングを3D空間で行う。 本手法は,特徴抽出とマッチングアルゴリズムが実際の3次元空間で完備しているため,非接触指紋の実際の3次元特性をキャプチャする。 接触指紋データベースを用いた実験結果から,接触指紋の一致精度の向上に成功していることがわかった。 例外的に,本手法は,従来の非接触指紋認識アルゴリズムよりも優れた3次元グラフマッチングにより,複数の非接触指紋のポーズに対して安定に動作する。

Contactless fingerprint is a newly developed type of fingerprint, and has gained lots of attention in recent fingerprint studies. However, most existing contactless fingerprint algorithms treat contactless fingerprints as 2D plain fingerprints, and utilize similar recognition methods as traditional contact-based 2D fingerprints. This recognition approach does not consider the modality difference between contactless and contact fingerprints, especially the intrinsic 3D characteristic of contactless fingerprints. This paper proposes a novel contactless fingerprint recognition algorithm that captures the revealed 3D feature of contactless fingerprints rather than the plain 2D feature. The proposed method first recovers 3D features from the input contactless fingerprint, including the 3D shape model and 3D fingerprint feature (minutiae, orientation, etc.). Then, a novel 3D graph matching is conducted in 3D space according to the extracted 3D feature. Our method captures the real 3D nature of contactless fingerprints as the whole feature extraction and matching algorithms are completed in real 3D space. Experiments results on contactless fingerprint databases show that the proposed method successfully improves the matching accuracy of contactless fingerprints. Exceptionally, our method performs stably across multiple poses of contactless fingerprints due to 3D graph matching, which is a great advantage compared to previous contactless fingerprint recognition algorithms.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# Double Index Calculus Algorithm:finite Prime Fieldにおける離散対数問題の高速解法

Double Index Calculus Algorithm: Faster Solving Discrete Logarithm Problem in Finite Prime Field ( http://arxiv.org/abs/2409.08784v1 )

ライセンス: Link先を確認
Wen Huang, Zhishuo Zhang, Weixin Zhao, Jian Peng, Yongjian Liao, Yuyu Wang, (参考訳) 有限素体における離散対数問題を解くことは、現代の暗号における非常に重要な計算問題である。 有限素体における離散対数問題を解くことの難しさは、多数の暗号スキームのセキュリティ基盤である。 本稿では,有限素体における離散対数問題の解法として,二重指数計算アルゴリズムを提案する。 このアルゴリズムは有限素体における離散対数問題を解くための最先端のアルゴリズムである指数計算アルゴリズムよりも高速である。 実験結果から,素数順序のビット長が70ビットである場合,本アルゴリズムは指数計算アルゴリズムよりも30倍以上の計算速度が増大する可能性が示唆された。 さらに,本アルゴリズムは指数計算アルゴリズムよりも汎用性が高い。 具体的には、対象とする離散対数問題の基底が乗算生成元ではない場合、我々のアルゴリズムが動作する間、インデックス計算アルゴリズムは離散対数問題の解決に失敗する可能性がある。

Solving the discrete logarithm problem in a finite prime field is an extremely important computing problem in modern cryptography. The hardness of solving the discrete logarithm problem in a finite prime field is the security foundation of numerous cryptography schemes. In this paper, we propose the double index calculus algorithm to solve the discrete logarithm problem in a finite prime field. Our algorithm is faster than the index calculus algorithm, which is the state-of-the-art algorithm for solving the discrete logarithm problem in a finite prime field. Empirical experiment results indicate that our algorithm could be more than a 30-fold increase in computing speed than the index calculus algorithm when the bit length of the order of prime field is 70 bits. In addition, our algorithm is more general than the index calculus algorithm. Specifically, when the base of the target discrete logarithm problem is not the multiplication generator, the index calculus algorithm may fail to solve the discrete logarithm problem while our algorithm still can work.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 深層学習に基づくワイアタップフェイディングチャネルの符号化

Deep Learning-based Codes for Wiretap Fading Channels ( http://arxiv.org/abs/2409.08786v1 )

ライセンス: Link先を確認
Daniel Seifert, Onur Günlü, Rafael F. Schaefer, (参考訳) ワイヤタップチャネルは、物理層セキュリティ(PLS)文学においてよく研究されている問題である。 漸近的状況下ではデコードエラー確率と情報漏洩を任意に小さくすることができることが証明されているが、実用的で安全な通信システムへの道筋には、有限ブロック長符号のさらなる研究が必要である。 この研究は、チャネル状態情報(CSI)を使わずに、マルチタップフェーディングワイヤタップチャネルに対して、ディープラーニングに基づく有限ブロック長符号構成を初めて実験的に評価した。 誤りおよび情報漏洩の平均確率の評価に加えて,その影響について説明する。 (i)流行するタップの個数 (ii)色調係数と色調係数の相違 三 ハッシュ関数ベースのセキュリティレイヤの種選択。

The wiretap channel is a well-studied problem in the physical layer security (PLS) literature. Although it is proven that the decoding error probability and information leakage can be made arbitrarily small in the asymptotic regime, further research on finite-blocklength codes is required on the path towards practical, secure communications systems. This work provides the first experimental characterization of a deep learning-based, finite-blocklength code construction for multi-tap fading wiretap channels without channel state information (CSI). In addition to the evaluation of the average probability of error and information leakage, we illustrate the influence of (i) the number of fading taps, (ii) differing variances of the fading coefficients and (iii) the seed selection for the hash function-based security layer.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 原子量$^{87}$Rb,$^{133}$Cs,および$^{169}$Tmにおける超微細スターク効果の変動計算

Variational Calculation of the Hyperfine Stark Effect in Atomic $^{87}$Rb, $^{133}$Cs, and $^{169}$Tm ( http://arxiv.org/abs/2409.08787v1 )

ライセンス: Link先を確認
Timo Fleig, (参考訳) 静電場の影響下での原子超微細構造遷移エネルギーの計算に対する電子的変化のアプローチを示す。 この方法は、中間原子状態の計算を完全に回避し、それぞれの超微粒子レベルに関与する電子状態の波動関数のみを必要とする。 これらの波動関数は相対論的一般励起-ランク構成相互作用理論によって得られる。 この方法はまた、最も複雑なシェル構造を持つ原子の計算を可能にする。 初期応用には$^{87}$Rb と $^{133}$Cs が含まれており、文献結果とのアプローチの非常に良い一致が確立されている。 原子時計の開発に使用される$^{169}$Tmの場合、基底レベル$J=\frac{7}{2}$と$J=\frac{5}{2}$は$\Delta\alpha = -0.23 \pm 0.11$ \auと計算される 基底項に属する超微細度に対する超微粒スターク係数は$k = (1.3 \pm 1.0) \times 10^{-13}$ [Hz/(V/m)$^2$]である。 この係数は、$^{87}$Rb と $^{133}$Cs の対応する係数よりも数桁小さい。

An electronically variational approach to the calculation of atomic hyperfine structure transition energies under the influence of static external electric fields is presented. The method avoids the calculation of intermediate atomic states entirely and requires only the wavefunctions of the electronic states involved in the respective hyperfine levels. These wavefunctions are obtained through relativistic general-excitation-rank configuration interaction theory. The method also enables for calculations on atoms with the most complicated of shell structures. The initial applications include $^{87}$Rb and $^{133}$Cs where very good agreement of the approach with literature results is established. For $^{169}$Tm that is used in the development of atomic clocks the differential static electric dipole polarizability between ground levels $J=\frac{7}{2}$ and $J=\frac{5}{2}$ is calculated to be $\Delta\alpha = -0.23 \pm 0.11$ \au The hyperfine Stark coefficient for the hyperfine levels belonging to the ground term with $J=\frac{7}{2}$ is found to be $k = (1.3 \pm 1.0) \times 10^{-13}$ [Hz/((V/m)$^2$)]. This coefficient is several orders of magnitude smaller than the corresponding coefficients in $^{87}$Rb and $^{133}$Cs.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# Retrieval-Augmented Self-Supervised Modeling を用いた心電図レポート作成と質問応答

Electrocardiogram Report Generation and Question Answering via Retrieval-Augmented Self-Supervised Modeling ( http://arxiv.org/abs/2409.08788v1 )

ライセンス: Link先を確認
Jialu Tang, Tong Xia, Yuan Lu, Cecilia Mascolo, Aaqib Saeed, (参考訳) 心電図(ECG)を解釈し、包括的な報告を生成することは、しばしば専門的な専門知識と重要な時間的投資を必要とするため、心臓医学において難しい課題である。 これらの重要な問題に対処するために,ECG-to-textレポート生成と質問応答のための検索に基づくアプローチであるECG-ReGenを提案する。 本手法は,ECGエンコーダの自己教師型学習を活用し,効率的な類似性探索とレポート検索を実現する。 動的検索とLarge Language Model(LLM)ベースの改善を併用することにより、ECG-ReGenは心電図データと関連するクエリを効果的に分析し、患者のケアを改善する可能性を秘めている。 PTB-XLおよびMIMIC-IV-ECGデータセットを用いて行った実験は、レポート生成のためのドメイン内シナリオとクロスドメインシナリオの両方において優れた性能を示す。 さらに,本手法は,市販LCMを用いてゼロショット質問応答を行う場合の完全教師付き手法と比較して,ECG-QAデータセット上での競合性能を示す。 このアプローチは、自己教師付きエンコーダとLLMを効果的に組み合わせて、正確なECG解釈のためのスケーラブルで効率的なソリューションを提供する。

Interpreting electrocardiograms (ECGs) and generating comprehensive reports remain challenging tasks in cardiology, often requiring specialized expertise and significant time investment. To address these critical issues, we propose ECG-ReGen, a retrieval-based approach for ECG-to-text report generation and question answering. Our method leverages a self-supervised learning for the ECG encoder, enabling efficient similarity searches and report retrieval. By combining pre-training with dynamic retrieval and Large Language Model (LLM)-based refinement, ECG-ReGen effectively analyzes ECG data and answers related queries, with the potential of improving patient care. Experiments conducted on the PTB-XL and MIMIC-IV-ECG datasets demonstrate superior performance in both in-domain and cross-domain scenarios for report generation. Furthermore, our approach exhibits competitive performance on ECG-QA dataset compared to fully supervised methods when utilizing off-the-shelf LLMs for zero-shot question answering. This approach, effectively combining self-supervised encoder and LLMs, offers a scalable and efficient solution for accurate ECG interpretation, holding significant potential to enhance clinical decision-making.
翻訳日:2024-09-16 16:39:02 公開日:2024-09-13
# 量子スピンファンデルポル発振器-量子同期を示すスピン系極限サイクル発振器

Quantum spin van der Pol oscillator -- a spin-based limit-cycle oscillator exhibiting quantum synchronization ( http://arxiv.org/abs/2409.08791v1 )

ライセンス: Link先を確認
Yuzuru Kato, Hiroya Nakao, (参考訳) 本稿では、量子スピン系極限サイクル発振器の原型モデルとして量子スピンファンデルポル(vdP)発振器を紹介し、これは高スピン極限における量子光学的vdP発振器と一致する。 この系は半古典的状態における大きなスピン数でのノイズリミットサイクル発振器として記述され、周期駆動への周波数エントレメントを示す。 極小スピン1の場合においても、2つの散発的に結合した発振器における相互同期、アーノルド舌、絡み合った舌、全対すべての発振器における集団同期が明確に観察される。 提案した量子スピンvdP発振器は、量子スピン同期を解析するための有用なプラットフォームを提供する。

We introduce a quantum spin van der Pol (vdP) oscillator as a prototypical model of quantum spin-based limit-cycle oscillators, which coincides with the quantum optical vdP oscillator in the high-spin limit. The system is described as a noisy limit-cycle oscillator in the semiclassical regime at large spin numbers, exhibiting frequency entrainment to a periodic drive. Even in the smallest spin-1 case, mutual synchronization, Arnold tongues, and entanglement tongues in two dissipatively coupled oscillators, and collective synchronization in all-to-all coupled oscillators are clearly observed. The proposed quantum spin vdP oscillator will provide a useful platform for analyzing quantum spin synchronization.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 大規模言語モデルを用いたレシピ中の植物化学的含量向上のためのイングレディエント置換の最適化

Optimizing Ingredient Substitution Using Large Language Models to Enhance Phytochemical Content in Recipes ( http://arxiv.org/abs/2409.08792v1 )

ライセンス: Link先を確認
Luis Rita, Josh Southern, Ivan Laponogov, Kyle Higgins, Kirill Veselkov, (参考訳) 計算胃科の分野では、科学的に支援された栄養目標と料理の実践を整合させることがますます重要である。 本研究では,大規模言語モデル(LLM)を用いてレシピの成分置換を最適化し,特に食品の植物化学的含量を高める方法について検討した。 ファイトケミカル(英: Phytochemicals)は、植物に含まれる生物活性化合物で、前臨床研究に基づいて、潜在的な健康上の利益をもたらす可能性がある。 OpenAIのGPT-3.5、DaVinci、MetaのTinyLlamaといったモデルを、成分置換データセットを使用して微調整しました。 これらのモデルは、植物化学的内容を高める代替品を予測し、対応する濃縮されたレシピデータセットを作成するために使用された。 GISMoデータセットのベースライン34.53プラス10%から38.03プラス0.28%、同じデータセットの洗練されたバージョンでは40.24プラス0.36%から54.46プラス0.29%まで、成分置換タスクのHit@1精度を改善した。 これらの置換により、1,951の植物化学的に濃縮された成分ペアリングと1,639のユニークなレシピが作られた。 このアプローチは、成分代替品を最適化する可能性を示しているが、その主張は先入観的な証拠に基づいているため、健康上の利益に関する結論を導き出す際には注意が必要である。 今後の研究には、これらの代替品の栄養的影響をさらに評価するために、臨床検証とより広範なデータセットを含めるべきである。 この研究は、AIを使用してより健康的な食事の実践を促進するための一歩であり、計算手法と栄養科学を統合するための潜在的経路を提供する。

In the emerging field of computational gastronomy, aligning culinary practices with scientifically supported nutritional goals is increasingly important. This study explores how large language models (LLMs) can be applied to optimize ingredient substitutions in recipes, specifically to enhance the phytochemical content of meals. Phytochemicals are bioactive compounds found in plants, which, based on preclinical studies, may offer potential health benefits. We fine-tuned models, including OpenAI's GPT-3.5, DaVinci, and Meta's TinyLlama, using an ingredient substitution dataset. These models were used to predict substitutions that enhance phytochemical content and create a corresponding enriched recipe dataset. Our approach improved Hit@1 accuracy on ingredient substitution tasks, from the baseline 34.53 plus-minus 0.10% to 38.03 plus-minus 0.28% on the original GISMo dataset, and from 40.24 plus-minus 0.36% to 54.46 plus-minus 0.29% on a refined version of the same dataset. These substitutions led to the creation of 1,951 phytochemically enriched ingredient pairings and 1,639 unique recipes. While this approach demonstrates potential in optimizing ingredient substitutions, caution must be taken when drawing conclusions about health benefits, as the claims are based on preclinical evidence. Future work should include clinical validation and broader datasets to further evaluate the nutritional impact of these substitutions. This research represents a step forward in using AI to promote healthier eating practices, providing potential pathways for integrating computational methods with nutritional science.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# Zipformer-based Contextual ASRにおけるSSL離散音声特徴の探索

Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR ( http://arxiv.org/abs/2409.08797v1 )

ライセンス: Link先を確認
Mingyu Cui, Yifan Yang, Jiajun Deng, Jiawen Kang, Shujie Hu, Tianzi Wang, Zhaoqing Li, Shiliang Zhang, Xie Chen, Xunying Liu, (参考訳) 自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。 本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。 Fbankの特徴を個別のトークンの特徴に置き換えて、(前と将来のセグメントから)発話コンテキストをモデル化するか、現在発話の内部コンテキストのみをモデル化するか、あるいは同時に両方をGigaspeech 1000-hrコーパスで徹底的に示すことができる。 最も優れたZipformer-Transducerシステムでは、離散トークンベースの発話コンテキストを用いて、音声内部コンテキストを使用してベースラインを上回り、開発およびテストデータ上で、統計的に有意な単語誤り率(WER)の0.32%から0.41%の絶対値(2.78%から3.54%の相対値)の削減を行う。 WERの最低値である11.15%と11.14%は、開発とテストセットで得られた。 私たちの仕事はオープンソースで、https://github.com/open-creator/icefall/tree/master/egs/gigaspeech/Context\_ASRで公開されています。

Self-supervised learning (SSL) based discrete speech representations are highly compact and domain adaptable. In this paper, SSL discrete speech features extracted from WavLM models are used as additional cross-utterance acoustic context features in Zipformer-Transducer ASR systems. The efficacy of replacing Fbank features with discrete token features for modelling either cross-utterance contexts (from preceding and future segments), or current utterance's internal contexts alone, or both at the same time, are demonstrated thoroughly on the Gigaspeech 1000-hr corpus. The best Zipformer-Transducer system using discrete tokens based cross-utterance context features outperforms the baseline using utterance internal context only with statistically significant word error rate (WER) reductions of 0.32% to 0.41% absolute (2.78% to 3.54% relative) on the dev and test data. The lowest published WER of 11.15% and 11.14% were obtained on the dev and test sets. Our work is open-source and publicly available at https://github.com/open-creator/icefall/tree/master/egs/gigaspeech/Context\_ASR.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# LSTMを用いた少数ショット学習による視線追跡データによる読取能力の検出

Reading ability detection using eye-tracking data with LSTM-based few-shot learning ( http://arxiv.org/abs/2409.08798v1 )

ライセンス: Link先を確認
Nanxi Li, Hongjiang Wang, Zehui Zhan, (参考訳) 現代の教育分野では読書能力の検出が重要である。 本稿では,少数の被験者(例えば68名)の視線追跡データを用いて,読解能力のスコアを予測する手法を提案する。 提案手法は,Long Short Time Memory(LSTM)と軽量ニューラルネットワークを組み合わせることで,スコア予測のための回帰モデルを構築した。 実験により, 提案手法は, 数発の学習戦略により, 読み出し能力の検出における従来のスコア予測法よりも精度が高いことがわかった。 コードは後にhttps://github.com/pumpkinLNX/LSTM-eye-tracking-pytorch.gitでダウンロードできる。

Reading ability detection is important in modern educational field. In this paper, a method of predicting scores of reading ability is proposed, using the eye-tracking data of a few subjects (e.g., 68 subjects). The proposed method built a regression model for the score prediction by combining Long Short Time Memory (LSTM) and light-weighted neural networks. Experiments show that with few-shot learning strategy, the proposed method achieved higher accuracy than previous methods of score prediction in reading ability detection. The code can later be downloaded at https://github.com/pumpkinLNX/LSTM-eye-tracking-pytorch.git
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# CBCTデータから興味の構造を再構築する深層学習のためのタスク特化データ作成

Task-Specific Data Preparation for Deep Learning to Reconstruct Structures of Interest from Severely Truncated CBCT Data ( http://arxiv.org/abs/2409.08800v1 )

ライセンス: Link先を確認
Yixing Huang, Fuxin Fan, Ahmed Gomaa, Andreas Maier, Rainer Fietkau, Christoph Bert, Florian Putz, (参考訳) コーンビームCT(CBCT)は外科手術や放射線腫瘍学に広く用いられている。 フラットパネル検出器のサイズが限られているため、解剖学的構造はCBCTシステムの臨床応用を制限する限定視野(FOV)の外側に欠けている可能性がある。 近年,マルチスライスCTシステムにおけるFOVの拡張のためのディープラーニング手法が提案されている。 しかし, FOVサイズが小さいモバイルCBCTシステムでは, プロジェクションデータが著しく途切れており, FOVの外部にあるすべての行方不明構造を復元することは困難である。 一部の応用では、FOV以外の特定の構造、例えば、肝・肺がんの診断のための針道計画のリブのみが興味を引いている。 そこで本研究では,ネットワークがすべての構造ではなく,関心構造に自動的にフォーカスするタスク固有データ作成手法を提案する。 予備実験では,従来の訓練によるPix2pixGANはCBCTデータから偽陽性および偽陰性リブ構造を再構成するリスクがあるが,課題特異的トレーニングによるPix2pixGANはすべてのリブ構造を確実に再構築できることを示した。 提案手法はCBCTのさらなる臨床応用を期待できる。

Cone-beam computed tomography (CBCT) is widely used in interventional surgeries and radiation oncology. Due to the limited size of flat-panel detectors, anatomical structures might be missing outside the limited field-of-view (FOV), which restricts the clinical applications of CBCT systems. Recently, deep learning methods have been proposed to extend the FOV for multi-slice CT systems. However, in mobile CBCT system with a smaller FOV size, projection data is severely truncated and it is challenging for a network to restore all missing structures outside the FOV. In some applications, only certain structures outside the FOV are of interest, e.g., ribs in needle path planning for liver/lung cancer diagnosis. Therefore, a task-specific data preparation method is proposed in this work, which automatically let the network focus on structures of interest instead of all the structures. Our preliminary experiment shows that Pix2pixGAN with a conventional training has the risk to reconstruct false positive and false negative rib structures from severely truncated CBCT data, whereas Pix2pixGAN with the proposed task-specific training can reconstruct all the ribs reliably. The proposed method is promising to empower CBCT with more clinical applications.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 線形回帰のための分布自由信頼楕円体の有限サンプル解析

Finite Sample Analysis of Distribution-Free Confidence Ellipsoids for Linear Regression ( http://arxiv.org/abs/2409.08801v1 )

ライセンス: Link先を確認
Szabolcs Szentpéteri, Balázs Csanád Csáji, (参考訳) 最小二乗(LS)推定は線形回帰問題の定型解である。 スケールしたLS誤差の漸近的なガウス性は、LS推定値の周りの近似信頼楕円体を構成するためにしばしば用いられるが、有限サンプルの場合、これらの楕円体は雑音分布に強い仮定がない限り厳密な保証が得られない。 本稿では,非漸近的に保証された信頼楕円体を独立雑音項や対称雑音項などの軽度仮定の下で構築できる分布自由符号摂動和(SPS)楕円体外近似(EOA)アルゴリズムについて検討する。 これらの楕円体は古典的な漸近楕円体と同じ中心と配向を持ち、その半径のみが異なるので、凸最適化によって計算できる。 本稿では,線形回帰問題に対するSPS外楕円体の大きさに対する高確率非漸近上界を確立し,これらの楕円体の体積が最適速度で減少することを示す。 最後に,これらの領域の理論的境界と経験的大きさの差について実験的に検討した。

The least squares (LS) estimate is the archetypical solution of linear regression problems. The asymptotic Gaussianity of the scaled LS error is often used to construct approximate confidence ellipsoids around the LS estimate, however, for finite samples these ellipsoids do not come with strict guarantees, unless some strong assumptions are made on the noise distributions. The paper studies the distribution-free Sign-Perturbed Sums (SPS) ellipsoidal outer approximation (EOA) algorithm which can construct non-asymptotically guaranteed confidence ellipsoids under mild assumptions, such as independent and symmetric noise terms. These ellipsoids have the same center and orientation as the classical asymptotic ellipsoids, only their radii are different, which radii can be computed by convex optimization. Here, we establish high probability non-asymptotic upper bounds for the sizes of SPS outer ellipsoids for linear regression problems and show that the volumes of these ellipsoids decrease at the optimal rate. Finally, the difference between our theoretical bounds and the empirical sizes of the regions are investigated experimentally.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 多言語ASRのためのSSL離散トークンの探索

Exploring SSL Discrete Tokens for Multilingual ASR ( http://arxiv.org/abs/2409.08805v1 )

ライセンス: Link先を確認
Mingyu Cui, Daxin Tan, Yifan Yang, Dingdong Wang, Huimeng Wang, Xiao Chen, Xie Chen, Xunying Liu, (参考訳) 音声関連タスクにおける自己教師あり学習(SSL)の進歩に伴い、より高速な処理技術を提供するために、SSLが生成する離散トークンを自動音声認識(ASR)に活用することへの関心が高まっている。 しかし、以前の研究では主にFbank特徴を持つ多言語ASRや離散トークンを持つ英語ASRに焦点を当てており、多言語ASRシナリオに個別トークンを適用する際のギャップを残している。 本研究では,複数の言語領域にまたがるSSLモデルの離散トークンを包括的に比較した。 単言語と多言語の両方のASRシナリオにおいて、複数の言語領域にまたがる音声離散トークンの性能と効率について検討する。 実験の結果、離散トークンは、平均単語誤り率(WER)が0.31%、絶対(2.80%と15.70%の相対)が1.76%、ポーランドテストセットが6.82%、絶対(41.48%の相対)である7つの言語領域で、Fbankのタスクで訓練されたシステムに対して比較結果が得られた。

With the advancement of Self-supervised Learning (SSL) in speech-related tasks, there has been growing interest in utilizing discrete tokens generated by SSL for automatic speech recognition (ASR), as they offer faster processing techniques. However, previous studies primarily focused on multilingual ASR with Fbank features or English ASR with discrete tokens, leaving a gap in adapting discrete tokens for multilingual ASR scenarios. This study presents a comprehensive comparison of discrete tokens generated by various leading SSL models across multiple language domains. We aim to explore the performance and efficiency of speech discrete tokens across multiple language domains for both monolingual and multilingual ASR scenarios. Experimental results demonstrate that discrete tokens achieve comparable results against systems trained on Fbank features in ASR tasks across seven language domains with an average word error rate (WER) reduction of 0.31% and 1.76% absolute (2.80% and 15.70% relative) on dev and test sets respectively, with particularly WER reduction of 6.82% absolute (41.48% relative) on the Polish test set.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# TabKANet: Kolmogorov-Arnold Network と Transformer によるタブラルデータモデリング

TabKANet: Tabular Data Modelling with Kolmogorov-Arnold Network and Transformer ( http://arxiv.org/abs/2409.08806v1 )

ライセンス: Link先を確認
Weihao Gao, Zheng Gong, Zhuo Deng, Fuju Rong, Chucheng Chen, Lan Ma, (参考訳) タブラルデータ(Tabular data)は、現実のシナリオにおいて最も一般的なタイプのデータである。 本研究では,Kolmogorov-Arnoldネットワークを用いたTabKANetアーキテクチャを用いて,数値的特徴を符号化し,分類的特徴とマージすることで,Transformerアーキテクチャ上での表データの統一的モデリングを実現する手法を提案する。 このモデルは、広く使用されている6つのバイナリ分類タスクにおいて、卓越したパフォーマンスを示し、TabKANetが従来のニューラルネットワークを超越した、表型モデリングの標準アプローチになる可能性を示唆している。 さらに, 数値的特徴を符号化する上で, コルモゴロフ・アルノルドネットワークの顕著な利点を明らかにした。 私たちの作業のコードはhttps://github.com/tsinghuamedgao20/TabKANet.comで公開されています。

Tabular data is the most common type of data in real-life scenarios. In this study, we propose a method based on the TabKANet architecture, which utilizes the Kolmogorov-Arnold network to encode numerical features and merge them with categorical features, enabling unified modeling of tabular data on the Transformer architecture. This model demonstrates outstanding performance in six widely used binary classification tasks, suggesting that TabKANet has the potential to become a standard approach for tabular modeling, surpassing traditional neural networks. Furthermore, this research reveals the significant advantages of the Kolmogorov-Arnold network in encoding numerical features. The code of our work is available at https://github.com/tsinghuamedgao20/TabKANet.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 人間-AI協調における心の相互理論--リアルタイム共有作業空間におけるLLM駆動型AIエージェントを用いた実証研究

Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task ( http://arxiv.org/abs/2409.08811v1 )

ライセンス: Link先を確認
Shao Zhang, Xihuai Wang, Wenhao Zhang, Yongshan Chen, Landi Gao, Dakuo Wang, Weinan Zhang, Xinbing Wang, Ying Wen, (参考訳) 心の理論(ToM)は、他人を理解する上で重要な能力として、人間の協調とコミュニケーションに大きな影響を及ぼす。 ToM能力を持つAIエージェントが人間と協力する場合、MTOM(Mutual Theory of Mind)はそのようなAIチーム(HAT)で発生する。 インタラクティブなコミュニケーションとToMベースの戦略調整を含むMToMプロセスは、チームのパフォーマンスとコラボレーションプロセスに影響を与える。 MToMプロセスの探索のために,大規模言語モデル駆動型AIエージェントとToMと通信モジュールを併用した複合設計実験を行った。 エージェントのToM能力はチームのパフォーマンスに大きな影響を与えず,エージェントの人間的理解と理解感を高める。 本研究の参加者の多くは, 言語コミュニケーションが人的負担を増大させ, 双方向コミュニケーションがHAT性能の低下につながると考えている。 リアルタイム共有ワークスペースタスクにおいて、人間と協調するAIエージェントを設計する際の結果の意味について論じる。

Theory of Mind (ToM) significantly impacts human collaboration and communication as a crucial capability to understand others. When AI agents with ToM capability collaborate with humans, Mutual Theory of Mind (MToM) arises in such human-AI teams (HATs). The MToM process, which involves interactive communication and ToM-based strategy adjustment, affects the team's performance and collaboration process. To explore the MToM process, we conducted a mixed-design experiment using a large language model-driven AI agent with ToM and communication modules in a real-time shared-workspace task. We find that the agent's ToM capability does not significantly impact team performance but enhances human understanding of the agent and the feeling of being understood. Most participants in our study believe verbal communication increases human burden, and the results show that bidirectional communication leads to lower HAT performance. We discuss the results' implications for designing AI agents that collaborate with humans in real-time shared workspace tasks.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 弱めのLLMは、アライメントの強い教師だ

Your Weak LLM is Secretly a Strong Teacher for Alignment ( http://arxiv.org/abs/2409.08813v1 )

ライセンス: Link先を確認
Leitian Tao, Yixuan Li, (参考訳) 大きな言語モデル(LLM)の急成長する能力は、これらのモデルが人間の価値観や意図に応じて動作することを保証するために、アライメントの必要性を強調している。 既存のアライメントフレームワークは、高価な人的労力または高い計算コストの形で制約を提示する。 本稿では,最上位モデルよりも資源集約度が低く,純粋に人間のフィードバックよりも自動化された弱いLLMを採用する,有望な中間層について検討する。 本稿では,弱いLCMがアライメントのためのフィードバックを生成する能力を評価するための系統的研究について述べる。 我々の経験的発見は、弱いLCMが、完全に人間に注釈付けされたデータに匹敵する、あるいは超えるフィードバックを提供することができることを示している。 本研究は、モデルサイズがフィードバックの有効性に与える影響を最小限に抑え、スケーラブルで持続可能なアライメント戦略に光を流すことを示唆している。 弱いLLMフィードバック下でのアライメントの理解を深めるため、我々は定性的かつ定量的な分析を行い、人間のフィードバックと弱いLLMフィードバックの質の相違点に関する新たな洞察を提供する。

The burgeoning capabilities of large language models (LLMs) have underscored the need for alignment to ensure these models act in accordance with human values and intentions. Existing alignment frameworks present constraints either in the form of expensive human effort or high computational costs. This paper explores a promising middle ground, where we employ a weak LLM that is significantly less resource-intensive than top-tier models, yet offers more automation than purely human feedback. We present a systematic study to evaluate and understand weak LLM's ability to generate feedback for alignment. Our empirical findings demonstrate that weak LLMs can provide feedback that rivals or even exceeds that of fully human-annotated data. Our study indicates a minimized impact of model size on feedback efficacy, shedding light on a scalable and sustainable alignment strategy. To deepen our understanding of alignment under weak LLM feedback, we conduct a series of qualitative and quantitative analyses, offering novel insights into the quality discrepancies between human feedback vs. weak LLM feedback.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# クラゲのような水泳における移動目標追跡のための深部強化学習

Deep reinforcement learning for tracking a moving target in jellyfish-like swimming ( http://arxiv.org/abs/2409.08815v1 )

ライセンス: Link先を確認
Yihao Chen, Yue Yang, (参考訳) 本研究では,2次元流れにおける移動目標を効果的に追跡するために,クラゲのようなスイマーを訓練するための深層強化学習法を開発した。 このスイマーは、ねじりばねに基づく筋肉モデルを備えた柔軟な物体である。 深層Qネットワーク(DQN)を用いて,スイマーの幾何と動的パラメータを入力とし,スイマーに適用される力である動作を出力する。 特に,複雑な流体構造相互作用からの干渉を軽減するための作用規制を導入する。 これらの行動の目標は、スイマーを可能な限り短い時間で目標地点まで移動させることである。 DQNトレーニングでは, 没入境界法を用いて行うシミュレーションにより, スイマーの動きに関するデータを得る。 移動目標を追跡する際には,スイマーの体に対する力の作用とそれに対応する反応の間には,スイマーの自走とスイマーの浮動との流体力学的相互作用により,固有の遅延が生じる。 本試験では, DQN エージェントとアクション・レギュレーションを併用したスイマーが, その即時状態に基づいて動的にコースを調整できることを実証した。 この作業は、流体環境内の柔軟なオブジェクトを制御する機械学習の適用範囲を拡張します。

We develop a deep reinforcement learning method for training a jellyfish-like swimmer to effectively track a moving target in a two-dimensional flow. This swimmer is a flexible object equipped with a muscle model based on torsional springs. We employ a deep Q-network (DQN) that takes the swimmer's geometry and dynamic parameters as inputs, and outputs actions which are the forces applied to the swimmer. In particular, we introduce an action regulation to mitigate the interference from complex fluid-structure interactions. The goal of these actions is to navigate the swimmer to a target point in the shortest possible time. In the DQN training, the data on the swimmer's motions are obtained from simulations conducted using the immersed boundary method. During tracking a moving target, there is an inherent delay between the application of forces and the corresponding response of the swimmer's body due to hydrodynamic interactions between the shedding vortices and the swimmer's own locomotion. Our tests demonstrate that the swimmer, with the DQN agent and action regulation, is able to dynamically adjust its course based on its instantaneous state. This work extends the application scope of machine learning in controlling flexible objects within fluid environments.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 量子不純物モデルの効率的擬似表現と複雑性

Efficient Pseudomode Representation and Complexity of Quantum Impurity Models ( http://arxiv.org/abs/2409.08816v1 )

ライセンス: Link先を確認
Julian Thoenniss, Ilya Vilkoviskiy, Dmitry A. Abanin, (参考訳) 連続するフェルミオン浴に結合した小さな相互作用系を記述する平衡外フェルミオン量子不純物モデル(QIM)は、凝縮物質物理学において重要な役割を果たす。 このようなモデルを解くことは計算に要求されるタスクであり、様々な計算手法は有限個のモードで浴槽の近似表現を見つけることに基づいている。 本稿では, 複素指数関数の和によって機能する浴槽のファインマン・ヴァーノン効果の核を近似した上で, 効率の良い浴槽表現を求める問題を, 各項でフェルミオン擬モードを定義することによって定式化する。 入浴スペクトル密度の解析的性質を軽度に仮定し、擬モードの解析的構成を提供し、それらの数が最大進化時間$T$と近似誤差$\varepsilon$で多元的にスケールすることを証明する。 次に、補間行列分解(ID)により擬似モデムの数が大幅に減少することを示した。 さらに,<AAA' アルゴリズムを用いて浴槽のスペクトル密度を合理的に近似し,次に ID を用いた圧縮を行う。 2つのアプローチの組み合わせは、擬モードカウントスケーリングを$N_\text{ID} \sim \log(T)\log(1/\varepsilon)$とし、2つのアプローチ間の合意は結果が最適に近いことを示唆している。 最後に, この知見をQIMに関連付けるために, 複合不純物-擬態系の時間進化を記述した明示的なLiouvillianを導出した。 これらの結果は、平衡外QIMの解法に必要な計算資源の限界を確立し、QIMのためのテンソルネットワーク手法の効率的な出発点を提供する。

Out-of-equilibrium fermionic quantum impurity models (QIM), describing a small interacting system coupled to a continuous fermionic bath, play an important role in condensed matter physics. Solving such models is a computationally demanding task, and a variety of computational approaches are based on finding approximate representations of the bath by a finite number of modes. In this paper, we formulate the problem of finding efficient bath representations as that of approximating a kernel of the bath's Feynman-Vernon influence functional by a sum of complex exponentials, with each term defining a fermionic pseudomode. Under mild assumptions on the analytic properties of the bath spectral density, we provide an analytic construction of pseudomodes, and prove that their number scales polylogarithmically with the maximum evolution time $T$ and the approximation error $\varepsilon$. We then demonstrate that the number of pseudomodes can be significantly reduced by an interpolative matrix decomposition (ID). Furthermore, we present a complementary approach, based on constructing rational approximations of the bath's spectral density using the ``AAA'' algorithm, followed by compression with ID. The combination of two approaches yields a pseudomode count scaling as $N_\text{ID} \sim \log(T)\log(1/\varepsilon)$, and the agreement between the two approches suggests that the result is close to optimal. Finally, to relate our findings to QIM, we derive an explicit Liouvillian that describes the time evolution of the combined impurity-pseudomodes system. These results establish bounds on the computational resources required for solving out-of-equilibrium QIMs, providing an efficient starting point for tensor-network methods for QIMs.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# オントロジー工学における能力問題生成のためのRAGアプローチ

A RAG Approach for Generating Competency Questions in Ontology Engineering ( http://arxiv.org/abs/2409.08820v1 )

ライセンス: Link先を確認
Xueli Pan, Jacco van Ossenbruggen, Victor de Boer, Zhisheng Huang, (参考訳) コンピテンシー質問(CQ)の定式化は、いくつかのオントロジー開発と評価手法の中心である。 伝統的に、これらの能力に関する質問を作るタスクはドメインの専門家や知識エンジニアの努力に大きく依存する。 LLM(Large Language Models)の出現により、このプロセスの自動化と強化が可能になった。 LLMへの入力として既存のオントロジーや知識グラフを用いる他の類似した研究とは異なり、我々はドメイン知識基盤と考えられる一連の科学的論文から、LLMをCQの自動生成に使用する検索拡張世代(RAG)アプローチを提案する。 本稿では,その性能,具体的には,各論文のRAGに対する影響とLLMの温度設定について検討する。 我々は,GPT-4を2つのドメインオントロジー工学的タスクで実験し,ドメインの専門家が構築した地味なCQと比較した。 評価指標(精度と整合性)を利用した実験的な評価の結果,0ショットプロンプトと比較すると,RAGに関連知識を追加することにより,具体的なオントロジー工学タスクのためのCQの生成におけるLLMの性能が向上することがわかった。

Competency question (CQ) formulation is central to several ontology development and evaluation methodologies. Traditionally, the task of crafting these competency questions heavily relies on the effort of domain experts and knowledge engineers which is often time-consuming and labor-intensive. With the emergence of Large Language Models (LLMs), there arises the possibility to automate and enhance this process. Unlike other similar works which use existing ontologies or knowledge graphs as input to LLMs, we present a retrieval-augmented generation (RAG) approach that uses LLMs for the automatic generation of CQs given a set of scientific papers considered to be a domain knowledge base. We investigate its performance and specifically, we study the impact of different number of papers to the RAG and different temperature setting of the LLM. We conduct experiments using GPT-4 on two domain ontology engineering tasks and compare results against ground-truth CQs constructed by domain experts. Empirical assessments on the results, utilizing evaluation metrics (precision and consistency), reveal that compared to zero-shot prompting, adding relevant domain knowledge to the RAG improves the performance of LLMs on generating CQs for concrete ontology engineering tasks.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# AutoIRT: 自動機械学習による項目応答理論モデルの校正

AutoIRT: Calibrating Item Response Theory Models with Automated Machine Learning ( http://arxiv.org/abs/2409.08823v1 )

ライセンス: Link先を確認
James Sharpnack, Phoebe Mulcaire, Klinton Bicknell, Geoff LaFlair, Kevin Yancey, (参考訳) 項目応答理論 (IRT) は、コンピュータ適応テスト(CAT)で広く使われている解釈可能な因子モデルのクラスである。 伝統的に、これらはテストテイカーがテスト項目(すなわち質問)に対して正しい答えを得る確率に関するパラメトリック混合効果モデルを用いて適合する。 BertIRTのようなこれらのモデルのニューラルネット拡張は、特別なアーキテクチャとパラメータチューニングを必要とする。 本稿では、アウトオブボックス自動機械学習(AutoML)ツールと互換性のある多段階のフィッティング手順を提案する。 モンテカルロEM(MCEM)の外ループに2段の内ループがあり、アイテムの特徴を使って非パラメトリックオートMLグレードモデルを訓練し、続いてアイテム固有のパラメトリックモデルを訓練する。 これにより、テストを評価するためのモデリングワークフローが大幅に加速します。 オンライン英語習熟度テストのDuolingo English Testに適用することで,その効果を実証する。 結果のモデルは通常、よりよく校正され、予測性能が向上し、既存の方法よりも正確なスコアが得られた(非説明的IRTモデルとBERT-IRTのような説明的IRTモデル)。 その過程で、CATの項目パラメータの校正のための機械学習手法について簡単な調査を行う。

Item response theory (IRT) is a class of interpretable factor models that are widely used in computerized adaptive tests (CATs), such as language proficiency tests. Traditionally, these are fit using parametric mixed effects models on the probability of a test taker getting the correct answer to a test item (i.e., question). Neural net extensions of these models, such as BertIRT, require specialized architectures and parameter tuning. We propose a multistage fitting procedure that is compatible with out-of-the-box Automated Machine Learning (AutoML) tools. It is based on a Monte Carlo EM (MCEM) outer loop with a two stage inner loop, which trains a non-parametric AutoML grade model using item features followed by an item specific parametric model. This greatly accelerates the modeling workflow for scoring tests. We demonstrate its effectiveness by applying it to the Duolingo English Test, a high stakes, online English proficiency test. We show that the resulting model is typically more well calibrated, gets better predictive performance, and more accurate scores than existing methods (non-explanatory IRT models and explanatory IRT models like BERT-IRT). Along the way, we provide a brief survey of machine learning methods for calibration of item parameters for CATs.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 2成分ニューラルネットワークを用いた低高度航空機用パスファインダ

Pathfinder for Low-altitude Aircraft with Binary Neural Network ( http://arxiv.org/abs/2409.08824v1 )

ライセンス: Link先を確認
Kaijie Yin, Tian Gao, Hui Kong, (参考訳) 従来のグローバルなトポロジマップ(例えば、OpenStreetMap, OSM)は、地上移動ロボットによる自律的マッピングの性能を高めることができる。 しかしながら、前者の地図は部分的な経路のラベル付けが欠けているため、通常は不完全である。 そこで本研究では,低高度航空機が搭載する空中センサを用いたOSMメーカを提案する。このOSMメーカのコアは,LiDARとカメラデータ,すなわちバイナリデュアルストリーム道路セグメンテーションモデルに基づく,新たな効率的なパスファインダーアプローチである。 具体的には、UNetアーキテクチャに基づくマルチスケールの機能抽出を、画像と点クラウド向けに実装する。 点雲の空間性による影響を低減するため、注目誘導ゲートブロックは、画像と点雲の特徴を統合するように設計されている。 モデルの効率を向上させるために,画像ブランチのエンコーダとして視覚変換器(ViT)アーキテクチャの変種と,モデルトレーニングを最適化するための新たな焦点・知覚損失を含む,各モデルコンポーネントに対するバイナライゼーションの合理化を提案する。 2つの実験結果から, パスファインダ法は低レベル空中センサからの経路探索において高い効率でSOTA精度を実現し, セグメント化された道路骨格に基づいてOSM前の完全な地図を作成することができることを示した。 コードとデータは、https://github.com/IMRL/Pathfinder}{https://github.com/IMRL/Pathfinderで入手できる。

A prior global topological map (e.g., the OpenStreetMap, OSM) can boost the performance of autonomous mapping by a ground mobile robot. However, the prior map is usually incomplete due to lacking labeling in partial paths. To solve this problem, this paper proposes an OSM maker using airborne sensors carried by low-altitude aircraft, where the core of the OSM maker is a novel efficient pathfinder approach based on LiDAR and camera data, i.e., a binary dual-stream road segmentation model. Specifically, a multi-scale feature extraction based on the UNet architecture is implemented for images and point clouds. To reduce the effect caused by the sparsity of point cloud, an attention-guided gated block is designed to integrate image and point-cloud features. For enhancing the efficiency of the model, we propose a binarization streamline to each model component, including a variant of vision transformer (ViT) architecture as the encoder of the image branch, and new focal and perception losses to optimize the model training. The experimental results on two datasets demonstrate that our pathfinder method achieves SOTA accuracy with high efficiency in finding paths from the low-level airborne sensors, and we can create complete OSM prior maps based on the segmented road skeletons. Code and data are available at:https://github.com/IMRL/Pathfinder}{https://github.com/IMRL/Pathfinder.
翻訳日:2024-09-16 16:29:18 公開日:2024-09-13
# 空間モード分解を用いた浮上型双極子散乱器の精密3次元量子制御に向けて

Towards Precise 3D Quantum Control of a Levitated Dipolar Scatterer using Spatial Mode Decomposition ( http://arxiv.org/abs/2409.08827v1 )

ライセンス: Link先を確認
Thomas Dinter, Reece Roberts, Thomas Volz, Mikolaj K. Schmidt, Cyril Laplane, (参考訳) 浮遊物体の中心-質量運動の普遍的な量子制御の必須条件は、3つの翻訳自由度全てを正確に読み取ることである。 物体の位置に関する全ての情報を収集し、散乱光に符号化し、測定精度を最小化する。 本稿では, 空間モード分解に基づく新しい検出手法を提案する。この手法は, ナノ粒子対から散乱した光を空間モードソータに逆散乱させる単純な統合構成を用いて, この問題に対処する。 本研究では, 対象物体の運動によって生じる非弾性散乱場に対して, ソータ対の各々のモードが, 特定の空間軸に沿って生じることを観察する。 これにより、各翻訳自由度は直交情報チャネルの振幅に選択的に符号化される。 このアプローチを用いて、測定効率($\eta_{\mathrm{tot}}^x$, $\eta_{\mathrm{tot}}^y$, $\eta_{\mathrm{tot}}^z$) = (0.17, 0.15, 0.30)を報告する。

An essential requirement for universal quantum control of the centre-of-mass motion of levitated objects is the development of a precise readout of all three translational degrees of freedom. Improving that precision presents one key challenge: collecting all the information on the object's position, encoded in the scattered light, equivalent to minimising the measurement imprecision. Here, we propose a new detection technique based on spatial mode decomposition, which addresses this problem using a simple integrated setup, where all of the light back-scattered from a levitated nanoparticle couples into a spatial mode sorter. We observe that each mode of the sorter pairs predominantly to the in-elastically scattered field generated by the object's motion along a particular spatial axis. This results in each translational degree of freedom being selectively encoded in the amplitude of orthogonal information channels. Using this approach, we report measurement efficiencies ($\eta_{\mathrm{tot}}^x$, $\eta_{\mathrm{tot}}^y$, $\eta_{\mathrm{tot}}^z$) = (0.17, 0.15, 0.30), implying that our technique is capable of reaching the 3D quantum ground state.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# 周期的に駆動される横磁場イジング鎖の正確な解析解からの洞察

Insights from the exact analytical solution of periodically driven transverse field Ising chain ( http://arxiv.org/abs/2409.08830v1 )

ライセンス: Link先を確認
Pritam Das, Anirban Dutta, (参考訳) 周期的なデルタ・キックプロトコルによって駆動される積分可能量子多体系の時間依存波動関数に対して、ストロボスコープ間隔で正確な解析式を導出する。 この波動関数を用いて, 欠陥密度, 磁化, 残留エネルギー, 忠実度, 相関関数の予測値の正確な解析式を得る。 周期的に駆動される可積分閉量子系はエネルギーを吸収し、長時間の普遍力学は周期一般化ギブスアンサンブル(Gibs ensemble, GGE)によって記述される。 観測可能な全ての期待値は、駆動サイクルの$n$に依存する高振動項と、残りの項がそれとは独立な2つの部分に分けられることを示す。 通常、$n$に依存しない部分は、大きな$n$と周期GEで飽和を構成する。 高振動項からの寄与は、大きな$n$で消える。

We derive an exact analytical expression, at stroboscopic intervals, for the time-dependent wave function of a class of integrable quantum many-body systems, driven by the periodic delta-kick protocol. To investigate long-time dynamics, we use the wave-function to obtain an exact analytical expression for the expectation value of defect density, magnetization, residual energy, fidelity, and correlation function after the $n$th drive cycle. Periodically driven integrable closed quantum systems absorb energy, and the long-time universal dynamics are described by the periodic generalized Gibbs ensemble(GGE). We demonstrate that the expectation values of all observables are divided into two parts: one highly oscillatory term that depends on the drive cycle $n$, and the rest of the terms are independent of it. Typically, the $n$-independent part constitutes the saturation at large $n$ and periodic GGE. The contribution from the highly oscillatory term vanishes in large $n$.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# reCAPTCHAv2を破る

Breaking reCAPTCHAv2 ( http://arxiv.org/abs/2409.08831v1 )

ライセンス: Link先を確認
Andreas Plesner, Tobias Vontobel, Roger Wattenhofer, (参考訳) 本研究では,GoogleのreCAPTCHAv2システムからキャプチャを解くために,高度な機械学習手法を用いることの有効性を検討する。 画像分割と分類のための高度なYOLOモデルを用いて,キャプチャの解法における自動システムの有効性を評価する。 私たちの主な成果は、100%のカプチャを解けるのに対して、以前の研究は68-71%しか解けなかったことです。 さらに,reCAPTCHAv2のキャプチャを通過させるためには,人間とボットが解決しなければならない課題の数に有意な差はないことが示唆された。 これは、現在のAI技術が高度な画像ベースのキャプチャを活用できることを意味している。 また,reCAPTCHAv2は,ユーザが人間であるか否かを評価する際に,クッキーやブラウザ履歴データに大きく依存していることを示す。 コードは、この論文と共に提供される。

Our work examines the efficacy of employing advanced machine learning methods to solve captchas from Google's reCAPTCHAv2 system. We evaluate the effectiveness of automated systems in solving captchas by utilizing advanced YOLO models for image segmentation and classification. Our main result is that we can solve 100% of the captchas, while previous work only solved 68-71%. Furthermore, our findings suggest that there is no significant difference in the number of challenges humans and bots must solve to pass the captchas in reCAPTCHAv2. This implies that current AI technologies can exploit advanced image-based captchas. We also look under the hood of reCAPTCHAv2, and find evidence that reCAPTCHAv2 is heavily based on cookie and browser history data when evaluating whether a user is human or not. The code is provided alongside this paper.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# Kans (re) は直接駆動型レーザー核融合の予測モデルを発見できるか?

Can Kans (re)discover predictive models for Direct-Drive Laser Fusion? ( http://arxiv.org/abs/2409.08832v1 )

ライセンス: Link先を確認
Rahman Ejaz, Varchas Gopalaswamy, Riccardo Betti, Aarne Lees, Christopher Kanan, (参考訳) レーザー融合の領域は、問題複雑性と限られたトレーニングデータのために、機械学習手法のためのユニークで挑戦的な予測モデリングアプリケーションランドスケープを提示する。 所定の機能形式、帰納的バイアス、物理情報学習(PIL)方式を利用するデータ駆動型アプローチは、物理学の期待に沿う望ましい一般化能力とモデル解釈を達成するために過去に成功してきた。 しかし、複雑な多分野の応用ドメインでは、アーキテクチャ上の偏りや差別的な罰則がどう定式化されるかは必ずしも明確ではない。 本研究では,高出力レーザーを用いた核融合エネルギーに着目し,PILの代替としてコルモゴロフ・アルノルドネットワーク(KAN)を用い,高い予測精度と物理解釈性を実現する新しいタイプのデータ駆動予測モデルを提案する。 一般化能力と解釈能力は,kanベースモデル,PIL付きMLP,ベースラインMLPモデル,ドメインエキスパート由来の記号回帰モデルと比較する。 この高次物理学複雑性領域における実証的研究を通して、データスターベド物理応用の予測モデルを開発する際に、kansが潜在的に有益であることを示す。

The domain of laser fusion presents a unique and challenging predictive modeling application landscape for machine learning methods due to high problem complexity and limited training data. Data-driven approaches utilizing prescribed functional forms, inductive biases and physics-informed learning (PIL) schemes have been successful in the past for achieving desired generalization ability and model interpretation that aligns with physics expectations. In complex multi-physics application domains, however, it is not always obvious how architectural biases or discriminative penalties can be formulated. In this work, focusing on nuclear fusion energy using high powered lasers, we present the use of Kolmogorov-Arnold Networks (KANs) as an alternative to PIL for developing a new type of data-driven predictive model which is able to achieve high prediction accuracy and physics interpretability. A KAN based model, a MLP with PIL, and a baseline MLP model are compared in generalization ability and interpretation with a domain expert-derived symbolic regression model. Through empirical studies in this high physics complexity domain, we show that KANs can potentially provide benefits when developing predictive models for data-starved physics applications.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# RFチャレンジ:データ駆動無線周波数信号分離チャレンジ

RF Challenge: The Data-Driven Radio Frequency Signal Separation Challenge ( http://arxiv.org/abs/2409.08839v1 )

ライセンス: Link先を確認
Alejandro Lancho, Amir Weiss, Gary C. F. Lee, Tejas Jayashankar, Binoy Kurien, Yury Polyanskiy, Gregory W. Wornell, (参考訳) 本稿では、最先端AIモデルを活用した新しいデータ駆動アプローチを用いて、高周波信号における干渉拒否の重大な問題に対処する。 伝統的に、干渉除去アルゴリズムは特定の種類の干渉に合わせて手動で調整される。 この作業は、よりスケーラブルなデータ駆動ソリューションを導入し、以下のコントリビューションを含んでいる。 まず、干渉除去アルゴリズムの開発と解析の基礎となる洞察に富んだ信号モデルを提案する。 第2に、コードテンプレートとともに多様なRF信号を特徴とする公開データセットであるRF Challengeを導入し、RF信号問題に関するデータ駆動分析を容易にする。 第3に,UNetやWaveNetなどのアーキテクチャにおいて,新しいAIに基づく拒絶アルゴリズムを提案し,その性能を8種類の信号混合タイプで評価する。 これらのモデルは、マッチングフィルタや線形平均二乗誤差をビット誤り率で最大2桁まで推定する従来の手法よりも優れた性能を示す。 第4に,RFチャレンジに基づいて,2024年IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2024) で開催されているオープンコンペティションの結果を要約し,この分野のさらなる発展の可能性を強調した。 我々の発見は、干渉を緩和する深層学習アルゴリズムの可能性を浮き彫りにし、将来の研究の強力な基盤を提供する。

This paper addresses the critical problem of interference rejection in radio-frequency (RF) signals using a novel, data-driven approach that leverages state-of-the-art AI models. Traditionally, interference rejection algorithms are manually tailored to specific types of interference. This work introduces a more scalable data-driven solution and contains the following contributions. First, we present an insightful signal model that serves as a foundation for developing and analyzing interference rejection algorithms. Second, we introduce the RF Challenge, a publicly available dataset featuring diverse RF signals along with code templates, which facilitates data-driven analysis of RF signal problems. Third, we propose novel AI-based rejection algorithms, specifically architectures like UNet and WaveNet, and evaluate their performance across eight different signal mixture types. These models demonstrate superior performance exceeding traditional methods like matched filtering and linear minimum mean square error estimation by up to two orders of magnitude in bit-error rate. Fourth, we summarize the results from an open competition hosted at 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2024) based on the RF Challenge, highlighting the significant potential for continued advancements in this area. Our findings underscore the promise of deep learning algorithms in mitigating interference, offering a strong foundation for future research.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# Direct-CP: アクティブアテンションによるコネクテッドおよび自律走行車両の協調認識

Direct-CP: Directed Collaborative Perception for Connected and Autonomous Vehicles via Proactive Attention ( http://arxiv.org/abs/2409.08840v1 )

ライセンス: Link先を確認
Yihang Tao, Senkang Hu, Zhengru Fang, Yuguang Fang, (参考訳) 協調知覚(CP)は、コネクテッドおよび自律走行車(CAV)からの視覚データを活用して、エゴ車両の視野(FoV)を高める。 最近の進歩にもかかわらず、現在のCP手法はエゴの知覚範囲を360度に拡大しており、2つの重要な課題に直面している。 第一に、不均一な交通分布のある地域では、交通量が少ない方向に集中することは、限られた利益をもたらす。 第二に、限られた通信予算の下では、過度な帯域幅をあまり重要でない方向に割り当てることにより、より重要な領域における知覚精度が低下する。 これらの課題に対処するため,特定の方向でCPを改善することを目的とした,プロアクティブで方向対応のCPシステムであるDirect-CPを提案する。 我々のキーとなる考え方は、エゴ車両が関心のある方向を積極的に信号し、その注意を調整し、局所的な方向CP性能を向上させることである。 そこで本研究では,まず,エゴ車両が重要な方向を特定するのを補助するRSU支援の方向マスキング機構を提案する。 さらに,エゴ車両の指向性優先度,通信予算,CAVの位置データに基づいて,適切な特徴を適切に集約する指向性選択型アテンションモジュールを設計する。 さらに、方向重み付き検出損失(DWLoss)を導入し、方向性CP結果と地上真実との相違を捉え、効果的なモデルトレーニングを容易にする。 V2X-Sim 2.0データセットの大規模な実験により、我々の手法は、関心のある方向における局所的な認識精度が19.8倍、そして、協調的な3Dオブジェクト検出タスクにおける最先端の手法よりも2.5倍高い全体的な認識精度が得られることが示された。

Collaborative perception (CP) leverages visual data from connected and autonomous vehicles (CAV) to enhance an ego vehicle's field of view (FoV). Despite recent progress, current CP methods expand the ego vehicle's 360-degree perceptual range almost equally, which faces two key challenges. Firstly, in areas with uneven traffic distribution, focusing on directions with little traffic offers limited benefits. Secondly, under limited communication budgets, allocating excessive bandwidth to less critical directions lowers the perception accuracy in more vital areas. To address these issues, we propose Direct-CP, a proactive and direction-aware CP system aiming at improving CP in specific directions. Our key idea is to enable an ego vehicle to proactively signal its interested directions and readjust its attention to enhance local directional CP performance. To achieve this, we first propose an RSU-aided direction masking mechanism that assists an ego vehicle in identifying vital directions. Additionally, we design a direction-aware selective attention module to wisely aggregate pertinent features based on ego vehicle's directional priorities, communication budget, and the positional data of CAVs. Moreover, we introduce a direction-weighted detection loss (DWLoss) to capture the divergence between directional CP outcomes and the ground truth, facilitating effective model training. Extensive experiments on the V2X-Sim 2.0 dataset demonstrate that our approach achieves 19.8\% higher local perception accuracy in interested directions and 2.5\% higher overall perception accuracy than the state-of-the-art methods in collaborative 3D object detection tasks.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# 量子コンピューティングソフトウェアの性能ベンチマーク

Benchmarking the performance of quantum computing software ( http://arxiv.org/abs/2409.08844v1 )

ライセンス: Link先を確認
Paul D. Nation, Abdullah Ash Saki, Sebastian Brandhofer, Luciano Bello, Shelly Garion, Matthew Treinish, Ali Javadi-Abhari, (参考訳) 複数の量子コンピューティングソフトウェア開発キットの性能と機能範囲を評価するベンチマークスイートであるBenchpressについて紹介する。 このスイートは、最大930$ qubitsと$\mathcal{O}(10^{6})$ 2-qubit gateからなる量子回路上のさまざまな操作に対するキーパフォーマンスメトリクスを測定する1000ドル以上のテストと、複数の量子ソフトウェアパッケージ上でテストを実行するための実行フレームワークで構成される。 ベンチマークスイートの概要,方法論,および7つの異なる量子ソフトウェアパッケージに対する代表的結果の生成について概説する。 Benchpressフレームワークの柔軟性は、量子ハードウェアの改善に追随するだけでなく、将来のデバイスアーキテクチャの量子回路処理コストを事前に測定できるベンチマークを可能にする。 Benchpressはオープンソースであるため、パフォーマンスクレームの透明性と検証が保証される。

We present Benchpress, a benchmarking suite for evaluating the performance and range of functionality of multiple quantum computing software development kits. This suite consists of a collection of over $1000$ tests measuring key performance metrics for a wide variety of operations on quantum circuits comprised of up to $930$ qubits and $\mathcal{O}(10^{6})$ two-qubit gates, as well as an execution framework for running the tests over multiple quantum software packages in a unified manner. We give a detailed overview of the benchmark suite, its methodology, and generate representative results over seven different quantum software packages. The flexibility of the Benchpress framework allows for benchmarking that not only keeps pace with quantum hardware improvements but can preemptively gauge the quantum circuit processing costs of future device architectures. Being open-source, Benchpress ensures the transparency and verification of performance claims.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# AIPO: 反復的推論最適化のためのトレーニング目的の改善

AIPO: Improving Training Objective for Iterative Preference Optimization ( http://arxiv.org/abs/2409.08845v1 )

ライセンス: Link先を確認
Yaojie Shen, Xinyao Wang, Yulei Niu, Ying Zhou, Lexin Tang, Libo Zhang, Fan Chen, Longyin Wen, (参考訳) 優先度最適化(PO)は、大規模言語モデル(LLM)の整合化のためのPPO(Proximal Policy Optimization)に代わる選択肢として人気を集めている。 LLMを合成データや部分合成データと反復的に整合させる最近の研究は、学術的な設定とLlama3のような独自のトレーニングモデルの両方でPOトレーニングをスケールアップする有望な結果を示している。 その成功にもかかわらず、本研究は、POに現れる長さ利用の問題が、反復的優先度最適化(IPO)において、プロセスの反復的性質によりさらに深刻であることを示している。 本研究では,合成データを用いた反復的選好最適化について検討する。 我々は、反復的な選好最適化パイプラインを構築する過程で、結果と分析を共有します。 より具体的には、反復選好最適化における長さ利用の問題について議論し、反復選好最適化のためのトレーニング目標、すなわち、合意対応反復選好最適化(AIPO)を提案する。 本手法の有効性を実証するため,MT-Bench,AlpacaEval 2.0,Arena-Hardで総合実験を行い,最先端性能を実現した。 私たちの実装とモデルチェックポイントはhttps://github.com/bytedance/AIPO.orgで公開されます。

Preference Optimization (PO), is gaining popularity as an alternative choice of Proximal Policy Optimization (PPO) for aligning Large Language Models (LLMs). Recent research on aligning LLMs iteratively with synthetic or partially synthetic data shows promising results in scaling up PO training for both academic settings and proprietary trained models such as Llama3. Despite its success, our study shows that the length exploitation issue present in PO is even more severe in Iterative Preference Optimization (IPO) due to the iterative nature of the process. In this work, we study iterative preference optimization with synthetic data. We share the findings and analysis along the way of building the iterative preference optimization pipeline. More specifically, we discuss the length exploitation issue during iterative preference optimization and propose our training objective for iterative preference optimization, namely Agreement-aware Iterative Preference Optimization (AIPO). To demonstrate the effectiveness of our method, we conduct comprehensive experiments and achieve state-of-the-art performance on MT-Bench, AlpacaEval 2.0, and Arena-Hard. Our implementation and model checkpoints will be made available at https://github.com/bytedance/AIPO.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# FP-VEC:効率的なベクトル加算による大規模言語モデルのフィンガープリント

FP-VEC: Fingerprinting Large Language Models via Efficient Vector Addition ( http://arxiv.org/abs/2409.08846v1 )

ライセンス: Link先を確認
Zhenhua Xu, Wenpeng Xing, Zhebo Wang, Chang Hu, Chen Jie, Meng Han, (参考訳) 大規模言語モデル(LLM)の訓練には膨大な計算能力と膨大なデータが必要である。 結果として、これらのモデルの知的特性を指紋認証によって保護することが、所有権認証に不可欠である。 微調整によってLDMに指紋を付加する試みは試みられているが、費用がかかり難いままである。 本稿では,LLMの効率的なフィンガープリント手法として指紋ベクトルを用いたパイロット研究であるFP-VECを紹介する。 提案手法は,モデルに埋め込まれた秘密署名を表す指紋ベクトルを生成する。 いくつかのLCMの結果から、FP-VECはCPUのみのデバイスで指紋認証を実行し、単一のトレーニングと無制限の指紋認証プロセスでスケーラブルで、モデルの正常な動作を保存することで軽量であることが示された。 プロジェクトページはhttps://fingerprintvector.github.io.comで公開されている。

Training Large Language Models (LLMs) requires immense computational power and vast amounts of data. As a result, protecting the intellectual property of these models through fingerprinting is essential for ownership authentication. While adding fingerprints to LLMs through fine-tuning has been attempted, it remains costly and unscalable. In this paper, we introduce FP-VEC, a pilot study on using fingerprint vectors as an efficient fingerprinting method for LLMs. Our approach generates a fingerprint vector that represents a confidential signature embedded in the model, allowing the same fingerprint to be seamlessly incorporated into an unlimited number of LLMs via vector addition. Results on several LLMs show that FP-VEC is lightweight by running on CPU-only devices for fingerprinting, scalable with a single training and unlimited fingerprinting process, and preserves the model's normal behavior. The project page is available at https://fingerprintvector.github.io .
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# Kinectキャリブレーションと人体計測パラメータの最適化

Kinect Calibration and Data Optimization For Anthropometric Parameters ( http://arxiv.org/abs/2409.08847v1 )

ライセンス: Link先を確認
M. S. Gokmen, M. Akbaba, O. Findik, (参考訳) 近年,医療・生体計測の分野で広く利用されている3次元視覚システムの開発が進んでいる。 Microsoft kinectセンサーは、3Dビジョンシステムの中でよく使われているカメラである。 Microsoft kinectセンサーは、シーンの奥行き画像と人間の関節の3d座標を得ることができる。 これにより、人為的特徴を容易に抽出できる。 光学的特徴とキネクトセンサーから取得した3次元共同座標の生データは不安定である。 そのため、データは個々の関節とキネクトセンサーの位置の距離によって異なる。 したがって、これらのデータの校正やデータの最適化を伴わない使用は、十分かつ健全なものにはならない。 本研究では,キネクトセンサの校正と骨格特性の最適化のための新しい手法を提案する。 その結果,提案手法は極めて有効であり,より一般的なシナリオでさらに研究する価値があることが示唆された。

Recently, through development of several 3d vision systems, widely used in various applications, medical and biometric fields. Microsoft kinect sensor have been most of used camera among 3d vision systems. Microsoft kinect sensor can obtain depth images of a scene and 3d coordinates of human joints. Thus, anthropometric features can extractable easily. Anthropometric feature and 3d joint coordinate raw datas which captured from kinect sensor is unstable. The strongest reason for this, datas vary by distance between joints of individual and location of kinect sensor. Consequently, usage of this datas without kinect calibration and data optimization does not result in sufficient and healthy. In this study, proposed a novel method to calibrating kinect sensor and optimizing skeleton features. Results indicate that the proposed method is quite effective and worthy of further study in more general scenarios.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# DX2CT:BiまたはMono平面X線からの3次元CT再構成のための拡散モデル(DX2CT)

DX2CT: Diffusion Model for 3D CT Reconstruction from Bi or Mono-planar 2D X-ray(s) ( http://arxiv.org/abs/2409.08850v1 )

ライセンス: Link先を確認
Yun Su Jeong, Hye Bin Yoo, Il Yong Chun, (参考訳) CT(Computational tomography)は高分解能の医用画像を提供するが、患者を高放射線に曝すことができる。 X線スキャナーは放射線被曝率が低いが、解像度は低い。 本稿では,2次元または単平面X線画像から3次元CTボリュームを再構成する新しい条件拡散モデルDX2CTを提案する。 提案されたDX2CTは2つのキーコンポーネントから構成される。 1)CTボリュームの3次元位置を持つ2次元(2次元)X線から抽出した特徴マップを、新しいトランスおよび変換器を用いて変調する。 2)DX2CTの条件として3次元位置認識特徴マップを効果的に利用した。 特に,提案した変圧器は,対象CTスライスを条件拡散モデルにリッチな情報として提供し,高品質なCT再構成を可能にする。 単平面X線および単平面X線ベンチマークを用いた実験により,提案したDX2CTはいくつかの最先端手法よりも優れた性能を示した。 私たちのコードとモデルについては、https://www.github.com/intyeger/DX2CT.comで公開します。

Computational tomography (CT) provides high-resolution medical imaging, but it can expose patients to high radiation. X-ray scanners have low radiation exposure, but their resolutions are low. This paper proposes a new conditional diffusion model, DX2CT, that reconstructs three-dimensional (3D) CT volumes from bi or mono-planar X-ray image(s). Proposed DX2CT consists of two key components: 1) modulating feature maps extracted from two-dimensional (2D) X-ray(s) with 3D positions of CT volume using a new transformer and 2) effectively using the modulated 3D position-aware feature maps as conditions of DX2CT. In particular, the proposed transformer can provide conditions with rich information of a target CT slice to the conditional diffusion model, enabling high-quality CT reconstruction. Our experiments with the bi or mono-planar X-ray(s) benchmark datasets show that proposed DX2CT outperforms several state-of-the-art methods. Our codes and model will be available at: https://www.github.com/intyeger/DX2CT.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# 家庭行動認識における概念階層の利用

Using The Concept Hierarchy for Household Action Recognition ( http://arxiv.org/abs/2409.08853v1 )

ライセンス: Link先を確認
Andrei Costinescu, Luis Figueredo, Darius Burschka, (参考訳) 本研究では,環境の静的および動的コンポーネント,すなわちオブジェクトとエージェントの双方を体系的に表現する手法を提案する。 我々のアプローチであるConcept Hierarchyは、自律システムに必要な情報を提供し、環境状態を表現し、アクションモデリングと認識を行い、タスクの実行を計画する。 さらに階層構造は、一般化と環境への知識伝達をサポートする。 我々は、人間に理解可能な行動とスキル認識を可能にするタスク、アクション、スキル、および余裕を厳格に定義する。

We propose a method to systematically represent both the static and the dynamic components of environments, i.e. objects and agents, as well as the changes that are happening in the environment, i.e. the actions and skills performed by agents. Our approach, the Concept Hierarchy, provides the necessary information for autonomous systems to represent environment states, perform action modeling and recognition, and plan the execution of tasks. Additionally, the hierarchical structure supports generalization and knowledge transfer to environments. We rigorously define tasks, actions, skills, and affordances that enable human-understandable action and skill recognition.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# InstantDrag: ドラッグベースの画像編集におけるインタラクションの改善

InstantDrag: Improving Interactivity in Drag-based Image Editing ( http://arxiv.org/abs/2409.08857v1 )

ライセンス: Link先を確認
Joonghyuk Shin, Daehyeon Choi, Jaesik Park, (参考訳) ドラッグベースの画像編集は、その対話性と精度で最近人気を集めている。 しかし,画像コンテンツを維持しながらユーザのインタラクションを正確に反映することの難しさから,テキスト・ツー・イメージモデルによるサンプル生成が1秒以内で可能であるにも関わらず,ドラッグ編集は依然として遅れている。 既存のアプローチでは、計算集約的な画像ごとの最適化や複雑なガイダンスベースの手法に依存しており、可動領域のマスクやテキストプロンプトなどの追加入力を必要とするため、編集プロセスの相互作用性が向上する。 InstantDragは、画像とドラッグ命令のみを入力として必要としながら、対話性と速度を向上させる最適化不要なパイプラインである。 InstantDragは、ドラッグ条件光フロージェネレータ(FlowGen)とフロー条件光拡散モデル(FlowDiffusion)の2つの慎重に設計されたネットワークで構成されている。 InstantDragは、実際のビデオデータセットにおけるドラッグベースの画像編集のためのモーションダイナミクスを、タスクをモーション生成とモーション条件付き画像生成に分解することで学習する。 InstantDragは、顔ビデオデータセットや一般的なシーンの実験を通じて、マスクやテキストプロンプトなしで高速でリアルな編集を行うことができる。 これらの結果は、ドラッグベースの画像編集処理における我々のアプローチの効率性を強調し、インタラクティブでリアルタイムなアプリケーションにとって有望なソリューションである。

Drag-based image editing has recently gained popularity for its interactivity and precision. However, despite the ability of text-to-image models to generate samples within a second, drag editing still lags behind due to the challenge of accurately reflecting user interaction while maintaining image content. Some existing approaches rely on computationally intensive per-image optimization or intricate guidance-based methods, requiring additional inputs such as masks for movable regions and text prompts, thereby compromising the interactivity of the editing process. We introduce InstantDrag, an optimization-free pipeline that enhances interactivity and speed, requiring only an image and a drag instruction as input. InstantDrag consists of two carefully designed networks: a drag-conditioned optical flow generator (FlowGen) and an optical flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion dynamics for drag-based image editing in real-world video datasets by decomposing the task into motion generation and motion-conditioned image generation. We demonstrate InstantDrag's capability to perform fast, photo-realistic edits without masks or text prompts through experiments on facial video datasets and general scenes. These results highlight the efficiency of our approach in handling drag-based image editing, making it a promising solution for interactive, real-time applications.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# 随伴マッチング:メモリレス確率最適制御を用いた微調整流れと拡散生成モデル

Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control ( http://arxiv.org/abs/2409.08861v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Michal Drozdzal, Brian Karrer, Ricky T. Q. Chen, (参考訳) フローマッチング (Flow Matching) や拡散モデル (denoising diffusion model) のような反復的プロセスを通じてサンプルを生成する動的生成モデルは広く用いられているが、これらのモデルを改善するための理論的な手法は、報酬の微調整によって多くは存在していない。 本研究では,確率的最適制御(SOC)として報酬の微調整を行った。 重要なことは、ノイズ変数と生成されたサンプルとの依存性を考慮するために、微調整中に非常に具体的なメモリレスノイズスケジュールを強制する必要があることを証明する。 また、回帰問題としてSOC問題をキャストすることにより、既存のSOCアルゴリズムより優れているAdjoint Matchingというアルゴリズムを提案する。 提案手法は, サンプル多様性を維持しつつ, 従来の微調整法よりも大幅に改善し, 一貫性, リアリズム, 人間の嗜好報酬モデルへの一般化を実現している。

Dynamical generative models that produce samples through an iterative process, such as Flow Matching and denoising diffusion models, have seen widespread use, but there has not been many theoretically-sound methods for improving these models with reward fine-tuning. In this work, we cast reward fine-tuning as stochastic optimal control (SOC). Critically, we prove that a very specific memoryless noise schedule must be enforced during fine-tuning, in order to account for the dependency between the noise variable and the generated samples. We also propose a new algorithm named Adjoint Matching which outperforms existing SOC algorithms, by casting SOC problems as a regression problem. We find that our approach significantly improves over existing methods for reward fine-tuning, achieving better consistency, realism, and generalization to unseen human preference reward models, while retaining sample diversity.
翻訳日:2024-09-16 16:19:29 公開日:2024-09-13
# マルチモーダル大言語モデルのグラフ構造理解能力の探索:ケーススタディ

Exploring Graph Structure Comprehension Ability of Multimodal Large Language Models: Case Studies ( http://arxiv.org/abs/2409.08864v1 )

ライセンス: Link先を確認
Zhiqiang Zhong, Davide Mottin, (参考訳) 大規模言語モデル(LLM)は、グラフを含む様々なデータ構造を処理する際、顕著な能力を示している。 従来の研究は、グラフ表現のためのテキスト符号化手法の開発に重点を置いてきたが、マルチモーダルLLMの出現は、グラフ理解のための新たなフロンティアを示している。 これらの高度なモデルは、テキストと画像の両方を処理できるが、従来のテキストデータと並行して視覚表現を組み込むことで、グラフ理解の潜在的な改善を提供する。 本研究では,グラフの可視化がノード,エッジ,グラフレベルでのベンチマークタスクのLLM性能に与える影響について検討した。 本実験は,純粋テキストグラフ表現に対するマルチモーダルアプローチの有効性を比較した。 この結果は、LLMのグラフ構造理解能力を高めるために、視覚グラフモダリティを活用する可能性と限界の両方について、貴重な洞察を提供する。

Large Language Models (LLMs) have shown remarkable capabilities in processing various data structures, including graphs. While previous research has focused on developing textual encoding methods for graph representation, the emergence of multimodal LLMs presents a new frontier for graph comprehension. These advanced models, capable of processing both text and images, offer potential improvements in graph understanding by incorporating visual representations alongside traditional textual data. This study investigates the impact of graph visualisations on LLM performance across a range of benchmark tasks at node, edge, and graph levels. Our experiments compare the effectiveness of multimodal approaches against purely textual graph representations. The results provide valuable insights into both the potential and limitations of leveraging visual graph modalities to enhance LLMs' graph structure comprehension abilities.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# 絡み合った概念を扱うためのチューリングビデオベース認知テスト

Turing Video-based Cognitive Tests to Handle Entangled Concepts ( http://arxiv.org/abs/2409.08868v1 )

ライセンス: Link先を確認
Diederik Aerts, Roberto Leporini, Sandro Sozzo, (参考訳) 我々は、人間ベースのテストとコンピュータベースのテストの両方において、自然概念が結合して複雑な文を形成し、古典的な構成意味論の規則に反するときに一般的に「絡み合う」ことを証明した。 本稿では,Claruser-Horne-Shimony-Holt版ベルの不等式(CHSH不等式)を著しく侵害する,特定の概念の組み合わせに関する革新的なビデオベース認知テストの結果を示す。 また、収集されたデータは、自分自身によって精巧化された量子理論の枠組みの中で忠実にモデル化され、コンポーネントの概念の間に「強い絡み合い」が発生することを示す。 ビデオベースのテストでは、人間の認知の絡み合いに関する過去の経験的結果を確認するが、我々の画期的な経験的アプローチは言語障壁を超え、事前の知識の必要性を排除し、普遍的なアクセシビリティを実現する。 最後に、この変革的手法は、現実に対する認識を促進する基礎となるつながりを解き明かすことを可能にする。 実のところ、物理界と認知界の両面での絡み合いの出現について、新しい説明をしている。

We have proved in both human-based and computer-based tests that natural concepts generally `entangle' when they combine to form complex sentences, violating the rules of classical compositional semantics. In this article, we present the results of an innovative video-based cognitive test on a specific conceptual combination, which significantly violates the Clauser--Horne--Shimony--Holt version of Bell's inequalities (`CHSH inequality'). We also show that collected data can be faithfully modelled within a quantum-theoretic framework elaborated by ourselves and a `strong form of entanglement' occurs between the component concepts. While the video-based test confirms previous empirical results on entanglement in human cognition, our ground-breaking empirical approach surpasses language barriers and eliminates the need for prior knowledge, enabling universal accessibility. Finally, this transformative methodology allows one to unravel the underlying connections that drive our perception of reality. As a matter of fact, we provide a novel explanation for the appearance of entanglement in both physics and cognitive realms.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# 極低リソース言語におけるデータ量とASRへの影響の探索

Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages ( http://arxiv.org/abs/2409.08872v1 )

ライセンス: Link先を確認
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee, Hsin-Min Wang, (参考訳) 本研究では,Amis と Seediq の2つの絶滅危惧言語に着目し,低リソース自動音声認識(ASR)におけるデータ拡張手法の有効性について検討した。 低リソース環境での自己教師型学習(SSL)の可能性を認識し、SSLモデルの継続的な事前トレーニングに対するデータボリュームの影響について検討する。 本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。 この方式では、言語分類器を用いて発話埋め込みを抽出し、一級分類器を用いて発話を音声的に識別し、音韻的に対象言語に接近する。 発話は、その決定スコアに基づいてランク付けされ、選択され、SSL-ASRパイプラインに高度に関連性の高いデータを含むことが保証される。 提案手法の有効性を実証し,Amis と Seediq のASR性能を大幅に改善した。 これらの知見は、低リソース言語ASRにおける言語間変換学習によるデータ拡張の実現可能性と可能性を裏付けるものである。

This study investigates the efficacy of data augmentation techniques for low-resource automatic speech recognition (ASR), focusing on two endangered Austronesian languages, Amis and Seediq. Recognizing the potential of self-supervised learning (SSL) in low-resource settings, we explore the impact of data volume on the continued pre-training of SSL models. We propose a novel data-selection scheme leveraging a multilingual corpus to augment the limited target language data. This scheme utilizes a language classifier to extract utterance embeddings and employs one-class classifiers to identify utterances phonetically and phonologically proximate to the target languages. Utterances are ranked and selected based on their decision scores, ensuring the inclusion of highly relevant data in the SSL-ASR pipeline. Our experimental results demonstrate the effectiveness of this approach, yielding substantial improvements in ASR performance for both Amis and Seediq. These findings underscore the feasibility and promise of data augmentation through cross-lingual transfer learning for low-resource language ASR.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# 量子コヒーレンスの一括希釈のためのSDP

SDP for One-shot Dilution of Quantum Coherence ( http://arxiv.org/abs/2409.08876v1 )

ライセンス: Link先を確認
Yikang Zhu, Zhaofeng Su, (参考訳) 量子コヒーレンス(quantum coherence)は、量子力学の基本的な性質の1つであり、量子コンピューティングや量子情報処理を含む様々な実用的な応用のための貴重な資源としても機能する。 コヒーレンスの希釈を評価することは、資源理論の枠組みにおける基本的な問題である。 ワンショットシナリオにおけるコヒーレンス希釈問題について考察する。 最大非コヒーレント操作による純状態の一発コヒーレンス希釈の半定プログラムを見いだす。 さらに、デファッシン共変不整合演算の下で、類似するが半定値でないプログラム形式を与える。 さらに,一発希釈の既知下界は厳密であることを示す。 数値実験により,コヒーレンス希釈において最大不整合操作とデファス・コヒーレント動作が異なることを示す。

Quantum coherence is one of the fundamental properties of quantum mechanics and also acts as a valuable resource for a variety of practical applications, which includes quantum computing and quantum information processing. Evaluating the dilution of coherence is a basic problem in the framework of resource theory. We consider the coherence dilution problem in the one-shot scenario. We find a semidefinite program of one-shot coherence dilution of pure state under maximally incoherent operation. We further give a similar but not semidefinite program form under dephasing-covariant incoherent operation. Moreover, we prove that the known lower bound of the one-shot dilution is strict. Our numerical experiment clearly demonstrates that the maximally incoherent operation and dephasing-covariant incoherent operation have different power in the coherence dilution.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# フェイクによるフェイク検出:合成画像検出のための合成データ駆動表現の活用

Detect Fake with Fake: Leveraging Synthetic Data-driven Representation for Synthetic Image Detection ( http://arxiv.org/abs/2409.08884v1 )

ライセンス: Link先を確認
Hina Otake, Yoshihiro Fukuhara, Yoshiki Kubotani, Shigeo Morishima, (参考訳) 合成データのみから汎用的な視覚表現は偽画像の検出に有用か? 本研究では,合成画像検出における合成データ駆動表現の有効性を示す。 解析の結果、最新の視覚表現学習者によって訓練された視覚変換器は、事前学習中に実際の画像を見ることなく、実画像と実画像とを効果的に識別できることが判明した。 特に、SynCLRを最先端検出法でバックボーンとして使用すると、これまで見つからなかったGANモデルでテストすると、広く使われているCLIPよりも+10.32 mAPと+4.73%の性能向上が示されている。 コードはhttps://github.com/cvpaperchallenge/detect-fake-with-fake.comで公開されている。

Are general-purpose visual representations acquired solely from synthetic data useful for detecting fake images? In this work, we show the effectiveness of synthetic data-driven representations for synthetic image detection. Upon analysis, we find that vision transformers trained by the latest visual representation learners with synthetic data can effectively distinguish fake from real images without seeing any real images during pre-training. Notably, using SynCLR as the backbone in a state-of-the-art detection method demonstrates a performance improvement of +10.32 mAP and +4.73% accuracy over the widely used CLIP, when tested on previously unseen GAN models. Code is available at https://github.com/cvpaperchallenge/detect-fake-with-fake.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# リモートセンシングにおけるマルチモーダル物体検出のための対話型マスク画像モデリング

Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing ( http://arxiv.org/abs/2409.08885v1 )

ライセンス: Link先を確認
Minh-Duc Vu, Zuheng Ming, Fangchen Feng, Bissmella Bahaduri, Anissa Mokraoui, (参考訳) リモートセンシング画像における物体検出は、様々な地球観測応用において重要な役割を果たす。 しかし、自然の風景画像における物体検出とは異なり、このタスクは、様々な地形にまたがる小さな、しばしばほとんど見えない物体が多数存在するため、特に困難である。 これらの課題に対処するために、マルチモーダル学習を使用して、異なるデータモダリティの機能を統合することで、検出精度を向上させることができる。 それでも、マルチモーダル学習の性能はラベル付きデータセットの限られたサイズによって制限されることが多い。 本稿では,未ラベルデータに対する自己教師付き学習を利用して検出性能を向上させることを目的として,Masked Image Modeling (MIM) を事前学習手法として用いることを提案する。 しかし,MAEなどの従来のMIMでは,画像の他の部分とのインタラクションの欠如により細かな細部を捉えるのに苦労している。 そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。 広範囲にわたるアブレーション研究と溶出は,我々のアプローチの有効性を実証している。

Object detection in remote sensing imagery plays a vital role in various Earth observation applications. However, unlike object detection in natural scene images, this task is particularly challenging due to the abundance of small, often barely visible objects across diverse terrains. To address these challenges, multimodal learning can be used to integrate features from different data modalities, thereby improving detection accuracy. Nonetheless, the performance of multimodal learning is often constrained by the limited size of labeled datasets. In this paper, we propose to use Masked Image Modeling (MIM) as a pre-training technique, leveraging self-supervised learning on unlabeled data to enhance detection performance. However, conventional MIM such as MAE which uses masked tokens without any contextual information, struggles to capture the fine-grained details due to a lack of interactions with other parts of image. To address this, we propose a new interactive MIM method that can establish interactions between different tokens, which is particularly beneficial for object detection in remote sensing. The extensive ablation studies and evluation demonstrate the effectiveness of our approach.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# マルチモーダルインタラクションによるビジュアル言語追跡:ロバストベンチマーク

Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark ( http://arxiv.org/abs/2409.08887v1 )

ライセンス: Link先を確認
Xuchen Li, Shiyu Hu, Xiaokun Feng, Dailing Zhang, Meiqi Wu, Jing Zhang, Kaiqi Huang, (参考訳) 視覚言語追跡(VLT)は、視覚的モダリティのみに依存する制限を緩和し、言語による高レベルな意味情報を活用することにより、トラッキングを強化する。 この言語の統合により、より高度な人間と機械の相互作用が可能になる。 相互作用の本質は認知的アライメントであり、VLTのシーケンシャルな意思決定プロセスにおいて、通常は複数の情報交換を必要とする。 しかしながら、現在のVLTベンチマークでは、トラッキング中の複数ラウンドの相互作用は考慮されていない。 彼らは最初のフレームで最初のテキストとバウンディングボックス(bbox)しか提供せず、VLTタスクの元々のモチベーションから逸脱して、追跡の進行が進行するにつれて、それ以上のインタラクションは行わない。 これらの制約に対処するため,VLT-MI (Visual Language Tracking with Multi-modal Interaction) という新鮮で堅牢なベンチマークを提案する。 1) DTLLM-VLTを用いたマルチラウンドマルチモーダルインタラクションのための多言語テキストを生成する。 2)テキスト更新とオブジェクトリカバリによるマルチラウンドインタラクションを実現する新しいVLTインタラクションパラダイムを提案する。 複数のトラッキング障害が発生した場合、より整列したテキストと、対話を通じて修正されたbboxをトラッカーに提供し、VLTダウンストリームタスクの範囲を広げる。 (3)従来のVLTベンチマークとVLT-MIの比較実験を行い,対話的パラダイムによるトラッカーの精度とロバスト性の評価と解析を行った。 この研究は、VLTタスクの新しい洞察とパラダイムを提供し、マルチモーダルトラッカーのきめ細かい評価を可能にする。 このアプローチは将来的に追加のデータセットに拡張でき、ビデオ言語モデル機能のより広範な評価と比較をサポートすることができると考えています。

Visual Language Tracking (VLT) enhances tracking by mitigating the limitations of relying solely on the visual modality, utilizing high-level semantic information through language. This integration of the language enables more advanced human-machine interaction. The essence of interaction is cognitive alignment, which typically requires multiple information exchanges, especially in the sequential decision-making process of VLT. However, current VLT benchmarks do not account for multi-round interactions during tracking. They provide only an initial text and bounding box (bbox) in the first frame, with no further interaction as tracking progresses, deviating from the original motivation of the VLT task. To address these limitations, we propose a novel and robust benchmark, VLT-MI (Visual Language Tracking with Multi-modal Interaction), which introduces multi-round interaction into the VLT task for the first time. (1) We generate diverse, multi-granularity texts for multi-round, multi-modal interaction based on existing mainstream VLT benchmarks using DTLLM-VLT, leveraging the world knowledge of LLMs. (2) We propose a new VLT interaction paradigm that achieves multi-round interaction through text updates and object recovery. When multiple tracking failures occur, we provide the tracker with more aligned texts and corrected bboxes through interaction, thereby expanding the scope of VLT downstream tasks. (3) We conduct comparative experiments on both traditional VLT benchmarks and VLT-MI, evaluating and analyzing the accuracy and robustness of trackers under the interactive paradigm. This work offers new insights and paradigms for the VLT task, enabling a fine-grained evaluation of multi-modal trackers. We believe this approach can be extended to additional datasets in the future, supporting broader evaluations and comparisons of video-language model capabilities.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# 擬似粒子干渉データの自己教師付き学習

Self-supervised learning for denoising quasiparticle interference data ( http://arxiv.org/abs/2409.08891v1 )

ライセンス: Link先を確認
Ilse S. Kuijf, Willem O. Tromp, Tjerk Benschop, Niño Philip Ramones, Miguel Antonio Sulangi, Evert P. L. van Nieuwenburg, Milan P. Allan, (参考訳) トンネル分光法は、相関電子系の実空間と運動量空間の電子構造を研究するための重要な道具である。 しかし、このような測定によってしばしばノイズの多いデータが得られる。 機械学習は後処理のノイズを低減する技術を提供するが、伝統的に科学実験では利用できないノイズのない例を必要とする。 本研究では,非教師付きノイズ2ノイズと自己教師型ノイズ2セルフアルゴリズムを適用し,クリーンな例を伴わずにノイズを除去し,準粒子干渉データをノイズ化する。 まず、シミュレーションデータに適用し、より微細なディテールを保ちながらノイズを低減できることを示す。 次に、オーバードープカップレート(Pb,Bi)$_2$Sr$_2$CuO$_{6+\delta}$)サンプルからの実験データに適用する。 デノジングは準粒子干渉パターンの明瞭さを高め、電子構造パラメータの精密な抽出に役立つ。 自己監督型遮蔽は準粒子干渉データをノイズ化するための有望なツールであり、複雑な物質の物理に関する深い洞察を促進する。

Tunneling spectroscopy is an important tool for the study of both real-space and momentum-space electronic structure of correlated electron systems. However, such measurements often yield noisy data. Machine learning provides techniques to reduce the noise in post-processing, but traditionally requires noiseless examples which are unavailable for scientific experiments. In this work we adapt the unsupervised Noise2Noise and self-supervised Noise2Self algorithms, which allow for denoising without clean examples, to denoise quasiparticle interference data. We first apply the techniques on simulated data, and demonstrate that we are able to reduce the noise while preserving finer details, all while outperforming more traditional denoising techniques. We then apply the Noise2Self technique to experimental data from an overdoped cuprate ((Pb,Bi)$_2$Sr$_2$CuO$_{6+\delta}$) sample. Denoising enhances the clarity of quasiparticle interference patterns, and helps to obtain a precise extraction of electronic structure parameters. Self-supervised denoising is a promising tool for denoising quasiparticle interference data, facilitating deeper insights into the physics of complex materials.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# 速度歪理論のレンズによる行動中心表現の探索

Exploring Action-Centric Representations Through the Lens of Rate-Distortion Theory ( http://arxiv.org/abs/2409.08892v1 )

ライセンス: Link先を確認
Miguel de Llanza Varona, Christopher L. Buckley, Beren Millidge, (参考訳) 組織は適応的な行動に関連する環境の情報を追跡しなければなりません。 経済的かつ効率的な方法で情報を伝達することは、高次元環境に生息する限られた資源のエージェントにとって重要である。 効率的なコーディング仮説は、有機体が感覚入力に関する情報を効率的に最大化しようと試みていると主張している。 ベイズ推定では、脳の役割は感覚データを引き起こす隠された状態について予測するために資源を効率的に割り当てることである。 しかし、どちらのフレームワークも、その情報が下流でどのように利用されるかを説明しておらず、知覚システムのアクション指向の役割は別として残されている。 制約下での最適損失圧縮を定義する速度歪み理論は、ゴール指向の効率的な符号化を探求するための正式な枠組みとして注目されている。 本研究では、速度歪理論の文脈における行動中心表現について考察する。 抽象化の数学的定義も提供し、関連する詳細をまとめると、アクション中心の表現の内容を修正するために使用できると論じる。 我々はVAEを用いて行動中心表現をモデル化し、そのような表現を見いだす。 一 効率のよいデータ圧縮であること。 二 動作を成功させるために必要なタスク依存の不変性をつかむこと。 三 データの再構成をしていないこと。 したがって、認識に対するテレロジカルアプローチと整合して、最適な行動を達成するためにデータの完全な再構築はめったに必要ないと結論付けている。

Organisms have to keep track of the information in the environment that is relevant for adaptive behaviour. Transmitting information in an economical and efficient way becomes crucial for limited-resourced agents living in high-dimensional environments. The efficient coding hypothesis claims that organisms seek to maximize the information about the sensory input in an efficient manner. Under Bayesian inference, this means that the role of the brain is to efficiently allocate resources in order to make predictions about the hidden states that cause sensory data. However, neither of those frameworks accounts for how that information is exploited downstream, leaving aside the action-oriented role of the perceptual system. Rate-distortion theory, which defines optimal lossy compression under constraints, has gained attention as a formal framework to explore goal-oriented efficient coding. In this work, we explore action-centric representations in the context of rate-distortion theory. We also provide a mathematical definition of abstractions and we argue that, as a summary of the relevant details, they can be used to fix the content of action-centric representations. We model action-centric representations using VAEs and we find that such representations i) are efficient lossy compressions of the data; ii) capture the task-dependent invariances necessary to achieve successful behaviour; and iii) are not in service of reconstructing the data. Thus, we conclude that full reconstruction of the data is rarely needed to achieve optimal behaviour, consistent with a teleological approach to perception.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# 合成人間の記憶:AI編集された画像とビデオは、偽の記憶と歪んだ記憶を埋め込むことができる

Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection ( http://arxiv.org/abs/2409.08895v1 )

ライセンス: Link先を確認
Pat Pataranutaporn, Chayapatr Archiwaranguprok, Samantha W. T. Chan, Elizabeth Loftus, Pattie Maes, (参考訳) AIは、意図的にも意図的にも、画像やビデオの強化にますます利用されている。 AI編集ツールがスマートフォンに統合されるにつれて、ユーザーは写真の修正やアニメーションをリアルなビデオにすることができる。 本研究では,AIを用いた視覚が虚偽の記憶に与える影響について検討する。 事前登録された調査では、200人の参加者がそれぞれ4つの条件に分けられた。 参加者はオリジナルの画像を見て、フィラータスクを完了し、割り当てられた条件(未編集画像、AI編集画像、AI生成ビデオ、AI編集画像のAI生成ビデオ)に応じた刺激を見た。 AI編集された視覚は、AI編集された画像の動画(制御と比較して2.05倍)によって、偽の記憶を著しく増加させた。 虚偽記憶の信頼度も、この条件では最も高かった(1.19倍)。 治療記憶リフレーミングなどのHCIの潜在的な応用や、倫理的、法的、政治的、社会的領域における課題について論じる。

AI is increasingly used to enhance images and videos, both intentionally and unintentionally. As AI editing tools become more integrated into smartphones, users can modify or animate photos into realistic videos. This study examines the impact of AI-altered visuals on false memories--recollections of events that didn't occur or deviate from reality. In a pre-registered study, 200 participants were divided into four conditions of 50 each. Participants viewed original images, completed a filler task, then saw stimuli corresponding to their assigned condition: unedited images, AI-edited images, AI-generated videos, or AI-generated videos of AI-edited images. AI-edited visuals significantly increased false recollections, with AI-generated videos of AI-edited images having the strongest effect (2.05x compared to control). Confidence in false memories was also highest for this condition (1.19x compared to control). We discuss potential applications in HCI, such as therapeutic memory reframing, and challenges in ethical, legal, political, and societal domains.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# Kraus is King: Lindblad Master Equation の完全正・微量保存法(CPTP)低ランク法

Kraus is King: High-order Completely Positive and Trace Preserving (CPTP) Low Rank Method for the Lindblad Master Equation ( http://arxiv.org/abs/2409.08898v1 )

ライセンス: Link先を確認
Daniel Appelo, Yingda Cheng, (参考訳) 我々は、リンドブラッド方程式の本質的構造を尊重しつつ、密度行列の低階構造を利用する高階高精度な手法を設計する。 本手法は完全陽性であり, 微量保存である。

We design high order accurate methods that exploit low rank structure in the density matrix while respecting the essential structure of the Lindblad equation. Our methods preserves complete positivity and are trace preserving.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# AnyBipe: 大規模言語モデルでガイドされた二足歩行ロボットの訓練と展開のためのエンドツーエンドフレームワーク

AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models ( http://arxiv.org/abs/2409.08904v1 )

ライセンス: Link先を確認
Yifei Yao, Wentao He, Chenyu Gu, Jiaheng Du, Fuwei Tan, Zhen Zhu, Junguo Lu, (参考訳) ロボットのための強化学習(RL)ポリシーの訓練と展開は、特に特定のタスクを達成する上で、重大な課題を提示している。 近年の進歩は、多様な報酬関数の設計、トレーニング技術、シミュレーション・トゥ・リアル(シミュレート・トゥ・リアル)トランスファー、パフォーマンス分析手法を探求してきたが、それでもかなりの人的介入が必要である。 本稿では,LLM(Large Language Models)によるRLポリシーのトレーニングとデプロイのためのエンドツーエンドフレームワークを提案する。 このフレームワークは、3つの相互接続モジュールからなる: LLM誘導報酬関数設計モジュール、先行作業を活用するRLトレーニングモジュール、およびsim-to-real同型評価モジュール。 この設計は、人間工学的戦略と歴史的データを組み込むオプションとして、本質的なシミュレーションと展開プラットフォームのみを活用することで、人間の入力の必要性を大幅に低減する。 本稿では、これらのモジュールの構築、従来のアプローチよりも有利な点について詳述し、二足歩行ロボットの制御戦略を自律的に開発・洗練するフレームワークの能力を実証し、人間の介入とは無関係に運用する可能性を示す。

Training and deploying reinforcement learning (RL) policies for robots, especially in accomplishing specific tasks, presents substantial challenges. Recent advancements have explored diverse reward function designs, training techniques, simulation-to-reality (sim-to-real) transfers, and performance analysis methodologies, yet these still require significant human intervention. This paper introduces an end-to-end framework for training and deploying RL policies, guided by Large Language Models (LLMs), and evaluates its effectiveness on bipedal robots. The framework consists of three interconnected modules: an LLM-guided reward function design module, an RL training module leveraging prior work, and a sim-to-real homomorphic evaluation module. This design significantly reduces the need for human input by utilizing only essential simulation and deployment platforms, with the option to incorporate human-engineered strategies and historical data. We detail the construction of these modules, their advantages over traditional approaches, and demonstrate the framework's capability to autonomously develop and refine controlling strategies for bipedal robot locomotion, showcasing its potential to operate independently of human intervention.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# D2-MLP: 医用画像分割用動的分解型MLPミキサ

D2-MLP: Dynamic Decomposed MLP Mixer for Medical Image Segmentation ( http://arxiv.org/abs/2409.08905v1 )

ライセンス: Link先を確認
Jin Yang, Xiaobing Yu, Peijie Qiu, (参考訳) 畳み込みニューラルネットワークは医療画像の様々なセグメンテーションタスクで広く利用されている。 しかし、畳み込み操作の本質的な局所性のため、グローバルな特徴を適応的に学習することが課題となっている。 対照的に、MLP Mixersは、複雑さの低いチャネル間でのグローバル情報学習のバックボーンとして提案されている。 しかし、空間的特徴を効率的に捉えることはできない。 さらに、これらには、機能の融合と混合を適応的に行う効果的なメカニズムが欠如している。 これらの制約に対処するため、新しいDynamic Decomposed Mixerモジュールを提案する。 斬新なミキサーを使って特徴を抽出し、異なる空間的な場所やチャンネルに情報を集約するように設計されている。 さらに、チャネルと空間的特徴表現間の依存性をモデル化し、それらを適応的に融合するために、新しい動的混合機構を用いる。 その後、U字型トランスフォーマーベースのアーキテクチャに組み込んで、動的分解型MLPミキサーと呼ばれる新しいネットワークを生成する。 2つのデータセットにおける医用画像のセグメンテーションとしての評価を行い、他の最先端手法よりも優れたセグメンテーション性能を得た。

Convolutional neural networks are widely used in various segmentation tasks in medical images. However, they are challenged to learn global features adaptively due to the inherent locality of convolutional operations. In contrast, MLP Mixers are proposed as a backbone to learn global information across channels with low complexity. However, they cannot capture spatial features efficiently. Additionally, they lack effective mechanisms to fuse and mix features adaptively. To tackle these limitations, we propose a novel Dynamic Decomposed Mixer module. It is designed to employ novel Mixers to extract features and aggregate information across different spatial locations and channels. Additionally, it employs novel dynamic mixing mechanisms to model inter-dependencies between channel and spatial feature representations and to fuse them adaptively. Subsequently, we incorporate it into a U-shaped Transformer-based architecture to generate a novel network, termed the Dynamic Decomposed MLP Mixer. We evaluated it for medical image segmentation on two datasets, and it achieved superior segmentation performance than other state-of-the-art methods.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# Gaussian:拡散後サンプリングによる逆問題解決のための統一フレームワーク

Gaussian is All You Need: A Unified Framework for Solving Inverse Problems via Diffusion Posterior Sampling ( http://arxiv.org/abs/2409.08906v1 )

ライセンス: Link先を確認
Nebiyou Yismaw, Ulugbek S. Kamilov, M. Salman Asif, (参考訳) 拡散モデルは、複雑なデータ分布をモデル化することによって、様々な高品質な画像を生成することができる。 トレーニングされた拡散モデルもまた、逆問題の解決に非常に効果的な画像先行モデルである。 既存の拡散法の多くは拡散逆サンプリングプロセスにデータ一貫性ステップを統合する。 データ一貫性のステップは近似的近似関数に依存する。 本稿では,既存の近似が不十分であるか,あるいは計算的に非効率であることを示す。 これらの問題に対処するため,共分散補正項を組み込んだ統一的確率近似法を提案し,拡散モデルによる拡散勾配の伝播を回避した。 補正項は、逆拡散サンプリングプロセスに統合されると、選択された分布に対する真のデータ後部へのより良い収束を実現し、実世界の自然画像データセットの性能を向上させる。 さらに、いくつかの逆問題に対して、確率関数の共分散行列を因数分解し、反転する効率的な方法を提案する。 いくつかの既存手法に対して,本手法の有効性を実証するための総合的な実験を行った。

Diffusion models can generate a variety of high-quality images by modeling complex data distributions. Trained diffusion models can also be very effective image priors for solving inverse problems. Most of the existing diffusion-based methods integrate data consistency steps within the diffusion reverse sampling process. The data consistency steps rely on an approximate likelihood function. In this paper, we show that the existing approximations are either insufficient or computationally inefficient. To address these issues, we propose a unified likelihood approximation method that incorporates a covariance correction term to enhance the performance and avoids propagating gradients through the diffusion model. The correction term, when integrated into the reverse diffusion sampling process, achieves better convergence towards the true data posterior for selected distributions and improves performance on real-world natural image datasets. Furthermore, we present an efficient way to factorize and invert the covariance matrix of the likelihood function for several inverse problems. We present comprehensive experiments to demonstrate the effectiveness of our method over several existing approaches.
翻訳日:2024-09-16 16:09:45 公開日:2024-09-13
# Affective Computingが変化 - ファンデーションモデル破壊

Affective Computing Has Changed: The Foundation Model Disruption ( http://arxiv.org/abs/2409.08907v1 )

ライセンス: Link先を確認
Björn Schuller, Adria Mallol-Ragolta, Alejandro Peña Almansa, Iosif Tsangko, Mostafa M. Amin, Anastasia Semertzidou, Lukas Christ, Shahin Amiriparian, (参考訳) Foundation Modelsの夜明けは、幅広い研究課題に革命をもたらし、一方、一般大衆によるAIベースのツールの利用と利用を民主化した。 我々は、これらのモデルを、Affective Computingドメインのような人間の心理学に関連する分野に導入することさえ観察し、その感情的、出現する能力を示唆している。 本研究では, 視覚, 言語学, 音声(音響)に焦点をあて, 多モーダルな感情データを合成, 分析することで, 感情コンピューティングの分野におけるファンデーションモデルの力に対する意識を高めることを目的とする。 また、この研究領域における基礎モデルの使用に関する倫理的問題や規制的な側面など、いくつかの根本的な問題についても論じる。

The dawn of Foundation Models has on the one hand revolutionised a wide range of research problems, and, on the other hand, democratised the access and use of AI-based tools by the general public. We even observe an incursion of these models into disciplines related to human psychology, such as the Affective Computing domain, suggesting their affective, emerging capabilities. In this work, we aim to raise awareness of the power of Foundation Models in the field of Affective Computing by synthetically generating and analysing multimodal affective data, focusing on vision, linguistics, and speech (acoustics). We also discuss some fundamental problems, such as ethical issues and regulatory aspects, related to the use of Foundation Models in this research area.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# HLTCOE JHUが2024年の音声プライバシー問題に出場

HLTCOE JHU Submission to the Voice Privacy Challenge 2024 ( http://arxiv.org/abs/2409.08913v1 )

ライセンス: Link先を確認
Henry Li Xinyuan, Zexin Cai, Ashi Garg, Kevin Duh, Leibny Paola García-Perera, Sanjeev Khudanpur, Nicholas Andrews, Matthew Wiesner, (参考訳) 本稿では,kNN-VC法やWavLM音声変換法などの音声変換システム,Whisper-VITSなどのテキスト音声変換システムなど,音声プライバシチャレンジのためのシステムを提案する。 音声変換システムは感情的コンテンツをよりよく保存するが、半ホワイトボックス攻撃のシナリオでは話者のアイデンティティを隠蔽することが困難であることがわかった。 最後に、2つのカテゴリの長所と短所のバランスをとろうとするランダムな混合システムを提案し、UARを47%に保ちながら40%以上の強靭なEERを実現した。

We present a number of systems for the Voice Privacy Challenge, including voice conversion based systems such as the kNN-VC method and the WavLM voice Conversion method, and text-to-speech (TTS) based systems including Whisper-VITS. We found that while voice conversion systems better preserve emotional content, they struggle to conceal speaker identity in semi-white-box attack scenarios; conversely, TTS methods perform better at anonymization and worse at emotion preservation. Finally, we propose a random admixture system which seeks to balance out the strengths and weaknesses of the two category of systems, achieving a strong EER of over 40% while maintaining UAR at a respectable 47%.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# オフセット・チャージ感度トランスモン結合器を用いた量子ドットにおけるスピン量子ビットのリモートエンタングリングゲート

Remote Entangling Gates for Spin Qubits in Quantum Dots using an Offset-Charge-Sensitive Transmon Coupler ( http://arxiv.org/abs/2409.08915v1 )

ライセンス: Link先を確認
Harry Hanlim Kang, Ilan T. Rosen, Max Hays, Jeffrey A. Grover, William D. Oliver, (参考訳) オフセット電荷感応性トランスモンカプラを用いた量子ドットにおける2つのスピン量子ビット間のマイクロ波活性化CZゲートを実現する手法を提案する。 キュービットはカプラに縦に結合されるので、カプラの遷移周波数は論理的キュービット状態に依存する。 カプラ遷移を駆動すると、キュービット上で条件相シフトが実装される。 2つの脈動方式について検討し, 一定振幅の急速非共振パルスと, 電荷雑音を緩和するために動的疎結合を組み込んだエンベロープ工学のパルスについて検討した。 我々は,1/f^\beta$チャージノイズの存在下でゲート性能を正確にモデル化する非マルコフ時間領域シミュレーションを開発した。 シミュレーションの結果,現実的なパラメータやノイズモデルでは,CZゲートの忠実度が90%を超えることが示唆された。

We propose a method to realize microwave-activated CZ gates between two remote spin qubits in quantum dots using an offset-charge-sensitive transmon coupler. The qubits are longitudinally coupled to the coupler, so that the transition frequency of the coupler depends on the logical qubit states; a capacitive network model using first-quantized charge operators is developed to illustrate this. Driving the coupler transition then implements a conditional phase shift on the qubits. Two pulsing schemes are investigated: a rapid, off-resonant pulse with constant amplitude, and a pulse with envelope engineering that incorporates dynamical decoupling to mitigate charge noise. We develop non-Markovian time-domain simulations to accurately model gate performance in the presence of $1/f^\beta$ charge noise. Simulation results indicate that a CZ gate fidelity exceeding 90% is possible with realistic parameters and noise models.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# Farmer.Chat: 小規模農家のためのAIによる農業サービスのスケーリング

Farmer.Chat: Scaling AI-Powered Agricultural Services for Smallholder Farmers ( http://arxiv.org/abs/2409.08916v1 )

ライセンス: Link先を確認
Namita Singh, Jacqueline Wang'ombe, Nereah Okanga, Tetyana Zelenska, Jona Repishti, Jayasankar G K, Sanjeev Mishra, Rajsekar Manokaran, Vineet Singh, Mohammed Irfan Rafiq, Rikin Gandhi, Akshay Nambi, (参考訳) 小規模と中規模の農業所有者は、地域化、タイムリーな情報へのアクセス制限、生産性と持続可能性への影響といった課題に直面している。 従来の拡張サービスは、特に遠隔地において、個人エージェントに依存しており、スケーラビリティとタイムリーなデリバリに苦労しています。 私たちは、これらの問題に対処するために設計された、AIを使った生成型チャットボットであるFarmer.Chatを紹介します。 Generative AIを活用するFarmer.Chatは、決定論的対話フロー、言語サポート、構造化されていないデータ処理における従来のチャットボットの制限を克服し、パーソナライズされ、信頼性があり、コンテキストに関連のあるアドバイスを提供する。 Farmer.Chatは4カ国で展開され、1万5000人以上の農家と関わり、30万件以上の問い合わせに答えている。 本稿では,Farmer.Chatの革新的なGenAI利用によって,農業サービスのスケーラビリティと有効性が向上することを示す。 定量的分析と質的洞察を組み合わせた評価は,農業実践の改善,信頼の向上,応答品質,ユーザエンゲージメントにおけるChatの有効性を強調した。

Small and medium-sized agricultural holders face challenges like limited access to localized, timely information, impacting productivity and sustainability. Traditional extension services, which rely on in-person agents, struggle with scalability and timely delivery, especially in remote areas. We introduce Farmer.Chat, a generative AI-powered chatbot designed to address these issues. Leveraging Generative AI, Farmer.Chat offers personalized, reliable, and contextually relevant advice, overcoming limitations of previous chatbots in deterministic dialogue flows, language support, and unstructured data processing. Deployed in four countries, Farmer.Chat has engaged over 15,000 farmers and answered over 300,000 queries. This paper highlights how Farmer.Chat's innovative use of GenAI enhances agricultural service scalability and effectiveness. Our evaluation, combining quantitative analysis and qualitative insights, highlights Farmer.Chat's effectiveness in improving farming practices, enhancing trust, response quality, and user engagement.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# 空間スコアに基づく確率的多変量時系列インプットの拡散モデル

Latent Space Score-based Diffusion Model for Probabilistic Multivariate Time Series Imputation ( http://arxiv.org/abs/2409.08917v1 )

ライセンス: Link先を確認
Guojun Liang, Najmeh Abiri, Atiye Sadat Hashemi, Jens Lundström, Stefan Byttner, Prayag Tiwari, (参考訳) 下流タスクの信頼性と成功には正確な計算が不可欠である。 近年,拡散モデルが注目されている。 しかし、これらのモデルは、拡散モデルの生成能力を制限する観測データから導かれる低次元空間における潜時分布を無視する。 さらに、ラベルなしで元の欠落したデータを扱うことは特に問題となる。 これらの問題に対処するために、確率的多変量時系列計算のための遅延空間スコアベース拡散モデル(LSSDM)を提案する。 観測された値は低次元の潜在空間に投影され、この教師なし学習手法により、その基礎的真理値を知ることなく、行方不明データの粗い値を再構成する。 最後に、再構成された値を条件拡散モデルに入力し、時系列の正確な暗示値を得る。 このようにして、LCDMは潜伏分布を識別する能力を持つだけでなく、拡散モデルをシームレスに統合し、高忠実なインプット値を取得し、データセットの不確実性を評価する。 実験結果から, LSSDMは優れた計算性能を示し, 計算機構のより優れた説明と不確実性解析を行うことができた。 コードのWebサイトは、textit{https://github.com/gorgen 2020/LSSDM\_imputation}である。

Accurate imputation is essential for the reliability and success of downstream tasks. Recently, diffusion models have attracted great attention in this field. However, these models neglect the latent distribution in a lower-dimensional space derived from the observed data, which limits the generative capacity of the diffusion model. Additionally, dealing with the original missing data without labels becomes particularly problematic. To address these issues, we propose the Latent Space Score-Based Diffusion Model (LSSDM) for probabilistic multivariate time series imputation. Observed values are projected onto low-dimensional latent space and coarse values of the missing data are reconstructed without knowing their ground truth values by this unsupervised learning approach. Finally, the reconstructed values are fed into a conditional diffusion model to obtain the precise imputed values of the time series. In this way, LSSDM not only possesses the power to identify the latent distribution but also seamlessly integrates the diffusion model to obtain the high-fidelity imputed values and assess the uncertainty of the dataset. Experimental results demonstrate that LSSDM achieves superior imputation performance while also providing a better explanation and uncertainty analysis of the imputation mechanism. The website of the code is \textit{https://github.com/gorgen2020/LSSDM\_imputation}.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# 大型ハドロン衝突型加速器におけるトップクォークのエントロピー不確実性と量子フィッシャー情報

Entropic uncertainty relations and quantum Fisher information of top quarks in a large hadron collider ( http://arxiv.org/abs/2409.08918v1 )

ライセンス: Link先を確認
Biao-Liang Ye, Li-Yuan Xue, Zhi-Qiang Zhu, Dan-Dan Shi, Shao-Ming Fei, (参考訳) エントロピック不確実性関係と量子フィッシャー情報を用いて、大きなハドロンコライダーにおけるクォーク$t\bar{t}$ペアの生成を、$q\bar{q}$ペアと$gg$開始プロセスの組み合わせで探索する。 トップクォーク対である$t\bar{t}$の生成におけるクォークとグルーオンチャネルの混合に関する包括的な解析が行われ、エントロピーの不確実性の不等式とシステムの最大量子フィッシャー情報の厳密さを包含している。

We employ the entropic uncertainty relations and the quantum Fisher information to explore the formation of quark $t\bar{t}$ pairs at a large hadron collider through the combination of $q\bar{q}$ pair and $gg$ pair initiated processes. A comprehensive analysis has been undertaken on the procedure of quark and gluon channel mixing in the production of top quark pairs $t\bar{t}$, encompassing the tightness of the entropic uncertainty inequalities and the maximum quantum Fisher information of the system.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# XSub: 特徴置換によるブラックボックス分類に対する説明駆動逆攻撃

XSub: Explanation-Driven Adversarial Attack against Blackbox Classifiers via Feature Substitution ( http://arxiv.org/abs/2409.08919v1 )

ライセンス: Link先を確認
Kiana Vu, Phung Lai, Truc Nguyen, (参考訳) 人工知能(AI)システムの透明性と信頼性を高めるという大きなメリットにもかかわらず、説明可能なAI(XAI)は、現実世界のアプリケーションにおいて、その潜在能力を最大限に発揮できていない。 重要な課題の1つは、XAIが必然的にブラックボックスモデルに対する洞察を敵に提供し、様々な攻撃に対する脆弱性を必然的に増大させることである。 本稿では,XSubと呼ばれる特徴置換に基づくブラックボックス分類器に対する,説明駆動型対逆攻撃を開発する。 XSubの鍵となる考え方は、元のサンプルにおいて重要な特徴(XAIで識別される)を異なるラベルの「金のサンプル」から対応する重要な特徴に置き換えることであり、それによって、乱れたサンプルを誤分類するモデルの可能性を高めることである。 機能置換の度合いは調整可能で、元のサンプル情報がどの程度交換されたかを制御することができます。 この柔軟性は、攻撃の有効性とステルスネスの間のトレードオフを効果的にバランスさせる。 また、XSubは、予測モデルに必要なクエリの数と、攻撃を行うための説明モデルがO(1)であるという点で非常に費用対効果が高い。 さらにXSubは、攻撃者がトレーニングデータにアクセス可能な場合にバックドアアタックを起動するように簡単に拡張できる。 我々の評価は、XSubが効果的でステルス性があるだけでなく、コスト効率も高いことを示し、幅広いAIモデルに応用できることを示した。

Despite its significant benefits in enhancing the transparency and trustworthiness of artificial intelligence (AI) systems, explainable AI (XAI) has yet to reach its full potential in real-world applications. One key challenge is that XAI can unintentionally provide adversaries with insights into black-box models, inevitably increasing their vulnerability to various attacks. In this paper, we develop a novel explanation-driven adversarial attack against black-box classifiers based on feature substitution, called XSub. The key idea of XSub is to strategically replace important features (identified via XAI) in the original sample with corresponding important features from a "golden sample" of a different label, thereby increasing the likelihood of the model misclassifying the perturbed sample. The degree of feature substitution is adjustable, allowing us to control how much of the original samples information is replaced. This flexibility effectively balances a trade-off between the attacks effectiveness and its stealthiness. XSub is also highly cost-effective in that the number of required queries to the prediction model and the explanation model in conducting the attack is in O(1). In addition, XSub can be easily extended to launch backdoor attacks in case the attacker has access to the models training data. Our evaluation demonstrates that XSub is not only effective and stealthy but also cost-effective, enabling its application across a wide range of AI models.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# 多層林:多層林における重要度の重要性

Multi forests: Variable importance for multi-class outcomes ( http://arxiv.org/abs/2409.08925v1 )

ライセンス: Link先を確認
Roman Hornung, Alexander Hapfelmeier, (参考訳) 多クラス結果の予測タスクでは、1つ以上の結果クラスに特化して関連付けられた共変量を特定することが重要である。 従来の変分重要度尺度(VIM)は、変分やジニの重要度のようなランダムな森林(RF)からのものであり、クラス間で差別化することなく、全体的な予測性能やノードの純度に重点を置いている。 したがって、それらはクラス群のみを区別する共変量と類関連共変量との区別に失敗することが期待できる。 マルチフォレスト (MuFs) と呼ばれる新しいRF変異体を用いて, クラス関連変種のみを識別する「マルチクラスVIM」を導入した。 MuF のツリーはマルチウェイスプリッティングとバイナリスプリッティングの両方を使用する。 マルチウェイ分割は各クラスの子ノードを生成し、これらのノードがそれぞれのクラスをどれだけうまく表現しているかを評価する分割基準を使用する。 この設定は、この分割基準に関して各共変量で実行される分割の識別能力を測定するマルチクラスVIMの基礎を形成する。 マルチクラスのVIMと並行して,第2のVIMである差別型VIMを導入する。 この尺度は、二項分割に基づいて、クラス関連性に関係なく、共変量の一般的な影響の強さを評価する。 シミュレーション研究により、マルチクラスVIMは、他の種類の共変体を高度にランク付けする従来のVIMとは異なり、クラス関連共変体を高度にランク付けすることが示されている。 121データセットの分析により、MuFは従来のRFに比べて予測性能がわずかに低いことが判明した。 しかし、これはアルゴリズムの主要な目的であるマルチクラスVIMを計算することを考えると、制限要因ではない。

In prediction tasks with multi-class outcomes, identifying covariates specifically associated with one or more outcome classes can be important. Conventional variable importance measures (VIMs) from random forests (RFs), like permutation and Gini importance, focus on overall predictive performance or node purity, without differentiating between the classes. Therefore, they can be expected to fail to distinguish class-associated covariates from covariates that only distinguish between groups of classes. We introduce a VIM called multi-class VIM, tailored for identifying exclusively class-associated covariates, via a novel RF variant called multi forests (MuFs). The trees in MuFs use both multi-way and binary splitting. The multi-way splits generate child nodes for each class, using a split criterion that evaluates how well these nodes represent their respective classes. This setup forms the basis of the multi-class VIM, which measures the discriminatory ability of the splits performed in the respective covariates with regard to this split criterion. Alongside the multi-class VIM, we introduce a second VIM, the discriminatory VIM. This measure, based on the binary splits, assesses the strength of the general influence of the covariates, irrespective of their class-associatedness. Simulation studies demonstrate that the multi-class VIM specifically ranks class-associated covariates highly, unlike conventional VIMs which also rank other types of covariates highly. Analyses of 121 datasets reveal that MuFs often have slightly lower predictive performance compared to conventional RFs. This is, however, not a limiting factor given the algorithm's primary purpose of calculating the multi-class VIM.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# ClearDepth:ロボットマニピュレーションのための透明物体の立体知覚の強化

ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation ( http://arxiv.org/abs/2409.08926v1 )

ライセンス: Link先を確認
Kaixin Bai, Huajian Zeng, Lei Zhang, Yiwen Liu, Hongli Xu, Zhaopeng Chen, Jianwei Zhang, (参考訳) 透明物体の深度知覚は、通常3Dセンサーが透明表面や反射面の深度を正確に捉えることができないため、日常生活や物流において課題となる。 この制限は、特にロボット操作において、深度マップと点雲耐性の応用に大きな影響を及ぼす。 我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。 このアプローチは、画像の構造的特徴による深度回復の精度を高める革新的な機能ポストフュージョンモジュールによって補完される。 ステレオカメラによる透明物体の認識のためのデータセット収集に係わる高コストに対処するため,AIアルゴリズムにより高速化された効率的なデータ生成のためのパラメータ整合型,ドメイン適応型,物理的に現実的なSim2Realシミュレーションを組み込んだ。 実世界のシナリオにおけるSim2Realの例外的な一般化性を実証し、透明物体の精密な深度マッピングによりロボット操作を支援することを可能にした。 プロジェクトの詳細はhttps://sites.google.com/view/cleardepth/で確認できる。

Transparent object depth perception poses a challenge in everyday life and logistics, primarily due to the inability of standard 3D sensors to accurately capture depth on transparent or reflective surfaces. This limitation significantly affects depth map and point cloud-reliant applications, especially in robotic manipulation. We developed a vision transformer-based algorithm for stereo depth recovery of transparent objects. This approach is complemented by an innovative feature post-fusion module, which enhances the accuracy of depth recovery by structural features in images. To address the high costs associated with dataset collection for stereo camera-based perception of transparent objects, our method incorporates a parameter-aligned, domain-adaptive, and physically realistic Sim2Real simulation for efficient data generation, accelerated by AI algorithm. Our experimental results demonstrate the model's exceptional Sim2Real generalizability in real-world scenarios, enabling precise depth mapping of transparent objects to assist in robotic manipulation. Project details are available at https://sites.google.com/view/cleardepth/ .
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# シャドウ量子線形解:方程式の線形系に対する資源効率の良い量子アルゴリズム

Shadow Quantum Linear Solver: A Resource Efficient Quantum Algorithm for Linear Systems of Equations ( http://arxiv.org/abs/2409.08929v1 )

ライセンス: Link先を確認
Francesco Ghisoni, Francesco Scala, Daniele Bajoni, Dario Gerace, (参考訳) 線形システムに対する解決策を見つけることは、科学と技術の多くの応用の中心である。 長年にわたり、デジタル量子デバイス上でこの問題を解決するために、多くのアルゴリズムが提案されてきたが、これらのほとんどは、現在のノイズの多いハードウェアに適用するにはあまりにも要求されている。 本研究では、変分量子アルゴリズム(VQA)のアイデアと古典的影の枠組みを組み合わせた、量子線形システム問題(QLSP)の解法を提案する。 その結果、Shadow Quantum Linear Solver (SQLS) はQLSPを解く量子アルゴリズムであり、大きな制御されたユニタリの必要性を回避し、システムサイズで対数的な多くの量子ビットを必要とする。 特に、我々のヒューリスティックスは、線形方程式系の解法における他の悪名高い変分法と比較して、コスト関数評価当たりの回路実行におけるSQLSの指数関数的優位性を示している。 そこで我々は,SQLS の線形系における収束性を検証するとともに,SQLS が使用するリソース数に関する理論的境界がいかに保守的であるかを明らかにする。 最後に, このアルゴリズムを線形代数からの分解定理を利用して, 2次元格子における離散化ラプラス方程式を, ハイブリッド量子アルゴリズムを用いて初めて解くことにより, 実用的妥当性の物理問題に適用する。

Finding the solution to linear systems is at the heart of many applications in science and technology. Over the years a number of algorithms have been proposed to solve this problem on a digital quantum device, yet most of these are too demanding to be applied to the current noisy hardware. In this work, an original algorithmic procedure to solve the Quantum Linear System Problem (QLSP) is presented, which combines ideas from Variational Quantum Algorithms (VQA) and the framework of classical shadows. The result is the Shadow Quantum Linear Solver (SQLS), a quantum algorithm solving the QLSP avoiding the need for large controlled unitaries, requiring a number of qubits that is logarithmic in the system size. In particular, our heuristics show an exponential advantage of the SQLS in circuit execution per cost function evaluation when compared to other notorious variational approaches to solving linear systems of equations. We test the convergence of the SQLS on a number of linear systems, and results highlight how the theoretical bounds on the number of resources used by the SQLS are conservative. Finally, we apply this algorithm to a physical problem of practical relevance, by leveraging decomposition theorems from linear algebra to solve the discretized Laplace Equation in a 2D grid for the first time using a hybrid quantum algorithm.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# はい、首相、質問の順序は重要で、もちろん古典的ではない。でも、量子的だろうか?

Yes, Prime Minister, question order does matter -- and it's certainly not classical! But is it quantum? ( http://arxiv.org/abs/2409.08930v1 )

ライセンス: Link先を確認
Dorje C. Brody, (参考訳) 投票に対する反応は、一連の主要な質問によって操作できる。 このような現象は古典的確率論では説明できないが、量子確率論は説明を与える可能性を持っている。 しかし、量子確率における許容可能な変換規則は、認知行動のモデル化にいくつかの制約を課し、ここで強調する。 イプソスによる最近の世論調査は、イギリスの政治風刺『textit{Yes, Prime Minister} 』のエピソードでハンフリー・アップルビー卿が提起した一連の質問に焦点をあてて、結果のデータは量子規則だけでは説明できないが、不可能とは思えない。

Response to a poll can be manipulated by means of a series of leading questions. We show that such phenomena cannot be explained by use of classical probability theory, whereas quantum probability theory admits a possibility of offering an explanation. Admissible transformation rules in quantum probability, however, do impose some constraints on the modelling of cognitive behaviour, which are highlighted here. Focusing on a recent poll conducted by Ipsos on a set of questions posed by Sir Humphrey Appleby in an episode of the British political satire \textit{Yes, Prime Minister}, we show that the resulting data cannot be explained quite so simply using quantum rules, although it seems not impossible.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# $SU(\infty)$ Quantum Gravity and Cosmology

$SU(\infty)$ Quantum Gravity and Cosmology ( http://arxiv.org/abs/2409.08932v1 )

ライセンス: Link先を確認
Houri Ziaeepour, (参考訳) このレターでは、$SU(\infty)$-QGRと呼ばれる量子宇宙論と重力に対する抽象的アプローチの構造と主な性質を強調している。 孤立量子系としての宇宙の概念から始まり、モデルの主な公理は、相互に交換される可観測物の無限個の存在である。 したがって、宇宙のヒルベルト空間は$SU(\infty)$対称性を表す。 この宇宙は全体として静的でトポロジカルである。 それでも、量子ゆらぎは量子状態の局所的クラスタリングを誘導し、それを$G \times SU(\infty)$対称性を表すおよそ孤立部分系に分割する。 それらの状態は、サブシステムによる$G$の表現を特徴づけるパラメータに加えて、4つの連続パラメータに依存している: 2つの状態は、$SU(\infty)$の表現を特徴づけ、次元的パラメータは、異なるサブシステムによる$SU(\infty)$の表現を比較する可能性から生じ、第4のパラメータは、量子時計として選択された任意のサブシステムによって登録された時間として用いられる測定可能である。 彼らは、(3+1)D のパラメータ空間上で定義される対称性不変な有効ラグランジアンによって定式化された部分系に対する相対力学を導入する。 最低次数では、$SU(\infty)$と内部対称性の両方に対するヤン・ミルズ場理論である。 一般的な$SU(\infty)$対称性と重力との相互作用を同定する。 したがって、$SU(\infty)$-QGRは量子重力のスピン-1メディエータを予測する。 これは古典的な重力と矛盾しているようだ。 それでも、重力の量子性を検出できない観測者は、上記のパラメータの平均値の空間の曲率としてその効果を認識できる。 創発時空がローレンツ幾何学を持つことを証明する。

In this letter we highlight the structure and main properties of an abstract approach to quantum cosmology and gravity dubbed $SU(\infty)$-QGR. Beginning from the concept of the Universe as an isolated quantum system, the main axiom of the model is the existence of infinite number of mutually commuting observables. Consequently, the Hilbert space of the Universe represents $SU(\infty)$ symmetry. This Universe as a whole is static and topological. Nonetheless, quantum fluctuations induce local clustering in its quantum state and divide it to approximately isolated subsystems representing $G \times SU(\infty)$ symmetry, where $G$ is a generic finite rank internal symmetry for each subsystem that is entangled to the rest of the Universe by the global $SU(\infty)$ symmetry. In addition to parameters characterizing representation of $G$ by subsystems, their states depend on 4 continuous parameters: two of them characterize the representation of $SU(\infty)$, a dimensionful parameter arises from the possibility of comparing representations of $SU(\infty)$ by different subsystems, and the forth parameter is a measurable used as time registered by an arbitrary subsystem chosen as a quantum clock. They introduce a relative dynamics for subsystem formulated by a symmetry invariant effective Lagrangian defined on the (3+1)D parameter space. At lowest quantum order it is a Yang-Mills field theory for both $SU(\infty)$ and internal symmetries. We identify the common $SU(\infty)$ symmetry and its interaction with gravity. Thus, $SU(\infty)$-QGR predicts a spin-1 mediator for quantum gravity. Apparently this is in contradiction with classical gravity. Nonetheless, we show that an observer unable to detect the quantumness of gravity perceives its effect as the curvature of the space of average values of aforementioned parameters. We prove that emergent spacetime has a Lorentzian geometry.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# 軽量正規化のための最適化と一般化保証

Optimization and Generalization Guarantees for Weight Normalization ( http://arxiv.org/abs/2409.08935v1 )

ライセンス: Link先を確認
Pedro Cisneros-Velarde, Zhijie Chen, Sanmi Koyejo, Arindam Banerjee, (参考訳) 重みの正規化(Weight Norm)は、ディープニューラルネットワークのトレーニングに広く使われており、現代のディープラーニングライブラリはその実装に組み込まれている。 本稿では、スムーズなアクティベーション関数を持つディープウェイトノームモデルの最適化と一般化の両立を初めて理論的に評価する。 最適化のために、損失の Hessian の形式から、予測子の小さな Hessian がトラクタブルな解析につながることに注意する。 したがって、WeightNorm ネットワークの Hessian のスペクトルノルムを束縛し、そのネットワーク幅と重み正規化項への依存性を示す。 次に、この境界を用いて、勾配が適切であるような適切な仮定の下で、トレーニング収束保証を確立する。 一般化するために、WeightNorm を用いて一様収束に基づく一般化境界を得る。 最後に、WeightNormネットワークのトレーニングに正規化項やその他の理論的関心の量がどのように関係しているかを示す実験結果を示す。

Weight normalization (WeightNorm) is widely used in practice for the training of deep neural networks and modern deep learning libraries have built-in implementations of it. In this paper, we provide the first theoretical characterizations of both optimization and generalization of deep WeightNorm models with smooth activation functions. For optimization, from the form of the Hessian of the loss, we note that a small Hessian of the predictor leads to a tractable analysis. Thus, we bound the spectral norm of the Hessian of WeightNorm networks and show its dependence on the network width and weight normalization terms--the latter being unique to networks without WeightNorm. Then, we use this bound to establish training convergence guarantees under suitable assumptions for gradient decent. For generalization, we use WeightNorm to get a uniform convergence based generalization bound, which is independent from the width and depends sublinearly on the depth. Finally, we present experimental results which illustrate how the normalization terms and other quantities of theoretical interest relate to the training of WeightNorm networks.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# SynSUM -- 構造化および非構造化医療記録を用いた総合ベンチマーク

SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records ( http://arxiv.org/abs/2409.08936v1 )

ライセンス: Link先を確認
Paloma Rabaey, Henri Arno, Stefan Heytens, Thomas Demeester, (参考訳) 構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。 このデータセットは、表型変数(症状、診断、基礎疾患など)を含む1万件の人工的な患者記録と、呼吸器疾患の領域における架空の患者との遭遇を記述した関連ノートで構成されている。 データの表部分はベイズネットワークを通じて生成され、変数と条件確率の間の因果構造はドメイン知識に基づいた専門家によって提案される。 次に,この患者に遭遇した症例の症状と追加の文脈を記述した臨床ノートを作成するために,大規模言語モデル(GPT-4o)を誘導する。 SynSUMデータセットは主に、表の背景変数の存在下で臨床情報の抽出を容易にするために設計されており、これはドメイン知識を通してテキストから抽出される関心の概念(SynSUMの場合の症状)にリンクすることができる。 二次的用途には、表型データとテキストの両方に対する臨床推論の自動化、表型および/またはテキストの共創者の存在による因果効果の推定、マルチモーダル合成データ生成などが含まれる。 データセットはhttps://github.com/prabaey/SynSUMからダウンロードできる。

We present the SynSUM benchmark, a synthetic dataset linking unstructured clinical notes to structured background variables. The dataset consists of 10,000 artificial patient records containing tabular variables (like symptoms, diagnoses and underlying conditions) and related notes describing the fictional patient encounter in the domain of respiratory diseases. The tabular portion of the data is generated through a Bayesian network, where both the causal structure between the variables and the conditional probabilities are proposed by an expert based on domain knowledge. We then prompt a large language model (GPT-4o) to generate a clinical note related to this patient encounter, describing the patient symptoms and additional context. The SynSUM dataset is primarily designed to facilitate research on clinical information extraction in the presence of tabular background variables, which can be linked through domain knowledge to concepts of interest to be extracted from the text - the symptoms, in the case of SynSUM. Secondary uses include research on the automation of clinical reasoning over both tabular data and text, causal effect estimation in the presence of tabular and/or textual confounders, and multi-modal synthetic data generation. The dataset can be downloaded from https://github.com/prabaey/SynSUM.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# 不安定な二重振り子タスクに対する平均逆最大エントロピー強化学習

Average-Reward Maximum Entropy Reinforcement Learning for Underactuated Double Pendulum Tasks ( http://arxiv.org/abs/2409.08938v1 )

ライセンス: Link先を確認
Jean Seong Bjorn Choe, Bumkyu Choi, Jong-kook Kim, (参考訳) 本報告では,IROS 2024におけるAIオリンピック競技のために開発されたアクロボットとペンデュボットの起動と安定化の課題に対する解決策を提示する。 提案手法では, 平均回帰RLと最大エントロピーRLを組み合わせたモデルフリー強化学習(RL)アルゴリズム, Average-Reward Entropy Advantage Policy Optimization (AR-EAPO) を用いる。 以上の結果から,アクロボットとペンデュボットの両シナリオにおいて,高機能な報酬関数やシステムモデルを必要とせずに,確立されたベースライン手法と比較して性能とロバスト性を向上できることが示唆された。 現在の結果はシミュレーションステージの設定にのみ適用できる。

This report presents a solution for the swing-up and stabilisation tasks of the acrobot and the pendubot, developed for the AI Olympics competition at IROS 2024. Our approach employs the Average-Reward Entropy Advantage Policy Optimization (AR-EAPO), a model-free reinforcement learning (RL) algorithm that combines average-reward RL and maximum entropy RL. Results demonstrate that our controller achieves improved performance and robustness scores compared to established baseline methods in both the acrobot and pendubot scenarios, without the need for a heavily engineered reward function or system model. The current results are applicable exclusively to the simulation stage setup.
翻訳日:2024-09-16 15:59:55 公開日:2024-09-13
# エッジへのイメージデノジングと分類のプッシュ

Pushing Joint Image Denoising and Classification to the Edge ( http://arxiv.org/abs/2409.08943v1 )

ライセンス: Link先を確認
Thomas C Markhorst, Jan C van Gemert, Osman S Kayhan, (参考訳) 本稿では,低照度防犯カメラなどのエッジデバイスが捉えたノイズ画像の人間の知覚を高めることを目的として,画像分類と画像デノーミングを併用する。 このような状況下では、人間の自動分類決定の検証能力を維持することが重要である。 エッジデバイスは計算能力が少ないため,この2つのタスクを統合する新しいアーキテクチャを提案することにより,効率を最適化する。 さらに、ターゲットのレイテンシ、分類精度、性能を最適化しながら、分類器を探索して統合モデルを探すニューラルネットワーク探索(NAS)法を変更した。 NASアーキテクチャは、分類と分類の両方において、手作業で設計した代替品よりも優れており、人間の知覚を大幅に改善しています。 当社のアプローチは,医療画像,監視システム,産業検査などの領域に適したアーキテクチャを構築するためのものです。

In this paper, we jointly combine image classification and image denoising, aiming to enhance human perception of noisy images captured by edge devices, like low-light security cameras. In such settings, it is important to retain the ability of humans to verify the automatic classification decision and thus jointly denoise the image to enhance human perception. Since edge devices have little computational power, we explicitly optimize for efficiency by proposing a novel architecture that integrates the two tasks. Additionally, we alter a Neural Architecture Search (NAS) method, which searches for classifiers to search for the integrated model while optimizing for a target latency, classification accuracy, and denoising performance. The NAS architectures outperform our manually designed alternatives in both denoising and classification, offering a significant improvement to human perception. Our approach empowers users to construct architectures tailored to domains like medical imaging, surveillance systems, and industrial inspections.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# DELTA: アクティブグラフ領域適応のためのトポロジ的不確かさを両立させる

DELTA: Dual Consistency Delving with Topological Uncertainty for Active Graph Domain Adaptation ( http://arxiv.org/abs/2409.08946v1 )

ライセンス: Link先を確認
Pengyun Wang, Yadi Cao, Chris Russell, Siyu Heng, Junyu Luo, Yanxin Shen, Xiao Luo, (参考訳) グラフドメイン適応は、最近、異なるグラフ間の知識伝達を可能にした。 しかし、対象グラフのセマンティック情報がなければ、対象グラフのパフォーマンスはまだまだ満足できない。 この問題に対処するため,ターゲットグラフ上の情報ノードを定量化して追加アノテーションを付加する,アクティブなグラフ領域適応の課題について検討する。 この問題は、複雑なトポロジカルな関係とグラフ間の分布差のため、非常に難しい。 本稿では,グラフ領域適応のためのDELTA(Dual Consistency Delving with Topological Uncertainty)という新しい手法を提案する。 我々のDELTAはエッジ指向グラフサブネットワークとパス指向グラフサブネットワークで構成されており、相補的な視点からトポロジカルセマンティクスを探索することができる。 特に、エッジ指向グラフサブネットは、メッセージパッシング機構を利用して近隣情報を学習し、パス指向グラフサブネットは、下位構造からの高次関係を探索する。 2つのサブネットワークから共同で学習するために,2つのサブネットワーク間の一貫性を考慮した情報的候補ノードを大まかに選択する。 そして、そのKホップ部分グラフから局所的意味をノード次数に基づいて集約し、位相的不確実性推定を行う。 分散の潜在的なシフトを克服するために、異なるスコアに対するターゲットノードとその対応するソースノードを、微調整のための追加のコンポーネントとして比較する。 ベンチマークデータセットに関する大規模な実験は、DELTAが様々な最先端アプローチより優れていることを示している。

Graph domain adaptation has recently enabled knowledge transfer across different graphs. However, without the semantic information on target graphs, the performance on target graphs is still far from satisfactory. To address the issue, we study the problem of active graph domain adaptation, which selects a small quantitative of informative nodes on the target graph for extra annotation. This problem is highly challenging due to the complicated topological relationships and the distribution discrepancy across graphs. In this paper, we propose a novel approach named Dual Consistency Delving with Topological Uncertainty (DELTA) for active graph domain adaptation. Our DELTA consists of an edge-oriented graph subnetwork and a path-oriented graph subnetwork, which can explore topological semantics from complementary perspectives. In particular, our edge-oriented graph subnetwork utilizes the message passing mechanism to learn neighborhood information, while our path-oriented graph subnetwork explores high-order relationships from substructures. To jointly learn from two subnetworks, we roughly select informative candidate nodes with the consideration of consistency across two subnetworks. Then, we aggregate local semantics from its K-hop subgraph based on node degrees for topological uncertainty estimation. To overcome potential distribution shifts, we compare target nodes and their corresponding source nodes for discrepancy scores as an additional component for fine selection. Extensive experiments on benchmark datasets demonstrate that DELTA outperforms various state-of-the-art approaches.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# マルチイルミネーション合成による放射界リライト化への拡散アプローチ

A Diffusion Approach to Radiance Field Relighting using Multi-Illumination Synthesis ( http://arxiv.org/abs/2409.08947v1 )

ライセンス: Link先を確認
Yohan Poirier-Ginter, Alban Gauthier, Julien Phillip, Jean-Francois Lalonde, George Drettakis, (参考訳) 照度場は、単一の照度条件下でキャプチャされることが多いマルチビューデータに対して、非常に過小評価され、特に複数のオブジェクトを含むフルシーンでは困難である。 本研究では,2次元画像拡散モデルから抽出した先行情報を利用して,このような単一照度データを用いた照度場を作成する手法を提案する。 私たちはまず、光方向によって条件付けられた多重照度データセット上の2次元拡散モデルを微調整し、単一の照度キャプチャーを、直接定義された光方向から現実的(しかし、おそらくは矛盾する)マルチ照度データセットに拡張できるようにしました。 我々はこの拡張データを用いて3次元ガウススプラットで表現された照度場を生成する。 低周波照明における光方向の直接制御を可能にするために,光方向をパラメータ化した多層パーセプトロンを用いて外観を表現する。 複数ビューの一貫性を強制し、不正確さを克服するために、画像ごとの補助特徴ベクトルを最適化する。 そこで,本手法では2次元拡散モデルを用いて実写3次元リライティングを実現し,実写3次元画像の合成と実写多視点データの合成を行った。 プロジェクトサイト https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/

Relighting radiance fields is severely underconstrained for multi-view data, which is most often captured under a single illumination condition; It is especially hard for full scenes containing multiple objects. We introduce a method to create relightable radiance fields using such single-illumination data by exploiting priors extracted from 2D image diffusion models. We first fine-tune a 2D diffusion model on a multi-illumination dataset conditioned by light direction, allowing us to augment a single-illumination capture into a realistic -- but possibly inconsistent -- multi-illumination dataset from directly defined light directions. We use this augmented data to create a relightable radiance field represented by 3D Gaussian splats. To allow direct control of light direction for low-frequency lighting, we represent appearance with a multi-layer perceptron parameterized on light direction. To enforce multi-view consistency and overcome inaccuracies we optimize a per-image auxiliary feature vector. We show results on synthetic and real multi-view data under single illumination, demonstrating that our method successfully exploits 2D diffusion model priors to allow realistic 3D relighting for complete scenes. Project site https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# 国宝:e-Democracyと米国の選挙セキュリティを訴える

National Treasure: The Call for e-Democracy and US Election Security ( http://arxiv.org/abs/2409.08952v1 )

ライセンス: Link先を確認
Adam Dorian Wong, (参考訳) 米国の選挙制度の信条は危険にさらされている。 この問題は信頼や欠落に起因している。 貧乏な指導者は、民主的なプロセスで不協和を縫い、選挙結果に影響を及ぼそうとさえした。 歴史的に、米国は私的な投票を紙の投票に頼ってきた。 選挙人投票は選挙人投票所によって行われる。 選挙は有権者IDと市民権の証明によって争われている。 投票方法は非感覚的に複雑である。 技術時代には、PKI(Public-Key Infrastructure)が支援するSmartcard National IDでこれを解決できる。 これは民主主義の希望を回復し、人民投票の下で国を選挙に戻す方法かもしれない。 数字は経験的かつ不変であり、二党制で選挙セキュリティの問題を解決することができる。 エストニアのようなNATOの同盟国はすでに、eDemocracyや(インターネットベースの)iVotingにテクノロジーを使おうとしている。 サイバー攻撃が認められることは、DHSとDOD(CYBERCOM)が国内業務に協力し、重要な選挙インフラを保護する機会である。 このアイデアは悪意のある情報操作や市民の愚かさを修正するものではない。 しかし、これは現在、永遠に選挙を確保するための道のりだ。 この白書で示される見解は著者の見解であり、ダコタ州立大学、陸軍州兵、陸軍、国防省、あるいはアメリカ合衆国政府の公式方針や立場を反映していない。 DOPSRがSEP 2024でリリース予定。

Faith in the US electoral system is at risk. This issue stems from trust or lack thereof. Poor leaders ranted and attempted to sew discord in the democratic process and even tried to influence election results. Historically, the US has relied on paper ballots to cast private votes. Votes are watered down by the Electoral College. Elections are contested due to voter IDs and proof of citizenship. Methods of voting are nonsensically complex. In the technology age, this can be solved with a Smartcard National ID backed by Public-Key Infrastructure (PKI). This could be a method to restore hope in democracy and move the country back towards elections under a Popular Vote. Numbers are empirical and immutable and can solve the issue of Election Security in a bipartisan way. NATO allies like Estonia have already broken ground in using technology for eDemocracy or (Internet-based) iVoting. Acknowledging cyber attacks will happen, this is an opportunity for DHS and DOD (CYBERCOM) to collaborate on domestic operations and protect critical election infrastructure. This idea will not fix malicious information operations or civil stupidity. However, this is the way forward to securing elections now and forever. The views expressed by this whitepaper are those of the author and do not reflect the official policy or position of Dakota State University, the N.H. Army National Guard, the U.S. Army, the Department of Defense, or the U.S. Government. Cleared for release by DOPSR on 13 SEP 2024.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# CNNを用いたイベントベースビデオ分類におけるイベントサブサンプリングの境界のプッシュ

Pushing the boundaries of event subsampling in event-based video classification using CNNs ( http://arxiv.org/abs/2409.08953v1 )

ライセンス: Link先を確認
Hesam Araghi, Jan van Gemert, Nergis Tomen, (参考訳) イベントカメラはエッジデバイスアプリケーションに適した低消費電力の視覚センシング機能を提供する。 しかし、その高イベントレートは、高い時間的詳細によって駆動され、帯域幅と計算資源の点で制限される。 エッジAIアプリケーションでは、特定のタスクに対する最小イベント量を決定することで、イベントレートを削減し、帯域幅、メモリ、処理効率を改善することができる。 本稿では,畳み込みニューラルネットワーク(CNN)モデルを用いたイベントデータ分類の精度に及ぼすイベントサブサンプリングの影響について検討する。 驚くべきことに、さまざまなデータセットにおいて、ビデオ毎のイベントの数は、精度の低下がほとんどなく、桁違いに減少する可能性がある。 さらに,高度サブサンプリング率の低い分類精度は,イベントのサブサンプリングによる情報損失にのみ寄与するだけでなく,過度パラメータに対する感度が増大する高度サブサンプリングシナリオにおいて,CNNのトレーニングが困難であることが確認された。 異なるサブサンプリング環境でCNNの過パラメータ感度を評価するための新しい指標を用いて,複数のイベントベース分類データセット間でのトレーニング不安定性を定量化する。 最後に、ネットワークの重み勾配を分析し、この不安定性に関する洞察を得る。

Event cameras offer low-power visual sensing capabilities ideal for edge-device applications. However, their high event rate, driven by high temporal details, can be restrictive in terms of bandwidth and computational resources. In edge AI applications, determining the minimum amount of events for specific tasks can allow reducing the event rate to improve bandwidth, memory, and processing efficiency. In this paper, we study the effect of event subsampling on the accuracy of event data classification using convolutional neural network (CNN) models. Surprisingly, across various datasets, the number of events per video can be reduced by an order of magnitude with little drop in accuracy, revealing the extent to which we can push the boundaries in accuracy vs. event rate trade-off. Additionally, we also find that lower classification accuracy in high subsampling rates is not solely attributable to information loss due to the subsampling of the events, but that the training of CNNs can be challenging in highly subsampled scenarios, where the sensitivity to hyperparameters increases. We quantify training instability across multiple event-based classification datasets using a novel metric for evaluating the hyperparameter sensitivity of CNNs in different subsampling settings. Finally, we analyze the weight gradients of the network to gain insight into this instability.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# ベイズ的ブーストラップによるクラスタリングへのベイズ的アプローチ:ベイズ的バッチクラスタリング(BBC)アルゴリズム

A Bayesian Approach to Clustering via the Proper Bayesian Bootstrap: the Bayesian Bagged Clustering (BBC) algorithm ( http://arxiv.org/abs/2409.08954v1 )

ライセンス: Link先を確認
Federico Maria Quetti, Silvia Figini, Elena ballante, (参考訳) 本稿では,クラスタリング分野における教師なし手法の新たなアプローチを提案する。 ベイジアンブートストラップを用いた既存文献モデルを改良し,ロバスト性や解釈性の観点から結果を改善する手法が提案されている。 提案手法は,k-meansクラスタリングを先取りに使用し,適切なベイズブートストラップをアンサンブルクラスタリング手法で再サンプリングする方法として適用する。 その結果, シャノンエントロピーに基づく不確実性の測定を行った。 この提案は、クラスタの最適な数を示すとともに、クラスタ化されたデータのより良い表現を提供する。 得られた方法論的および経験的進歩を示すシミュレーションデータに実験結果を提供する。

The paper presents a novel approach for unsupervised techniques in the field of clustering. A new method is proposed to enhance existing literature models using the proper Bayesian bootstrap to improve results in terms of robustness and interpretability. Our approach is organized in two steps: k-means clustering is used for prior elicitation, then proper Bayesian bootstrap is applied as resampling method in an ensemble clustering approach. Results are analyzed introducing measures of uncertainty based on Shannon entropy. The proposal provides clear indication on the optimal number of clusters, as well as a better representation of the clustered data. Empirical results are provided on simulated data showing the methodological and empirical advances obtained.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# PINNfluence:物理インフォームドニューラルネットワークにおける影響関数

PINNfluence: Influence Functions for Physics-Informed Neural Networks ( http://arxiv.org/abs/2409.08958v1 )

ライセンス: Link先を確認
Jonas R. Naujoks, Aleksander Krasowski, Moritz Weckbecker, Thomas Wiegand, Sebastian Lapuschkin, Wojciech Samek, René P. Klausen, (参考訳) 近年、物理インフォームドニューラルネットワーク(PINN)は、物理科学における偏微分方程式への深層学習の柔軟で有望な応用として出現している。 高い性能と競合推論速度を前方および逆問題で提供する一方で、ブラックボックスの性質は解釈可能性を制限する。 本研究では,ポストホックのPINNに対する影響関数(IF)の適用について検討する。 具体的には,2次元ナビエ-ストークス流問題に適用したPINNの予測に対して,異なるタイプのコロケーション点の影響を評価するために,IFベースの指標のバリエーションを適用した。 本研究は,IFsをPINNに適応させることにより,さらなる研究の可能性を明らかにするものである。

Recently, physics-informed neural networks (PINNs) have emerged as a flexible and promising application of deep learning to partial differential equations in the physical sciences. While offering strong performance and competitive inference speeds on forward and inverse problems, their black-box nature limits interpretability, particularly regarding alignment with expected physical behavior. In the present work, we explore the application of influence functions (IFs) to validate and debug PINNs post-hoc. Specifically, we apply variations of IF-based indicators to gauge the influence of different types of collocation points on the prediction of PINNs applied to a 2D Navier-Stokes fluid flow problem. Our results demonstrate how IFs can be adapted to PINNs to reveal the potential for further studies.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# 分散型ソーシャルメディアの保護 : LLMエージェントによるコミュニティルールコンプライアンスの自動化

Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance ( http://arxiv.org/abs/2409.08963v1 )

ライセンス: Link先を確認
Lucio La Cava, Andrea Tagarelli, (参考訳) コミュニティガイドラインによるコンテンツコンプライアンスの確保は、健全なオンライン社会環境を維持する上で不可欠である。 しかし、従来の人間によるコンプライアンスチェックは、ユーザー生成コンテンツの量が増え、モデレーターが限られているため、スケーリングに苦慮している。 大規模言語モデルによる自然言語理解の最近の進歩は、自動コンテンツコンプライアンス検証の新しい機会を開放する。 この研究は、分散社会ネットワークにおける自動ルールコンプライアンスチェックのためのOpen-LLMs上に構築された6つのAIエージェントを評価する。 数百のMastodonサーバから5万以上の投稿を分析し、AIエージェントが非準拠のコンテンツを効果的に検出し、言語的な微妙さを把握し、多様なコミュニティコンテキストに適応することを発見した。 ほとんどのエージェントは、スコアの正当化とコンプライアンスの提案において、高い信頼性と一貫性を示す。 ドメインの専門家による人間による評価は、エージェントの信頼性と有用性を確認し、半自動化またはループ内コンテンツモデレーションシステムのための有望なツールをレンダリングした。

Ensuring content compliance with community guidelines is crucial for maintaining healthy online social environments. However, traditional human-based compliance checking struggles with scaling due to the increasing volume of user-generated content and a limited number of moderators. Recent advancements in Natural Language Understanding demonstrated by Large Language Models unlock new opportunities for automated content compliance verification. This work evaluates six AI-agents built on Open-LLMs for automated rule compliance checking in Decentralized Social Networks, a challenging environment due to heterogeneous community scopes and rules. Analyzing over 50,000 posts from hundreds of Mastodon servers, we find that AI-agents effectively detect non-compliant content, grasp linguistic subtleties, and adapt to diverse community contexts. Most agents also show high inter-rater reliability and consistency in score justification and suggestions for compliance. Human-based evaluation with domain experts confirmed the agents' reliability and usefulness, rendering them promising tools for semi-automated or human-in-the-loop content moderation systems.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# ハイブリッド粒子サンプリング

Hybrid boson sampling ( http://arxiv.org/abs/2409.08973v1 )

ライセンス: Link先を確認
V. V. Kocharovsky, (参考訳) 本稿では,古典コンピュータ上の量子システムの量子的優位性をテストするシミュレーションプロセスとして,多モードキャビティ内に置かれた結合光子とボース・アインシュタイン凝縮原子系のボソンサンプリングを提案する。 光子周波数から遠ざかる2レベル原子遷移を考える。 原子-光子散乱と原子間衝突は、準粒子と励起原子、光子がそれぞれ直交するエンタングルド状態に変化し、原子凝縮と古典場が二段階遷移を駆動する相互作用を与える。 我々は、拡張共分散行列のハフニアンを介して準平衡モデル内の原子と光子数の合同確率分布を求める。 これは、光子数だけをサンプリングしても、計算には#Pハードであるサンプリング統計を示す。 キャビティ-QEDと量子ガス技術をハイブリッドボソンサンプリングに融合することで、分離された光子または原子の制限を克服し、サンプリングスキームを作成し、量子的優位性を明らかにする可能性がある。

We propose boson sampling from a system of coupled photons and Bose-Einstein condensed atoms placed inside a multi-mode cavity as a simulation process testing quantum advantage of quantum systems over classical computers. Consider a two-level atomic transition far-detuned from photon frequency. An atom-photon scattering and interatomic collisions provide interaction creating quasiparticles and exciting atoms, photons into squeezed entangled states orthogonal, respectively, to the atomic condensate and classical field driving the two-level transition. We find a joint probability distribution of atom and photon numbers within a quasi-equilibrium model via a hafnian of an extended covariance matrix. It shows a sampling statistics that is #P-hard for computing even if only photon numbers are sampled. Merging cavity-QED and quantum-gas technologies into hybrid boson sampling setup has the potential to overcome limitations of separate, photon or atom, sampling schemes and reveal quantum advantage.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# 電子スピン1/2を用いた固体核スピン量子ビットの制御

Control of solid-state nuclear spin qubits using an electron spin-1/2 ( http://arxiv.org/abs/2409.08977v1 )

ライセンス: Link先を確認
Hans K. C. Beukers, Christopher Waas, Matteo Pasini, Hendrik B. van Ommen, Nina Codreanu, Julia M. Brevoord, Tim Turan, Mariagrazia Iuliano, Zarije Ademi, Tim H. Taminiau, Ronald Hanson, (参考訳) 近くにある核スピンを持つ光学活性電子スピンからなる固体量子レジスタは、将来の量子技術のためのブロックの構築を約束している。 電子スピン-1レジスタでは、複数の核スピン量子ビットの正確な制御を可能にする動的デカップリング(DD)量子ゲートが開発された。 しかし、電子スピン1/2系の重要なクラスでは、この制御法は固有の選択性制限に悩まされ、核スピンゲートの密度が低下する。 ここでは、動的デカップリング電波周波数(DDRF)ゲートを用いた電子スピン1/2による単一核スピンの制御の改善を示す。 ダイヤモンドスズ空孔中心の電子スピン1/2を用いて、高忠実度単一量子ゲート、シングルショットリードアウト、スピンコヒーレンスをミリ秒以上で示す。 DD制御は、1つの炭素13核スピンを観測し、制御するためのベンチマークとして使用される。 DDRF制御法を用いて,そのスピンの制御性の向上を実証した。 さらに、DD制御法に敏感な追加の核スピンを発見し、制御する。 これらのDDRFゲートを用いて、状態密度72(3)%の電子と核スピンの絡み合いを示す。 シミュレーションの結果,DDRFゲートの忠実度が極めて高いことが示唆された。 最後に、電子の光励起状態の超微細結合を定量化するために、読み出し中に時間分解光子検出を用いる。 我々の研究は、電子スピン1/2系における核スピン制御の課題と機会に関する重要な洞察を与え、これらの有望な量子ビットプラットフォーム上でのマルチキュービット実験への扉を開く。

Solid-state quantum registers consisting of optically active electron spins with nearby nuclear spins are promising building blocks for future quantum technologies. For electron spin-1 registers, dynamical decoupling (DD) quantum gates have been developed that enable the precise control of multiple nuclear spin qubits. However, for the important class of electron spin-1/2 systems, this control method suffers from intrinsic selectivity limitations, resulting in reduced nuclear spin gate fidelities. Here we demonstrate improved control of single nuclear spins by an electron spin-1/2 using Dynamically Decoupled Radio Frequency (DDRF) gates. We make use of the electron spin-1/2 of a diamond tin-vacancy center, showing high-fidelity single-qubit gates, single-shot readout, and spin coherence beyond a millisecond. The DD control is used as a benchmark to observe and control a single carbon-13 nuclear spin. Using the DDRF control method, we demonstrate improved control on that spin. In addition, we find and control an additional nuclear spin that is insensitive to the DD control method. Using these DDRF gates, we show entanglement between the electron and the nuclear spin with 72(3)% state fidelity. Our extensive simulations indicate that DDRF gate fidelities well in excess are feasible. Finally, we employ time-resolved photon detection during readout to quantify the hyperfine coupling for the electron's optically excited state. Our work provides key insights into the challenges and opportunities for nuclear spin control in electron spin-1/2 systems, opening the door to multi-qubit experiments on these promising qubit platforms.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# フォトニック量子中間子における絡み合いとコヒーレンスダイナミクス

Entanglement and Coherence Dynamics in Photonic Quantum Memristors ( http://arxiv.org/abs/2409.08979v1 )

ライセンス: Link先を確認
Alberto Ferrara, Rosario Lo Franco, (参考訳) メモリシステムは過去の状態に依存するダイナミクスを示し、メモリユニットとして有用である。 実際のシナプスと機能的に似ているため、メムリスタは様々なタスクのためのニューラルネットワークの構成要素を構成することもできる。 近年、量子メムリスタモデルが提案されており、特にフォトニック量子メムリスタ(PQM)が実験的に証明されている。 本研究では、このPQMの特定のモデルから生じる様々な量子特性を探索し、特徴付ける。 まず、一つのPQMがその量子コヒーレンスに分裂力学を示すことが分かる。 第2に、2つの独立したPQMからなるネットワークは、距離に関係なく、ネットワーク内を移動する相関光子の絡み合いとコヒーレンスの両方のダイナミクスにメモリ効果を示すことを示す。 さらに、実量子ビットベースの量子コンピュータ(IBM-Q)上でPQMの回路モデルを構築し、実行します。 (i)このシステムは、特定の条件下での非線形量子コンピューティングに効果的に使用できる。 (II)デジタル量子シミュレーションは、非マルコフ状態における分裂量子系の力学を再現することができる。

Memristive systems exhibit dynamics that depend on their past states, making them useful as memory units. Due to their functional resemblance to real synapses, memristors can also constitute the building blocks of neural networks for a variety of tasks. Recently, quantum memristor models have been proposed and notably, a photonic quantum memristor (PQM) has been experimentally proven. In this work, we explore and characterize various quantum properties that emerge from this specific model of PQM. Firstly, we find that a single PQM displays memristive dynamics on its quantum coherence. Secondly, we show that a network made of two independent PQMs can manifest memory effects on the dynamics of both entanglement and coherence of correlated photons traveling through the network, regardless of their distance. Additionally, we build and run a circuit-model of the PQM on a real qubit-based quantum computer (IBM-Q), showing that: (i) this system can effectively be used for non-linear quantum computing under specific conditions, and (ii) digital quantum simulations can reproduce the dynamics of a memristive quantum system in a non-Markovian regime.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# 自律走行車における信頼の予測 - 若者の心理社会的特性、リスク・ベネフィットの態度、そして機械学習による要因のモデル化

Predicting Trust In Autonomous Vehicles: Modeling Young Adult Psychosocial Traits, Risk-Benefit Attitudes, And Driving Factors With Machine Learning ( http://arxiv.org/abs/2409.08980v1 )

ライセンス: Link先を確認
Robert Kaufman, Emi Lee, Manas Satish Bedmutha, David Kirsh, Nadir Weibel, (参考訳) 低信頼は、自律走行車(AV)の導入にとって重要な障壁である。 信頼できるAVを設計するには、人々の信頼判断に影響を与える個々の特性、態度、経験をよりよく理解する必要があります。 我々は機械学習を用いて、調査(n=1457)を通じて収集された個人的要因の包括的セットに基づいて、若者の信頼に寄与する最も重要な要因を理解する。 要因は、心理社会的・認知的属性から、運転スタイル、経験、AVのリスクと利益に対する認識まで様々であった。 説明可能なAI技術であるSHAPを用いて、AVリスクとメリットの認識、実現可能性とユーザビリティに対する態度、制度的信頼、事前経験、個人のメンタルモデルが最も重要な予測因子であることがわかった。 驚くべきことに、精神社会的および多くの技術および運転特化要因は強力な予測因子ではなかった。 その結果,多様なグループを対象とした信頼性の高いAVの設計における個人差の重要性が強調され,今後の設計・研究への重要な影響が示唆された。

Low trust remains a significant barrier to Autonomous Vehicle (AV) adoption. To design trustworthy AVs, we need to better understand the individual traits, attitudes, and experiences that impact people's trust judgements. We use machine learning to understand the most important factors that contribute to young adult trust based on a comprehensive set of personal factors gathered via survey (n = 1457). Factors ranged from psychosocial and cognitive attributes to driving style, experiences, and perceived AV risks and benefits. Using the explainable AI technique SHAP, we found that perceptions of AV risks and benefits, attitudes toward feasibility and usability, institutional trust, prior experience, and a person's mental model are the most important predictors. Surprisingly, psychosocial and many technology- and driving-specific factors were not strong predictors. Results highlight the importance of individual differences for designing trustworthy AVs for diverse groups and lead to key implications for future design and research.
翻訳日:2024-09-16 15:50:08 公開日:2024-09-13
# GHzクロックレートで識別不能光子を発生させるファイバピグテール量子ドットデバイス

A Fiber-pigtailed Quantum Dot Device Generating Indistinguishable Photons at GHz Clock-rates ( http://arxiv.org/abs/2409.08982v1 )

ライセンス: Link先を確認
Lucas Rickert, Kinga Żołnacz, Daniel A. Vajner, Martin von Helversen, Sven Rodt, Stephan Reitzenstein, Hanqing Liu, Shulun Li, Haiqiao Ni, Paweł Wyborski, Grzegorz Sęk, Anna Musiał, Zhichuan Niu, Tobias Heindel, (参考訳) 半導体量子ドット(QD)に基づく固体量子光源は、フォトニック量子情報応用にますます採用されている。 特に、遮蔽された実験室の外で現実のシナリオに向かう場合、ナノフォトニックデバイスを単一モードの光ファイバーに効率よく堅牢に結合することは、「プラグ・アンド・プレイ」操作を有効にすることで大きな利点をもたらす。 本研究では、1GHzを超えるクロックレートで1個の識別不能光子を放出する空飛ぶ量子ビットのファイバーピグテール共振器付き光源を提案する。 これは、ハイブリッド円形ブラッグ格子(hCBG)マイクロキャビティに基づく繊維ピグサリング最適化QDデバイスに完全に決定論的手法を適用することで達成される。 製造された繊維ピグテールhCBGsは、パーセル係数$\sim$9、$g^{(2)}$(0)$<0)$<0)$<0)$<01%、光子非識別性>80%、測定された単光子カップリング効率$53%、単光子検出器の1.2メガクリック/秒に対応する、80psの放射発光寿命を特徴とする。 以上の結果から,hCBGキャビティに基づくファイバピグテール量子光源が,量子情報科学の応用の第一候補であることが明らかとなった。

Solid-state quantum light sources based on semiconductor quantum dots (QDs) are increasingly employed in photonic quantum information applications. Especially when moving towards real-world scenarios outside shielded lab environments, the efficient and robust coupling of nanophotonic devices to single-mode optical fibers offers substantial advantage by enabling "plug-and-play" operation. In this work we present a fiber-pigtailed cavity-enhanced source of flying qubits emitting single indistinguishable photons at clock-rates exceeding 1 GHz. This is achieved by employing a fully deterministic technique for fiber-pigtailing optimized QD-devices based on hybrid circular Bragg grating (hCBG) micro-cavities. The fabricated fiber-pigtailed hCBGs feature radiative emission lifetimes of $<$80 ps, corresponding to a Purcell factor of $\sim$9, a suppression of multiphoton emission events with $g^{(2)}$(0) $<$1%, a photon-indistinguishability >80% and a measured single-photon coupling efficiency of 53% in a high numerical aperture single-mode fiber, corresponding to 1.2 Megaclicks per second at the single-photon detectors. Our results show that fiber-pigtailed quantum light sources based on hCBG cavities are a prime candidate for applications of quantum information science.
翻訳日:2024-09-16 15:50:07 公開日:2024-09-13
# SLUシステムに対するクリーンラベル攻撃

Clean Label Attacks against SLU Systems ( http://arxiv.org/abs/2409.08985v1 )

ライセンス: Link先を確認
Henry Li Xinyuan, Sonal Joshi, Thomas Thebaud, Jesus Villalba, Najim Dehak, Sanjeev Khudanpur, (参考訳) バックドア攻撃は、訓練データを操作して、推論時に信号にトリガーを挿入することで、被害者モデルの特定の振る舞いを誘導する敵が関与する。 トレーニングデータの10%を汚染することにより99.8%の攻撃成功率を達成したクリーンラベルバックドア(CLBD)データ中毒攻撃を,音声言語理解タスクを支援・実行する最先端音声認識モデルに適用した。 我々は、毒の信号強度、サンプルの1%の毒、および攻撃の引き金の選択がいかに影響するかを分析した。 また、プロキシモデルでは本質的に難しいトレーニングサンプルに適用した場合、CLBDアタックが最も成功したこともわかりました。 この戦略を用いて、トレーニングデータのわずか1.5%を毒殺することにより、99.3%の攻撃成功率を達成した。 最後に, 従来開発された2つの防御効果を勾配攻撃に応用し, 毒殺効果が混在していることを確認した。

Poisoning backdoor attacks involve an adversary manipulating the training data to induce certain behaviors in the victim model by inserting a trigger in the signal at inference time. We adapted clean label backdoor (CLBD)-data poisoning attacks, which do not modify the training labels, on state-of-the-art speech recognition models that support/perform a Spoken Language Understanding task, achieving 99.8% attack success rate by poisoning 10% of the training data. We analyzed how varying the signal-strength of the poison, percent of samples poisoned, and choice of trigger impact the attack. We also found that CLBD attacks are most successful when applied to training samples that are inherently hard for a proxy model. Using this strategy, we achieved an attack success rate of 99.3% by poisoning a meager 1.5% of the training data. Finally, we applied two previously developed defenses against gradient-based attacks, and found that they attain mixed success against poisoning.
翻訳日:2024-09-16 15:50:07 公開日:2024-09-13
# 偏光化学とスピンガラスの物理

The connection of polaritonic chemistry with the physics of a spin glass ( http://arxiv.org/abs/2409.08986v1 )

ライセンス: Link先を確認
Dominik Sidler, Michael Ruggenthaler, Angel Rubio, (参考訳) ポラリトニック化学は、光キャビティの磁場変動と強い集団結合によって、室温での部位選択化学と結合選択化学が達成可能であることを示す先駆的な実験結果により、近年注目を集めている。 これらの顕著な実験的進歩にもかかわらず、基礎となる理論的メカニズムはいまだ不明である。 本稿では、偏光化学とスピングラスの一見無関係な分野の基本的な理論的関連を強調し、偏光化学の理論的枠組みにその深い意味を探求する。 具体的には、スピングラスの象徴的なシェリントン・カークパトリックモデルと、集合振動強い結合の下での電子構造問題のマッピングについて述べる。 このマッピングにより、着飾った電子構造(自発的な複製対称性の破れ)の集合的不安定性が明らかとなり、極性化学において重要な局所的な化学修飾のための長い種となる可能性がある。 このマッピングは、フラストレーション、老化力学、熱ゆらぎの過剰、時間反転対称性の破れ、確率共鳴など、多くのスピングラスの概念を分極性化学に取り入れ、調整し、探究する方法である。 最終的に、マッピングはまた、凝縮物質系を超えたスピンガラス理論の適用性に関する新たな洞察を与え、時間依存の順序パラメータ関数を持つ偏極ガラスのような新しい理論的な方向を示唆している。

Polaritonic chemistry has garnered increasing attention in recent years due to pioneering experimental results, which show that site- and bond-selective chemistry at room temperature is achievable through strong collective coupling to field fluctuations in optical cavities. Despite these notable experimental strides, the underlying theoretical mechanisms remain unclear. In this focus review, we highlight a fundamental theoretical link between the seemingly unrelated fields of polaritonic chemistry and spin glasses, exploring its profound implications for the theoretical framework of polaritonic chemistry. Specifically, we present a mapping of the dressed electronic structure problem under collective vibrational strong coupling to the iconic Sherrington-Kirkpatrick model of spin glasses. This mapping uncovers a collectively induced instability in the dressed electronic structure (spontaneous replica symmetry breaking), which could provide the long-sought seed for significant local chemical modifications in polaritonic chemistry. This mapping paves the way to incorporate, adjust and probe numerous spin glass concepts in polaritonic chemistry, such as frustration, aging dynamics, excess of thermal fluctuations, time-reversal symmetry breaking or stochastic resonances. Ultimately, the mapping also offers fresh insights into the applicability of spin glass theory beyond condensed matter systems and it suggests novel theoretical directions such as polarization glasses with explicitly time-dependent order parameter functions.
翻訳日:2024-09-16 15:50:07 公開日:2024-09-13
# バイオミメティック・フロントエンドによるオーディオ処理

Biomimetic Frontend for Differentiable Audio Processing ( http://arxiv.org/abs/2409.08997v1 )

ライセンス: Link先を確認
Ruolan Leslie Famularo, Dmitry N. Zotkin, Shihab A. Shamma, Ramani Duraiswami, (参考訳) 音声および音声処理のモデルは、より深く、よりエンドツーエンドになってきているが、結果として、大規模なデータに対する高価なトレーニングを必要とし、しばしば脆弱である。 従来の生体模倣信号処理アプローチとディープラーニングフレームワークを併用できるように,人間の聴覚の古典的なモデルを構築し,それを識別可能にする。 これにより、控えめな量のデータで簡単にトレーニングできる表現的で説明可能なモデルにたどり着くことができます。 このモデルを分類・拡張を含む音声処理タスクに適用する。 その結果, 学習データが少ない場合でも, 計算効率やロバスト性において, 識別可能なモデルがブラックボックスアプローチを超越していることが判明した。 他の潜在的な応用についても論じる。

While models in audio and speech processing are becoming deeper and more end-to-end, they as a consequence need expensive training on large data, and are often brittle. We build on a classical model of human hearing and make it differentiable, so that we can combine traditional explainable biomimetic signal processing approaches with deep-learning frameworks. This allows us to arrive at an expressive and explainable model that is easily trained on modest amounts of data. We apply this model to audio processing tasks, including classification and enhancement. Results show that our differentiable model surpasses black-box approaches in terms of computational efficiency and robustness, even with little training data. We also discuss other potential applications.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# E2MoCase: 報道記事における感情・事象・道徳的観察のデータセット

E2MoCase: A Dataset for Emotional, Event and Moral Observations in News Articles on High-impact Legal Cases ( http://arxiv.org/abs/2409.09001v1 )

ライセンス: Link先を確認
Candida M. Greco, Lorenzo Zangari, Davide Picca, Andrea Tagarelli, (参考訳) メディアが訴訟を報道する方法は世論を著しく形成し、しばしば正義と道徳に対する社会的見解に影響を及ぼす微妙な偏見を埋め込む。 これらのバイアスを分析するには、感情的なトーン、道徳的なフレーミング、物語内の特定の出来事を捉える包括的なアプローチが必要である。 本研究では、感情、道徳的価値観、そして法的物語やメディアの報道における出来事の統合分析を容易にするために設計された、新しいデータセットであるE2MoCaseを紹介する。 感情の検出、道徳的価値の識別、イベント抽出といった高度なモデルを活用することで、E2MoCaseは、ニュース記事における法的ケースの描写について多次元的な視点を提供する。

The way media reports on legal cases can significantly shape public opinion, often embedding subtle biases that influence societal views on justice and morality. Analyzing these biases requires a holistic approach that captures the emotional tone, moral framing, and specific events within the narratives. In this work we introduce E2MoCase, a novel dataset designed to facilitate the integrated analysis of emotions, moral values, and events within legal narratives and media coverage. By leveraging advanced models for emotion detection, moral value identification, and event extraction, E2MoCase offers a multi-dimensional perspective on how legal cases are portrayed in news articles.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# 規則に基づく変数優先順位によるモデル独立変数選択

Model-independent variable selection via the rule-based variable priorit ( http://arxiv.org/abs/2409.09003v1 )

ライセンス: Link先を確認
Min Lu, Hemant Ishwaran, (参考訳) 高い予測精度を達成することが機械学習の基本的な目標であるが、同様に重要なタスクは、説明力の高い少数の機能を見つけることである。 これは、変数の置換後の予測誤差の変化を測定することで、変数の影響を評価するものである。 しかし、これは、他の方法によって共有される問題である人工データを作成する必要があるため、問題となる可能性がある。 もう1つの問題は、変数選択法がモデル固有性によって制限されることである。 モデルに依存しない新たなアプローチである可変優先度(VarPro)を導入し,人工データの生成や予測誤差の評価を必要とせずにルールを活用する。 この手法は比較的使いやすく、単純な統計値のサンプル平均の計算しか必要とせず、回帰、分類、生存を含む多くのデータ設定に適用できる。 本稿では、VarProの漸近特性について検討し、VarProがノイズ変数に対して一貫したフィルタリング特性を有することを示す。 合成および実世界のデータを用いた実証研究は、この手法がバランスの取れた性能を達成し、可変選択に現在使われている多くの最先端の手順と好意的に比較していることを示している。

While achieving high prediction accuracy is a fundamental goal in machine learning, an equally important task is finding a small number of features with high explanatory power. One popular selection technique is permutation importance, which assesses a variable's impact by measuring the change in prediction error after permuting the variable. However, this can be problematic due to the need to create artificial data, a problem shared by other methods as well. Another problem is that variable selection methods can be limited by being model-specific. We introduce a new model-independent approach, Variable Priority (VarPro), which works by utilizing rules without the need to generate artificial data or evaluate prediction error. The method is relatively easy to use, requiring only the calculation of sample averages of simple statistics, and can be applied to many data settings, including regression, classification, and survival. We investigate the asymptotic properties of VarPro and show, among other things, that VarPro has a consistent filtering property for noise variables. Empirical studies using synthetic and real-world data show the method achieves a balanced performance and compares favorably to many state-of-the-art procedures currently used for variable selection.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# SGFormer: 近似自由線形複素数を持つ単層グラフ変換器

SGFormer: Single-Layer Graph Transformers with Approximation-Free Linear Complexity ( http://arxiv.org/abs/2409.09007v1 )

ライセンス: Link先を確認
Qitian Wu, Kai Yang, Hengrui Zhang, David Wipf, Junchi Yan, (参考訳) 大きなグラフ上で表現を学習することは、依存性間の性質のため、長年にわたる課題である。 トランスフォーマーは最近、観測された構造を超えて全対の相互作用を捉えることにグローバルな注意を払って、小さなグラフ上で有望なパフォーマンスを示した。 既存のアプローチは、言語や視覚タスクにおけるトランスフォーマーの精神を継承し、深い注意に基づく伝搬層を積み重ねることで複雑なアーキテクチャを受け入れる傾向があります。 本稿では,グラフ上のトランスフォーマーにおける多層アテンションの導入の必要性を評価し,その効率を著しく抑制する。 具体的には、全対の注意とグラフベースの伝播からなる汎用ハイブリッド伝搬層を解析し、表現学習と同様の能力で、多層伝搬を1層に還元できることを示す。 これは、特に表現性を犠牲にすることなくモデルアーキテクチャを単純化することで、グラフ上で強力で効率的なトランスフォーマーを構築するための新しい技術パスを提案する。 本稿では,グラフサイズを線形に拡大する単一層グラフ変換器(SGFormer)を提案する。 実証的には、SGFormerはWebスケールのグラフogbn-papers100Mにスケールし、中規模グラフ上のピアトランスフォーマー上でのオーダーオブマグニチュード推論高速化を実現し、ラベル付きデータとの競合性を実証する。

Learning representations on large graphs is a long-standing challenge due to the inter-dependence nature. Transformers recently have shown promising performance on small graphs thanks to its global attention for capturing all-pair interactions beyond observed structures. Existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated architectures by stacking deep attention-based propagation layers. In this paper, we attempt to evaluate the necessity of adopting multi-layer attentions in Transformers on graphs, which considerably restricts the efficiency. Specifically, we analyze a generic hybrid propagation layer, comprised of all-pair attention and graph-based propagation, and show that multi-layer propagation can be reduced to one-layer propagation, with the same capability for representation learning. It suggests a new technical path for building powerful and efficient Transformers on graphs, particularly through simplifying model architectures without sacrificing expressiveness. As exemplified by this work, we propose a Simplified Single-layer Graph Transformers (SGFormer), whose main component is a single-layer global attention that scales linearly w.r.t. graph sizes and requires none of any approximation for accommodating all-pair interactions. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M, yielding orders-of-magnitude inference acceleration over peer Transformers on medium-sized graphs, and demonstrates competitiveness with limited labeled data.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# Retrieval-and-Demonstration を用いた直接音声翻訳におけるレアワード精度の最適化

Optimizing Rare Word Accuracy in Direct Speech Translation with a Retrieval-and-Demonstration Approach ( http://arxiv.org/abs/2409.09009v1 )

ライセンス: Link先を確認
Siqi Li, Danni Liu, Jan Niehues, (参考訳) 直接音声翻訳(ST)モデルは稀な単語に苦しむことが多い。 これらの単語の誤った翻訳は、翻訳品質とユーザ信頼に影響を与える深刻な結果をもたらす可能性がある。 希少な単語翻訳は、学習信号の希少さによって神経モデルにとって本質的に困難であるが、現実のシナリオでは、しばしば同様のトピックに関する過去の記録の翻訳へのアクセスが可能である。 これらの貴重な資源を活用するため、直接STモデルにおいて希少な単語翻訳精度を高めるための検索・復調手法を提案する。 まず,既存のSTモデルにレアワード翻訳の例を組み込むことで,テキスト内学習と同様の事前サンプルの恩恵を受けることができる。 次に、適切な例を見つけるために、クロスモーダル(音声から音声へ、音声からテキストへ、テキストからテキストへ)検索装置を開発する。 本研究は, 標準STモデルを用いてレアワード翻訳の例を効果的に適用し, ベースライン上でのレアワード翻訳精度を17.6%向上し, 金の例では8.5%, 検索例では8.5%向上できることを示した。 さらに,音声音声検索手法は,他のモダリティよりも優れ,目に見えない話者に対して高いロバスト性を示す。 私たちのコードは公開されています(https://github.com/SiqiLii/Retrieve-and-Demonstration-ST)。

Direct speech translation (ST) models often struggle with rare words. Incorrect translation of these words can have severe consequences, impacting translation quality and user trust. While rare word translation is inherently challenging for neural models due to sparse learning signals, real-world scenarios often allow access to translations of past recordings on similar topics. To leverage these valuable resources, we propose a retrieval-and-demonstration approach to enhance rare word translation accuracy in direct ST models. First, we adapt existing ST models to incorporate retrieved examples for rare word translation, which allows the model to benefit from prepended examples, similar to in-context learning. We then develop a cross-modal (speech-to-speech, speech-to-text, text-to-text) retriever to locate suitable examples. We demonstrate that standard ST models can be effectively adapted to leverage examples for rare word translation, improving rare word translation accuracy over the baseline by 17.6% with gold examples and 8.5% with retrieved examples. Moreover, our speech-to-speech retrieval approach outperforms other modalities and exhibits higher robustness to unseen speakers. Our code is publicly available (https://github.com/SiqiLii/Retrieve-and-Demonstration-ST).
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# Contri(e)ve: Context + Retrieve for Scholarly Question Answering

Contri(e)ve: Context + Retrieve for Scholarly Question Answering ( http://arxiv.org/abs/2409.09010v1 )

ライセンス: Link先を確認
Kanchan Shivashankar, Nadine Steinmetz, (参考訳) 学術的なコミュニケーションは、豊富な知識を含む急速に成長する分野である。 しかし, 構造化されていない文書形式であるため, 従来の文書検索手法から有用な情報を抽出することは困難である。 学術知識グラフは、セマンティックネットワークで文書を表現し、クエリによるドキュメント、隠れた洞察、要約、アクセシビリティの容易さを提供することによって、この問題を解決する。 当然、学術グラフに対する質問応答は、より広い聴衆へのアクセシビリティを拡大する。 しかし、この領域の知識のいくつかは、まだ構造化されていないテキストとして示されており、問合せシステムにハイブリッドソリューションを必要とする。 本稿では,オープンソースのLarge Language Model(LLM)を用いて,Scholarly-QALDデータセット用のLlama3.1を提案する。 まず,DBLP,SemOpenAlexナレッジグラフ,ウィキペディアテキストなど,異なる構造化および非構造化データソースから質問に関連するコンテキストを抽出する。 第2に,LLMの情報検索性能を向上させるために,プロンプトエンジニアリングを実装した。 提案手法はF1スコアの40%を達成し,LLMからの異常反応も観察した。

Scholarly communication is a rapid growing field containing a wealth of knowledge. However, due to its unstructured and document format, it is challenging to extract useful information from them through conventional document retrieval methods. Scholarly knowledge graphs solve this problem, by representing the documents in a semantic network, providing, hidden insights, summaries and ease of accessibility through queries. Naturally, question answering for scholarly graphs expands the accessibility to a wider audience. But some of the knowledge in this domain is still presented as unstructured text, thus requiring a hybrid solution for question answering systems. In this paper, we present a two step solution using open source Large Language Model(LLM): Llama3.1 for Scholarly-QALD dataset. Firstly, we extract the context pertaining to the question from different structured and unstructured data sources: DBLP, SemOpenAlex knowledge graphs and Wikipedia text. Secondly, we implement prompt engineering to improve the information retrieval performance of the LLM. Our approach achieved an F1 score of 40% and also observed some anomalous responses from the LLM, that are discussed in the final part of the paper.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# VAE Explainer:対話型可視化によるサプリメント学習変分自動エンコーダ

VAE Explainer: Supplement Learning Variational Autoencoders with Interactive Visualization ( http://arxiv.org/abs/2409.09011v1 )

ライセンス: Link先を確認
Donald Bertucci, Alex Endert, (参考訳) 変分オートエンコーダは機械学習で広く使われているが、典型的には密度の高い数学表記法や静的コード例で説明される。 本稿では,ブラウザ上で動作し,既存の静的ドキュメント(Keras Code Examplesなど)を補完するインタラクティブな変分自動エンコーダであるVAE Explainerを提案する。 VAE Explainerは、対話型モデル入力、潜時空間、出力でVAEサマリにインタラクションを追加する。 VAE Explainerは、アノテーション付きコードとライブ計算グラフという、ハイレベルな理解と実装を結びつける。 VAE Explainerインタラクティブな視覚化はhttps://xnought.github.io/vae-Explainerで、コードはhttps://github.com/xnought/vae-Explainerでオープンソース化されている。

Variational Autoencoders are widespread in Machine Learning, but are typically explained with dense math notation or static code examples. This paper presents VAE Explainer, an interactive Variational Autoencoder running in the browser to supplement existing static documentation (e.g., Keras Code Examples). VAE Explainer adds interactions to the VAE summary with interactive model inputs, latent space, and output. VAE Explainer connects the high-level understanding with the implementation: annotated code and a live computational graph. The VAE Explainer interactive visualization is live at https://xnought.github.io/vae-explainer and the code is open source at https://github.com/xnought/vae-explainer.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# より良いソリューション確率メトリクス:QAOAを最適化してウォームスタートソリューションを上回る

The Better Solution Probability Metric: Optimizing QAOA to Outperform its Warm-Start Solution ( http://arxiv.org/abs/2409.09012v1 )

ライセンス: Link先を確認
Sean Feeney, Reuben Tate, Stephan Eidenbenz, (参考訳) 本稿では,Tate et al [1] が提案する Warm-Start Quantum Approximate Optimization Algorithm (QAOA) の数値シミュレーションを行い,その3つの正則マックス・カット問題への応用に着目する。 我々の研究は、ワームスターQAOAが様々な角度で近似比の理論的下限を一貫して上回り、最悪の場合の予測を超えた現実的なシナリオにおけるその可能性を強調していることを示している。 これらの改善にもかかわらず、期待値に最適化された従来のパラメータを持つウォームスターQAOAは、初期古典解の性能を超えない。 そこで本研究では,BSP(Better Solution Probability)のパラメータ最適化手法を提案する。 以上の結果から,BSPに最適化されたウォームスターQAOAは,非消滅確率の高い最も古典的なウォームスタートソリューションよりも優れた,非自明な傾き角度の解を同定した。 これらの知見は、QAOAの精製における理論的および経験的分析の重要性と、量子的優位性の可能性を探究することの重要性を浮き彫りにした。

This paper presents a numerical simulation investigation of the Warm-Start Quantum Approximate Optimization Algorithm (QAOA) as proposed by Tate et al. [1], focusing on its application to 3-regular Max-Cut problems. Our study demonstrates that Warm-Start QAOA consistently outperforms theoretical lower bounds on approximation ratios across various tilt angles, highlighting its potential in practical scenarios beyond worst-case predictions. Despite these improvements, Warm-Start QAOA with traditional parameters optimized for expectation value does not exceed the performance of the initial classical solution. To address this, we introduce an alternative parameter optimization objective, the Better Solution Probability (BSP) metric. Our results show that BSP-optimized Warm-Start QAOA identifies solutions at non-trivial tilt angles that are better than even the best classically found warm-start solutions with non-vanishing probabilities. These findings underscore the importance of both theoretical and empirical analyses in refining QAOA and exploring its potential for quantum advantage.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# AI-LieDar: LLMエージェントの実用性と真理性のトレードオフを検討する

AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents ( http://arxiv.org/abs/2409.09013v1 )

ライセンス: Link先を確認
Zhe Su, Xuhui Zhou, Sanketh Rangreji, Anubha Kabra, Julia Mendelsohn, Faeze Brahman, Maarten Sap, (参考訳) 安全かつうまく展開するには、LLMは真理性と実用目標を同時に満たさなければならない。 しかし、これらの2つの目標(例えば、中古車のセールスマンが欠陥のある車を売っているのを補助するAIエージェント)が競うことも少なくない。 AI-LieDarは,LLMをベースとしたエージェントがマルチターン・インタラクティブな環境において,ユーティリティ・トラスフルネス・コンフリクトを用いてシナリオをナビゲートする方法を研究するフレームワークである。 シミュレーションされたエージェントとのマルチターン会話において,言語エージェントが真理に反する目標を達成するように指示される,現実的なシナリオを設計する。 大規模に真理性を評価するため,心理文献にヒントを得た真理性検知装置を開発し,エージェントの反応を評価する。 我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。 我々は、LLMの真偽に対する操縦性をさらに検証し、モデルが偽装する悪意のある指示に従うことを発見し、真偽を判断するモデルでさえもなお嘘をつく可能性があることを発見した。 これらの知見は、LLMの真理性に関する複雑な性質を明らかにし、LLMとAIエージェントの安全で信頼性の高いデプロイを保証するために、さらなる研究の重要性を強調している。

To be safely and successfully deployed, LLMs must simultaneously satisfy truthfulness and utility goals. Yet, often these two goals compete (e.g., an AI agent assisting a used car salesman selling a car with flaws), partly due to ambiguous or misleading user instructions. We propose AI-LieDar, a framework to study how LLM-based agents navigate scenarios with utility-truthfulness conflicts in a multi-turn interactive setting. We design a set of realistic scenarios where language agents are instructed to achieve goals that are in conflict with being truthful during a multi-turn conversation with simulated human agents. To evaluate the truthfulness at large scale, we develop a truthfulness detector inspired by psychological literature to assess the agents' responses. Our experiment demonstrates that all models are truthful less than 50% of the time, although truthfulness and goal achievement (utility) rates vary across models. We further test the steerability of LLMs towards truthfulness, finding that models follow malicious instructions to deceive, and even truth-steered models can still lie. These findings reveal the complex nature of truthfulness in LLMs and underscore the importance of further research to ensure the safe and reliable deployment of LLMs and AI agents.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# 能率・ストリーミング型視覚アクティブスピーカ検出システム

An Efficient and Streaming Audio Visual Active Speaker Detection System ( http://arxiv.org/abs/2409.09018v1 )

ライセンス: Link先を確認
Arnav Kundu, Yanzi Jin, Mohammad Sekhavat, Max Horton, Danny Tormoen, Devang Naik, (参考訳) 本稿では,映像フレーム内の話者が話しているか否かをリアルタイムで判断する,能動話者検出(ASD)の課題について述べる。 これまでの研究は、ネットワークアーキテクチャの改善とAMDの効果的な表現の学習に大きく貢献してきたが、リアルタイムシステムデプロイメントの探索において重要なギャップが存在している。 既存のモデルは、しばしば高いレイテンシとメモリ使用量に悩まされ、即時アプリケーションでは実用的ではない。 このギャップを埋めるために、リアルタイムの制約によって引き起こされる重要な課題に対処する2つのシナリオを提示します。 まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。 これにより、決定が下される前に、将来のフレームのシーケンス全体を処理する必要性を緩和し、レイテンシを大幅に低減します。 第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。 これにより、ストリーミングASDシステムの実行に伴う永続的なメモリ問題に対処できる。 これらの理論的枠組みの他に、我々は我々のアプローチを検証するための広範な実験を行っている。 この結果から,一方向GRUのような最先端のリカレントモデルに比較して,制約付きトランスフォーマーモデルでは性能が向上し,コンテキストフレーム数が大幅に削減できることが示唆された。 さらに,ASDシステムの時間記憶要求に光を当てた結果,過去のコンテキストが将来のコンテキストよりも正確性に大きく影響していることが明らかになった。 CPU上でのプロファイリングでは、効率的なアーキテクチャは使用可能な過去のコンテキストの量に縛られ、計算コストはメモリコストと比較して無視できる。

This paper delves into the challenging task of Active Speaker Detection (ASD), where the system needs to determine in real-time whether a person is speaking or not in a series of video frames. While previous works have made significant strides in improving network architectures and learning effective representations for ASD, a critical gap exists in the exploration of real-time system deployment. Existing models often suffer from high latency and memory usage, rendering them impractical for immediate applications. To bridge this gap, we present two scenarios that address the key challenges posed by real-time constraints. First, we introduce a method to limit the number of future context frames utilized by the ASD model. By doing so, we alleviate the need for processing the entire sequence of future frames before a decision is made, significantly reducing latency. Second, we propose a more stringent constraint that limits the total number of past frames the model can access during inference. This tackles the persistent memory issues associated with running streaming ASD systems. Beyond these theoretical frameworks, we conduct extensive experiments to validate our approach. Our results demonstrate that constrained transformer models can achieve performance comparable to or even better than state-of-the-art recurrent models, such as uni-directional GRUs, with a significantly reduced number of context frames. Moreover, we shed light on the temporal memory requirements of ASD systems, revealing that larger past context has a more profound impact on accuracy than future context. When profiling on a CPU we find that our efficient architecture is memory bound by the amount of past context it can use and that the compute cost is negligible as compared to the memory cost.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# INN-PAR:APP再構成のための可逆ニューラルネットワーク

INN-PAR: Invertible Neural Network for PPG to ABP Reconstruction ( http://arxiv.org/abs/2409.09021v1 )

ライセンス: Link先を確認
Soumitra Kundu, Gargi Panda, Saumik Bhattacharya, Aurobinda Routray, Rajlakshmi Guha, (参考訳) 非侵襲的連続血圧モニタリングは、多くの心血管疾患の早期予防に不可欠である。 光胸腺造影(PPG)から動脈血圧(ABP)を推定することが望まれている。 しかし, PPG-to-ABP再構成(PAR)における既存の深層学習手法は, ある情報損失に遭遇し, 再構成信号の精度に影響を及ぼす。 この制限を克服するために,PAGとAPP信号の勾配とのマッピングと勾配を協調的に学習するために,一連の可逆ブロックを用いた,APP再構成のための可逆ニューラルネットワーク(INN-PAR)を導入する。 INN-PARは、フォワードマッピングと逆マッピングの両方を同時に捕捉し、情報損失を防止する。 INN-PARは、信号勾配を学習プロセスに統合することにより、必須の高周波の詳細を捕捉するネットワークの能力を向上し、より正確な信号再構成を実現する。 さらに,可逆ブロック内のマルチスケール畳み込みモジュール (MSCM) を提案する。 INN-PARは、波形再構成とBP測定の精度の両方において、最先端の手法よりも優れていることを示す2つのベンチマークデータセットの実験を行った。

Non-invasive and continuous blood pressure (BP) monitoring is essential for the early prevention of many cardiovascular diseases. Estimating arterial blood pressure (ABP) from photoplethysmography (PPG) has emerged as a promising solution. However, existing deep learning approaches for PPG-to-ABP reconstruction (PAR) encounter certain information loss, impacting the precision of the reconstructed signal. To overcome this limitation, we introduce an invertible neural network for PPG to ABP reconstruction (INN-PAR), which employs a series of invertible blocks to jointly learn the mapping between PPG and its gradient with the ABP signal and its gradient. INN-PAR efficiently captures both forward and inverse mappings simultaneously, thereby preventing information loss. By integrating signal gradients into the learning process, INN-PAR enhances the network's ability to capture essential high-frequency details, leading to more accurate signal reconstruction. Moreover, we propose a multi-scale convolution module (MSCM) within the invertible block, enabling the model to learn features across multiple scales effectively. We have experimented on two benchmark datasets, which show that INN-PAR significantly outperforms the state-of-the-art methods in both waveform reconstruction and BP measurement accuracy.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# 相対的に事前訓練されたニューラルオーディオ埋め込みのレバレッジに向けて

Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks ( http://arxiv.org/abs/2409.09026v1 )

ライセンス: Link先を確認
Florian Grötschla, Luca Strässle, Luca A. Lanzendörfer, Roger Wattenhofer, (参考訳) 音楽レコメンデータシステムは、しばしばネットワークベースのモデルを使用して、楽曲、アーティスト、ユーザー間の関係をキャプチャする。 これらの関係は予測に貴重な洞察を与えるが、新しい音楽作品やアーティストは、初期情報が不十分なため、コールドスタートの問題に直面することが多い。 これを解決するために、音楽から直接コンテンツベースの情報を抽出し、協調フィルタリングに基づく手法を強化する。 従来のアプローチは手作りのオーディオ機能に頼っていたが、我々は、より豊かでニュアンスの高い音楽表現を提供する、対照的に事前訓練されたニューラルオーディオ埋め込みモデルの使用について検討した。 実験の結果,ニューラル埋め込み,特に Contrastive Language-Audio Pretraining (CLAP) モデルで生成したものは,グラフベースのフレームワーク内での音楽推薦タスクを強化するための有望なアプローチを示す。

Music recommender systems frequently utilize network-based models to capture relationships between music pieces, artists, and users. Although these relationships provide valuable insights for predictions, new music pieces or artists often face the cold-start problem due to insufficient initial information. To address this, one can extract content-based information directly from the music to enhance collaborative-filtering-based methods. While previous approaches have relied on hand-crafted audio features for this purpose, we explore the use of contrastively pretrained neural audio embedding models, which offer a richer and more nuanced representation of music. Our experiments demonstrate that neural embeddings, particularly those generated with the Contrastive Language-Audio Pretraining (CLAP) model, present a promising approach to enhancing music recommendation tasks within graph-based frameworks.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# 光子と原子の相互作用によるスクイージングの自己生成によるボソンサンプリング

Boson sampling with self-generation of squeezing via interaction of photons and atoms ( http://arxiv.org/abs/2409.09027v1 )

ライセンス: Link先を確認
Sergey V. Tarasov, Vladimir V. Kocharovsky, (参考訳) ボソンサンプリング実装のためのマルチモード圧縮状態を生成するための新しいスキームを提案する。 このアイデアは、一般的に用いられる線形干渉計を、光子と分散的に相互作用する2レベル原子からなる受動光学素子を含む多モード共振器で置き換え、両方のボソン、すなわち光子と原子の圧縮された化合物状態を自己生成する。 提案されたスキームは不要 (a)圧縮またはフォック量子状態における光子のオンデマンド外部源 (b) 位相ノイズと損失を導入し, システムのスケールアップを防止し, 量子的優位性を実現する多数のチャネル間結合器。 このアイデアは、光モードの1つが古典的コヒーレント状態にある多モード共振器に閉じ込められたボース・アインシュタイン凝縮ガスに基づく設定によって説明される。 光子および/または非凝縮原子数の結合確率分布は、系の特定のパラメータに対して、古典的コンピュータによって効果的に計算されにくい行列ハフニアンによって計算される。 このような実験は、既存のキャビティQEDとコールドガス技術によって実現されている。

We suggest a novel scheme for generating multimode squeezed states for the boson sampling implementation. The idea is to replace a commonly used linear interferometer by a multimode resonator containing a passive optical element consisting of two-level atoms dispersively interacting with photons and self-generating a squeezed compound state of both bosons -- photons and atoms. The suggested scheme does not need (a) on-demand external sources of photons in squeezed or Fock quantum states and (b) numerous interchannel couplers which introduce phase noise and losses that prevent scaling up the system and achieving quantum advantage. The idea is illustrated by a setup based on a Bose-Einstein-condensed gas confined in a multimode resonator, one of whose optical modes is in the classical coherent regime. The joint probability distribution of photon and/or noncondensed atom numbers is calculated via a matrix hafnian that, for certain parameters of the system, is hardly to be effectively calculated by classical computers. Such experiments are at reach via existing cavity-QED and cold-gas technology.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# ソフトウェア工学のエージェント: サーベイ、ランドスケープ、ビジョン

Agents in Software Engineering: Survey, Landscape, and Vision ( http://arxiv.org/abs/2409.09030v1 )

ライセンス: Link先を確認
Yanxian Huang, Wanjun Zhong, Ensheng Shi, Min Yang, Jiachi Chen, Hui Li, Yuchi Ma, Qianxiang Wang, Zibin Zheng, Yanlin Wang, (参考訳) 近年、Large Language Models (LLM) は目覚ましい成功を収め、特にソフトウェア工学(SE)分野において様々な下流タスクで広く使われている。 LLMをSEと組み合わせた多くの研究では、明示的にも暗黙的にもエージェントの概念が採用されている。 しかし、既存の作業の開発状況を整理し、LLMベースのエージェント技術を組み合わせて様々なタスクを最適化する方法を分析し、SEにおけるLLMベースのエージェントのフレームワークを明らかにするための詳細な調査が欠如している。 本稿では,LLMをベースとしたエージェントをSEと組み合わせた研究を初めて実施し,認知,記憶,行動の3つの重要なモジュールを含むLLMベースのエージェントのフレームワークをSEに提示する。 また、この2つの分野を組み合わせる際の現在の課題を要約し、既存の課題に対応する将来の機会を提案する。 https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。

In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# カンノッティング数、硬カンノット図、強化学習

The unknotting number, hard unknot diagrams, and reinforcement learning ( http://arxiv.org/abs/2409.09032v1 )

ライセンス: Link先を確認
Taylor Applebaum, Sam Blackwell, Alex Davies, Thomas Edlich, András Juhász, Marc Lackenby, Nenad Tomašev, Daniel Zheng, (参考訳) 我々は,最大200の交叉を持つ結び目図の交叉変化を最小限に抑えることができる強化学習エージェントを開発した。 我々はこれを57kノットの無作為数を決定するために使用した。 我々は、このような結び目の連結和の図式と反対に符号付けされたシグネチャを取り、サマンドはオーバーレイされた。 エージェントは、交差の無数の集合においていくつかの変化が双曲結び目をもたらす例を発見した。 これに基づいて、いくつかの穏やかな仮定を満たす結び目 $K$ と $K'$ が与えられたとき、それらの連結和の図式と $u(K) + u(K')$ unknotting crosss が存在して、それらのいずれかを変更すれば素結び目が得られることを示した。 副産物として、260万の異なるハード・カンノット・ダイアグラムのデータセットが得られた。 アンクノッティング数の加法性を仮定すると、アンクノッティング数が不明なほとんどの12個の交差結び目において、アンクノッティング数43のアンクノッティング数を決定する。

We have developed a reinforcement learning agent that often finds a minimal sequence of unknotting crossing changes for a knot diagram with up to 200 crossings, hence giving an upper bound on the unknotting number. We have used this to determine the unknotting number of 57k knots. We took diagrams of connected sums of such knots with oppositely signed signatures, where the summands were overlaid. The agent has found examples where several of the crossing changes in an unknotting collection of crossings result in hyperbolic knots. Based on this, we have shown that, given knots $K$ and $K'$ that satisfy some mild assumptions, there is a diagram of their connected sum and $u(K) + u(K')$ unknotting crossings such that changing any one of them results in a prime knot. As a by-product, we have obtained a dataset of 2.6 million distinct hard unknot diagrams; most of them under 35 crossings. Assuming the additivity of the unknotting number, we have determined the unknotting number of 43 at most 12-crossing knots for which the unknotting number is unknown.
翻訳日:2024-09-16 15:40:23 公開日:2024-09-13
# 双極子BECにおける超放射能のミラー対称性の破れ

Mirror symmetry breaking of superradiance in a dipolar BEC ( http://arxiv.org/abs/2210.01586v4 )

ライセンス: Link先を確認
Bojeong Seo, Mingchen Huang, Ziting Chen, Mithilesh K. Parit, Yifei He, Peng Chen, Gyu-Boong Jo, (参考訳) ディック超放射能は、2つ以上の放射体が電磁場を介して協調的に相互作用するときに起こる。 この集合的な光散乱過程は、原子から量子ドット、有機分子まで様々なプラットフォームで研究されている。 広範な研究にもかかわらず、超放射能におけるエミッタ間の直接相互作用の正確な役割は、特に相互作用の複雑さが重大な課題を引き起こす多体系において解明されている。 本研究では, 双極子-アインシュタイン凝縮体 (BEC) における18,000原子間の双極子-双極子相互作用が超輝度過程に及ぼす影響について検討した。 双極性BECでは、ボゴリボフ変換による異方性磁気双極子-双極子相互作用の複素効果を単純化する。 異方性ボゴリューボフ励起は超放射能の減衰モードにおけるミラー対称性を破る。

Dicke superradiance occurs when two or more emitters cooperatively interact via the electromagnetic field. This collective light scattering process has been extensively studied across various platforms, from atoms to quantum dots and organic molecules. Despite extensive research, the precise role of direct interactions between emitters in superradiance remains elusive, particularly in many-body systems where the complexity of interactions poses significant challenges. In this study, we investigate the effect of dipole-dipole interaction between 18,000 atoms in dipolar Bose-Einstein condensates (BECs) on the superradiance process. In dipolar BECs, we simplify the complex effect of anisotropic magnetic dipole-dipole interaction with Bogoliubov transformation. We observe that anisotropic Bogoliubov excitation breaks the mirror symmetry in decay modes of superradiance.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# 下肢に対するヒト逆運動学法の比較研究

A comparative study of human inverse kinematics techniques for lower limbs ( http://arxiv.org/abs/2302.10769v4 )

ライセンス: Link先を確認
Zineb Benhmidouch, Saad Moufid, Aissam Ait Omar, (参考訳) 逆キネマティクス (Inverse Kinematics, IK) は研究のダイナミックな分野であり、様々な手法が速度と精度を追求している。 進歩にもかかわらず、多くのIK技術は、高い計算要求や非現実的な関節構成を生成するリスクなど、重大な課題に直面している。 本稿では,ヒトの足に応用されるIK法を総合的に比較検討し,最も効果的なアプローチを同定することを目的とした。 計算効率と現実的な姿勢を創出する能力に基づいて各手法の評価を行った。 バイオメカニクスとアニメーションの実用化に向けたIKソリューションの最適化に関する知見を提供する。

Inverse Kinematics (IK) remains a dynamic field of research, with various methods striving for speed and precision. Despite advancements, many IK techniques face significant challenges, including high computational demands and the risk of generating unrealistic joint configurations. This paper conducts a comprehensive comparative analysis of leading IK methods applied to the human leg, aiming to identify the most effective approach. We evaluate each method based on computational efficiency and its ability to produce realistic postures, while adhering to the natural range of motion and comfort zones of the joints. The findings provide insights into optimizing IK solutions for practical applications in biomechanics and animation.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# RRWKV:RWKVの長距離依存性をキャプチャする

RRWKV: Capturing Long-range Dependencies in RWKV ( http://arxiv.org/abs/2306.05176v4 )

ライセンス: Link先を確認
Leilei Wang, (参考訳) ドットプロダクティビティの注目により、トランスフォーマーは様々な自然言語処理(NLP)タスクにおいて支配的なアーキテクチャとなっている。 近年、Receptance Weighted Key Value (RWKV)アーキテクチャは、メモリと計算の複雑さがシーケンス長の2次スケーリングを示す点積の欠点を取り除くために、非トランスフォーマーアーキテクチャに従っている。 RWKVは、線形にテンソル積の注意機構を利用し、時間列モードを配置することで並列化された計算を実現しているが、標準トランスフォーマーのダイレクトインタラクションによって得られる全情報と比較して、以前の情報を振り返ることに制限があるため、長距離依存を捉えることができない。 そこで本稿では,RWKVにレトロスペクション機能を組み込んで,メモリや計算効率の維持を図ることで,Retrospected Receptance Weighted Key Value (RRWKV) アーキテクチャを考案する。

Owing to the impressive dot-product attention, the Transformers have been the dominant architectures in various natural language processing (NLP) tasks. Recently, the Receptance Weighted Key Value (RWKV) architecture follows a non-transformer architecture to eliminate the drawbacks of dot-product attention, where memory and computational complexity exhibits quadratic scaling with sequence length. Although RWKV has exploited a linearly tensor-product attention mechanism and achieved parallelized computations by deploying the time-sequential mode, it fails to capture long-range dependencies because of its limitation on looking back at previous information, compared with full information obtained by direct interactions in the standard transformer. Therefore, the paper devises the Retrospected Receptance Weighted Key Value (RRWKV) architecture via incorporating the retrospecting ability into the RWKV to effectively absorb information, which maintains memory and computational efficiency as well.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# ディラックフェルミオンを持つ回転環におけるサニャック効果

Sagnac effect in a rotating ring with Dirac fermions ( http://arxiv.org/abs/2309.10497v3 )

ライセンス: Link先を確認
A. Yu. Fesh, Yu. V. Shtanov, S. G. Sharapov, (参考訳) 物質粒子に対するサニャック効果の観測は、同じ面積と角回転速度の光学干渉計と比較して感度を著しく向上させる。 このため、半導体やグラフェンに依存する固体干渉計を採用するという提案がなされている。 相対論的な準粒子分散法則によって支配されるディラック材料のサニャック効果について検討し,自由電子の質量によっても外周シフトが決定されることを示す。 これは、グラフェンが固体サニャック干渉計を作るための有望な材料であることを確認する。 単層グラフェンとその線形分散法則を考慮し、光と比較すると、サニャック効果の深い理解が得られる。

The observation of the Sagnac effect for massive material particles offers a significant enhancement in sensitivity when compared to optical interferometers with equal area and angular rotation velocity. For this reason, there have been suggestions to employ solid-state interferometers that rely on semiconductors and graphene. We investigate the Sagnac effect in Dirac materials governed by the relativisticlike quasiparticle dispersion law and show that the fringe shift is still determined by the mass of a free electron. This confirms that graphene is indeed a promising material for creating solid-state Sagnac interferometers. Considering monolayer graphene with its linear dispersion law and comparing it with light provides a deeper understanding of the Sagnac effect.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# フェアネス・エンハンス・ミックス・エフェクトの深層学習による分布内および分布外(非ID)データの公平性向上

Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data ( http://arxiv.org/abs/2310.03146v3 )

ライセンス: Link先を確認
Son Nguyen, Adam Wang, Albert Montillo, (参考訳) 従来のディープラーニング(DL)モデルは2つの大きな課題に直面します。 まず、トレーニングサンプルが独立して同一に分散されていると仮定し、サンプルが共有された測定(例えば、参加者や細胞)によってグループ化される実世界のデータセットでは、その仮定がしばしば違反される。 これによりパフォーマンスが低下し、一般化が制限され、問題が解決し、Type 1とType 2のエラーが発生した。 第2に、DLモデルは一般的に全体的な正確さを優先し、過小評価されたグループ間で公平さを見落とし、融資承認や医療決定といった重要な領域でバイアスのある結果をもたらす。 これらの問題に対処するために、Fair Mixed Effects Deep Learning (Fair MEDL)フレームワークを紹介します。 Fair MEDLはクラスタ不変固定効果(FE)とクラスタ固有ランダム効果(RE)を定量化する 1)不変FEを学習するためのクラスタ敵 2)REのためのベイズニューラルネットワーク 3)最終予測にFEとREを組み合わせた混合関数。 さらに、敵の嫌悪感を取り入れて、3つの主要な指標(平等化オッド、デモグラフィックパリティ、カウンターファクチュアルフェアネス)の公平性を促進する。 また,プローブの重み付けを検知し,重み付けを行い,解釈性の向上を図る。 ファイナンスとヘルスケアの3つのデータセットに基づいて評価され、フェアMEDLは、年齢を最大73%、人種を47%、性を83%、結婚を26%改善し、堅牢な予測性能を維持している。 私たちの実装はGitHubで公開されています。

Traditional deep learning (DL) models face two key challenges. First, they assume training samples are independent and identically distributed, an assumption often violated in real-world datasets where samples are grouped by shared measurements (e.g., participants or cells). This leads to performance degradation, limited generalization, and confounding issues, causing Type 1 and Type 2 errors. Second, DL models typically prioritize overall accuracy, often overlooking fairness across underrepresented groups, leading to biased outcomes in critical areas such as loan approvals and healthcare decisions. To address these issues, we introduce the Fair Mixed Effects Deep Learning (Fair MEDL) framework. Fair MEDL quantifies cluster-invariant fixed effects (FE) and cluster-specific random effects (RE) through 1) a cluster adversary for learning invariant FE, 2) a Bayesian neural network for RE, and 3) a mixing function combining FE and RE for final predictions. Additionally, we incorporate adversarial debiasing to promote fairness across three key metrics: Equalized Odds, Demographic Parity, and Counterfactual Fairness. Our method also identifies and de-weights confounding probes, improving interpretability. Evaluated on three datasets from finance and healthcare, Fair MEDL improves fairness by up to 73% for age, 47% for race, 83% for sex, and 26% for marital status, while maintaining robust predictive performance. Our implementation is publicly available on GitHub.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# MMCBE:作物バイオマス予測のためのマルチモーダリティデータセット

MMCBE: Multi-modality Dataset for Crop Biomass Prediction and Beyond ( http://arxiv.org/abs/2404.11256v3 )

ライセンス: Link先を確認
Xuesong Li, Zeeshan Hayder, Ali Zia, Connor Cassidy, Shiming Liu, Warwick Stiller, Eric Stone, Warren Conaty, Lars Petersson, Vivien Rolland, (参考訳) 作物の生育、健康、生産性の重要指標である作物のバイオマスは、作物の育種プログラムや農業研究に有用である。 しかし、既存の測定方法の限界により、作物のバイオマスの正確でスケーラブルな定量化は依然として不可能である。 現在の作物バイオマス予測手法の進歩を妨げる障害の1つは、公開データセットの不足である。 このギャップに対処するため、我々はこの領域における新たなデータセット、すなわち、作物バイオマス推定のためのマルチモダリティデータセットを導入する。 216セットのマルチビュー・ドローン画像とLiDAR点雲とハンドラベリングされた地上真実を組み合わせたMCCBEは、この分野における最初のマルチモダリティの1つだ。 このデータセットは、作物のバイオマス定量化のためのベンチマーク手法を確立し、ビジョンベースのアプローチの開発を促進することを目的としている。 我々は,MCCBEを用いた最先端の作物バイオマス推定手法を厳格に評価し,ドローン画像からの3D作物の復元やノベルビューレンダリングなど,新たな応用の可能性を探った。 この発表で、包括的データセットを、より広いコミュニティで利用可能にしています。

Crop biomass, a critical indicator of plant growth, health, and productivity, is invaluable for crop breeding programs and agronomic research. However, the accurate and scalable quantification of crop biomass remains inaccessible due to limitations in existing measurement methods. One of the obstacles impeding the advancement of current crop biomass prediction methodologies is the scarcity of publicly available datasets. Addressing this gap, we introduce a new dataset in this domain, i.e. Multi-modality dataset for crop biomass estimation (MMCBE). Comprising 216 sets of multi-view drone images, coupled with LiDAR point clouds, and hand-labelled ground truth, MMCBE represents the first multi-modality one in the field. This dataset aims to establish benchmark methods for crop biomass quantification and foster the development of vision-based approaches. We have rigorously evaluated state-of-the-art crop biomass estimation methods using MMCBE and ventured into additional potential applications, such as 3D crop reconstruction from drone imagery and novel-view rendering. With this publication, we are making our comprehensive dataset available to the broader community.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# クロスドメイン新規クラス発見のための排他的スタイル除去

Exclusive Style Removal for Cross Domain Novel Class Discovery ( http://arxiv.org/abs/2406.18140v3 )

ライセンス: Link先を確認
Yicheng Wang, Feng Liu, Junmin Liu, Kai Sun, (参考訳) オープンワールド学習における有望な分野として、 \textit{Novel Class Discovery} (NCD) は、通常、同じドメイン内のラベル付きデータの事前の知識に基づいて、ラベル付きセットで未確認の新規クラスをクラスタリングするタスクである。 しかし, 従来のNCD法の性能は, ラベル付きクラスと異なる分布から新しいクラスをサンプリングした場合, 著しく損なわれる可能性がある。 本稿では,スタイル情報を削除する必要のある条件で,クロスドメイン設定におけるNCDの可解性について検討し,確立する。 理論的解析に基づいて,基本特徴と異なるスタイル情報を抽出する排他的スタイル除去モジュールを導入し,推論を容易にする。 さらに、このモジュールは他のNCDメソッドと簡単に統合でき、プラグインとして機能し、表示されたラベルセットと異なる分布を持つ新しいクラスのパフォーマンスを向上させることができる。 さらに、異なるバックボーンの非無視的な影響を認識し、NCD法の性能を事前学習戦略で評価し、将来のNCD研究のための公正なベンチマークを構築した。 3つの共通データセットに対する大規模な実験により,提案モジュールの有効性が示された。

As a promising field in open-world learning, \textit{Novel Class Discovery} (NCD) is usually a task to cluster unseen novel classes in an unlabeled set based on the prior knowledge of labeled data within the same domain. However, the performance of existing NCD methods could be severely compromised when novel classes are sampled from a different distribution with the labeled ones. In this paper, we explore and establish the solvability of NCD in cross domain setting with the necessary condition that style information must be removed. Based on the theoretical analysis, we introduce an exclusive style removal module for extracting style information that is distinctive from the baseline features, thereby facilitating inference. Moreover, this module is easy to integrate with other NCD methods, acting as a plug-in to improve performance on novel classes with different distributions compared to the seen labeled set. Additionally, recognizing the non-negligible influence of different backbones and pre-training strategies on the performance of the NCD methods, we build a fair benchmark for future NCD research. Extensive experiments on three common datasets demonstrate the effectiveness of our proposed module.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# 化粧品皮膚症に対する顔面神経根切開術 : テクスチャーマップに基づく弱視による前向きトレーニング

Facial Wrinkle Segmentation for Cosmetic Dermatology: Pretraining with Texture Map-Based Weak Supervision ( http://arxiv.org/abs/2408.10060v3 )

ライセンス: Link先を確認
Junho Moon, Haejun Chung, Ikbeom Jang, (参考訳) 顔のしわ検出は美容皮膚学において重要な役割を担っている。 顔のしわの精密な手作業分割は困難で時間を要するが,本質的な主観性は小学生の間に矛盾する結果をもたらす。 この問題に対処するため、我々は2つの解決策を提案する。 まず、NVIDIA FFHQデータセットの拡張である、最初の公開顔しわデータセット 'FFHQ-Wrinkle' を構築し、リリースします。 人間のラベル付き1000枚の画像と、自動生成された弱いラベル付き5万枚の画像が含まれている。 このデータセットは、研究コミュニティが高度なしわ検出アルゴリズムを開発する基盤となる可能性がある。 第2に,様々なセグメンテーションモデルに適用可能なテクスチャマップを用いた簡単なトレーニング手法を導入し,顔のしわを検出する。 我々の2段階のトレーニング戦略は、まず、弱いラベル(N=50k)を持つ大きなデータセット上の事前トレーニングモデル、またはコンピュータビジョン技術によって生成されるマスク付きテクスチャマップを人間の介入なしに作成する。 次に、手動でラベル付けされた輪郭マスクからなる人間ラベル付きデータ(N=1k)を用いてモデルを微調整する。 ネットワークは、4つのチャンネルからなる画像のRGBとマスクされたテクスチャマップの組み合わせを微調整で入力する。 手動ラベリングにおいて、複数のアノテータのラベルを効果的に組み合わせ、主観性を最小化する。 本手法は,既存の事前訓練法と比較して,顔のひび割れのセグメンテーションにおけるセグメンテーション性能を定量的および視覚的に向上させるものである。 データセットはhttps://github.com/labhai/ffhq-wrinkle-datasetで公開されている。

Facial wrinkle detection plays a crucial role in cosmetic dermatology. Precise manual segmentation of facial wrinkles is challenging and time-consuming, with inherent subjectivity leading to inconsistent results among graders. To address this issue, we propose two solutions. First, we build and release the first public facial wrinkle dataset, 'FFHQ-Wrinkle', an extension of the NVIDIA FFHQ dataset. It includes 1,000 images with human labels and 50,000 images with automatically generated weak labels. This dataset could serve as a foundation for the research community to develop advanced wrinkle detection algorithms. Second, we introduce a simple training strategy utilizing texture maps, applicable to various segmentation models, to detect wrinkles across the face. Our two-stage training strategy first pretrain models on a large dataset with weak labels (N=50k), or masked texture maps generated through computer vision techniques, without human intervention. We then finetune the models using human-labeled data (N=1k), which consists of manually labeled wrinkle masks. The network takes as input a combination of RGB and masked texture map of the image, comprising four channels, in finetuning. We effectively combine labels from multiple annotators to minimize subjectivity in manual labeling. Our strategies demonstrate improved segmentation performance in facial wrinkle segmentation both quantitatively and visually compared to existing pretraining methods. The dataset is available at https://github.com/labhai/ffhq-wrinkle-dataset.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# 遅延拡散を用いたマルチソース音楽生成

Multi-Source Music Generation with Latent Diffusion ( http://arxiv.org/abs/2409.06190v2 )

ライセンス: Link先を確認
Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury, (参考訳) ほとんどの音楽生成モデルは、直接1つの音楽ミックスを生成する。 より柔軟で制御しやすい生成を可能にするため、マルチソース拡散モデル (MSDM) は複数の楽器源(例えばピアノ、ドラム、ベース、ギター)の混合として音楽をモデル化するために提案されている。 その目標は、1つの拡散モデルを使って相互に整合した音楽ソースを生成し、それを混合して音楽を形成することである。 その能力にもかかわらず、MSDMは豊かな旋律で音楽を生成することができず、しばしば空の音を生成する。 その波形拡散アプローチは、オーディオ品質を損なうガウス的なノイズアーティファクトも導入している。 そこで我々は,変分オートエンコーダ(VAE)を用いて,各楽器の音源を別個の潜時表現に符号化するマルチソース潜時拡散モデル(MSLDM)を提案する。 全ての音楽ソースでVAEを訓練することにより、各ソースの特徴を「ソース潜在」で効率的に捉えることができる。 ソースラテントは連結され、我々の拡散モデルは、このジョイントラテント空間を学習する。 このアプローチは、VAEの潜在圧縮とノイズロス性を活用することにより、音楽の総生成と部分生成を著しく向上させる。 圧縮されたソース潜水剤は、より効率的な生成を容易にする。 主観的聴力テストとFrechet Audio Distance(FAD)スコアは、我々のモデルがMSDMより優れており、音楽生成システムにおける実用的で拡張された適用性を示している。 また,音源のモデリングは直接のミックス・モデリングよりも効果的であることも強調した。 コードとモデルはhttps://github.com/XZWY/MSLDM.comで公開されている。 デモはhttps://xzwy.github.io/MSLDMDemo/で公開されている。

Most music generation models directly generate a single music mixture. To allow for more flexible and controllable generation, the Multi-Source Diffusion Model (MSDM) has been proposed to model music as a mixture of multiple instrumental sources (e.g. piano, drums, bass, and guitar). Its goal is to use one single diffusion model to generate mutually-coherent music sources, that are then mixed to form the music. Despite its capabilities, MSDM is unable to generate music with rich melodies and often generates empty sounds. Its waveform diffusion approach also introduces significant Gaussian noise artifacts that compromise audio quality. In response, we introduce a Multi-Source Latent Diffusion Model (MSLDM) that employs Variational Autoencoders (VAEs) to encode each instrumental source into a distinct latent representation. By training a VAE on all music sources, we efficiently capture each source's unique characteristics in a "source latent." The source latents are concatenated and our diffusion model learns this joint latent space. This approach significantly enhances the total and partial generation of music by leveraging the VAE's latent compression and noise-robustness. The compressed source latent also facilitates more efficient generation. Subjective listening tests and Frechet Audio Distance (FAD) scores confirm that our model outperforms MSDM, showcasing its practical and enhanced applicability in music generation systems. We also emphasize that modeling sources is more effective than direct music mixture modeling. Codes and models are available at https://github.com/XZWY/MSLDM. Demos are available at https://xzwy.github.io/MSLDMDemo/.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# 大規模音声言語モデルに対する音声質問応答における時間的理解の促進

Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models ( http://arxiv.org/abs/2409.06223v2 )

ライセンス: Link先を確認
Arvind Krishna Sridhar, Yinyi Guo, Erik Visser, (参考訳) 音声質問回答タスクには、音声イベント分類、音声キャプション、オープンエンド推論が含まれる。 近年,大規模音声言語モデルの出現により,音声質問応答が注目されている。 現在の文献では、プロジェクションモジュールを通じて音声エンコーダとテキストのみの大規模言語モデルを統合することで、LALMの構築に重点を置いている。 大規模音声言語モデルは一般的な音声理解において優れているが、時間的推論において制限されており、商用アプリケーションやデバイス展開を妨げている可能性がある。 本稿では,音声時間的推論におけるこれらの課題と限界について述べる。 まず、LLMを用いて、信頼性の高い音声時間的質問や回答を生成するためのデータ拡張手法を提案する。 第2に、微調整タスクの性能を損なうことなく、時間的推論を専門とする微調整カリキュラム学習戦略を提案する。 最後に,LLMが支援する信頼性と透過性を備えた自動メトリクスを開発し,大規模音声言語モデル応答と地上真実データとの相関関係をインテリジェントに測定する。 公開音声ベンチマークデータセットにおけるSOTA LALMを用いた提案手法の有効性を実証する。

The Audio Question Answering task includes audio event classification, audio captioning, and open ended reasoning. Recently, Audio Question Answering has garnered attention due to the advent of Large Audio Language Models. Current literature focuses on constructing LALMs by integrating audio encoders with text only Large Language Models through a projection module. While Large Audio Language Models excel in general audio understanding, they are limited in temporal reasoning which may hinder their commercial applications and on device deployment. This paper addresses these challenges and limitations in audio temporal reasoning. First, we introduce a data augmentation technique for generating reliable audio temporal questions and answers using an LLM. Second, we propose a continued finetuning curriculum learning strategy to specialize in temporal reasoning without compromising performance on finetuned tasks. Finally, we develop a reliable and transparent automated metric, assisted by an LLM, to measure the correlation between Large Audio Language Model responses and ground truth data intelligently. We demonstrate the effectiveness of our proposed techniques using SOTA LALMs on public audio benchmark datasets.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# Cahier de l'Institut Pascal:ノイズ量子ダイナミクスと測定誘起相転移

Cahier de l'Institut Pascal: Noisy Quantum Dynamics and Measurement-Induced Phase Transitions ( http://arxiv.org/abs/2409.06310v2 )

ライセンス: Link先を確認
Alexios Christopoulos, Alessandro Santini, Guido Giachetti, (参考訳) これは、Institute Pascal(Orsay, France)のワークショップ"OpenQMBP2023"のフレームワークで進行中のカンファレンスであり、Ehud Altman教授の講義に関連している。 本稿では、量子系における測定誘起相転移(MIPT)の文脈における最近の知見を包括的に分析し、特に1次元のモデル系としてのハイブリッド量子回路に焦点をあてる。 近年の結果, 射影率の変動が相転移を誘導し, 絡み合い特性の急激な変化をもたらすことが明らかとなった。 ユニタリ進化と測定過程の相互作用は、古典的統計モデルへの写像とレプリカ場理論の応用を通して研究することができる。 低絡み合い状態から始めて、システムの一部に二分性絡み合いのエントロピーの異なるダイナミクスによって特徴づけられる3つのレギュラーが存在する: 急激な絡み合い飽和(エリア法)につながるハイレート測定、線形絡み合い成長を可能にするローレート測定(ボリューム法まで)、絡み合いが対数的に増加する臨界速度である。 最後に, 友長-ルッティンガー液中における臨界基底状態の場理論を検証し, 局所測定の非局所的効果について報告する。

This is a conference proceeding in the framework of workshop "OpenQMBP2023" at Institute Pascal (Orsay, France) and associated to the lecture given by Prof. Ehud Altman. We provide a comprehensive analysis of recent results in the context of measurement-induced phase transitions (MIPT) in quantum systems, with a particular focus on hybrid quantum circuits as a model system in one-dimension. Recent results, demonstrate how varying the rate of projective measurements can induce phase transitions, resulting in abrupt changes in the properties of the entanglement. The interplay between unitary evolution and measurement processes can be investigated, through mappings to classical statistical models and the application of replica field theory techniques. Starting from a low-entangled state, there can be three regimes characterized by different dynamics of bipartite entanglement entropies for a portion of the system: high-rate measurements leading to rapid entanglement saturation (area law), low-rate measurements allowing linear entanglement growth (up to volume law), and a critical rate at which entanglement grows logarithmically. Finally, we present results on the non-local effects of local measurements by examining the field theory of critical ground states in Tomonaga-Luttinger liquids.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# 修正積公式による高速アルゴリズム量子と古典シミュレーション

Faster Algorithmic Quantum and Classical Simulations by Corrected Product Formulas ( http://arxiv.org/abs/2409.08265v2 )

ライセンス: Link先を確認
Mohsen Bagherimehrab, Dominic W. Berry, Philipp Schleich, Abdulrahman Aldossary, Jorge A. Campos Gonzalez Angulo, Alan Aspuru-Guzik, (参考訳) 製品公式を用いたハミルトンシミュレーションは、量子コンピュータ上の量子系の力学のアルゴリズムシミュレーションにおいて最も単純かつ実用的なアプローチである。 ここでは、修正製品公式(CPFs)という、標準製品公式に補語と呼ばれる補助語を注入することによって達成される製品公式のバリエーションについて述べる。 格子ハミルトンの共通特徴である2つの分割からなるハミルトン式をシミュレートするための標準積公式の精度を大幅に向上するいくつかの補正器を構築し、シミュレーションコストに小さな加法因子または乗法因子を加えるだけでよい。 シミュレーション誤差を制御するための追加パラメータとして小ノルムを使用できるため、一方のパーティションが他方に比べて比較的小さなノルムを持つような摂動システムでは、補正器が特に有利であることを示す。 いくつかの格子ハミルトニアンに対する数値シミュレーションによりCPFの性能を示す。 計算結果から, CPF に対する理論誤差は, これらのシステムに対する標準積公式の実証誤差と一致するか, あるいは超えていることがわかった。 CPFは、限られた計算資源を持つ初期のフォールトトレラント量子コンピュータにとって、貴重なアルゴリズムツールである可能性がある。 標準の製品公式では、CPFは古典的なコンピュータのシミュレーションにも使える。

Hamiltonian simulation using product formulas is arguably the most straightforward and practical approach for algorithmic simulation of a quantum system's dynamics on a quantum computer. Here we present corrected product formulas (CPFs), a variation of product formulas achieved by injecting auxiliary terms called correctors into standard product formulas. We establish several correctors that greatly improve the accuracy of standard product formulas for simulating Hamiltonians comprised of two partitions that can be exactly simulated, a common feature of lattice Hamiltonians, while only adding a small additive or multiplicative factor to the simulation cost. We show that correctors are particularly advantageous for perturbed systems, where one partition has a relatively small norm compared to the other, as they allow the small norm to be utilized as an additional parameter for controlling the simulation error. We demonstrate the performance of CPFs by numerical simulations for several lattice Hamiltonians. Numerical results show our theoretical error bound for CPFs matches or exceeds the empirical error of standard product formulas for these systems. CPFs could be a valuable algorithmic tool for early fault-tolerant quantum computers with limited computing resources. As for standard product formulas, CPFs could also be used for simulations on a classical computer.
翻訳日:2024-09-16 11:57:31 公開日:2024-09-13
# TeXBLEU:LaTeXフォーマット評価のための自動メトリック

TeXBLEU: Automatic Metric for Evaluate LaTeX Format ( http://arxiv.org/abs/2409.06639v3 )

ライセンス: Link先を確認
Kyudan Jung, Nam-Joon Kim, Hyongon Ryu, Sieun Hyeon, Seung-jun Lee, Hyeok-jae Lee, (参考訳) LaTeXは、科学、技術、数学、計算機科学で特別なフォーマットの文書を作成するのに適している。 言語モデルとともにLaTeX形式での数学的表現の利用が増加しているが、評価する適切な評価行列は存在しない。 本研究では,n-gram-based BLEU で構築された LaTeX 形式の数学的表現を評価するための計量である TeXBLEU を提案する。 提案したTeXBLEUは、arXiv紙データセットでトレーニングされた事前定義されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。 TeXBLEUスコアは、BLUEの修正精度スコアをn-gramベースのトークンの類似性に置き換えることで計算された。 TeXBLEUは、1,000のデータポイントを持つMathBridgeデータセット上で、それぞれBLEU、S sacreBLEU、Rurgeといった従来の評価指標よりも86\%、121\%、610\%の改善を示した。 コードはhttps://github.com/KyuDan1/TeXBLEUで公開されている。

LaTeX is suitable for creating specially formatted documents in science, technology, mathematics, and computer science. Although the use of mathematical expressions in LaTeX format along with language models is increasing, there are no proper evaluation matrices to evaluate them. In this study, we propose TeXBLEU, a metric for evaluating mathematical expressions in the LaTeX format built on the n-gram-based BLEU metric widely used in translation tasks. The proposed TeXBLEU consists of a predefined tokenizer trained on the arXiv paper dataset and a fine-tuned embedding model with positional encoding. The TeXBLEU score was calculated by replacing BLUE's modified precision score with the similarity of n-gram-based tokens. TeXBLEU showed improvements of 86\%, 121\%, and 610\% over traditional evaluation metrics, such as BLEU, sacreBLEU, and Rouge, respectively, on the MathBridge dataset with 1,000 data points. The code is available at https://github.com/KyuDan1/TeXBLEU.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# LLMによるソフトウェアパッチのローカライゼーション

LLM-Enhanced Software Patch Localization ( http://arxiv.org/abs/2409.06816v2 )

ライセンス: Link先を確認
Jinhong Yu, Yi Chen, Di Tang, Xiaozhong Liu, XiaoFeng Wang, Chen Wu, Haixu Tang, (参考訳) オープンソースソフトウェア(OSS)は、現代の製品開発に不可欠なものであり、その中の脆弱性は、多くの製品に侵入する可能性がある。 開発者はセキュリティパッチを適用しようと努力するが、これらのパッチをOSSの大規模なアップデートで特定することは依然として難しい。 セキュリティパッチローカライゼーション(SPL)レコメンデーションメソッドは、この問題に対処するための主要なアプローチである。 しかしながら、既存のSPLモデルは、コミットが対応するCVEと明確な関連性が欠如している場合にしばしば混乱し、脆弱性が完全に解決される前に複数のパッチが提案されるシナリオを考慮しない。 これらの課題に対処するため、LLM-SPLというレコメンデーションベースのSPLアプローチを導入し、LLM(Large Language Model)の機能を活用して、所定のCVEのセキュリティパッチコミットを特定する。 より具体的には、LLMの出力がセキュリティパッチの優先順位付けにおける推奨モデルに役立つ追加機能として機能する共同学習フレームワークを提案する。 2,461個のパッチに関連付けられた1,915個のCVEのデータセットを評価したところ、LLM-SPLはパッチコミットのランク付けに優れており、リコールでは最先端のメソッドを上回り、手作業を大幅に削減していることがわかった。 特に、複数のパッチを必要とする脆弱性に対して、LLM-SPLはリコールを22.83\%改善し、NDCGを19.41\%改善し、トップ10までチェックすると手作業が25\%以上削減される。 データセットとソースコードは \url{https://anonymous.4open.science/r/LLM-SPL-91F8} で公開されている。

Open source software (OSS) is integral to modern product development, and any vulnerability within it potentially compromises numerous products. While developers strive to apply security patches, pinpointing these patches among extensive OSS updates remains a challenge. Security patch localization (SPL) recommendation methods are leading approaches to address this. However, existing SPL models often falter when a commit lacks a clear association with its corresponding CVE, and do not consider a scenario that a vulnerability has multiple patches proposed over time before it has been fully resolved. To address these challenges, we introduce LLM-SPL, a recommendation-based SPL approach that leverages the capabilities of the Large Language Model (LLM) to locate the security patch commit for a given CVE. More specifically, we propose a joint learning framework, in which the outputs of LLM serves as additional features to aid our recommendation model in prioritizing security patches. Our evaluation on a dataset of 1,915 CVEs associated with 2,461 patches demonstrates that LLM-SPL excels in ranking patch commits, surpassing the state-of-the-art method in terms of Recall, while significantly reducing manual effort. Notably, for vulnerabilities requiring multiple patches, LLM-SPL significantly improves Recall by 22.83\%, NDCG by 19.41\%, and reduces manual effort by over 25\% when checking up to the top 10 rankings. The dataset and source code are available at \url{https://anonymous.4open.science/r/LLM-SPL-91F8}.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# タッチによる能動物体認識・ポーズ推定・形状伝達学習のためのベイズ的枠組み

A Bayesian framework for active object recognition, pose estimation and shape transfer learning through touch ( http://arxiv.org/abs/2409.06912v2 )

ライセンス: Link先を確認
Haodong Zheng, Andrei Jalba, Raymond H. Cuijpers, Wijnand IJsselsteijn, Sanne Schoenmakers, (参考訳) 人間は触覚によって世界を探索し、理解することができるので、触覚はロボット知覚の重要な側面でもある。 構造化されていない環境では、ロボットは既知のオブジェクトと新しいオブジェクトの両方に遭遇し、既知のオブジェクトと新しいオブジェクトの両方に対処する方法を要求する。 本研究では,粒子フィルタ (PF) とガウス過程暗黙曲面 (GPIS) を統一ベイズ的枠組みに結合する。 このフレームワークは、既知のオブジェクトと新しいオブジェクトを区別し、オブジェクト認識を行い、既知のオブジェクトを推定し、未知のオブジェクトの形状をアクティブな学習方法で再構築することができる。 PFから最大形推定(MLE)形状に先立ってGPISを選択することにより、既知の物体の形状に関する知識を移譲し、新しい形状を学ぶことができる。 大域的な形状推定による探索手法を提案し,十分な情報が得られると,その探索を導出する。 提案したベイズフレームワークの性能は、未知のポーズで初期化される既知の新しいオブジェクトのシミュレーションによって評価される。 その結果,グローバルな形状推定を応用した探索手法が,RRT(Rapid Exploring random Tree)に基づく局所探索よりも高速に探索できることが示唆された。 以上の結果から,提案手法はオブジェクト認識,ポーズ推定,形状復元において有効かつ効率的であることが示唆された。 さらに、学習した形状を新しい先行要素として含め、将来の物体認識やポーズ推定に効果的に使用できることを示す。

As humans can explore and understand the world through the sense of touch, tactile sensing is also an important aspect of robotic perception. In unstructured environments, robots can encounter both known and novel objects, this calls for a method to address both known and novel objects. In this study, we combine a particle filter (PF) and Gaussian process implicit surface (GPIS) in a unified Bayesian framework. The framework can differentiate between known and novel objects, perform object recognition, estimate pose for known objects, and reconstruct shapes for unknown objects, in an active learning fashion. By grounding the selection of the GPIS prior with the maximum-likelihood-estimation (MLE) shape from the PF, the knowledge about known objects' shapes can be transferred to learn novel shapes. An exploration procedure with global shape estimation is proposed to guide active data acquisition and conclude the exploration when sufficient information is obtained. The performance of the proposed Bayesian framework is evaluated through simulations on known and novel objects, initialized with random poses. The results show that the proposed exploration procedure, utilizing global shape estimation, achieves faster exploration than a local exploration procedure based on rapidly explore random tree (RRT). Overall, our results indicate that the proposed framework is effective and efficient in object recognition, pose estimation and shape reconstruction. Moreover, we show that a learned shape can be included as a new prior and used effectively for future object recognition and pose estimation.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# ODYSSEE:エッジエレクトロニクスのセンサシステムによるオイスター検出

ODYSSEE: Oyster Detection Yielded by Sensor Systems on Edge Electronics ( http://arxiv.org/abs/2409.07003v2 )

ライセンス: Link先を確認
Xiaomin Lin, Vivek Mange, Arjun Suresh, Bernhard Neuberger, Aadi Palnitkar, Brendan Campbell, Alan Williams, Kleio Baxevani, Jeremy Mallette, Alhim Vera, Markus Vincze, Ioannis Rekleitis, Herbert G. Tanner, Yiannis Aloimonos, (参考訳) オイスターは沿岸生態系において重要なキーストーンであり、経済的、環境的、文化的な利益をもたらす。 カキの重要性が増すにつれて、その検出と監視に対する自律システムの関連性も高まる。 しかし、現在の監視戦略は破壊的な方法に依存していることが多い。 ビデオ映像からカキを手動で識別することは破壊的ではないが、時間がかかり、専門家の入力が必要であり、水中環境の課題によってさらに複雑である。 これらの課題に対処するため、我々は安定拡散を用いた新しいパイプラインを提案し、リアルな合成データを用いて収集された実データセットを増強する。 この方法は、YOLOv10ベースのビジョンモデルをトレーニングするために使用されるデータセットを強化する。 モデルが水中ロボティクスのエッジプラットフォームに展開されテストされ、Aqua2プラットフォーム上でのカキ検出のための最先端の0.657 mAP@50が達成される。

Oysters are a vital keystone species in coastal ecosystems, providing significant economic, environmental, and cultural benefits. As the importance of oysters grows, so does the relevance of autonomous systems for their detection and monitoring. However, current monitoring strategies often rely on destructive methods. While manual identification of oysters from video footage is non-destructive, it is time-consuming, requires expert input, and is further complicated by the challenges of the underwater environment. To address these challenges, we propose a novel pipeline using stable diffusion to augment a collected real dataset with realistic synthetic data. This method enhances the dataset used to train a YOLOv10-based vision model. The model is then deployed and tested on an edge platform in underwater robotics, achieving a state-of-the-art 0.657 mAP@50 for oyster detection on the Aqua2 platform.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# RePlay: 実験と生産のための推奨フレームワーク

RePlay: a Recommendation Framework for Experimentation and Production Use ( http://arxiv.org/abs/2409.07272v2 )

ライセンス: Link先を確認
Alexey Vasilev, Anna Volodkevich, Denis Kulandin, Tatiana Bysheva, Anton Klenitskiy, (参考訳) 推奨システムの構築と比較に1つのツールを使用すると、新しいモデルの市場投入までの時間が大幅に削減される。 さらに、このようなツールを使用する場合の比較結果は、より一貫性があるように見える。 そのため、リコメンデーション分野の研究者のための様々なツールやライブラリが最近登場した。 残念なことに、これらのフレームワークのほとんどは主に研究者を対象としており、大規模なデータセットや不適切なアーキテクチャで作業できないため、本番環境での使用のために修正が必要である。 このデモでは、オープンソースのツールキットであるRePlayを紹介します。 RePlayはまた、各ステージでパイプラインに適したスタック(Pandas、Polars、Spark)を使用することもできる。 これにより、ライブラリは計算をスケールし、クラスタにデプロイできる。 したがって、RePlayはデータサイエンティストが同じインターフェイスを使って簡単に研究モードからプロダクションモードに移行することを可能にする。

Using a single tool to build and compare recommender systems significantly reduces the time to market for new models. In addition, the comparison results when using such tools look more consistent. This is why many different tools and libraries for researchers in the field of recommendations have recently appeared. Unfortunately, most of these frameworks are aimed primarily at researchers and require modification for use in production due to the inability to work on large datasets or an inappropriate architecture. In this demo, we present our open-source toolkit RePlay - a framework containing an end-to-end pipeline for building recommender systems, which is ready for production use. RePlay also allows you to use a suitable stack for the pipeline on each stage: Pandas, Polars, or Spark. This allows the library to scale computations and deploy to a cluster. Thus, RePlay allows data scientists to easily move from research mode to production mode using the same interfaces.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# 人間の健康モニタリングにおける説明可能なAIの役割

The Role of Explainable AI in Revolutionizing Human Health Monitoring ( http://arxiv.org/abs/2409.07347v2 )

ライセンス: Link先を確認
Abdullah Alharthi, Ahmed Alqurashi, Turki Alharbi, Mohammed Alammar, Nasser Aldosari, Houssem Bouchekara, Yusuf Shaaban, Mohammad Shoaib Shahriar, Abdulrahman Al Ayidh, (参考訳) 疾患のメカニズムの複雑な性質と患者の症状の多様性は、効果的な診断ツールを開発する上で重要な障害となる。 機械学習は医学的診断においてかなりの進歩を遂げているが、その意思決定プロセスは透明性を欠くことが多く、患者の結果を危険にさらす可能性がある。 このことは、説明可能なAI(XAI)がより明確性を提供するだけでなく、患者のケアを大幅に改善する可能性を秘めている。 本稿では、パーキンソン病、脳卒中、うつ病、がん、心臓病、アルツハイマー病などの慢性疾患に焦点を当て、様々なデータベースをまたいだ検索によって同定されたXAI法を詳細に分析する。 文献検索では、医療分野における9つのトレンドXAIアルゴリズムの適用を明らかにし、それぞれの長所と短所を強調した。 そこで本論文は,ヒトの健康モニタリングにおけるXAIの課題と今後の研究機会について,批判的な評価で締めくくった。

The complex nature of disease mechanisms and the variability of patient symptoms present significant obstacles in developing effective diagnostic tools. Although machine learning has made considerable advances in medical diagnosis, its decision-making processes frequently lack transparency, which can jeopardize patient outcomes. This underscores the critical need for Explainable AI (XAI), which not only offers greater clarity but also has the potential to significantly improve patient care. In this literature review, we conduct a detailed analysis of analyzing XAI methods identified through searches across various databases, focusing on chronic conditions such as Parkinson's, stroke, depression, cancer, heart disease, and Alzheimer's disease. The literature search revealed the application of 9 trending XAI algorithms in the field of healthcare and highlighted the pros and cons of each of them. Thus, the article is concluded with a critical appraisal of the challenges and future research opportunities for XAI in human health monitoring.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# 欠損モードを用いた深層マルチモーダル学習に関する包括的調査

A Comprehensive Survey on Deep Multimodal Learning with Missing Modality ( http://arxiv.org/abs/2409.07825v2 )

ライセンス: Link先を確認
Renjie Wu, Hu Wang, Hsiang-Ting Chen, (参考訳) マルチモーダルモデルトレーニングと推論の間、データサンプルは特定のモダリティを逸脱し、センサーの制限、コスト制限、プライバシー上の懸念、データ損失、時間的および空間的要因によるモデルパフォーマンスを損なう可能性がある。 本調査は,ディープラーニング技術に着目したMLMM(Multimodal Learning with Missing Modality)の最近の進歩について概説する。 これは、MLMMと標準マルチモーダル学習設定の歴史的背景と区別に関する最初の総合的な調査であり、続いて現在のMLMMメソッド、アプリケーション、データセットの詳細な分析を行い、この分野における課題と今後の方向性に関する議論を締めくくった。

During multimodal model training and reasoning, data samples may miss certain modalities and lead to compromised model performance due to sensor limitations, cost constraints, privacy concerns, data loss, and temporal and spatial factors. This survey provides an overview of recent progress in Multimodal Learning with Missing Modality (MLMM), focusing on deep learning techniques. It is the first comprehensive survey that covers the historical background and the distinction between MLMM and standard multimodal learning setups, followed by a detailed analysis of current MLMM methods, applications, and datasets, concluding with a discussion about challenges and potential future directions in the field.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# ポスト量子暗号へ向けたソフトウェア実行ツールのマイグレーション支援ツールチェーン

A Toolchain for Assisting Migration of Software Executables Towards Post-Quantum Cryptography ( http://arxiv.org/abs/2409.07852v2 )

ライセンス: Link先を確認
Norrathep Rattanavipanon, Jakapan Suaboot, Warodom Werapun, (参考訳) 量子コンピューティングは、今日のセキュリティメカニズムに重大な世界的脅威をもたらす。 その結果、セキュリティ専門家と公共部門は、組織がソフトウェアをポスト量子暗号(PQC)に移行するのを支援するためのガイドラインを発行した。 これらの努力にもかかわらず、この移行をサポートするための(半自動的な)ツールが欠如している。 このギャップに対処するため、本研究では、まず、量子ハザード可能なソフトウェア実行ファイルを検出するツールに必要な一連の要件を提案する。 これらの要件に従い、QED: Quantum-vulnerable Executable Detectionのためのツールチェーンを紹介する。 QEDは、ファイルレベルからAPIレベルまで、与えられた実行ファイルセット内の量子ハザード依存を識別するために3フェーズのアプローチを使用し、最後に、量子ハザード可能なAPIをトリガーする静的トレースを正確に識別する。 4つの暗号ライブラリを持つ合成データセットと200以上のソフトウェア実行可能ファイルを持つ実世界のデータセットでQEDを評価した。 その結果、(1)QEDは、合成データセットにおける100%の精度で量子安全な実行可能量と区別し、(2)QEDは実用的でスケーラブルで、実世界の実行可能量につき平均4秒未満で解析を完了し、(3)QEDは、実世界のデータセットにおける量子ハザード可能な実行可能量を特定するためにアナリストが必要とする手作業量を90%以上削減する。 我々は、QEDがPQCへの移行を促進する重要なツールになり得ることを願っている。

Quantum computing poses a significant global threat to today's security mechanisms. As a result, security experts and public sectors have issued guidelines to help organizations migrate their software to post-quantum cryptography (PQC). Despite these efforts, there is a lack of (semi-)automatic tools to support this transition especially when software is used and deployed as binary executables. To address this gap, in this work, we first propose a set of requirements necessary for a tool to detect quantum-vulnerable software executables. Following these requirements, we introduce QED: a toolchain for Quantum-vulnerable Executable Detection. QED uses a three-phase approach to identify quantum-vulnerable dependencies in a given set of executables, from file-level to API-level, and finally, precise identification of a static trace that triggers a quantum-vulnerable API. We evaluate QED on both a synthetic dataset with four cryptography libraries and a real-world dataset with over 200 software executables. The results demonstrate that: (1) QED discerns quantum-vulnerable from quantum-safe executables with 100% accuracy in the synthetic dataset; (2) QED is practical and scalable, completing analyses on average in less than 4 seconds per real-world executable; and (3) QED reduces the manual workload required by analysts to identify quantum-vulnerable executables in the real-world dataset by more than 90%. We hope that QED can become a crucial tool to facilitate the transition to PQC, particularly for small and medium-sized businesses with limited resources.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# パーキンソン病検出のためのグラフニューラルネットワーク

Graph Neural Networks for Parkinsons Disease Detection ( http://arxiv.org/abs/2409.07884v2 )

ライセンス: Link先を確認
Shakeel A. Sheikh, Yacouba Kaloga, Ina Kodrasi, (参考訳) パーキンソン病(PD)検出のための最先端のアプローチの有望な性能にもかかわらず、これらのアプローチはしばしば個別の音声セグメントを分離して分析し、最適な結果をもたらす。 PD患者から発せられる音声障害の特徴を特徴づける外科的手がかりは、異なる話者のセグメントにまたがって関連することが期待されている。 分離されたセグメント分析は、これらのセグメント間の関係を利用できない。 さらに, PD患者の全ての音声区間が明確な顎関節症状を呈する訳ではなく, ラベルノイズは, 現在のアプローチの性能と一般化性に悪影響を及ぼす可能性がある。 これらの課題に対処するために,グラフ畳み込みネットワーク(GCN)を利用した新しいPD検出フレームワークを提案する。 音声セグメントをノードとして表現し、エッジを介してセグメント間の類似性を捉えることにより、GCNモデルは、グラフ全体にわたる変形的手がかりの集約を容易にし、セグメント関係を効果的に活用し、ラベルノイズの影響を緩和する。 PD検出のための提案したGCNモデルの利点を実証し、その基盤となるメカニズムに関する洞察を提供する実験結果が得られた。

Despite the promising performance of state of the art approaches for Parkinsons Disease (PD) detection, these approaches often analyze individual speech segments in isolation, which can lead to suboptimal results. Dysarthric cues that characterize speech impairments from PD patients are expected to be related across segments from different speakers. Isolated segment analysis fails to exploit these inter segment relationships. Additionally, not all speech segments from PD patients exhibit clear dysarthric symptoms, introducing label noise that can negatively affect the performance and generalizability of current approaches. To address these challenges, we propose a novel PD detection framework utilizing Graph Convolutional Networks (GCNs). By representing speech segments as nodes and capturing the similarity between segments through edges, our GCN model facilitates the aggregation of dysarthric cues across the graph, effectively exploiting segment relationships and mitigating the impact of label noise. Experimental results demonstrate theadvantages of the proposed GCN model for PD detection and provide insights into its underlying mechanisms
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# 条件付きデノイング拡散モデルによるデジタル台風衛星画像からの大気変動の推定

Estimating Atmospheric Variables from Digital Typhoon Satellite Images via Conditional Denoising Diffusion Models ( http://arxiv.org/abs/2409.07961v2 )

ライセンス: Link先を確認
Zhangyue Ling, Pritthijit Nath, César Quilodrán-Casas, (参考訳) 本研究では,デジタル台風衛星画像から複数のERA5気象変数を同時に予測し,台風分野における拡散モデルの適用について検討した。 この研究の焦点は台湾であり、台風に非常に脆弱な地域である。 The performance of Conditional Denoising Diffusion Probability Model (CDDPM) with Convolutional Neural Networks (CNN) and Squeeze-and-Excitation Networks (SENet) results suggests that the CDDPMは正確な気象データを生成するのに最適である。 具体的には、CDDPMのPSNRは32.807で、CNNより約7.9%高く、SENetより5.5%高い。 さらにCDDPMのRMSEは0.032で、CNNは11.1%、SENetは8.6%改善した。 この研究の重要な応用は、欠落した気象データセットの計算目的と、衛星画像を用いた高品質な気象データの生成である。 この分析の結果により、より堅牢で詳細な予測が可能となり、脆弱な地域での厳しい気象事象の影響が軽減されることが期待されている。 https://github.com/TammyLing/Typhoon-forecasting.comからアクセス可能。

This study explores the application of diffusion models in the field of typhoons, predicting multiple ERA5 meteorological variables simultaneously from Digital Typhoon satellite images. The focus of this study is taken to be Taiwan, an area very vulnerable to typhoons. By comparing the performance of Conditional Denoising Diffusion Probability Model (CDDPM) with Convolutional Neural Networks (CNN) and Squeeze-and-Excitation Networks (SENet), results suggest that the CDDPM performs best in generating accurate and realistic meteorological data. Specifically, CDDPM achieved a PSNR of 32.807, which is approximately 7.9% higher than CNN and 5.5% higher than SENet. Furthermore, CDDPM recorded an RMSE of 0.032, showing a 11.1% improvement over CNN and 8.6% improvement over SENet. A key application of this research can be for imputation purposes in missing meteorological datasets and generate additional high-quality meteorological data using satellite images. It is hoped that the results of this analysis will enable more robust and detailed forecasting, reducing the impact of severe weather events on vulnerable regions. Code accessible at https://github.com/TammyLing/Typhoon-forecasting.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# 不安定真空中のQED補正

QED Corrections in Unstable Vacuum ( http://arxiv.org/abs/2409.08121v2 )

ライセンス: Link先を確認
V. A. Zaytsev, V. A. Yerokhin, C. H. Keitel, N. S. Oreshkina, (参考訳) 超臨界クーロン場において、量子電磁力学(QED)における自己エネルギーと真空分極効果が計算され、ディラックエネルギーレベルが負のエネルギー連続体に埋め込まれる。 この状態において、量子真空は不安定になり、自発的な電子-陽電子対が生成される。 QED補正の想像的部分を計算することで、真空不安定な未探索チャネルへのアクセスが得られる。 以上の結果から, この放射チャネルは超臨界状態のしきい値付近で大幅に増強され, 微細構造定数$\alpha$に対する非摂動効果の証拠が得られた。 したがって、自然対生成の総確率は、特に超臨界しきい値付近のディラック理論の予測と大きく異なる可能性がある。

Self-energy and vacuum polarization effects in quantum electrodynamics (QED) are calculated for the supercritical Coulomb field, where Dirac energy levels become embedded in the negative-energy continuum. In this regime, the quantum vacuum becomes unstable, resulting in spontaneous electron-positron pair creation. By calculating the imaginary part of the QED correction, we gain access to an unexplored channel of vacuum instability: radiative spontaneous pair creation. Our results show that this radiative channel is greatly enhanced in the vicinity of the threshold of the supercritical regime, providing evidence for nonperturbative effects with respect to the fine-structure constant $\alpha$. We therefore conjecture that the total probability of spontaneous pair creation could differ significantly from the predictions of Dirac theory, especially near the supercritical threshold.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# 非相反量子吸収のための時空間光子遮断

Spatiotemporal Photon Blockade for Nonreciprocal Quantum Absorption ( http://arxiv.org/abs/2409.08137v2 )

ライセンス: Link先を確認
Sajjad Taravati, (参考訳) 光子の流れを制御することは、量子技術の進歩に不可欠である。 時空間-周期的準曲面を用いた非相互量子吸収のための時空間光子遮断の概念を導入する。 本研究では, この効果を実験的に実現するための方法論を提案し, 準曲面の時空間変調と光子周波数のコヒーレンスにより, 片方向量子吸収が可能となることを示した。 本システムでは、前方移動光子はスラブ内でエネルギー的に変調・吸収され、後方移動光子は相互作用なく伝達される。 我々の分析には、バンド構造、等周波図、非相互吸収結果が含まれる。 これらの発見は、ミリケルビン温度量子系における非相互量子デバイスの開発と光子管理の強化の基礎となった。

Controlling the flow of photons is crucial for advancing quantum technologies. We introduce the concept of spatiotemporal photon blockade for nonreciprocal quantum absorption, utilizing space-time-periodic metasurfaces. Our study presents a methodology for experimentally realizing this effect, where photon frequency coherence with the metasurface's space-time modulation enables one-way quantum absorption. In this system, forward-traveling photons are energetically modulated and absorbed within the slab, while backward-traveling photons are transmitted without interaction. Our analysis includes band structure, isofrequency diagrams, and nonreciprocal absorption results. These findings lay the groundwork for developing nonreciprocal quantum devices and enhancing photon management in milli-Kelvin temperature quantum systems.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13
# 半自律型サイバー物理システムのためのインフォーマティブ・テイクオーバー要求の設計:ドローン制御系における音声言語と視覚アイコンの組み合わせ

The Design of Informative Take-Over Requests for Semi-Autonomous Cyber-Physical Systems: Combining Spoken Language and Visual Icons in a Drone-Controller Setting ( http://arxiv.org/abs/2409.08253v2 )

ライセンス: Link先を確認
Ashwini Gundappa, Emilia Ellsiepen, Lukas Schmitz, Frederik Wiehr, Vera Demberg, (参考訳) サイバー物理システムは、制御を乗っ取り、監視を行うことのできる人間のパートナーとどのように相互作用すべきかという疑問は、より広い範囲のタスクに配備されるため、ますます迫りつつある。 本稿では,半自律運転と人間ロボットのインタラクションにおける制御の引き渡しに関する文献に基づいて,抽象的プレアラートと情報的TORを組み合わせたテイクオーバー要求の設計を提案する: 関連するセンサ情報をコントローラのディスプレイにハイライトし,音声メッセージがTORの理由を口頭で述べる。 我々は、テストベッドとして半自律ドローン制御シナリオの文脈で研究を行う。 私たちのオンライン研究の目的は、言語ベースのTORがどのような形をとるべきかをより詳細に評価することにあります。 具体的には、全文条件を短い断片と比較し、視覚的ハイライトを音声と同期的に、あるいは非同期的に行うべきかをテストする。 被験者は,両モードのTORで正しい解を選択する際に高い精度を示し,危機状況の認識がより良好であると感じた。 完全文ではなく音声メッセージの断片のみを使用することで、精度の向上や反応の高速化には至らなかった。 また、音声メッセージと視覚強調表示を同期させることで精度が向上せず、応答時間も増大した。

The question of how cyber-physical systems should interact with human partners that can take over control or exert oversight is becoming more pressing, as these systems are deployed for an ever larger range of tasks. Drawing on the literatures on handing over control during semi-autonomous driving and human-robot interaction, we propose a design of a take-over request that combines an abstract pre-alert with an informative TOR: Relevant sensor information is highlighted on the controller's display, while a spoken message verbalizes the reason for the TOR. We conduct our study in the context of a semi-autonomous drone control scenario as our testbed. The goal of our online study is to assess in more detail what form a language-based TOR should take. Specifically, we compare a full sentence condition to shorter fragments, and test whether the visual highlighting should be done synchronously or asynchronously with the speech. Participants showed a higher accuracy in choosing the correct solution with our bi-modal TOR and felt that they were better able to recognize the critical situation. Using only fragments in the spoken message rather than full sentences did not lead to improved accuracy or faster reactions. Also, synchronizing the visual highlighting with the spoken message did not result in better accuracy and response times were even increased in this condition.
翻訳日:2024-09-16 11:48:15 公開日:2024-09-13