このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240927となっている論文です。

PDF登録状況(公開日: 20240927)

TitleAuthorsAbstract論文公表日・翻訳日
# 画像属性編集のための高忠実GANインバージョン

High-Fidelity GAN Inversion for Image Attribute Editing ( http://arxiv.org/abs/2109.06590v4 )

ライセンス: Link先を確認
Tengfei Wang, Yong Zhang, Yanbo Fan, Jue Wang, Qifeng Chen, (参考訳) 本稿では, 画像固有の細部(背景, 外観, 照明など)をよく保存した属性編集が可能な, GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。 まず、損失データ圧縮の観点から、高忠実度GAN逆変換の課題を解析する。 低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。 遅延コードのサイズを増やすことで、GAN変換の精度が向上するが、編集性は劣る。 編集性を損なうことなく画像の忠実度を向上させるために,歪みマップを高忠実度再構成の基準として用いた歪みコンサルテーション手法を提案する。 歪みコンサルテーションインバージョン (DCI) において、歪みマップは最初、高いレートの潜時写像に投影され、次に、基本的な低レート潜時符号を、より詳細なコンサルテーション融合によって補完する。 高忠実度編集を実現するために,編集画像と反転画像のギャップを埋める自己教師付きトレーニングスキームを用いた適応歪みアライメント(ADA)モジュールを提案する。 顔領域と車領域における大規模な実験は、インバージョンと編集品質の両方において明らかに改善されている。

We present a novel high-fidelity generative adversarial network (GAN) inversion framework that enables attribute editing with image-specific details well-preserved (e.g., background, appearance, and illumination). We first analyze the challenges of high-fidelity GAN inversion from the perspective of lossy data compression. With a low bit-rate latent code, previous works have difficulties in preserving high-fidelity details in reconstructed and edited images. Increasing the size of a latent code can improve the accuracy of GAN inversion but at the cost of inferior editability. To improve image fidelity without compromising editability, we propose a distortion consultation approach that employs a distortion map as a reference for high-fidelity reconstruction. In the distortion consultation inversion (DCI), the distortion map is first projected to a high-rate latent map, which then complements the basic low-rate latent code with more details via consultation fusion. To achieve high-fidelity editing, we propose an adaptive distortion alignment (ADA) module with a self-supervised training scheme, which bridges the gap between the edited and inversion images. Extensive experiments in the face and car domains show a clear improvement in both inversion and editing quality.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-27
# 科学者はどのようにしてオブザーバーに依存しない科学を確立することができるのか?

How can scientists establish an observer-independent science? Embodied cognition, consciousness and quantum mechanics ( http://arxiv.org/abs/2112.15428v3 )

ライセンス: Link先を確認
John Realpe-Gómez, (参考訳) エビデンス(エビデンス)は、その行動と知覚が互いに一致して決定し、行動知覚ループを形成する、体現認知の理論のために成長している。 これは、人間が何らかの形で知覚するものに参加することを示唆している。 では、どのようにして科学者が行動知覚ループから逃れて、世界の観察者に依存しない説明を得ることができるのか? ここでは、心の哲学と科学と量子物理学のリバースエンジニアリングから得られる一連の予想を提示し、この問題を探求する。 我々は、エンボディメントが伝統的に理解されているように、想像時間量子力学の側面を示すことができると論じる。 次に、真にリアルタイムな量子力学の側面を得るのに必要な追加の制約について検討する。 特に、実験を行う実施科学者は、認知を具現化するための従来のアプローチでは無視されている他の科学者の視点から説明されなければならないと推測し、観察者は、他の観察者が経験する対象と、他の観察対象を経験する「対象」の両方として補完的な役割を担わなければならない。

Evidence is growing for the theory of embodied cognition, which posits that action and perception co-determine each other, forming an action-perception loop. This suggests that we humans somehow participate in what we perceive. So, how can scientists escape the action-perception loop to obtain an observer-independent description of the world? Here we present a set of conjectures informed by the philosophy of mind and a reverse-engineering of science and quantum physics to explore this question. We argue that embodiment, as traditionally understood, can manifest aspects of imaginary-time quantum dynamics. We then explore what additional constraints are required to obtain aspects of genuine, real-time quantum dynamics. In particular, we conjecture that an embodied scientist doing experiments must be described from the perspective of another scientist, which is ignored in traditional approaches to embodied cognition, and that observers play complementary roles as both objects experienced by other observers and ``subjects'' that experience other objects.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-27
# ベリー-ディポールの遷移における外在的および内在的非線形ホール効果

Extrinsic and Intrinsic Nonlinear Hall Effects across Berry-Dipole Transitions ( http://arxiv.org/abs/2208.02972v2 )

ライセンス: Link先を確認
Zheng-Yang Zhuang, Zhongbo Yan, (参考訳) 3次元ホップ絶縁体(3-dimensional Hopf insulator)は、トポロジカル位相のクラスである。 異なるホップ不変量を持つ2つの回転不変ホップ絶縁体相を分離する臨界点は、通常のディラック型やワイル型臨界点とは大きく異なり、量子化されたベリー双極子によって特徴付けられる。 このようなベリー-双極子遷移に近く、弱ドーピング状態における外在的および内在的非線形ホール伝導率テンソルは、ドーピングレベルとバルクエネルギーギャップの比の2つの普遍関数によって特徴づけられ、遷移のホップ不変量の変化に直接比例する。 我々の研究は、非線形ホール効果はベリー-双極子遷移全体にわたって一般的な量子化挙動を示し、非線形ホール効果とホップ不変量との対応性を確立することを示唆している。

Three-dimensional Hopf insulators are a class of topological phases beyond the tenfold-way classification. The critical point separating two rotation-invariant Hopf insulator phases with distinct Hopf invariants is quite different from the usual Dirac-type or Weyl-type critical points and uniquely characterized by a quantized Berry dipole. Close to such Berry-dipole transitions, we find that the extrinsic and intrinsic nonlinear Hall conductivity tensors in the weakly doped regime are characterized by two universal functions of the ratio between doping level and bulk energy gap, and are directly proportional to the change in Hopf invariant across the transition. Our work suggests that the nonlinear Hall effects display a general-sense quantized behavior across Berry-dipole transitions, establishing a correspondence between nonlinear Hall effects and Hopf invariant.
翻訳日:2024-11-09 15:46:48 公開日:2024-09-27
# ディープラーニングのためのラデマッハ複雑度に基づく一般化境界について

On Rademacher Complexity-based Generalization Bounds for Deep Learning ( http://arxiv.org/abs/2208.04284v3 )

ライセンス: Link先を確認
Lan V. Truong, (参考訳) Rademacherの複雑性に基づくアプローチは、少数の画像のクラスを分類するために、畳み込みニューラルネットワーク(CNN)上の非空の一般化バウンダリを生成することができる。 一般リプシッツ活性化関数に対する関数空間とCNNの間の高次元写像のための新しいタラグランド縮約補題の開発は重要な技術的貢献である。 以上の結果から,ReLU,Leaky ReLU,Parametric Rectifier Linear Unit,Sigmoid,Tanhなどの特別なアクティベーション機能を持つCNNのネットワーク長に依存しないことがわかった。

We show that the Rademacher complexity-based approach can generate non-vacuous generalisation bounds on Convolutional Neural Networks (CNNs) for classifying a small number of classes of images. The development of new Talagrand's contraction lemmas for high-dimensional mappings between function spaces and CNNs for general Lipschitz activation functions is a key technical contribution. Our results show that the Rademacher complexity does not depend on the network length for CNNs with some special types of activation functions such as ReLU, Leaky ReLU, Parametric Rectifier Linear Unit, Sigmoid, and Tanh.
翻訳日:2024-11-09 15:46:48 公開日:2024-09-27
# DICTDIS:改良NMTのための曖昧さを制限した辞書

DICTDIS: Dictionary Constrained Disambiguation for Improved NMT ( http://arxiv.org/abs/2210.06996v3 )

ライセンス: Link先を確認
Ayush Maheshwari, Preethi Jyothi, Ganesh Ramakrishnan, (参考訳) ドメイン固有ニューラルマシン翻訳(NMT)システムは、多言語社会における多様なユーザ集合に情報をアクセスできるようにする可能性において、社会的に重要な存在である。 このようなNMTシステムは、語彙的に制約され、ドメイン固有の辞書から引き出されることが望ましい。 辞書は、単語の多文性のために、ソースワード/フレーズに対して複数の候補翻訳を提示することができる。 次に、オンスはNMTモデル上で、文脈的に最も適切な候補を選択する。 以前の作業ではこの問題をほとんど無視しており、ターゲット語やフレーズを単一の制約に置き換える単一の制約設定に重点を置いていた。 本研究では辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。 我々は、複数の辞書候補とのトレーニングデータを増強し、複数の候補制約を暗黙的に調整することで、トレーニング中の曖昧さを積極的に促進する。 我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。 また、標準ベンチマークテストデータセットの比較も行う。 語彙的に制約された非拘束NMTに対する既存のアプローチと比較して、制限されたコピーや曖昧さに関連するすべての領域に対する優れた性能を示し、また、いくつかの領域において最大2-3 BLEU点の周波数改善を得る。

Domain-specific neural machine translation (NMT) systems (e.g., in educational applications) are socially significant with the potential to help make information accessible to a diverse set of users in multilingual societies. It is desirable that such NMT systems be lexically constrained and draw from domain-specific dictionaries. Dictionaries could present multiple candidate translations for a source word/phrase due to the polysemous nature of words. The onus is then on the NMT model to choose the contextually most appropriate candidate. Prior work has largely ignored this problem and focused on the single candidate constraint setting wherein the target word or phrase is replaced by a single constraint. In this work we present DictDis, a lexically constrained NMT system that disambiguates between multiple candidate translations derived from dictionaries. We achieve this by augmenting training data with multiple dictionary candidates to actively encourage disambiguation during training by implicitly aligning multiple candidate constraints. We demonstrate the utility of DictDis via extensive experiments on English-Hindi and English-German sentences in a variety of domains including regulatory, finance, engineering. We also present comparisons on standard benchmark test datasets. In comparison with existing approaches for lexically constrained and unconstrained NMT, we demonstrate superior performance with respect to constraint copy and disambiguation related measures on all domains while also obtaining improved fluency of up to 2-3 BLEU points on some domains.
翻訳日:2024-11-09 15:35:37 公開日:2024-09-27
# モバイルアプリケーションにおけるAI技術に関する実証的研究

An Empirical Study of AI Techniques in Mobile Applications ( http://arxiv.org/abs/2212.01635v3 )

ライセンス: Link先を確認
Yinghua Li, Xueqi Dang, Haoye Tian, Tiezhu Sun, Zhijie Wang, Lei Ma, Jacques Klein, Tegawendé F. Bissyandé, (参考訳) モバイルアプリケーションへの人工知能(AI)の統合は、さまざまなドメインを大きく変え、ユーザエクスペリエンスを高め、高度な機械学習(ML)とディープラーニング(DL)技術を通じてパーソナライズされたサービスを提供する。 AI駆動のモバイルアプリは通常、ML/DL技術を活用して画像認識や自然言語処理などの重要なタスクを実行するアプリケーションを指す。 本稿では、デバイス上でのMLアプリ、デバイス上でのDLアプリ、AIサービスをサポートする(クラウドベースの)アプリなど、AIアプリケーションに関する最も広範な実証的研究を行った。 私たちの研究は、56,682の現実世界のAIアプリケーションを含み、3つの重要な視点に焦点を当てている。 1)AIアプリの人気を分析し、AIアプリの更新状況を調査するアプリケーション分析。 2)AIフレームワークの使用状況とAIモデル保護を分析するフレームワークとモデル分析。 3)ユーザプライバシ保護とユーザレビューの態度を検討するユーザ分析を行った。 私たちの研究は、AIアプリ開発者、ユーザ、AI R\&Dに強く影響しています。 ひとつは、モバイルアプリケーションにおけるAI統合の増加傾向に注目し、さまざまなAIフレームワークやモデルが広く採用されていることを示しています。 一方,アプリセキュリティを強化するために,堅牢なモデル保護の必要性が指摘されている。 さらに、ユーザプライバシの重要性を強調し、現在のAIアプリで使用されているAIテクノロジに対するユーザの態度を示す。 私たちは、モバイルアプリケーションで使用されるAIテクノロジに関する将来の研究のためのオープンソースリソースとして、AIアプリデータセット(現在、最も広範なAIアプリデータセット)を提供しています。

The integration of artificial intelligence (AI) into mobile applications has significantly transformed various domains, enhancing user experiences and providing personalized services through advanced machine learning (ML) and deep learning (DL) technologies. AI-driven mobile apps typically refer to applications that leverage ML/DL technologies to perform key tasks such as image recognition and natural language processing. In this paper, we conducted the most extensive empirical study on AI applications, exploring on-device ML apps, on-device DL apps, and AI service-supported (cloud-based) apps. Our study encompasses 56,682 real-world AI applications, focusing on three crucial perspectives: 1) Application analysis, where we analyze the popularity of AI apps and investigate the update states of AI apps; 2) Framework and model analysis, where we analyze AI framework usage and AI model protection; 3) User analysis, where we examine user privacy protection and user review attitudes. Our study has strong implications for AI app developers, users, and AI R\&D. On one hand, our findings highlight the growing trend of AI integration in mobile applications, demonstrating the widespread adoption of various AI frameworks and models. On the other hand, our findings emphasize the need for robust model protection to enhance app security. Additionally, our study highlights the importance of user privacy and presents user attitudes towards the AI technologies utilized in current AI apps. We provide our AI app dataset (currently the most extensive AI app dataset) as an open-source resource for future research on AI technologies utilized in mobile applications.
翻訳日:2024-11-09 15:35:37 公開日:2024-09-27
# 表面マイニングにおける自動化とAI技術 -Pilbaraにおけるオープンピット操作の簡単な紹介-

Automation and AI Technology in Surface Mining With a Brief Introduction to Open-Pit Operations in the Pilbara ( http://arxiv.org/abs/2301.09771v6 )

ライセンス: Link先を確認
Raymond Leung, Andrew J Hill, Arman Melkumyan, (参考訳) 本稿では,鉱業,特に西オーストラリアのピルバラ鉄鉱地帯で発生した工学的問題,技術革新,ロボット開発,自動化の取り組みについて概説する。 目標は、テクノロジの展望を描き、エンジニアリングのオーディエンスに関連する課題を強調して、AIに対する認識を高め、マイニングにおける自動化のトレンドを高めることだ。 これは、読者が鉱業に関する事前の知識を持っていないと仮定し、共通の露天掘り鉱業に関する議論と短い要約を通じて、徐々に文脈を構築していく。 主な活動は、資源開発、鉱業、鉄道、港湾業の分野に分類される。 鉱物探査から鉱石の出荷まで、この間にはおよそ9つの段階がある。 地質学的アセスメント、鉱山計画と開発、生産の掘削と調査、爆破と掘削、鉱石と廃棄物の輸送、解体とスクリーン、ストックパイルとロードアウト、鉄道網の流通、および鉱石車ダンピングなどである。 目的は、これらのプロセスを説明し、10年にわたる産業大学と研究開発のパートナーシップの観点から、課題/機会のいくつかについて洞察を提供することである。

This survey article provides a synopsis on some of the engineering problems, technological innovations, robotic development and automation efforts encountered in the mining industry -- particularly in the Pilbara iron-ore region of Western Australia. The goal is to paint the technology landscape and highlight issues relevant to an engineering audience to raise awareness of AI and automation trends in mining. It assumes the reader has no prior knowledge of mining and builds context gradually through focused discussion and short summaries of common open-pit mining operations. The principal activities that take place may be categorized in terms of resource development, mine-, rail- and port operations. From mineral exploration to ore shipment, there are roughly nine steps in between. These include: geological assessment, mine planning and development, production drilling and assaying, blasting and excavation, transportation of ore and waste, crush and screen, stockpile and load-out, rail network distribution, and ore-car dumping. The objective is to describe these processes and provide insights on some of the challenges/opportunities from the perspective of a decade-long industry-university R&D partnership.
翻訳日:2024-11-09 15:24:36 公開日:2024-09-27
# 視覚変換器の効率的な知識蒸留におけるマスキングの役割

The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers ( http://arxiv.org/abs/2302.10494v4 )

ライセンス: Link先を確認
Seungwoo Son, Jegwang Ryu, Namhoon Lee, Jaeho Lee, (参考訳) 知識蒸留は、軽量視覚モデルの訓練に有効な方法である。 しかし、特に視覚変換器(ViT)のような大規模モデルでは、トレーニングサンプルの教師監督を取得するのにコストがかかることが多い。 本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発し,教師に与えられた少量の入力トークンを隠蔽する。 入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。 学生の注意点が最も低いマスキングパッチは、学生の精度を低下させることなく、教師のFLOPの最大50%を節約し、他のマスキング基準は、最適以下の効率向上をもたらす。 より詳細な分析により,学生が指導するマスキングが学生に良いカリキュラムを提供することが明らかとなり,教師の指導が早い段階で容易に受けられるようになり,後半の課題も解決できた。

Knowledge distillation is an effective method for training lightweight vision models. However, acquiring teacher supervision for training samples is often costly, especially from large-scale models like vision transformers (ViTs). In this paper, we develop a simple framework to reduce the supervision cost of ViT distillation: masking out a fraction of input tokens given to the teacher. By masking input tokens, one can skip the computations associated with the masked tokens without requiring any change to teacher parameters or architecture. We find that masking patches with the lowest student attention scores is highly effective, saving up to 50% of teacher FLOPs without any drop in student accuracy, while other masking criterion leads to suboptimal efficiency gains. Through in-depth analyses, we reveal that the student-guided masking provides a good curriculum to the student, making teacher supervision easier to follow during the early stage and challenging in the later stage.
翻訳日:2024-11-09 15:24:36 公開日:2024-09-27
# 画像付きマルチモーダルシャノンゲーム

Multimodal Shannon Game with Images ( http://arxiv.org/abs/2303.11192v2 )

ライセンス: Link先を確認
Vilém Zouhar, Sunit Bhattacharya, Ondřej Bojar, (参考訳) シャノンゲームは長年、言語学やNLPにおける思考実験として使われており、参加者に、前の文脈に基づいて次の文字を推測するよう求めてきた。 画像情報の形式でオプションの余分なモダリティを導入することで、ゲームを拡張します。 本ゲームにおけるマルチモーダル情報の影響を調べるため,人間と言語モデル(LM, GPT-2)を用いた。 画像情報の追加により、人間とLMの両方の自己報告された信頼度と精度が向上することを示す。 名詞や決定子などの一部の単語クラスは、追加のモダリティ情報から恩恵を受ける。 ヒトとLMの双方のプライミング効果は、文脈サイズが増加するにつれてより明らかになる。 これらの知見は、言語理解とモデリングを改善するためのマルチモーダル情報の可能性を強調している。

The Shannon game has long been used as a thought experiment in linguistics and NLP, asking participants to guess the next letter in a sentence based on its preceding context. We extend the game by introducing an optional extra modality in the form of image information. To investigate the impact of multimodal information in this game, we use human participants and a language model (LM, GPT-2). We show that the addition of image information improves both self-reported confidence and accuracy for both humans and LM. Certain word classes, such as nouns and determiners, benefit more from the additional modality information. The priming effect in both humans and the LM becomes more apparent as the context size (extra modality information + sentence context) increases. These findings highlight the potential of multimodal information in improving language understanding and modeling.
翻訳日:2024-11-09 15:24:36 公開日:2024-09-27
# 作用素空間におけるシュミット分解による量子絡み合いの解析

Analyzing quantum entanglement with the Schmidt decomposition in operator space ( http://arxiv.org/abs/2304.02447v2 )

ライセンス: Link先を確認
Chengjie Zhang, Sophia Denker, Ali Asadian, Otfried Gühne, (参考訳) 絡み合いを特徴づけることは量子情報科学の中心である。 絡み合いを示す特別な観察用具、いわゆる絡み合い証人は、この作業に広く使用される道具である。 これらの証人の構成は典型的には、いくつかの絡み合ったターゲット状態に対する高い忠実度を持つ量子状態も絡み合っているという観察に依存している。 可観測物のシュミット分解に基づいて絡み合う証人を構築するための一般的な方法を提案する。 この方法は、多体システム(多体システム)と二体システム(多体システム)で機能し、忠実度に基づく構造よりも強力である。 得られた証人は、絡み合いを定量化したり、その次元を特徴づけるためにも使うことができる。 最後に,本手法が絡み込み検出を大幅に改善する実験例について述べる。

Characterizing entanglement is central for quantum information science. Special observables which indicate entanglement, so-called entanglement witnesses, are a widely used tool for this task. The construction of these witnesses typically relies on the observation that quantum states with a high fidelity to some entangled target state are entangled, too. We introduce a general method to construct entanglement witnesses based on the Schmidt decomposition of observables. The method works for two- and, more importantly, many-body systems and is strictly stronger than fidelity-based constructions. The resulting witnesses can also be used to quantify entanglement as well as to characterize the dimensionality of it. Finally, we present experimentally relevant examples, where our approach improves entanglement detection significantly.
翻訳日:2024-11-09 15:13:22 公開日:2024-09-27
# 多分、交通分析防衛のためのフレームワーク

Maybenot: A Framework for Traffic Analysis Defenses ( http://arxiv.org/abs/2304.09510v2 )

ライセンス: Link先を確認
Tobias Pulls, Ethan Witwer, (参考訳) エンドツーエンド暗号化は、インターネットユーザのプライバシーを保護する強力なツールである。 TorやVPN、暗号化メッセージングといった技術の利用の増加とともに、ネットワーク敵がインターネットトラフィックを監視して検閲することがますます難しくなってきている。 トラフィック分析: 暗号化されたトラフィックのパターンを分析し、ユーザとその活動に関する情報を推測する。 ディープラーニングによる最近の改善により、トラフィック分析攻撃はこれまで以上に効果的になった。 我々は、交通分析防衛のためのフレームワークであるM maynotを提示する。 おそらくnotは使いやすく、既存のエンドツーエンドの暗号化プロトコルに統合できるように設計されている。 これはRustプログラミング言語でクレート(ライブラリ)として実装され、ディフェンスの開発をさらに進めるためのシミュレータとともに実装されている。 maynotのディフェンスは、パディングを注入したり、トラフィックをブロックしたりするためのアクションをスケジュールする確率的状態マシンとして表現される。 おそらく、Perry氏とKadianakis氏によるTor Circuit Padding Frameworkからの進化であり、幅広いプロトコルとユースケースをサポートするように設計されている。

End-to-end encryption is a powerful tool for protecting the privacy of Internet users. Together with the increasing use of technologies such as Tor, VPNs, and encrypted messaging, it is becoming increasingly difficult for network adversaries to monitor and censor Internet traffic. One remaining avenue for adversaries is traffic analysis: the analysis of patterns in encrypted traffic to infer information about the users and their activities. Recent improvements using deep learning have made traffic analysis attacks more effective than ever before. We present Maybenot, a framework for traffic analysis defenses. Maybenot is designed to be easy to use and integrate into existing end-to-end encrypted protocols. It is implemented in the Rust programming language as a crate (library), together with a simulator to further the development of defenses. Defenses in Maybenot are expressed as probabilistic state machines that schedule actions to inject padding or block outgoing traffic. Maybenot is an evolution from the Tor Circuit Padding Framework by Perry and Kadianakis, designed to support a wide range of protocols and use cases.
翻訳日:2024-11-09 15:13:22 公開日:2024-09-27
# RoCOCO:MS-COCOのストレステスト画像テキストマッチングモデルに対するロバスト性ベンチマーク

RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models ( http://arxiv.org/abs/2304.10727v4 )

ライセンス: Link先を確認
Seulki Park, Daeho Um, Hajung Yoon, Sanghyuk Chun, Sangdoo Yun, (参考訳) 様々な下流タスクで視覚言語モデルが広く使われているため、その堅牢性を評価することが重要である。 本稿では,視覚言語モデルのロバスト性を評価するためのベンチマークを提案する。 我々は、ロバストモデルが言語的意味論と視覚的意味論の両方を適切に理解し、明示的なバリエーションに耐性があることを信じている。 この目的を追求するため、MS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いてSOTA(State-of-the-art)モデルを再評価する。 具体的には、単語を置換してテキストの意味を変更し、画像ミキシング技術を用いて視覚的に変化した画像を生成する。提案したベンチマークでは、多くのSOTAモデル(例えば、画像からテキストへのリコール@1:81.9\% $\rightarrow$ 48.4\%、BLIP 66.1\% $\rightarrow$ 37.6\%、VSE$\infty$)において、大きなパフォーマンス劣化を示す。 これは、現在の視覚言語モデルは微妙な変化に悩まされ、しばしばテキストや画像の全体的なコンテキストを理解するのに失敗していることを示している。 これらの知見に基づき,より堅牢な埋め込み学習のために,意味的コントラスト損失と視覚的コントラスト損失を提案する。 データセットとコードは {\url{https://github.com/pseulki/rococo}}で入手できる。

With the extensive use of vision-language models in various downstream tasks, evaluating their robustness is crucial. In this paper, we propose a benchmark for assessing the robustness of vision-language models. We believe that a robust model should properly understand both linguistic and visual semantics and be resilient to explicit variations. In pursuit of this goal, we create new variants of texts and images in the MS-COCO test set and re-evaluate the state-of-the-art (SOTA) models with the new data. Specifically, we alter the meaning of text by replacing a word, and generate visually altered images that maintain some visual context while introducing noticeable pixel changes through image mixing techniques.Our evaluations on the proposed benchmark reveal substantial performance degradation in many SOTA models (e.g., Image-to-Text Recall@1: 81.9\% $\rightarrow$ 48.4\% in BLIP, 66.1\% $\rightarrow$ 37.6\% in VSE$\infty$), with the models often favoring the altered texts/images over the original ones. This indicates the current vision-language models struggle with subtle changes and often fail to understand the overall context of texts and images. Based on these findings, we propose semantic contrastive loss and visual contrastive loss to learn more robust embedding. Datasets and code are available at {\url{https://github.com/pseulki/rococo}}.
翻訳日:2024-11-09 15:13:22 公開日:2024-09-27
# フォノンによる巨大物体を持つ空間量子重ね合わせの極限

Limit on spatial quantum superpositions with massive objects due to phonons ( http://arxiv.org/abs/2305.15230v2 )

ライセンス: Link先を確認
Carsten Henkel, Ron Folman, (参考訳) 巨大な物体を実空間の異なる位置の重ね合わせに持ち込むことは長年の目標であり、新しい状態における量子理論を確かめるだけでなく、重力との界面を探索することでもある。 主な課題は通常、大きな物体の波動関数を統計的混合に分解する環境場や粒子による力や散乱によって生じると考えられている。 環境からの隔離の改善によって除去できないデコヒーレンスチャネルを公表する。 これは物体内の音波から派生したもので、任意の分裂過程の一部として励起され、部分的な「ヴェルチャー・ウェッグ」情報を運ぶ。 これにより、大きな物体の将来の空間重ね合わせに厳密な制約が課される。

It has been a long-standing goal to bring massive objects into a superposition of different locations in real space, not only to confirm quantum theory in new regimes, but also to explore the interface with gravity. The main challenge is usually thought to arise from forces or scattering due to environmental fields and particles that decohere the large object's wave function into a statistical mixture. We unveil a decoherence channel which cannot be eliminated by improved isolation from the environment. It originates from sound waves within the object, which are excited as part of any splitting process and carry partial "Welcher Weg" information. This puts stringent constraints on future spatial superpositions of large objects.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-27
# ポーラメカニクス:三重結合系における光子、マグノン、フォノン

Polaromechanics: photons, magnons and phonons in the triple strong-coupling regime ( http://arxiv.org/abs/2307.11328v3 )

ライセンス: Link先を確認
Rui-Chang Shen, Jie Li, Yi-Ming Sun, Wei-Jiang Wu, Xuan Zuo, Yi-Pu Wang, Shi-Yao Zhu, J. Q. You, (参考訳) ハイブリッド量子システムの構築は、多機能量子技術、量子情報処理、ハイブリッド量子ネットワークを実現するための重要なステップである。 関数型ハイブリッド量子系は、その成分間の強い結合を必要とする。 しかし、異なる物理系間のカップリングは通常非常に弱い。 ハイブリッドシステムにおける強い結合の実験的実現は、特に複数のコンポーネントを持ち、コンポーネントが異なる性質を持つ場合、長年にわたる課題である。 ここでは、強結合された強磁性マグノンとマイクロ波光子によって形成される偏光子がフォノンとさらに強く結合する、新しいポーラメカニカルハイブリッドシステムにおける三重結合の実現を実証する。 対応する偏光力学の正規モード分割が観察される。 9.4\times10^3$の高偏光力学的協調性は、コヒーレント完全吸収を利用して偏光子崩壊率を著しく減少させることによって達成される。 量子コオペラティティがユニティよりもはるかに大きいのは、システムを低温に配置すれば達成できるため、様々な量子応用が可能となる。 この結果は、光子、マグノン、フォノンのコヒーレントな量子制御への道を開くものであり、マグノンをベースとした関数型ハイブリッド量子システムを構築するための重要なステップである。

Building hybrid quantum systems is a crucial step for realizing multifunctional quantum technologies, quantum information processing, and hybrid quantum networks. A functional hybrid quantum system requires strong coupling among its components. However, couplings between distinct physical systems are typically very weak. Experimental realization of strong coupling in a hybrid system remains a long-standing challenge, especially when it has multiple components and the components are of different nature. Here we demonstrate the realization of triple strong coupling in a novel polaromechanical hybrid system, where polaritons, formed by strongly coupled ferromagnetic magnons and microwave photons, are further strongly coupled to phonons. The corresponding polaromechanical normal-mode splitting is observed. A high polaromechanical cooperativity of $9.4\times10^3$ is achieved by significantly reducing the polariton decay rate via exploiting coherent perfect absorption. The quantum cooperativity much greater than unity is achievable if placing the system at low bath temperatures, which would enable various quantum applications. Our results pave the way towards coherent quantum control of photons, magnons and phonons, and are a crucial step for building functional hybrid quantum systems based on magnons.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-27
# 個人差分重み付き経験的リスク最小化手法とその出力重み付き学習への応用

A Differentially Private Weighted Empirical Risk Minimization Procedure and its Application to Outcome Weighted Learning ( http://arxiv.org/abs/2307.13127v2 )

ライセンス: Link先を確認
Spencer Giddens, Yiwang Zhou, Kevin R. Krull, Tara M. Brinkman, Peter X. K. Song, Fang Liu, (参考訳) 個人情報を含むデータを用いて、経験的リスク最小化(ERM)の枠組みで予測モデルを構築するのが一般的である。 これらのモデルは予測には非常に正確であるが、機密性の高いデータに基づいてトレーニングされたこれらのモデルの結果を共有することは、プライバシ攻撃の影響を受けやすい。 差分プライバシー(DP)は、機密データから情報を公開する際に生じるプライバシー損失に数学的に証明可能な境界を提供することによって、そのようなデータプライバシー問題に対処するための魅力的なフレームワークである。 これまでの作業は主に、未加重ERMにDPを適用することに集中してきた。 重み付きERM (wERM) は, 目的関数に対する個々の貢献を様々な重みに割り当てることができる重要な一般化である。 一般のwERMに対する最初の微分プライベートアルゴリズムを提案し、理論DPを保証する。 既存のDP-ERMプロシージャをwERMに拡張することで、一般的な結果重み付き学習(OWL)を含む個別の処理ルールに対するプライバシー保護学習手法を導出する道が形成される。 シミュレーションおよび実際の臨床試験において,OWLに適用したDP-wERMフレームワークの性能評価を行った。 実験結果はすべて、十分な堅牢なモデル性能を維持しつつ、DP保証付きwERMによるOWLモデルのトレーニングが可能であることを示し、センシティブなデータを含む現実のシナリオにおいて、提案したプライバシ保存OWLプロシージャの実装の実用性を示す強力な証拠を提供する。

It is common practice to use data containing personal information to build predictive models in the framework of empirical risk minimization (ERM). While these models can be highly accurate in prediction, sharing the results from these models trained on sensitive data may be susceptible to privacy attacks. Differential privacy (DP) is an appealing framework for addressing such data privacy issues by providing mathematically provable bounds on the privacy loss incurred when releasing information from sensitive data. Previous work has primarily concentrated on applying DP to unweighted ERM. We consider weighted ERM (wERM), an important generalization, where each individual's contribution to the objective function can be assigned varying weights. We propose the first differentially private algorithm for general wERM, with theoretical DP guarantees. Extending the existing DP-ERM procedures to wERM creates a pathway for deriving privacy-preserving learning methods for individualized treatment rules, including the popular outcome weighted learning (OWL). We evaluate the performance of the DP-wERM framework applied to OWL in both simulation studies and in a real clinical trial. All empirical results demonstrate the feasibility of training OWL models via wERM with DP guarantees while maintaining sufficiently robust model performance, providing strong evidence for the practicality of implementing the proposed privacy-preserving OWL procedure in real-world scenarios involving sensitive data.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-27
# 複数の固有値の位相シミュレーションのためのチャネルベースフレームワーク

Channel-based framework for phase esimation of multiple eigenvalues ( http://arxiv.org/abs/2308.02307v2 )

ライセンス: Link先を確認
Yuan-De Jin, Shi-Yu Zhang, Wen-Long Ma, (参考訳) ターゲット量子系上のユニタリ演算子の固有値の量子位相推定(QPE)は、様々な量子アルゴリズムにおいて重要なサブルーチンである。 従来のQPEは、多くのアンシラ量子ビットと量子フーリエ変換を実行する能力を必要とするため、実装に費用がかかることが多い。 反復QPEの最近の進歩は、単一アンシラと古典的な後処理を繰り返し使用することにより、実装コストを削減している。 しかし、従来型と反復型の両方のスキームでは、ユニタリ演算子の固有状態におけるターゲットシステムの準備が要求されるが、初期状態の準備を必要とせずに複数の固有値のQPEを達成することはあいまいである。 ここでは、反復QPEのための逐次量子チャネルに基づく理論的枠組みを開発することにより、この問題を明らかにする。 複数固有値のQPEを任意の初期目標系状態に対して効率よく実現し, 目標系における反復QPEの測定バックアクションを長いコヒーレンス時間で有効に活用できることを見出した。 具体的には、アンシラ量子ビットの逐次ラムゼー干渉計測(RIM)に基づく2つの反復QPEスキームについて検討する。 (a) 固有値を推定する際の標準量子極限を達成するために反復RIMを実行する反復スキーム b) ハイゼンベルク限界に達するための事前測定結果に基づいて各RIMのパラメータを調整する適応型スキーム。 どちらのスキームにおいても、連続的なアンシラ測定はターゲットシステム上で逐次的な量子チャネルを生成し、それを推定されたユニタリ演算子の固有状態に徐々にステアリングする一方、アンシラの測定統計は適切な後処理でその固有値に関する埋め込み情報を明らかにすることができる。 本研究では, 中心スピンモデルを用いて解析を行い, 両スキームの性能と耐雑音性を評価する。

Quantum phase estimation (QPE) of the eigenvalues of a unitary operator on a target quantum system is a crucial subroutine in various quantum algorithms. Conventional QPE is often expensive to implement as it requires a large number of ancilla qubits and the ability to perform quantum Fourier transform. Recent developments in iterative QPE reduce the implementation cost by repetitive uses of a single ancilla and classical post-processing. However, both conventional and iterative schemes often require preparation of the target system in an eigenstate of the unitary operator, while it remains ambiguous to achieve QPE of multiple eigenvalues with no need of initial state preparation. Here we clarify this issue by developing a theoretical framework based on sequential quantum channels for iterative QPE. We find that QPE of multiple eigenvalues can be efficiently realized for arbitrary initial target system state by actively utilizing the measurement backaction of iterative QPE on the target system with a long coherence time. Specifically, we investigate two iterative QPE schemes based on sequential Ramsey interferometry measurements (RIMs) of an ancilla qubit: (a) the repetitive scheme, which conducts repetitive RIMs to achieve the standard quantum limit in estimating the eigenvalues; (b) the adaptive scheme, which adjusts the parameters of each RIM based on prior measurement outcomes to attain the Heisenberg limit. In both schemes, sequential ancilla measurements generate sequential quantum channels on the target system, gradually steering it to the eigenstates of the estimated unitary operator, while the measurement statistics of the ancilla can reveal the embedded information about its eigenvalues with proper post-processing. We demonstrate the analysis by simulating a central spin model, and evaluate the performance and noise resilience of both schemes.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-27
# 古典的到着時間のモーダル変形

Moyal deformation of the classical arrival time ( http://arxiv.org/abs/2309.00222v4 )

ライセンス: Link先を確認
Dean Alvin L. Pablico, Eric A. Galapon, (参考訳) 到着の量子時間(TOA)問題は、粒子の初期状態のみを仮定して測定された到着時間の統計を必要とする。 量子論の標準的な枠組みに従って、この問題は古典的到着時刻 $\mathcal{T}_C(q,p)$ の適切な量子像を見つけることに変換される。 本稿では、量子力学の位相空間定式化における問題を新たに考察する。 得られた量子画像は実数値で時間反転対称関数 $\mathcal{T}_M(q,p)$ の形式的級数$\hbar^2$ であり、古典的到着時刻を主項とする。 これはハミルトニアン系とのモヤルブラケット関係から直接得られ、したがって古典的TOAのモヤル変形として解釈される。 その性質について検討し、$\mathcal{T}_M(q,p)$ と[Eur で構築されたヒルベルト空間 TOA 作用素の間の同型性を示すことによって、既知の障害物を量子化にバイパスする方法について議論する。 Phys J. Plus \textbf{138}, 153 (2023)] は任意の解析ポテンシャルに対して常に時間-エネルギーの正準交換関係(TECCR)を満たす。 次に、自由粒子と準振動子ポテンシャルのTOA問題を例として考察する。

The quantum time of arrival (TOA) problem requires the statistics of measured arrival times given only the initial state of a particle. Following the standard framework of quantum theory, the problem translates into finding an appropriate quantum image of the classical arrival time $\mathcal{T}_C(q,p)$, usually in operator form $\hat{\mathrm{T}}$. In this paper, we consider the problem anew within the phase space formulation of quantum mechanics. The resulting quantum image is a real-valued and time-reversal symmetric function $\mathcal{T}_M(q,p)$ in formal series of $\hbar^2$ with the classical arrival time as the leading term. It is obtained directly from the Moyal bracket relation with the system Hamiltonian and is hence interpreted as a Moyal deformation of the classical TOA. We investigate its properties and discuss how it bypasses the known obstructions to quantization by showing the isomorphism between $\mathcal{T}_M(q,p)$ and the rigged Hilbert space TOA operator constructed in [Eur. Phys. J. Plus \textbf{138}, 153 (2023)] which always satisfy the time-energy canonical commutation relation (TECCR) for arbitrary analytic potentials. We then examine TOA problems for a free particle and a quartic oscillator potential as examples.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-27
# (ほぼ)量子ベルの不等式とデバイス非依存の応用

(Almost-)Quantum Bell Inequalities and Device-Independent Applications ( http://arxiv.org/abs/2309.06304v4 )

ライセンス: Link先を確認
Yuan Liu, Ho Yiu Chung, Ravishankar Ramanathan, (参考訳) 近年、量子ベルの不等式の導出による量子相関の境界に関する調査が注目されているが、これはツィレルソンの問題と関連しており、DI情報処理に重要な応用がある。 しかし、量子ベルの不等式を決定することは、非常に難しい課題であり、孤立した例のみが知られている。 本稿では、(ほぼ)量子ベルの不等式(英語版)のファミリーを提示し、3つの基礎的およびDI的応用に焦点を当てる。 第一に、符号なし境界上の量子相関は弱い源からのDIランダム性抽出において重要である。 2つのkアウトカム測定を持つ2人のプレイヤーの現実的なベルシナリオでは、量子ベルの不等式を導出し、4k-8の非符号境界の特定の部分から量子境界を分離し、前の結果を拡張する。 直近の副産物として、量子系に対するオーマンの合意定理とほぼ量子相関の一般的な証明を与える。これは、オーマンの合意定理が、一般的な非符号理論から量子理論とほぼ量子相関の両方を選ぶための、疫学の文脈における合理的な物理原理であることを意味する。 第二に、m二乗測定シナリオを持つ2人のプレイヤーに量子ベルの不等式(英語版)の族を提示し、2量子ビットのシングルレットと2mの測定を自己検証する。 興味深いことに、この主張はTsirelson-Landau-Masanesによって発見された m=2 の結果を一般化し、最先端の DIRA よりも改善されたことを示す。 最後に、量子ベルの不等式を用いて、量子相関集合を特徴づける情報理論の原理である非局所計算における優位性の原理の一般形を導出する。 これにより、これまでに知られている量子境界の最も正確な特徴を与える。

Investigations of the boundary of the quantum correlation set through the derivation of quantum Bell inequalities have gained increased attention in recent years, which are related to Tsirelson's problem and have significant applications in DI information processing. However, determining quantum Bell inequalities is a notoriously difficult task and only isolated examples are known. In this paper, we present families of (almost-)quantum Bell inequalities and highlight three foundational and DI applications. Firstly, quantum correlations on the non-signaling boundary are crucial in the DI randomness extraction from weak sources. In the practical Bell scenario of two players with two k-outcome measurements, we derive quantum Bell inequalities that show a separation of the quantum boundary from certain portions of the no-signaling boundary of dimension up to 4k-8, extending previous results. As an immediate by-product of this, we give a general proof of Aumann's Agreement theorem for quantum systems and the almost-quantum correlations, which implies Aumann's agreement theorem is a reasonable physical principle in the context of epistemics to pick out both quantum theory and almost-quantum correlations from general no-signaling theories. Secondly, we present a family of quantum Bell inequalities in the two players with m binary measurements scenarios, that serve to self-test the two-qubit singlet and 2m measurements. Interestingly, this claim generalizes the result for m=2 discovered by Tsirelson-Landau-Masanes and shows an improvement over the state-of-the-art DIRA. Lastly, we use our quantum Bell inequalities to derive the general form of the principle of no advantage in nonlocal computation, which is an information-theoretic principle that serves to characterize the quantum correlation set. With this, we provide the most precise characterization of the quantum boundary known so far.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-27
# $\texttt{NePhi}$: およそ拡散型医用画像登録のためのニューラルな変形場

$\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration ( http://arxiv.org/abs/2309.07322v3 )

ライセンス: Link先を確認
Lin Tian, Hastings Greer, Raúl San José Estépar, Roni Sengupta, Marc Niethammer, (参考訳) この研究は、およそ微分同相変換をもたらす一般化可能なニューラル変形モデルNePhiを提案する。 学習ベースの登録アプローチで使用される主要なボクセルベースの変換フィールドとは対照的に、NePhiは変形を関数的に表現し、トレーニングや推論、推論時間、登録精度、変換規則性といったメモリ消費の設計空間において大きな柔軟性をもたらす。 具体的には、NePhi 1) ボクセルベースの学習手法に比べてメモリ消費は少ない。 2) 既存のニューラル変形に基づく登録手法が最適化に依存しているのに対して,潜時符号の予測により推論速度が向上する。 3)インスタンス最適化による精度の向上,および 4) 医用画像登録に好適な変形規則性を示した。 実際の3次元医用画像データセット(肺や脳など)と同様に,2次元合成データセット上でのNePhiの性能を実証する。 以上の結果から,NePhiは単一解像度の登録設定において,ボクセルに基づく表現の精度に適合できることがわかった。 マルチレゾリューション登録では、現在のSOTA学習に基づく登録手法とインスタンス最適化の精度を一致させ、メモリ要求を5倍に削減する。 私たちのコードはhttps://github.com/uncbiag/NePhi.comで公開されています。

This work proposes NePhi, a generalizable neural deformation model which results in approximately diffeomorphic transformations. In contrast to the predominant voxel-based transformation fields used in learning-based registration approaches, NePhi represents deformations functionally, leading to great flexibility within the design space of memory consumption during training and inference, inference time, registration accuracy, as well as transformation regularity. Specifically, NePhi 1) requires less memory compared to voxel-based learning approaches, 2) improves inference speed by predicting latent codes, compared to current existing neural deformation based registration approaches that \emph{only} rely on optimization, 3) improves accuracy via instance optimization, and 4) shows excellent deformation regularity which is highly desirable for medical image registration. We demonstrate the performance of NePhi on a 2D synthetic dataset as well as for real 3D medical image datasets (e.g., lungs and brains). Our results show that NePhi can match the accuracy of voxel-based representations in a single-resolution registration setting. For multi-resolution registration, our method matches the accuracy of current SOTA learning-based registration approaches with instance optimization while reducing memory requirements by a factor of five. Our code is available at https://github.com/uncbiag/NePhi.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-27
# 量子干渉による重力相互作用ダークマターの検出

Detecting Gravitationally Interacting Dark Matter with Quantum Interference ( http://arxiv.org/abs/2309.08238v3 )

ライセンス: Link先を確認
Alejandro Perez, Carlo Rovelli, Marios Christodoulou, (参考訳) ダークマターの存在を示す大きな天文学的な証拠にもかかわらず、ダークマターの性質は謎のままである。 特に量子重力の基本的なスケールであるプランク質量周辺の質量と相互作用する粒子は、興味深い候補となっている。 ここでは、高感度重力による量子位相シフトを用いて、そのような粒子を直接検出する理論的可能性を示す。 特に、ジョセフソン接合を利用したプロトコルを考える。

In spite or the large astronomical evidence for its existence, the nature of dark matter remains enigmatic. Particles that interact only, or almost only, gravitationally, in particular with masses around the Planck mass -- the fundamental scale in quantum gravity, are intriguing candidates. Here we show that there is a theoretical possibility to directly detect such particles using highly sensitive gravity-mediated quantum phase shifts. In particular, we consider a protocol utilizing Josephson junctions.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-27
# OWL:IT運用のための大規模言語モデル

OWL: A Large Language Model for IT Operations ( http://arxiv.org/abs/2309.09298v2 )

ライセンス: Link先を確認
Hongcheng Guo, Jian Yang, Jiaheng Liu, Liqun Yang, Linzheng Chai, Jiaqi Bai, Junran Peng, Xiaorong Hu, Chao Chen, Dongfeng Zhang, Xu Shi, Tieqiao Zheng, Liangfan Zheng, Bo Zhang, Ke Xu, Zhoujun Li, (参考訳) IT運用の急速な発展に伴い、実用的なアプリケーションのために大量のデータを効率的に管理し、分析することがますます重要になっている。 自然言語処理(NLP)の技術は、名前付きエンティティ認識、機械翻訳、対話システムなど、様々なタスクに顕著な能力を示している。 最近、Large Language Models (LLM) は様々なNLPダウンストリームタスクで大幅に改善されている。 しかし、IT運用には特殊なLLMが欠如している。 本稿では,収集したOWL-Instructデータセットに基づいて学習した大規模言語モデルOWLを紹介する。 さらに、当社が確立したOWL-Bench上でのOWLの性能を評価し、IT関連ベンチマークをオープンにする。 OWLはITタスクにおける優れたパフォーマンス結果を示しており、既存のモデルをかなり上回っている。 さらに、私たちの研究の成果が、専門的なLLMでIT運用の技術に革命をもたらすことを願っています。

With the rapid development of IT operations, it has become increasingly crucial to efficiently manage and analyze large volumes of data for practical applications. The techniques of Natural Language Processing (NLP) have shown remarkable capabilities for various tasks, including named entity recognition, machine translation and dialogue systems. Recently, Large Language Models (LLMs) have achieved significant improvements across various NLP downstream tasks. However, there is a lack of specialized LLMs for IT operations. In this paper, we introduce the OWL, a large language model trained on our collected OWL-Instruct dataset with a wide range of IT-related information, where the mixture-of-adapter strategy is proposed to improve the parameter-efficient tuning across different domains or tasks. Furthermore, we evaluate the performance of our OWL on the OWL-Bench established by us and open IT-related benchmarks. OWL demonstrates superior performance results on IT tasks, which outperforms existing models by significant margins. Moreover, we hope that the findings of our work will provide more insights to revolutionize the techniques of IT operations with specialized LLMs.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-27
# 古典的あるいは量子二項最適化を用いた任意の線形方程式系を解く反復アルゴリズムの収束性の改善

Improving the convergence of an iterative algorithm for solving arbitrary linear equation systems using classical or quantum binary optimization ( http://arxiv.org/abs/2309.09933v3 )

ライセンス: Link先を確認
Erick R. Castro, Eldues O. Martins, Roberto S. Sarthour, Alexandre M. Souza, Ivan S. Oliveira, (参考訳) 量子コンピューティングと量子に触発されたアルゴリズムの最近の進歩は、バイナリ最適化に新たな関心を喚起している。 これらのハードウェアとソフトウェア革新は、複雑な問題に対するソリューションタイムに革命をもたらすことを約束する。 本研究では,線形システムの解法を提案する。 提案手法は二項最適化を利用しており,特に条件数の多い問題に適している。 線形系を二進最適化問題に変換し、元の問題の幾何学からインスピレーションを得て、共役勾配法に類似する。 このアプローチでは、アルゴリズムの収束率を著しく加速する共役方向を用いる。 さらに本研究では,問題の内在的幾何の部分的知識を活用することにより,元の問題をより小さく独立したサブプロブレムに分解できることを実証する。 これらのサブプロブレムは量子または古典的な解法を用いて効率的に取り組める。 問題の幾何を決定することは計算コストの増大をもたらすが、この投資は既存の手法に比べてかなりの性能向上に勝っている。

Recent advancements in quantum computing and quantum-inspired algorithms have sparked renewed interest in binary optimization. These hardware and software innovations promise to revolutionize solution times for complex problems. In this work, we propose a novel method for solving linear systems. Our approach leverages binary optimization, making it particularly well-suited for problems with large condition numbers. We transform the linear system into a binary optimization problem, drawing inspiration from the geometry of the original problem and resembling the conjugate gradient method. This approach employs conjugate directions that significantly accelerate the algorithm's convergence rate. Furthermore, we demonstrate that by leveraging partial knowledge of the problem's intrinsic geometry, we can decompose the original problem into smaller, independent sub-problems. These sub-problems can be efficiently tackled using either quantum or classical solvers. While determining the problem's geometry introduces some additional computational cost, this investment is outweighed by the substantial performance gains compared to existing methods.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-27
# 不可逆性としての誤差と外乱:統一定義、ウィグナー-アーナキ-ヤナーゼ理論および時間外相関器

Error and Disturbance as Irreversibility with Applications: Unified Definition, Wigner--Araki--Yanase Theorem and Out-of-Time-Order Correlator ( http://arxiv.org/abs/2309.14172v2 )

ライセンス: Link先を確認
Haruki Emori, Hiroyasu Tajima, (参考訳) ハイゼンベルクの不確実性原理の提案以来、量子測定の誤りと乱れは量子物理学の基本的な概念となっている。 量子物理学において物理量を定義する場合と同様に、これらの2つの概念を定義する単一の方法はなく、多くの独立した定義が与えられている。 ここでは、量子過程における不可逆性の特別な場合として、誤差と乱れを定義する新しい定式化を確立する。 この定式化により、確率的熱力学と量子情報理論における不可逆性の知識を量子測定の誤差と乱れに適用することができる。 この強さを示すために、我々は3つの副産物を提供する: まず、既存の誤りと乱れの定式化を統一する。 第二に、量的ウィグナー・アラキ・ヤナーゼ定理(保存法に基づく測定実施に関する普遍的な制限)を任意の定義やプロセスの誤りや乱れに拡張する。 第三に、我々の定式化は、量子多体系における量子カオスの尺度であるアウト・オブ・タイム・オーダード・コレレータ(out-of-time-orderd-correlator)を、測定コンテキストと類似の不可逆性としてカバーし、その実験的評価方法を提供する。

Since the proposal of Heisenberg's uncertainty principle, error and disturbance of quantum measurements have been fundamental notions in quantum physics. As is often the case when defining physical quantities in quantum physics, there is no single way to define these two notions, and many independent definitions of them have been given. Here, we establish a novel formulation defining the error and disturbance as special cases of the irreversibility in quantum processes. The formulation enables us to apply the knowledge of irreversibility in stochastic thermodynamics and quantum information theory to the error and disturbance in quantum measurements. To demonstrate this strength, we provide three byproducts: First, we unify the existing formulations of error and disturbance. Second, we extend the quantitative Wigner--Araki--Yanase theorem -- a universal restriction on measurement implementation under a conservation law -- to errors and disturbances of arbitrary definitions and processes. Third, we reveal that our formulation covers the out-of-time-orderd-correlator -- a measure of quantum chaos in a quantum many-body system -- as the irreversibility in analogy with the measurement context, and provide its experimental evaluation method.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-27
# Informative Manifold Projection を用いたクラスタ探索

Cluster Exploration using Informative Manifold Projections ( http://arxiv.org/abs/2309.14857v3 )

ライセンス: Link先を確認
Stavros Gerolymatos, Xenophon Evangelopoulos, Vladimir Gusev, John Y. Goulermas, (参考訳) 次元性低減(DR)は、高次元データの視覚的な探索と、2次元または3次元空間におけるクラスタ構造を明らかにするための重要なツールの1つである。 文献におけるDR手法の大部分は、実践者が検討中のデータセットに関する事前知識を考慮に入れていない。 本稿では,従来の知識の異なる構造を抽出するだけでなく,その基盤となる構造を明らかにすることを目的とした,情報埋め込みを生成する新しい手法を提案する。 これを実現するために,まず,先行情報に関連付けられた構造を縮小するコントラストPCAと,得られた埋め込みにおいて有意なデータ分離を保証するクルトーシス投影探索という2つの目的を線形に組み合わせた。 本稿では,この課題を多様体最適化問題として定式化し,3種類の事前知識を考慮に入れた多種多様なデータセットを経験的に検証する。 最後に,高次元データの反復的視覚探索を行うためのフレームワークを提供する。

Dimensionality reduction (DR) is one of the key tools for the visual exploration of high-dimensional data and uncovering its cluster structure in two- or three-dimensional spaces. The vast majority of DR methods in the literature do not take into account any prior knowledge a practitioner may have regarding the dataset under consideration. We propose a novel method to generate informative embeddings which not only factor out the structure associated with different kinds of prior knowledge but also aim to reveal any remaining underlying structure. To achieve this, we employ a linear combination of two objectives: firstly, contrastive PCA that discounts the structure associated with the prior information, and secondly, kurtosis projection pursuit which ensures meaningful data separation in the obtained embeddings. We formulate this task as a manifold optimization problem and validate it empirically across a variety of datasets considering three distinct types of prior knowledge. Lastly, we provide an automated framework to perform iterative visual exploration of high-dimensional data.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-27
# Can-SAVE:生存分析変数とHRによる大量がんリスク予測

Can-SAVE: Mass Cancer Risk Prediction via Survival Analysis Variables and EHR ( http://arxiv.org/abs/2309.15039v2 )

ライセンス: Link先を確認
Petr Philonenko, Vladimir Kokh, Pavel Blinov, (参考訳) 特定のがんスクリーニング法は、しばしば費用がかかり、時間がかかり、大規模に適用できる。 高度な人工知能(AI)法は、がんの検出に大いに役立つが、特定のまたは深い医療データを必要とする。 これらの側面は、がんスクリーニング法の大量実装を妨げる。 そのため、既存のElectronic Health Records(EHR)ボリュームに基づいて、がんリスクの大量パーソナライズされた評価にAI手法を適用することは、医療にとって破壊的な変化である。 本稿では,Can-SAVE癌リスク評価手法を提案する。 アクセス性が高く、資源効率が良く、一連の高レベルの医療イベントのみを利用する。 提案手法をロシア国内1100万人以上の住民と4つの地域を対象とした長期的ふりかえり実験で検証した。 Can-SAVE法は平均精度22.8%$\pm$2.7%対15.1%$\pm$2.6%の基準値を大きく上回る。 広範囲にわたるアブレーション試験により,提案手法の優位性が確認された。 腫瘍学者が監督する実験では、1000人中84人のがん患者が確実に検出されることが示された。 これらの結果は, 経時的に要する年齢差が1000例中9例に留まっている(大腸癌の場合)。 以上の結果から,従来の医療リスク評価手法に比べて癌検出率(TOP@1k)は4.7-6.4倍向上した。

Specific medical cancer screening methods are often costly, time-consuming, and weakly applicable on a large scale. Advanced Artificial Intelligence (AI) methods greatly help cancer detection but require specific or deep medical data. These aspects prevent the mass implementation of cancer screening methods. For this reason, it is a disruptive change for healthcare to apply AI methods for mass personalized assessment of the cancer risk among patients based on the existing Electronic Health Records (EHR) volume. This paper presents a novel Can-SAVE cancer risk assessment method combining a survival analysis approach with a gradient-boosting algorithm. It is highly accessible and resource-efficient, utilizing only a sequence of high-level medical events. We tested the proposed method in a long-term retrospective experiment covering more than 1.1 million people and four regions of Russia. The Can-SAVE method significantly exceeds the baselines by the Average Precision metric of 22.8%$\pm$2.7% vs 15.1%$\pm$2.6%. The extensive ablation study also confirmed the proposed method's dominant performance. The experiment supervised by oncologists shows a reliable cancer patient detection rate of up to 84 out of 1000 selected. Such results surpass the medical screening strategies estimates; the typical age-specific Number Needed to Screen is only 9 out of 1000 (for colorectal cancer). Overall, our experiments show a 4.7-6.4 times improvement in cancer detection rate (TOP@1k) compared to the traditional healthcare risk estimation approach.
翻訳日:2024-11-09 10:12:15 公開日:2024-09-27
# 構造対応レコメンデーションインベディング進化のためのグラフ付最適化器

Graph-enhanced Optimizers for Structure-aware Recommendation Embedding Evolution ( http://arxiv.org/abs/2310.03032v3 )

ライセンス: Link先を確認
Cong Xu, Jun Wang, Jianyong Wang, Wei Zhang, (参考訳) 埋め込みは、現実世界の実体の仮想表現であり、その後の意思決定モデルの基礎であるため、現代のレコメンデーションシステムにおいて重要な役割を果たす。 本稿では,新しい組込み更新機構であるSEvo(Structure-aware Embedding Evolution)を提案する。 通常、中間モジュールとして機能するGNN(Graph Neural Network)とは異なり、SEvoはトレーニング中に最小の計算オーバーヘッドでグラフ構造情報を埋め込みに直接注入することができる。 SEvoの収束特性とその潜在的な変種は、設計の有効性を正当化するために理論的に解析される。 さらに、SEvoは最先端のパフォーマンスのために既存のオプティマイザにシームレスに統合できる。 特に、モーメント推定補正を施したSevo強化AdamWは、モデルとデータセットの範囲で一貫した改善を示し、明示的なGNNモジュールを超えてグラフ構造情報を効果的に活用する新たな技術経路を示唆している。

Embedding plays a key role in modern recommender systems because they are virtual representations of real-world entities and the foundation for subsequent decision-making models. In this paper, we propose a novel embedding update mechanism, Structure-aware Embedding Evolution (SEvo for short), to encourage related nodes to evolve similarly at each step. Unlike GNN (Graph Neural Network) that typically serves as an intermediate module, SEvo is able to directly inject graph structural information into embedding with minimal computational overhead during training. The convergence properties of SEvo along with its potential variants are theoretically analyzed to justify the validity of the designs. Moreover, SEvo can be seamlessly integrated into existing optimizers for state-of-the-art performance. Particularly SEvo-enhanced AdamW with moment estimate correction demonstrates consistent improvements across a spectrum of models and datasets, suggesting a novel technical route to effectively utilize graph structural information beyond explicit GNN modules.
翻訳日:2024-11-09 10:12:15 公開日:2024-09-27
# 自律型サイバー防衛のための深層強化学習

Deep Reinforcement Learning for Autonomous Cyber Defence: A Survey ( http://arxiv.org/abs/2310.07745v3 )

ライセンス: Link先を確認
Gregory Palmer, Chris Parry, Daniel J. B. Harrold, Chris Willis, (参考訳) 近年のサイバー攻撃の急増により、ネットワークを悪意ある行為者から守るための原則的な方法の必要性が高まっている。 深層強化学習(DRL)はこれらの攻撃を緩和するための有望なアプローチである。 しかし、DRLはサイバー防衛の可能性をかなり示しているが、DRLが大規模に自律サイバー防衛(ACD)問題に適用されるまでには、多くの課題が克服されなければならない。 原理的手法は,高次元状態空間,大規模多面的行動空間,対人学習など,学習者と対面する環境において必要である。 最近の研究は、これらの問題を個別に解決することに成功していると報告している。 また、リアルタイム戦略ゲームのために3つすべてを解決するための素晴らしいエンジニアリング努力も行われている。 しかし、完全なACD問題にDRLを適用することは未解決の課題である。 本稿では、DRLに関する文献を調査し、理想化されたACD-DRLエージェントを概念化する。 以下に示す。 t) ACD問題を定義するドメインプロパティの要約。 4) DRLアプローチのベンチマークに用いる現在のACD環境を総合的に比較した。 DRLを学習者に対して次元性の呪いに直面する領域に拡張するための最先端アプローチの概要,および, iv。 一 相手方設定におけるエージェントの搾取性を制限するための現在の方法に関する調査及び批判を、ACDの観点から見よ。 我々は、ACDに取り組む研究者や実践者に将来の方向性を動機付けることを願っているオープンリサーチの質問で締めくくります。

The rapid increase in the number of cyber-attacks in recent years raises the need for principled methods for defending networks against malicious actors. Deep reinforcement learning (DRL) has emerged as a promising approach for mitigating these attacks. However, while DRL has shown much potential for cyber defence, numerous challenges must be overcome before DRL can be applied to the autonomous cyber defence (ACD) problem at scale. Principled methods are required for environments that confront learners with very high-dimensional state spaces, large multi-discrete action spaces, and adversarial learning. Recent works have reported success in solving these problems individually. There have also been impressive engineering efforts towards solving all three for real-time strategy games. However, applying DRL to the full ACD problem remains an open challenge. Here, we survey the relevant DRL literature and conceptualize an idealised ACD-DRL agent. We provide: i.) A summary of the domain properties that define the ACD problem; ii.) A comprehensive comparison of current ACD environments used for benchmarking DRL approaches; iii.) An overview of state-of-the-art approaches for scaling DRL to domains that confront learners with the curse of dimensionality, and; iv.) A survey and critique of current methods for limiting the exploitability of agents within adversarial settings from the perspective of ACD. We conclude with open research questions that we hope will motivate future directions for researchers and practitioners working on ACD.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-27
# 自宅のライトステージでパーソナライズされたビデオのリライティング

Personalized Video Relighting With an At-Home Light Stage ( http://arxiv.org/abs/2311.08843v4 )

ライセンス: Link先を確認
Jun Myeong Choi, Max Christman, Roni Sengupta, (参考訳) 本稿では,高画質かつ時間的に一貫した映像を,任意のポーズ,表情,照明条件でリアルタイムに生成するパーソナライズされたビデオリライティングアルゴリズムを提案する。 既存のリライトアルゴリズムは一般に入手可能な合成データに頼っており、その結果が乏しいか、取得が難しい実際のライトステージデータに頼っている。 モニタでYouTubeビデオを見ているユーザの録画をキャプチャすることで、任意の条件下で高品質なリライティングを行うことのできるパーソナライズされたアルゴリズムをトレーニングできることを示す。 私たちの重要な貢献は、画像ベースのニューラルリライティングアーキテクチャで、本来の外観の特徴(顔の幾何学と反射)を光源の照明から効果的に分離し、ターゲットの照明と組み合わせて、信頼された画像を生成する。 このニューラルアーキテクチャは、時間的に安定したビデオリライトにつながる固有の外観特徴の滑らか化を可能にする。 定性的かつ定量的な評価は、我々のアーキテクチャが、カジュアルにキャプチャされた'LSYD'と'One Light At a Time' (OLAT)データセットの両方に対して、最先端のアプローチよりも、ポートレートイメージのリライティング品質と時間的一貫性を改善していることを示している。

In this paper, we develop a personalized video relighting algorithm that produces high-quality and temporally consistent relit videos under any pose, expression, and lighting condition in real-time. Existing relighting algorithms typically rely either on publicly available synthetic data, which yields poor relighting results, or on actual light stage data which is difficult to acquire. We show that by just capturing recordings of a user watching YouTube videos on a monitor we can train a personalized algorithm capable of performing high-quality relighting under any condition. Our key contribution is a novel image-based neural relighting architecture that effectively separates the intrinsic appearance features - the geometry and reflectance of the face - from the source lighting and then combines them with the target lighting to generate a relit image. This neural architecture enables smoothing of intrinsic appearance features leading to temporally stable video relighting. Both qualitative and quantitative evaluations show that our architecture improves portrait image relighting quality and temporal consistency over state-of-the-art approaches on both casually captured `Light Stage at Your Desk' (LSYD) and light-stage-captured `One Light At a Time' (OLAT) datasets.
翻訳日:2024-11-09 09:38:58 公開日:2024-09-27
# Lego: テキストと画像の拡散モデルにおいて、オブジェクトの出現以上のパーソナライズされた概念を分離し、逆転させる学習

Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.13833v2 )

ライセンス: Link先を確認
Saman Motamed, Danda Pani Paudel, Luc Van Gool, (参考訳) テキスト・トゥ・イメージ(T2I)モデルは名詞、外観、スタイルといった概念の合成に優れている。 コンセプトのいくつかの例の画像に基づいて、カスタマイズされたコンテンツ作成を可能にする。テクスチュアル・インバージョンやドリームブースのようなメソッドは、所望のコンセプトを反転させ、新しいシーンでそれを合成できるようにする。 しかし、オブジェクトの外観やスタイル(形容詞や動詞)を超えたパーソナライズされた概念を自然言語で反転させることは、依然として課題である。 これらの概念の2つの重要な特徴は、現在の反転法の限界に寄与する。 1)形容詞と動詞は名詞(目的語)で絡み合っており、主観的外見が埋もれ込むような外見に基づく逆転を妨げかねない。 2) このような概念を記述することは、しばしば単一の単語の埋め込みを超えて行われる。 本研究では,いくつかのサンプル画像から主観的絡み合いの概念を逆転させる手法であるLegoを紹介する。 レゴは、単純だが効果的な主題分離ステップを使用して、関連する主題から概念を分離し、単一/複数埋め込みの概念の逆転を導くコンテキストロスを採用する。 徹底的なユーザスタディでは、レゴが生成したコンセプトは、基準に従って正確な概念を生成するという点で、ベースラインと比較して70%以上好まれました。 さらに、LLMを使った視覚的質問応答では、レゴ生成の概念は、概念のテキスト記述と整合性が高いことが示唆された。

Text-to-Image (T2I) models excel at synthesizing concepts such as nouns, appearances, and styles. To enable customized content creation based on a few example images of a concept, methods such as Textual Inversion and DreamBooth invert the desired concept and enable synthesizing it in new scenes. However, inverting personalized concepts that go beyond object appearance and style (adjectives and verbs) through natural language remains a challenge. Two key characteristics of these concepts contribute to the limitations of current inversion methods. 1) Adjectives and verbs are entangled with nouns (subject) and can hinder appearance-based inversion methods, where the subject appearance leaks into the concept embedding, and 2) describing such concepts often extends beyond single word embeddings. In this study, we introduce Lego, a textual inversion method designed to invert subject-entangled concepts from a few example images. Lego disentangles concepts from their associated subjects using a simple yet effective Subject Separation step and employs a Context Loss that guides the inversion of single/multi-embedding concepts. In a thorough user study, Lego-generated concepts were preferred over 70% of the time when compared to the baseline in terms of authentically generating concepts according to a reference. Additionally, visual question answering using an LLM suggested Lego-generated concepts are better aligned with the text description of the concept.
翻訳日:2024-11-09 09:38:57 公開日:2024-09-27
# ピエゾ-オプトメカニクス系における量子伝達の最適化原理

Principles for Optimizing Quantum Transduction in Piezo-Optomechanical Systems ( http://arxiv.org/abs/2312.04673v3 )

ライセンス: Link先を確認
James Schneeloch, Erin Sheridan, A. Matthew Smith, Christopher C. Tison, Daniel L. Campbell, Matthew D. LaHaye, Michael L. Fanto, Paul M. Alsing, (参考訳) マイクロ波光量子トランスダクションは、遠方の超伝導量子ビットを光ファイバーで接続し、大規模に量子ネットワークを実現するために不可欠である。 Bl\'esin, Tian, Bhave, and Kippenberg's article, '`Quantum coherentwave-optical transduction using high overtone bulk acoustic resonances" (Phys)。 A, 104, 052601 (2021) では、それぞれ圧電相互作用と光力学的相互作用を利用した中間的なGHz帯フォノンモードを用いて、マイクロ波光子とテレコムバンド光子を相互変換する2方向量子トランスデューサを配置した(量子圧電結合は初めて)。 本研究では、第1原理からの圧電的相互作用と光学的モード間のエバネッセント結合の両方について検討し、この種の量子トランスデューサの最適化において、どのようなパラメータが重要かについて議論する。 また, トランスデューサの素子として用いることができる光学材料の関連特性の表を作成した。

Two-way microwave-optical quantum transduction is essential to connecting distant superconducting qubits via optical fiber, and to enable quantum networking at a large scale. In Bl\'esin, Tian, Bhave, and Kippenberg's article, ``Quantum coherent microwave-optical transduction using high overtone bulk acoustic resonances" (Phys. Rev. A, 104, 052601 (2021)), they lay out a two-way quantum transducer converting between microwave photons and telecom-band photons by way of an intermediary GHz-band phonon mode utilizing piezoelectric and optomechanical interactions respectively (and are the first to work out the quantum piezoelectric coupling). In this work, we examine both the piezoelectric, and optomechanical interactions from first principles, and together with the evanescent coupling between optical modes, discuss what parameters matter most in optimizing this kind of quantum transducer. For its additional utility, we have also compiled a table of relevant properties of optical materials that may be used as elements in transducers.
翻訳日:2024-11-09 09:27:53 公開日:2024-09-27
# 量子極端学習マシンの基礎的側面について

On fundamental aspects of quantum extreme learning machines ( http://arxiv.org/abs/2312.15124v2 )

ライセンス: Link先を確認
Weijie Xiong, Giorgio Facelli, Mehrad Sahebi, Owen Agnel, Thiparat Chotibut, Supanut Thanasilp, Zoë Holmes, (参考訳) QELM(Quantum Extreme Learning Machines)は、量子機械学習のための有望なフレームワークとして登場した。 彼らの魅力は、量子基板(量子貯水池)の力学によって引き起こされるリッチな特徴写像と、線形回帰による効率的な後測定トレーニングにある。 ここでは、QELMの予測をフーリエ級数に分解することで、QELMの表現性について検討する。 達成可能なフーリエ周波数はデータ符号化方式により決定され、フーリエ係数は貯水池と測定の両方に依存することを示す。 特に、QELMsの表現性は、フーリエ周波数の数と観測可能な観測値の数によって根本的に制限されるが、予測の複雑さは貯水池に依存する。 スケーラビリティに関する注意として、システムサイズが大きくなるにつれて観測対象の指数的な集中につながる4つの情報源(ランダム性、ハードウェアノイズ、絡み合い、グローバル測定)を特定し、QELMを無駄な入力に依存しないオラクルにする方法を示す。 特に, 高ランダムなアンサンブルから引き出された量子貯水池がQELMモデルを膨らませることができないことを強く示唆している。 我々の分析はQELMのポテンシャルと基本的限界を解明し、他の機械学習タスクのための量子貯水池システムを体系的に探索する基盤となる。

Quantum Extreme Learning Machines (QELMs) have emerged as a promising framework for quantum machine learning. Their appeal lies in the rich feature map induced by the dynamics of a quantum substrate - the quantum reservoir - and the efficient post-measurement training via linear regression. Here we study the expressivity of QELMs by decomposing the prediction of QELMs into a Fourier series. We show that the achievable Fourier frequencies are determined by the data encoding scheme, while Fourier coefficients depend on both the reservoir and the measurement. Notably, the expressivity of QELMs is fundamentally limited by the number of Fourier frequencies and the number of observables, while the complexity of the prediction hinges on the reservoir. As a cautionary note on scalability, we identify four sources that can lead to the exponential concentration of the observables as the system size grows (randomness, hardware noise, entanglement, and global measurements) and show how this can turn QELMs into useless input-agnostic oracles. In particular, our result on the reservoir-induced concentration strongly indicates that quantum reservoirs drawn from a highly random ensemble make QELM models unscalable. Our analysis elucidates the potential and fundamental limitations of QELMs, and lays the groundwork for systematically exploring quantum reservoir systems for other machine learning tasks.
翻訳日:2024-11-09 09:05:28 公開日:2024-09-27
# 最適差分PCAとスパイク共分散行列の推定

Optimal Differentially Private PCA and Estimation for Spiked Covariance Matrices ( http://arxiv.org/abs/2401.03820v2 )

ライセンス: Link先を確認
T. Tony Cai, Dong Xia, Mengyue Zha, (参考訳) 共分散行列とその関連する主成分を推定することは、現代統計学における根本的な問題である。 最適推定手順は、よく理解された特性で開発されているが、プライバシー保護の需要が高まると、この古典的な問題に新たな複雑さがもたらされる。 本稿では,スパイク共分散モデルにおける最適偏差分極成分分析(PCA)と共分散推定について検討する。 このモデルの下で固有値と固有ベクトルの感度を正確に評価し、主成分と共分散行列の両方を推定するための収束の最小値を確立する。 これらの速度は対数的因子に比例し、スペクトルノルム、フロベニウスノルム、核ノルムなどの一般的なシャッテンノルムを特別な場合として含む。 計算効率のよい微分プライベート推定器を提案し、ガウス分布の最小値最適性を対数係数まで証明する。 さらに、ミニマックス下限のマッチングが確立される。 特に,従来の文献と比較すると,信号強度が十分に強い場合,サンプルサイズが寸法よりもはるかに小さい場合でも,信号強度のばらつき,信号強度の幅の幅の広さ,有効性が保たれている。 シミュレーション研究と実データ実験の両方が,本手法の利点を実証している。

Estimating a covariance matrix and its associated principal components is a fundamental problem in contemporary statistics. While optimal estimation procedures have been developed with well-understood properties, the increasing demand for privacy preservation introduces new complexities to this classical problem. In this paper, we study optimal differentially private Principal Component Analysis (PCA) and covariance estimation within the spiked covariance model. We precisely characterize the sensitivity of eigenvalues and eigenvectors under this model and establish the minimax rates of convergence for estimating both the principal components and covariance matrix. These rates hold up to logarithmic factors and encompass general Schatten norms, including spectral norm, Frobenius norm, and nuclear norm as special cases. We propose computationally efficient differentially private estimators and prove their minimax optimality for sub-Gaussian distributions, up to logarithmic factors. Additionally, matching minimax lower bounds are established. Notably, compared to the existing literature, our results accommodate a diverging rank, a broader range of signal strengths, and remain valid even when the sample size is much smaller than the dimension, provided the signal strength is sufficiently strong. Both simulation studies and real data experiments demonstrate the merits of our method.
翻訳日:2024-11-09 05:28:28 公開日:2024-09-27
# 知識グラフ埋め込みを用いた医用質問応答の効率化に向けて

Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings ( http://arxiv.org/abs/2401.07977v2 )

ライセンス: Link先を確認
Saptarshi Sengupta, Connor Heaton, Suhan Cui, Soumalya Sarkar, Prasenjit Mitra, (参考訳) 自然言語処理(NLP)では、機械読解理解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。 医療領域における質問に対処するために、BioBERT、SciBERT、ChatGPTといった現代言語モデルは、膨大なドメイン内医療コーパスで訓練されている。 しかし、ドメイン内の事前トレーニングは時間とリソースの面で高価である。 本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するリソース効率の高い手法を提案する。 知識グラフは医療情報にアクセスするための強力なリソースである。 既存の研究に基づいて,医療知識グラフから抽出した埋め込みと,事前学習言語モデル(LM)の埋め込み空間の整合と統合を行うための,MLP(Multi-Layer Perceptrons)を用いた手法を提案する。 配置された埋め込みは、オープンドメインのLMTとRoBERTaで融合され、2つのMRCタスク、スパン検出(COVID-QA)とマルチチョイス質問(PubMedQA)のために微調整される。 組込みアライメントにおいて語彙オーバーラップに依存する先行手法と比較し,この要件を回避してよりよいパフォーマンスを実現する方法を示す。 どちらのデータセットでも、BERT/RoBERTaはより強力なドメイン固有モデルと同等(時折超える)に動作するか、あるいは従来の手法よりも一般的に改善されていることを示す。 提案手法では,ドメインの習熟度を高めるために,ドメイン内事前学習の代替手法を指示する。

In Natural Language Processing (NLP), Machine Reading Comprehension (MRC) is the task of answering a question based on a given context. To handle questions in the medical domain, modern language models such as BioBERT, SciBERT and even ChatGPT are trained on vast amounts of in-domain medical corpora. However, in-domain pre-training is expensive in terms of time and resources. In this paper, we propose a resource-efficient approach for injecting domain knowledge into a model without relying on such domain-specific pre-training. Knowledge graphs are powerful resources for accessing medical information. Building on existing work, we introduce a method using Multi-Layer Perceptrons (MLPs) for aligning and integrating embeddings extracted from medical knowledge graphs with the embedding spaces of pre-trained language models (LMs). The aligned embeddings are fused with open-domain LMs BERT and RoBERTa that are fine-tuned for two MRC tasks, span detection (COVID-QA) and multiple-choice questions (PubMedQA). We compare our method to prior techniques that rely on a vocabulary overlap for embedding alignment and show how our method circumvents this requirement to deliver better performance. On both datasets, our method allows BERT/RoBERTa to either perform on par (occasionally exceeding) with stronger domain-specific models or show improvements in general over prior techniques. With the proposed approach, we signal an alternative method to in-domain pre-training to achieve domain proficiency.
翻訳日:2024-11-09 05:28:28 公開日:2024-09-27
# 非バイアス変換による不均一処理が生存率に及ぼす影響の推定

Estimating Heterogeneous Treatment Effects on Survival Outcomes Using Counterfactual Censoring Unbiased Transformations ( http://arxiv.org/abs/2401.11263v2 )

ライセンス: Link先を確認
Shenbo Xu, Raluca Cobzaru, Stan N. Finkelstein, Roy E. Welsch, Kenney Ng, Zach Shahn, (参考訳) 観察データからヘテロジニアス処理効果(HTE)を推定する方法は、生存結果にはあまり注意を払わず、競合するリスクを伴う設定にはほとんど注意を払わなかった。 本研究では, 競合リスクの有無にかかわらず, 生き残るための非バイアス変換(CUT)の検閲を開発する。 これらのCUTを用いて時間と結果の変換を行った後、HTE学習者の連続的な結果への直接適用により、異種累積帰納効果、全効果、分離可能な直接効果の一貫性のある推定が得られる。 我々のCUTは、これまで利用できたものよりもはるかに大きな、最先端のHTE学習者を、特に競合するリスク設定において、検閲された結果に適用することができる。 有限サンプル超過リスクに縛られる一般モデルフリー学習者固有のオラクル不等式を提供する。 オラクル効率は、変換に関わるすべてのステップからのオラクルセレクタと推定ニュアンス関数に依存する。 シミュレーション研究において提案手法の実証的な性能を示す。

Methods for estimating heterogeneous treatment effects (HTE) from observational data have largely focused on continuous or binary outcomes, with less attention paid to survival outcomes and almost none to settings with competing risks. In this work, we develop censoring unbiased transformations (CUTs) for survival outcomes both with and without competing risks. After converting time-to-event outcomes using these CUTs, direct application of HTE learners for continuous outcomes yields consistent estimates of heterogeneous cumulative incidence effects, total effects, and separable direct effects. Our CUTs enable application of a much larger set of state of the art HTE learners for censored outcomes than had previously been available, especially in competing risks settings. We provide generic model-free learner-specific oracle inequalities bounding the finite-sample excess risk. The oracle efficiency results depend on the oracle selector and estimated nuisance functions from all steps involved in the transformation. We demonstrate the empirical performance of the proposed methods in simulation studies.
翻訳日:2024-11-09 05:17:11 公開日:2024-09-27
# フェデレーションデータ管理のための学習型宣言型プライバシ保護フレームワーク

A Learning-based Declarative Privacy-Preserving Framework for Federated Data Management ( http://arxiv.org/abs/2401.12393v2 )

ライセンス: Link先を確認
Hong Guan, Summer Gautier, Rajan Hari Ambrish, Yancheng Wang, Chaowei Xiao, Yingzhen Yang, Jia Zou, (参考訳) 複数のプライベートデータサイロ上でのフェデレーションクエリ処理の適切なプライバシ保護メカニズムを選択するのは難しい。 セキュアなマルチパーティコンピューティング(SMC)、差分プライバシによる近似クエリ処理(DP)、SMCとDPの組み合わせ、DPベースのデータ難読化、フェデレーション学習など、多くのプライバシ保護機構が存在する。 これらのメカニズムは、正確性、プライバシ、実行効率、ストレージ効率に異なるトレードオフをもたらす。 そこで本研究では,DP-SGDアルゴリズムを用いて学習したディープラーニングモデルを用いて,実際のデータの一部を置換してクエリに応答する,新たなプライバシ保存手法を提案する。 次に、ユーザが"保護する方法"ではなく、"保護すべきプライベート情報"を指定可能な、宣言的なプライバシ保護ワークフローを紹介します。 内部では、ハイパーパラメータだけでなく、プライバシー保護機構を自動的に選択するためのコストモデルに依存している。 同時に、提案されたワークフローでは、監査/コンプライアンス、最適化目的のために選択されたプライバシ保護メカニズムをレビューし、調整することができる。

It is challenging to select the right privacy-preserving mechanism for federated query processing over multiple private data silos. There exist numerous privacy-preserving mechanisms, such as secure multi-party computing (SMC), approximate query processing with differential privacy (DP), combined SMC and DP, DP-based data obfuscation, and federated learning. These mechanisms make different trade-offs among accuracy, privacy, execution efficiency, and storage efficiency. In this work, we first introduce a new privacy-preserving technique that uses a deep learning model trained using the Differentially-Private Stochastic Gradient Descent (DP-SGD) algorithm to replace portions of actual data to answer a query. We then demonstrate a novel declarative privacy-preserving workflow that allows users to specify "what private information to protect" rather than "how to protect". Under the hood, the system relies on a cost model to automatically choose privacy-preserving mechanisms as well as hyper-parameters. At the same time, the proposed workflow also allows human experts to review and tune the selected privacy-preserving mechanism for audit/compliance, and optimization purposes.
翻訳日:2024-11-09 05:17:11 公開日:2024-09-27
# SEER:強化学習による構造化推論と説明の促進

SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning ( http://arxiv.org/abs/2401.13246v4 )

ライセンス: Link先を確認
Guoxin Chen, Kexin Tang, Chao Yang, Fuying Ye, Yu Qiao, Yiming Qian, (参考訳) 質問回答システム(QA)の解釈可能性、トレーサビリティ、信頼性を大幅に向上させるため、質問から回答までの構造化された説明による推論プロセスの解明が不可欠である。 しかし、構造的説明は複雑な構造的推論を行うためにモデルを必要とするため、大きな課題が生じる。 既存のほとんどのメソッドは、教師付き学習を通じて、ステップ間の論理的依存関係を無視しながら、シングルステップの推論に重点を置いています。 さらに、既存の強化学習(RL)に基づく手法は構造的関係を見落とし、構造的推論におけるRLのポテンシャルを過小評価する。 本稿では,構造的推論と説明を容易にする構造的リターンを最大化する手法であるSEERを提案する。 提案手法は, 構造的推論に固有の階層構造と分岐構造を正確に記述し, 異なる推論ステップ間の複雑な関係を効果的に把握する。 さらに,多種多様な推論手順を正確に記述するための細粒度報酬関数を導入する。 大規模な実験の結果、SEERは最先端の手法を著しく上回り、EntailmentBankのRLベースの手法よりも6.9%向上し、STREETベンチマークの平均4.4%改善し、優れた効率性とクロスデータセットの一般化性能を示した。 私たちのコードはhttps://github.com/Chen-GX/SEER.comで公開されています。

Elucidating the reasoning process with structured explanations from question to answer is crucial, as it significantly enhances the interpretability, traceability, and trustworthiness of question-answering (QA) systems. However, structured explanations demand models to perform intricately structured reasoning, which poses great challenges. Most existing methods focus on single-step reasoning through supervised learning, ignoring logical dependencies between steps. Moreover, existing reinforcement learning (RL) based methods overlook the structured relationships, underutilizing the potential of RL in structured reasoning. In this paper, we propose SEER, a novel method that maximizes a structure-based return to facilitate structured reasoning and explanation. Our proposed structure-based return precisely describes the hierarchical and branching structure inherent in structured reasoning, effectively capturing the intricate relationships between different reasoning steps. In addition, we introduce a fine-grained reward function to meticulously delineate diverse reasoning steps. Extensive experiments show that SEER significantly outperforms state-of-the-art methods, achieving an absolute improvement of 6.9% over RL-based methods on EntailmentBank, a 4.4% average improvement on STREET benchmark, and exhibiting outstanding efficiency and cross-dataset generalization performance. Our code is available at https://github.com/Chen-GX/SEER.
翻訳日:2024-11-09 05:17:11 公開日:2024-09-27
# 量子過程のシャドウシミュレーション

Shadow Simulation of Quantum Processes ( http://arxiv.org/abs/2401.14934v2 )

ライセンス: Link先を確認
Xuanqiang Zhao, Xin Wang, Giulio Chiribella, (参考訳) 本稿では,対象の物理過程の出力における任意の量子オブザーバブルの期待値の推定をシミュレートするシャドウプロセスシミュレーションの課題を紹介する。 送信側と受信側がランダムビットなどの非署名リソースを共有した場合, シャドープロセスシミュレーションの性能は, 通信, ノイズシミュレーション, データ圧縮など, 様々なシナリオにおいて, 従来のプロセスシミュレーションプロトコルよりも優れていることを示す。 顕著なことに、必要なサンプル数を増やすことなく、シャドウシミュレーションによって統計的精度が向上するシナリオが存在する。

We introduce the task of shadow process simulation, where the goal is to simulate the estimation of the expectation values of arbitrary quantum observables at the output of a target physical process. When the sender and receiver share random bits or other no-signaling resources, we show that the performance of shadow process simulation exceeds that of conventional process simulation protocols in a variety of scenarios including communication, noise simulation, and data compression. Remarkably, we find that there exist scenarios where shadow simulation provides increased statistical accuracy without any increase in the number of required samples.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-27
# ChaosBench: サブシーズンからシーズンの気候予測のためのマルチチャネル物理ベースのベンチマーク

ChaosBench: A Multi-Channel, Physics-Based Benchmark for Subseasonal-to-Seasonal Climate Prediction ( http://arxiv.org/abs/2402.00712v4 )

ライセンス: Link先を確認
Juan Nathaniel, Yongquan Qu, Tung Nguyen, Sungduk Yu, Julius Busecke, Aditya Grover, Pierre Gentine, (参考訳) 季節-季節スケールにおける気候の正確な予測は、気候変動の中での災害の準備と堅牢な決定に不可欠である。 しかし、境界相互作用、蝶効果、我々の固有の物理的理解の欠如など、初期状態以外の問題を扱うため、天気予報以上の予測は難しい。 現在、既存のベンチマークは、予測範囲を最大15日に短縮し、幅広い運用基準を含まない傾向にあり、説明可能性に関する物理ベースの制約が欠如している。 そこで我々は,データ駆動型気象エミュレータの予測可能性範囲をS2Sタイムスケールに拡張するためのベンチマークであるChaosBenchを提案する。 第一に、ChaosBenchは、境界条件を尊重する完全な地球系エミュレーションを可能にするために45年以上にわたる海、氷、土地の再分析生成物を含む、典型的な地表大気のERA5以外の変数で構成されている。 また,決定論的および確率論的指標に加えて,バタフライ効果を考慮した物理的に一貫性のあるアンサンブルも提案する。 さらに、4つの国家気象機関による物理ベースの予測を、ViT/ClimaX、PanguWeather、GraphCast、FourCastNetV2などのデータ駆動モデルに対するベースラインとして評価した。 総じて、S2Sタスクでは、もともと気象スケールのアプリケーションのために開発された手法が失敗し、その性能は単に非熟練の気候学に崩壊する。 それにもかかわらず、既存の気象エミュレータの予測可能性範囲を拡張できるいくつかの戦略の概要と実証、例えばアンサンブルの使用、エラー伝播の堅牢な制御、物理情報モデルの使用などについて述べる。 ベンチマーク、データセット、インストラクションはhttps://leap-stc.github.io/ChaosBench.orgで公開されています。

Accurate prediction of climate in the subseasonal-to-seasonal scale is crucial for disaster preparedness and robust decision making amidst climate change. Yet, forecasting beyond the weather timescale is challenging because it deals with problems other than initial condition, including boundary interaction, butterfly effect, and our inherent lack of physical understanding. At present, existing benchmarks tend to have shorter forecasting range of up-to 15 days, do not include a wide range of operational baselines, and lack physics-based constraints for explainability. Thus, we propose ChaosBench, a challenging benchmark to extend the predictability range of data-driven weather emulators to S2S timescale. First, ChaosBench is comprised of variables beyond the typical surface-atmospheric ERA5 to also include ocean, ice, and land reanalysis products that span over 45 years to allow for full Earth system emulation that respects boundary conditions. We also propose physics-based, in addition to deterministic and probabilistic metrics, to ensure a physically-consistent ensemble that accounts for butterfly effect. Furthermore, we evaluate on a diverse set of physics-based forecasts from four national weather agencies as baselines to our data-driven counterpart such as ViT/ClimaX, PanguWeather, GraphCast, and FourCastNetV2. Overall, we find methods originally developed for weather-scale applications fail on S2S task: their performance simply collapse to an unskilled climatology. Nonetheless, we outline and demonstrate several strategies that can extend the predictability range of existing weather emulators, including the use of ensembles, robust control of error propagation, and the use of physics-informed models. Our benchmark, datasets, and instructions are available at https://leap-stc.github.io/ChaosBench.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-27
# テキスト表現による心内電図の解釈

Interpretation of Intracardiac Electrograms Through Textual Representations ( http://arxiv.org/abs/2402.01115v5 )

ライセンス: Link先を確認
William Jongwon Han, Diana Gomez, Avi Alok, Chaojing Duan, Michael A. Rosenberg, Douglas Weber, Emerson Liu, Ding Zhao, (参考訳) 心房細動(AFib)の不規則な電気活動を理解することは心電図における重要な課題である。 重篤なAFib症例では、心内電図(EGM)の収集のためにカテーテル・アブレーションが施行される。 EGMは、心臓の複雑な詳細で局所的な電気活動を提供し、解釈可能な心臓研究に理想的なモダリティである。 人工知能(AI)の最近の進歩は、深層学習フレームワークを使用して、AFib中にEGMを解釈する作業を可能にしている。 さらに、言語モデル(LM)は、特に医療において、目に見えない領域に一般化できるという、例外的な性能を示している。 本研究では,マスク付き言語モデリングによるEMG補間とAFib分類の微調整に事前学習したLMを初めて活用する。 テキストシーケンスとしてEGMを定式化し、他の表現と比較してAFib分類における競合性能を示す。 最後に, モデル行動の多視点的直観を提供するための総合的解釈可能性研究を行い, 臨床応用に大きな恩恵をもたらす可能性がある。

Understanding the irregular electrical activity of atrial fibrillation (AFib) has been a key challenge in electrocardiography. For serious cases of AFib, catheter ablations are performed to collect intracardiac electrograms (EGMs). EGMs offer intricately detailed and localized electrical activity of the heart and are an ideal modality for interpretable cardiac studies. Recent advancements in artificial intelligence (AI) has allowed some works to utilize deep learning frameworks to interpret EGMs during AFib. Additionally, language models (LMs) have shown exceptional performance in being able to generalize to unseen domains, especially in healthcare. In this study, we are the first to leverage pretrained LMs for finetuning of EGM interpolation and AFib classification via masked language modeling. We formulate the EGM as a textual sequence and present competitive performances on AFib classification compared against other representations. Lastly, we provide a comprehensive interpretability study to provide a multi-perspective intuition of the model's behavior, which could greatly benefit the clinical use.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-27
# Segment (複数形 Segments)

Segment Any Change ( http://arxiv.org/abs/2402.01188v3 )

ライセンス: Link先を確認
Zhuo Zheng, Yanfei Zhong, Liangpei Zhang, Stefano Ermon, (参考訳) 視覚基礎モデルは、ゼロショット画像分類とセグメンテーションにおいて顕著な結果を得たが、ゼロショット変化検出は依然として未解決の問題である。 本稿では、ゼロショット予測と、目に見えない変更タイプとデータ分布の一般化をサポートする新しいタイプの変更検出モデルであるAnyChangeを提案する。 AnyChangeは、トレーニング不要適応法、バイテンポラルラテントマッチングを通じてSAM(Se segment Any Model)上に構築されます。 SAMの潜伏空間における画像内および画像間のセマンティックな類似性を明らかにすることによって、バイテンポラルラテントマッチングはSAMにゼロショット変化検出能力を訓練不要な方法で与える。 また、AnyChangeのゼロショットオブジェクト中心の変更検出機能を有効にするためのポイントクエリ機構を提案する。 我々は、ゼロショット変化検出におけるAnyChangeの有効性を確認するための広範囲な実験を行った。 AnyChangeは、教師なしの変更検出のためのSECONDベンチマークに新しいレコードをセットし、以前のSOTAを4.4% F$_1$スコアで上回り、教師付き変更検出のための無視可能な手動アノテーション(画像毎の1ピクセル)で同等の精度を達成する。

Visual foundation models have achieved remarkable results in zero-shot image classification and segmentation, but zero-shot change detection remains an open problem. In this paper, we propose the segment any change models (AnyChange), a new type of change detection model that supports zero-shot prediction and generalization on unseen change types and data distributions. AnyChange is built on the segment anything model (SAM) via our training-free adaptation method, bitemporal latent matching. By revealing and exploiting intra-image and inter-image semantic similarities in SAM's latent space, bitemporal latent matching endows SAM with zero-shot change detection capabilities in a training-free way. We also propose a point query mechanism to enable AnyChange's zero-shot object-centric change detection capability. We perform extensive experiments to confirm the effectiveness of AnyChange for zero-shot change detection. AnyChange sets a new record on the SECOND benchmark for unsupervised change detection, exceeding the previous SOTA by up to 4.4% F$_1$ score, and achieving comparable accuracy with negligible manual annotations (1 pixel per image) for supervised change detection.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-27
# GenFace: 大規模ファイングラインド顔偽造ベンチマークとクロスプラットフォームエッジ学習

GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning ( http://arxiv.org/abs/2402.02003v4 )

ライセンス: Link先を確認
Yaning Zhang, Zitong Yu, Tianyi Wang, Xiaobin Huang, Linlin Shen, Zan Gao, Jianfeng Ren, (参考訳) フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。 したがって、デジタル操作を検出するためのベンチマークおよびプログレッシブ技術が緊急課題となる。 公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成され、拡散のような最新の技術は含まない。 拡散モデルにより生成された画像の多様性と品質は著しく改善され、SOTA偽造検出文献を評価するために、より困難な顔偽造データセットが使用される。 本稿では,拡散モデルなどの先進的なジェネレータが生成する多数の偽顔を含むディープフェイク検出の進展を促進するために,大規模で多種多様できめ細かな高忠実度データセットであるGenFaceを提案する。 ベンチマーク上でのSOTAアプローチの評価に加えて,多粒度な外見とエッジグローバルな表現を抽出し,識別的および一般的な偽トレースを検出する,革新的なクロスルックアップ・エッジ・ラーニング(CAEL)検出器を設計する。 さらに,2つの領域にまたがる様々な統合を探索するために,外観エッジ・クロスアテンション(AECA)モジュールを考案した。 大規模な実験結果と可視化の結果から,我々の検出モデルは,クロスジェネレータ,クロスフォージェニー,クロスデータセット評価など,さまざまな設定における最先端技術よりも優れていることがわかった。 コードとデータセットは \url{https://github.com/Jenine-321/GenFace で入手できる。

The rapid advancement of photorealistic generators has reached a critical juncture where the discrepancy between authentic and manipulated images is increasingly indistinguishable. Thus, benchmarking and advancing techniques detecting digital manipulation become an urgent issue. Although there have been a number of publicly available face forgery datasets, the forgery faces are mostly generated using GAN-based synthesis technology, which does not involve the most recent technologies like diffusion. The diversity and quality of images generated by diffusion models have been significantly improved and thus a much more challenging face forgery dataset shall be used to evaluate SOTA forgery detection literature. In this paper, we propose a large-scale, diverse, and fine-grained high-fidelity dataset, namely GenFace, to facilitate the advancement of deepfake detection, which contains a large number of forgery faces generated by advanced generators such as the diffusion-based model and more detailed labels about the manipulation approaches and adopted generators. In addition to evaluating SOTA approaches on our benchmark, we design an innovative cross appearance-edge learning (CAEL) detector to capture multi-grained appearance and edge global representations, and detect discriminative and general forgery traces. Moreover, we devise an appearance-edge cross-attention (AECA) module to explore the various integrations across two domains. Extensive experiment results and visualizations show that our detection model outperforms the state of the arts on different settings like cross-generator, cross-forgery, and cross-dataset evaluations. Code and datasets will be available at \url{https://github.com/Jenine-321/GenFace
翻訳日:2024-11-09 05:06:11 公開日:2024-09-27
# 拡張Open-Set Object DetectorによるクロスドメインFew-Shotオブジェクト検出

Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector ( http://arxiv.org/abs/2402.03094v4 )

ライセンス: Link先を確認
Yuqian Fu, Yu Wang, Yixuan Pan, Lian Huai, Xingyu Qiu, Zeyu Shangguan, Tong Liu, Yanwei Fu, Luc Van Gool, Xingqun Jiang, (参考訳) 本稿では,最小限のラベル付きサンプルを用いた新規ドメイン向け高精度物体検出装置の開発を目指して,CD-FSODの挑戦的領域間多重ショット検出手法について検討する。 DE-ViTのようなトランスフォーマーベースのオープンセット検出器は、従来の数発の物体検出において有望であるが、CD-FSODへの一般化はまだ不明である。 1) このような開集合検出法はCD-FSODに容易に一般化できるのか? 2) もしそうでなければ、巨大なドメインギャップに直面したモデルをどのように拡張できるでしょうか? 最初の質問に答えるために、私たちは、ドメインギャップを理解するために、スタイル、クラス間分散(ICV)、定義不能境界(IB)などの手段を使用します。 これらの測定値に基づいて,オブジェクト検出手法を評価するためのCD-FSODという新しいベンチマークを構築し,現在のアプローチの大部分がドメイン全体の一般化に失敗していることを明らかにする。 技術的には, 性能低下は, 提案手法であるスタイル, ICV, IBと関連していると考えられる。 そこで本研究では,これらの問題に対処する新しいモジュールをいくつか提案する。 まず、学習可能なインスタンス機能は、初期固定インスタンスをターゲットカテゴリに整列し、特徴の識別性を向上する。 第二に、インスタンス再重み付けモジュールは、わずかなIBを持つ高品質なインスタンスにより高い重要性を割り当てる。 第3に、ドメインプロンプトは、意味内容を変更することなく想像領域を合成することにより、異なるスタイルに回復する機能を奨励する。 これらの技術はCD-FSOD(CD-ViTO)用クロスドメインビジョントランスの開発に一括して寄与し、D-ViTベースで大幅に改善された。 実験により,本モデルの有効性が検証された。

This paper studies the challenging cross-domain few-shot object detection (CD-FSOD), aiming to develop an accurate object detector for novel domains with minimal labeled examples. While transformer-based open-set detectors, such as DE-ViT, show promise in traditional few-shot object detection, their generalization to CD-FSOD remains unclear: 1) can such open-set detection methods easily generalize to CD-FSOD? 2) If not, how can models be enhanced when facing huge domain gaps? To answer the first question, we employ measures including style, inter-class variance (ICV), and indefinable boundaries (IB) to understand the domain gap. Based on these measures, we establish a new benchmark named CD-FSOD to evaluate object detection methods, revealing that most of the current approaches fail to generalize across domains. Technically, we observe that the performance decline is associated with our proposed measures: style, ICV, and IB. Consequently, we propose several novel modules to address these issues. First, the learnable instance features align initial fixed instances with target categories, enhancing feature distinctiveness. Second, the instance reweighting module assigns higher importance to high-quality instances with slight IB. Third, the domain prompter encourages features resilient to different styles by synthesizing imaginary domains without altering semantic contents. These techniques collectively contribute to the development of the Cross-Domain Vision Transformer for CD-FSOD (CD-ViTO), significantly improving upon the base DE-ViT. Experimental results validate the efficacy of our model.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-27
# スキュー情報と標準偏差に対する状態依存・状態非依存の不確かさ関係

State-dependent and state-independent uncertainty relations for skew information and standard deviation ( http://arxiv.org/abs/2402.03159v3 )

ライセンス: Link先を確認
Sahil, (参考訳) 本研究では、不整合作用素(必ずしもエルミート的ではない)の可換作用素が明示的に存在する状態依存不確かさ関係(不確かさ等式)を導出し、ウィグナー・ヤンゼスキュー情報に基づく状態依存不確かさ関係を導出する。 混合状態を持つ非互換作用素の標準偏差に基づく不確実性等式を導出する。 純状態に対しては、Wigner-Yanaseスキュー情報に基づく状態非依存不確実性関係が標準偏差に基づく状態非依存不確実性関係となることを示す。 量子チャネルのウィグナー・ヤネーゼスキュー情報は、そのチャネルに対して密度演算子の量子コヒーレンス(英語版)の尺度とみなすことができるので、異なるチャネルの集合に関して密度演算子のコヒーレンス測度に対する状態非依存の不確実性関係が存在することを示す。 本稿では,Wigner-Yanase (-Dyson)スキュー情報とフィッシャー情報を含む一般化スキュー情報と呼ばれる,より一般的なスキュー情報に基づく状態依存型および状態依存型不確実性関係を示す。 量子ビットでは、一般化されたスキュー情報と標準偏差の異なる形の状態非依存の不等式と、一般化されたスキュー情報と標準偏差を含む状態非依存の不等式を導出する。 最後に、弱値の概念を用いて未知の可観測物のウィグナー・ヤネーゼ(ダイソン)スキュー情報を決定するスキームを提供する。

In this work, we derive state-dependent uncertainty relations (uncertainty equalities) in which commutators of incompatible operators (not necessarily Hermitian) are explicitly present and state-independent uncertainty relations based on the Wigner-Yanase (-Dyson) skew information. We derive uncertainty equality based on standard deviation for incompatible operators with mixed states, a generalization of previous works in which only pure states were considered. We show that for pure states, the Wigner-Yanase skew information based state-independent uncertainty relations become standard deviation based state-independent uncertainty relations which turn out to be tighter uncertainty relations for some cases than the ones given in previous works, and we generalize the previous works for arbitrary operators. As the Wigner-Yanase skew information of a quantum channel can be considered as a measure of quantum coherence of a density operator with respect to that channel, we show that there exists a state-independent uncertainty relation for the coherence measures of the density operator with respect to a collection of different channels. We show that state-dependent and state-independent uncertainty relations based on a more general version of skew information called generalized skew information which includes the Wigner-Yanase (-Dyson) skew information and the Fisher information as special cases hold. In qubits, we derive tighter state-independent uncertainty inequalities for different form of generalized skew informations and standard deviations, and state-independent uncertainty equalities involving generalized skew informations and standard deviations. Finally, we provide a scheme to determine the Wigner-Yanase (-Dyson) skew information of an unknown observable using the notion of weak values.
翻訳日:2024-11-09 04:54:55 公開日:2024-09-27
# Lens: ネットワークトラフィックの基礎モデル

Lens: A Foundation Model for Network Traffic ( http://arxiv.org/abs/2402.03646v4 )

ライセンス: Link先を確認
Qineng Wang, Chen Qian, Xiaochang Li, Ziyu Yao, Gang Zhou, Huajie Shao, (参考訳) ネットワークトラフィック(ネットワークトラフィック)とは、インターネットやコンピュータを接続するシステムを通じて送信されるデータの量である。 ネットワークトラフィックの分析と理解は、ネットワークのセキュリティと管理を改善する上で不可欠である。 しかし、データパケットの性質が多様であることから、ネットワークトラフィックの分析は困難である。 トラフィックの潜在的セマンティクスを捉えるために、Transformerエンコーダやデコーダをベースとした事前学習技術を用いて、大量のトラフィックデータから表現を学習する研究がいくつかある。 しかし、これらの手法は一般的にトラフィック理解(分類)やトラフィック生成タスクに優れている。 この問題に対処するため,T5アーキテクチャを利用したネットワークトラフィック基盤モデルLensを開発し,大規模未ラベルデータから事前学習を行う。 生成能力を保ちながらグローバル情報をキャプチャするエンコーダ・デコーダ・フレームワークの強みを活かして,本モデルでは生データから表現をよりよく学習することができる。 事前学習の有効性をさらに高めるために,マスク付きスパン予測(MSP),パケット順序予測(POP),ホモログトラフィック予測(HTP)の3つの異なるタスクを組み合わせた新しい損失を設計する。 様々なベンチマークデータセットによる評価結果から,提案したLensは,トラフィック理解と生成の両方に関連するほとんどの下流タスクにおいて,ベースラインを上回っていることが示された。 特に、現在のメソッドと比較して、微調整のためにラベル付きデータもはるかに少なくなります。

Network traffic refers to the amount of data being sent and received over the internet or any system that connects computers. Analyzing and understanding network traffic is vital for improving network security and management. However, the analysis of network traffic is challenging due to the diverse nature of data packets, which often feature heterogeneous headers and encrypted payloads lacking semantics. To capture the latent semantics of traffic, a few studies have adopted pre-training techniques based on the Transformer encoder or decoder to learn the representations from massive traffic data. However, these methods typically excel in traffic understanding (classification) or traffic generation tasks. To address this issue, we develop Lens, a foundation model for network traffic that leverages the T5 architecture to learn the pre-trained representations from large-scale unlabeled data. Harnessing the strength of the encoder-decoder framework, which captures the global information while preserving the generative ability, our model can better learn the representations from raw data. To further enhance pre-training effectiveness, we design a novel loss that combines three distinct tasks: Masked Span Prediction (MSP), Packet Order Prediction (POP), and Homologous Traffic Prediction (HTP). Evaluation results across various benchmark datasets demonstrate that the proposed Lens outperforms the baselines in most downstream tasks related to both traffic understanding and generation. Notably, it also requires much less labeled data for fine-tuning compared to current methods.
翻訳日:2024-11-09 04:54:55 公開日:2024-09-27
# 2つのトレードはバッフルされない:グラフを合理的なグラディエントマッチングで凝縮する

Two Trades is not Baffled: Condensing Graph via Crafting Rational Gradient Matching ( http://arxiv.org/abs/2402.04924v5 )

ライセンス: Link先を確認
Tianle Zhang, Yuchen Zhang, Kun Wang, Kai Wang, Beining Yang, Kaipeng Zhang, Wenqi Shao, Ping Liu, Joey Tianyi Zhou, Yang You, (参考訳) 大規模グラフの学習はグラフ表現学習において顕著な成果を上げてきたが、そのコストと記憶力の増大が懸念されている。 最も有望な方向の1つとして、グラフ凝縮法は勾配マッチングを用いてこれらの問題に対処し、全グラフをより簡潔で情報に富んだ合成集合に凝縮することを目的としている。 これらの戦略は励まされるが、主に勾配の一致方向を強調し、訓練軌道のずれにつながる。 このような偏差は、凝縮と評価相の違いによってさらに拡大され、凝縮グラフの性能に有害な累積誤差が決定される。 そこで本研究では,従来のデータセットの特徴分布に近い最適化された出発点と,勾配マッチングのためのより洗練された戦略を提供する,新しいグラフ凝縮法である \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} トラジェクトリ(\textbf{CTRL})を提案する。 理論的には、CTRLは凝縮グラフの性能に対する累積誤差の影響を効果的に中和することができる。 我々は、CTRLの有効性をサポートするために、様々なグラフデータセットと下流タスクについて広範な実験を行った。 コードはhttps://github.com/NUS-HPC-AI-Lab/CTRLで公開されている。

Training on large-scale graphs has achieved remarkable results in graph representation learning, but its cost and storage have raised growing concerns. As one of the most promising directions, graph condensation methods address these issues by employing gradient matching, aiming to condense the full graph into a more concise yet information-rich synthetic set. Though encouraging, these strategies primarily emphasize matching directions of the gradients, which leads to deviations in the training trajectories. Such deviations are further magnified by the differences between the condensation and evaluation phases, culminating in accumulated errors, which detrimentally affect the performance of the condensed graphs. In light of this, we propose a novel graph condensation method named \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} trajectory (\textbf{CTRL}), which offers an optimized starting point closer to the original dataset's feature distribution and a more refined strategy for gradient matching. Theoretically, CTRL can effectively neutralize the impact of accumulated errors on the performance of condensed graphs. We provide extensive experiments on various graph datasets and downstream tasks to support the effectiveness of CTRL. Code is released at https://github.com/NUS-HPC-AI-Lab/CTRL.
翻訳日:2024-11-09 04:54:55 公開日:2024-09-27
# HyperBERT: テキスト分散ハイパーグラフのノード分類のための言語モデルとハイパーグラフ認識層を混合する

HyperBERT: Mixing Hypergraph-Aware Layers with Language Models for Node Classification on Text-Attributed Hypergraphs ( http://arxiv.org/abs/2402.07309v4 )

ライセンス: Link先を確認
Adrián Bazaga, Pietro Liò, Gos Micklem, (参考訳) ハイパーグラフは複雑なトポロジカル構造を特徴とし、ハイパーエッジを通して複数のエンティティ間の高次相互作用を表現する。 近年,テキスト対応ハイパーグラフにおけるノード分類問題に対する情報表現を学習するためのハイパーグラフに基づくディープラーニング手法が研究の注目を集めている。 しかし、既存の手法は、ハイパーグラフ構造情報の全範囲と、ノード属性に固有の豊富な言語特性を同時に捉えるのに苦労し、その有効性と一般化性を大きく損なう。 これらの課題を克服するために、ノード分類のタスクのために、特別なハイパーグラフ対応層を持つ事前訓練されたBERTモデルをさらに強化する方法を探る。 このようなレイヤは言語モデルに高階構造帰納バイアスを導入し、ハイパーグラフ構造からの高階コンテキスト情報とテキストに存在する意味情報の両方を活用するためのモデルの能力を向上させる。 本稿では,事前学習したBERTの高品質テキスト符号化能力を維持しつつ,ハイパーグラフ関係構造を同時にモデル化する混合テキストハイパグラフモデルであるHyperBERTを提案する。 特に、HyperBERTは5つの挑戦的なテキスト分散ハイパーグラフノード分類ベンチマークに対して、最先端の新たな結果を提供する。

Hypergraphs are characterized by complex topological structure, representing higher-order interactions among multiple entities through hyperedges. Lately, hypergraph-based deep learning methods to learn informative data representations for the problem of node classification on text-attributed hypergraphs have garnered increasing research attention. However, existing methods struggle to simultaneously capture the full extent of hypergraph structural information and the rich linguistic attributes inherent in the nodes attributes, which largely hampers their effectiveness and generalizability. To overcome these challenges, we explore ways to further augment a pretrained BERT model with specialized hypergraph-aware layers for the task of node classification. Such layers introduce higher-order structural inductive bias into the language model, thus improving the model's capacity to harness both higher-order context information from the hypergraph structure and semantic information present in text. In this paper, we propose a new architecture, HyperBERT, a mixed text-hypergraph model which simultaneously models hypergraph relational structure while maintaining the high-quality text encoding capabilities of a pre-trained BERT. Notably, HyperBERT presents results that achieve a new state-of-the-art on five challenging text-attributed hypergraph node classification benchmarks.
翻訳日:2024-11-09 04:54:55 公開日:2024-09-27
# 局所デチューニングを用いたRydberg原子配列上の最大独立集合の近似

Approximating maximum independent set on Rydberg atom arrays using local detunings ( http://arxiv.org/abs/2402.09180v2 )

ライセンス: Link先を確認
Hyeonjun Yeo, Ha Eum Kim, Kabgyun Jeong, (参考訳) 量子断熱原理によって操作されるリドバーグ原子配列は、そのスケーラビリティと長いコヒーレンス時間のために最も有望な量子シミュレーションプラットフォームの一つである。 組合せ最適化の観点からは、Rydberg Hamiltonian と最大独立集合問題のコスト関数との類似性から、本質的な最大独立集合問題に対する効率的な解を提供する。 本研究では、頂点間の接続を表す量である頂点の頂点支持に従って、リードベルク・ハミルトニアン上の局所分解を調整することにより、最大独立集合を近似する戦略を提案する。 これにより、アディバチティが十分である場合に欠陥のあるチェッカーボードグラフのエラー率を3倍に抑えることができる。 さらに,アディバチティーが比較的不十分である場合でも,ランダムグラフの誤り率を低下させる。 さらに, この戦略は, 量子状態と2次元猫状態との忠実度を正方格子上に引き上げることで, 量子多体基底状態の生成に有効であることを示した。 最後に、この戦略は非アーベル的断熱混合と組み合わせられ、この手法は局所変形を伴う従来の断熱進化と比較して、最大独立集合を見つけることに成功している。

Rydberg atom arrays operated by a quantum adiabatic principle are among the most promising quantum simulating platforms due to their scalability and long coherence time. From the perspective of combinatorial optimization, they offer an efficient solution for an intrinsic maximum independent set problem because of the resemblance between the Rydberg Hamiltonian and the cost function of the maximum independent set problem. In this study, a strategy is suggested to approximate maximum independent sets by adjusting local detunings on the Rydberg Hamiltonian according to each vertex's vertex support, which is a quantity that represents connectivity between vertices. By doing so, the strategy successfully reduces the error rate three times for the checkerboard graphs with defects when the adiabaticity is sufficient. In addition, the strategy decreases the error rate for random graphs even when the adiabaticity is relatively insufficient. Moreover, it is shown that the strategy helps to prepare a quantum many-body ground state by raising the fidelity between the evolved quantum state and a 2D cat state on a square lattice. Finally, the strategy is combined with the non-abelian adiabatic mixing and this approach is highly successful in finding maximum independent sets compared to the conventional adiabatic evolution with local detunings.
翻訳日:2024-11-09 04:43:41 公開日:2024-09-27
# PromptKD: Prompt Tuningによる生成言語モデルのための学生フレンドリーな知識の蒸留

PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning ( http://arxiv.org/abs/2402.12842v3 )

ライセンス: Link先を確認
Gyeongman Kim, Doohyuk Jang, Eunho Yang, (参考訳) 大規模言語モデル(LLM)の最近の進歩により、推論コストに対する懸念が高まり、モデル圧縮の研究の必要性が高まっている。 知識蒸留(KD)は重要な手法であるが、LLMのような生成言語モデルにおけるKDの研究は比較的疎いものであり、分類モデルにおけるKDの有望な性能を示す学生フレンドリな知識の蒸留のアプローチは、生成言語モデルでは未探索のままである。 提案手法は, 学生に親しみやすい知識を伝達するための生成言語モデルを実現するために, 即時チューニング(KD)を初めて利用する, シンプルで効果的な方法である。 学生に親しみやすい知識を抽出するために教師モデル全体を微調整する必要がある以前の分類法とは異なり、PromptKDは少数のプロンプトトークンを追加し、学生指導でプロンプトのみをチューニングすることで同様の効果を達成している。 PromptKDは、教師のパラメータの0.0007%をプロンプトとして追加しながら、最先端のパフォーマンスを達成する。 さらに分析したところ、学生に親しみやすい知識を蒸留することで、トレーニングプロセス全体を通して効果的に露光バイアスが軽減され、パフォーマンスが向上することが示唆された。

Recent advancements in large language models (LLMs) have raised concerns about inference costs, increasing the need for research into model compression. While knowledge distillation (KD) is a prominent method for this, research on KD for generative language models like LLMs is relatively sparse, and the approach of distilling student-friendly knowledge, which has shown promising performance in KD for classification models, remains unexplored in generative language models. To explore this approach, we propose PromptKD, a simple yet effective method that utilizes prompt tuning - for the first time in KD - to enable generative language models to transfer student-friendly knowledge. Unlike previous works in classification that require fine-tuning the entire teacher model for extracting student-friendly knowledge, PromptKD achieves similar effects by adding a small number of prompt tokens and tuning only the prompt with student guidance. Extensive experiments on instruction-following datasets show that PromptKD achieves state-of-the-art performance while adding only 0.0007% of the teacher's parameters as prompts. Further analysis suggests that distilling student-friendly knowledge alleviates exposure bias effectively throughout the entire training process, leading to performance enhancements.
翻訳日:2024-11-09 04:43:41 公開日:2024-09-27
# MATHWELL:教師アノテーションを用いた教育用数学語問題の生成

MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations ( http://arxiv.org/abs/2402.15861v5 )

ライセンス: Link先を確認
Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen, (参考訳) 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、広範囲の専門知識を必要とする。 教育のためには、問題は解決可能であり、正確な答えを持ち、そして最も重要なことは、教育的に適切である必要がある。 我々は,言語モデルが単語問題を自動的に生成することで,K-8の数学教育を支援する可能性を示唆する。 しかし、教育的適切性を評価することは難しい。 我々は、既存のモデルやデータが教育的に適切でない場合が多いLLMが生み出す問題を教師に評価させることで、このギャップを埋める。 そして、教育用語の問題を自動生成し、最終的に専門家のアノテーションを使って70B言語モデルを微調整します。 我々のモデルであるMATHWELLは、教育的適切性を重視した最初のK-8ワード問題生成装置である。 さらなる専門的な研究により、MATHWELLは公開モデルよりもはるかに解決可能で正確で適切な問題を発生させる。 MATHWELLはまた、K-8の生徒にとってより適切な読解レベルを獲得しながら、GPT-4の問題品質と一致し、有害な質問を発生させない。

Math word problems are critical K-8 educational tools, but writing them is time consuming and requires extensive expertise. To be educational, problems must be solvable, have accurate answers, and, most importantly, be educationally appropriate. We propose that language models have potential to support K-8 math education by automatically generating word problems. However, evaluating educational appropriateness is hard to quantify. We fill this gap by having teachers evaluate problems generated by LLMs, who find existing models and data often fail to be educationally appropriate. We then explore automatically generating educational word problems, ultimately using our expert annotations to finetune a 70B language model. Our model, MATHWELL, is the first K-8 word problem generator targeted at educational appropriateness. Further expert studies find MATHWELL generates problems far more solvable, accurate, and appropriate than public models. MATHWELL also matches GPT-4's problem quality while attaining more appropriate reading levels for K-8 students and avoiding generating harmful questions.
翻訳日:2024-11-09 04:32:42 公開日:2024-09-27
# ELiSe: 構造化されたリカレントネットワークにおけるシーケンスの効率的な学習

ELiSe: Efficient Learning of Sequences in Structured Recurrent Networks ( http://arxiv.org/abs/2402.16763v2 )

ライセンス: Link先を確認
Laura Kriener, Kristin Völk, Ben von Hünerbein, Federico Benitez, Walter Senn, Mihai A. Petrovici, (参考訳) 行動は、神経活動によって引き起こされる行動の時間的シーケンスとして記述することができる。 ニューラルネットワークで複雑なシーケンシャルパターンを学習するには、単一ニューロンの活動の緩和時間よりもはるかに長い時間スケールで過去のアクティビティの記憶を持続する必要がある。 リカレントネットワークはそのような長いトランジェントを生成することができるが、これらのネットワークのトレーニングは難しい。 エラー伝播による学習は、Force、RTRL、BPTTなどのモデルが重要な機能上の利点であるが、生物学的な妥当性を犠牲にしている。 貯水池計算は、読み出し重量のみを学習することでこの問題を回避するが、問題複雑度ではうまくスケールしない。 本稿では, 学習開始時のネットワーク足場の存在と, 神経情報記憶・計算の高度化のための樹状部の存在という, 皮質ネットワークの構造的特徴がこれらの問題を緩和できることを示す。 EiSe(Efficient Learning of Sequences)は, 局所的, 常オン的, 位相自由なシナプス塑性のみを用いて, 複雑な非マルコフ時空間パターンの獲得と再生を行う。 鳥の鳴き声学習のモックアップでELiSeの能力を実証し、パラメトリゼーションに対する柔軟性と外乱に対する堅牢性を示す。

Behavior can be described as a temporal sequence of actions driven by neural activity. To learn complex sequential patterns in neural networks, memories of past activities need to persist on significantly longer timescales than the relaxation times of single-neuron activity. While recurrent networks can produce such long transients, training these networks is a challenge. Learning via error propagation confers models such as FORCE, RTRL or BPTT a significant functional advantage, but at the expense of biological plausibility. While reservoir computing circumvents this issue by learning only the readout weights, it does not scale well with problem complexity. We propose that two prominent structural features of cortical networks can alleviate these issues: the presence of a certain network scaffold at the onset of learning and the existence of dendritic compartments for enhancing neuronal information storage and computation. Our resulting model for Efficient Learning of Sequences (ELiSe) builds on these features to acquire and replay complex non-Markovian spatio-temporal patterns using only local, always-on and phase-free synaptic plasticity. We showcase the capabilities of ELiSe in a mock-up of birdsong learning, and demonstrate its flexibility with respect to parametrization, as well as its robustness to external disturbances.
翻訳日:2024-11-09 04:32:42 公開日:2024-09-27
# SKT5SciSumm -- マルチドキュメント科学要約のための抽出生成アプローチの再検討

SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization ( http://arxiv.org/abs/2402.17311v2 )

ライセンス: Link先を確認
Huy Quoc To, Ming Liu, Guangyan Huang, Hung-Nghiep Tran, Andr'e Greiner-Petter, Felix Beierle, Akiko Aizawa, (参考訳) 科学的テキストの要約は、研究コミュニティと人間社会の両方にとって大きなメリットを示している。 科学的テキストの性質が独特であり、多文書要約タスクの入力がかなり長いことを考えると、重要な情報を失うことなく十分な埋め込み生成とテキストトランケーションが必要である。 本稿では,多文書科学要約(MDSS)のためのハイブリッドフレームワークであるSKT5SciSummを提案する。 我々は、Citation-Informed Transformer (SPECTER) を用いたScientific Paper Embeddingsの文変換バージョンを利用してテキスト文のエンコードと表現を行い、k-meansクラスタリングによる効率的な抽出要約を可能にする。 我々は、抽出文を用いて抽象要約を生成するために、T5モデルのファミリを用いる。 SKT5SciSummはMulti-XScienceデータセット上で最先端のパフォーマンスを達成する。 より広範な実験と評価を通じて、より複雑なモデルを用いて目覚ましい結果を得ることにより、科学的テキストの多文書要約の分野を前進させる可能性を明らかにする。

Summarization for scientific text has shown significant benefits both for the research community and human society. Given the fact that the nature of scientific text is distinctive and the input of the multi-document summarization task is substantially long, the task requires sufficient embedding generation and text truncation without losing important information. To tackle these issues, in this paper, we propose SKT5SciSumm - a hybrid framework for multi-document scientific summarization (MDSS). We leverage the Sentence-Transformer version of Scientific Paper Embeddings using Citation-Informed Transformers (SPECTER) to encode and represent textual sentences, allowing for efficient extractive summarization using k-means clustering. We employ the T5 family of models to generate abstractive summaries using extracted sentences. SKT5SciSumm achieves state-of-the-art performance on the Multi-XScience dataset. Through extensive experiments and evaluation, we showcase the benefits of our model by using less complicated models to achieve remarkable results, thereby highlighting its potential in advancing the field of multi-document summarization for scientific text.
翻訳日:2024-11-09 04:32:42 公開日:2024-09-27
# DevPhish: ソフトウェアサプライチェーン攻撃におけるソーシャルエンジニアリングの探求

DevPhish: Exploring Social Engineering in Software Supply Chain Attacks on Developers ( http://arxiv.org/abs/2402.18401v2 )

ライセンス: Link先を確認
Hossein Siadati, Sima Jafarikhah, Elif Sahin, Terrence Brent Hernandez, Elijah Lorenzo Tripp, Denis Khryashchev, (参考訳) ソフトウェアサプライチェーン(SSC)は、システムに侵入し組織を弱体化させようとする攻撃者からかなりの注目を集めている。 ソフトウェア開発者に特化したソーシャルエンジニアリング(SocE)技術を利用している証拠がある。 つまり、Githubリポジトリにアクセスしたり、コードの依存関係を取り入れたり、悪意のあるコードを導入するためにプルリクエスト(PR)の承認を得るといった、ソフトウェア開発ライフサイクル(SDLC)の重要なステップで開発者と対話する。 本稿では、ソフトウェア技術者(SWE)を騙して悪意あるソフトウェアを届けるために、敵が採用している既存のSocE戦術を包括的に探求することを目的とする。 確立した学術文献や実世界の出来事を含む多種多様な資源を分析し,SSCの領域におけるこれらの操作戦略の概要を体系的に提示する。 このような洞察は、脅威モデリングとセキュリティギャップ分析にとって非常に有益である。

The Software Supply Chain (SSC) has captured considerable attention from attackers seeking to infiltrate systems and undermine organizations. There is evidence indicating that adversaries utilize Social Engineering (SocE) techniques specifically aimed at software developers. That is, they interact with developers at critical steps in the Software Development Life Cycle (SDLC), such as accessing Github repositories, incorporating code dependencies, and obtaining approval for Pull Requests (PR) to introduce malicious code. This paper aims to comprehensively explore the existing and emerging SocE tactics employed by adversaries to trick Software Engineers (SWEs) into delivering malicious software. By analyzing a diverse range of resources, which encompass established academic literature and real-world incidents, the paper systematically presents an overview of these manipulative strategies within the realm of the SSC. Such insights prove highly beneficial for threat modeling and security gap analysis.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-27
# DevPhish: ソフトウェアサプライチェーン攻撃におけるソーシャルエンジニアリングの探求

DevPhish: Exploring Social Engineering in Software Supply Chain Attacks on Developers ( http://arxiv.org/abs/2402.18401v3 )

ライセンス: Link先を確認
Hossein Siadati, Sima Jafarikhah, Elif Sahin, Terrence Brent Hernandez, Elijah Lorenzo Tripp, Denis Khryashchev, Amin Kharraz, (参考訳) ソフトウェアサプライチェーン(SSC)は、システムに侵入し組織を弱体化させようとする攻撃者からかなりの注目を集めている。 ソフトウェア開発者に特化したソーシャルエンジニアリング(SocE)技術を利用している証拠がある。 つまり、Githubリポジトリにアクセスしたり、コードの依存関係を取り入れたり、悪意のあるコードを導入するためにプルリクエスト(PR)の承認を得るといった、ソフトウェア開発ライフサイクル(SDLC)の重要なステップで開発者と対話する。 本稿では、ソフトウェア技術者(SWE)を騙して悪意あるソフトウェアを届けるために、敵が採用している既存のSocE戦術を包括的に探求することを目的とする。 確立した学術文献や実世界の出来事を含む多種多様な資源を分析し,SSCの領域におけるこれらの操作戦略の概要を体系的に提示する。 このような洞察は、脅威モデリングとセキュリティギャップ分析にとって非常に有益である。

The Software Supply Chain (SSC) has captured considerable attention from attackers seeking to infiltrate systems and undermine organizations. There is evidence indicating that adversaries utilize Social Engineering (SocE) techniques specifically aimed at software developers. That is, they interact with developers at critical steps in the Software Development Life Cycle (SDLC), such as accessing Github repositories, incorporating code dependencies, and obtaining approval for Pull Requests (PR) to introduce malicious code. This paper aims to comprehensively explore the existing and emerging SocE tactics employed by adversaries to trick Software Engineers (SWEs) into delivering malicious software. By analyzing a diverse range of resources, which encompass established academic literature and real-world incidents, the paper systematically presents an overview of these manipulative strategies within the realm of the SSC. Such insights prove highly beneficial for threat modeling and security gap analysis.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-27
# 知識不足に対処したファインチューニング対検索生成

Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge ( http://arxiv.org/abs/2403.01432v3 )

ライセンス: Link先を確認
Heydar Soudani, Evangelos Kanoulas, Faegheh Hasibi, (参考訳) 言語モデル(LM)は膨大な事実知識を記憶し、様々なタスクやドメインにまたがって強力なパフォーマンスを示す。 しかし、例えばドメイン固有のアプリケーションにおいて、あまり人気のない概念や低周波の概念や実体を扱う場合、性能は低下する。 低頻度トピックにおけるLMの性能を高めるための2つの顕著なアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。 本稿では,質問応答タスクにおける低周波エンティティ処理におけるLMのカスタマイズに対するRAGとFTの影響について検討し,評価する。 サイズ,タイプ,微調整,データ拡張,検索モデルが異なる12個のLMに対して,広範囲にわたる実験を行った。 以上の結果から,FTはさまざまな人気を持つエンティティに対してパフォーマンスを向上するが,RAGは特に人気が低い事実知識において,FTをはるかに上回っていることが示唆された。 さらに、RAGとFTの両方のアプローチの成功は、検索とデータ拡張技術の改善によって増幅される。 微調整は小さなLMには有益であるが、広範囲のリソースを必要とする。 この問題に対処するために、我々は、微調整に基づくアプローチの有効性を超越した新しいStimulus RAGアプローチを提案する。

Language Models (LMs) memorize a vast amount of factual knowledge, exhibiting strong performance across diverse tasks and domains. However, it has been observed that the performance diminishes when dealing with less-popular or low-frequency concepts and entities, for example in domain specific applications. The two prominent approaches to enhance the performance of LMs on low-frequent topics are: Retrieval Augmented Generation (RAG) and fine-tuning (FT) over synthetic data. This paper explores and evaluates the impact of RAG and FT on customizing LMs in handling low-frequency entities on question answering tasks. We conduct extensive experiments on twelve LMs of varying size and type and different fine tuning, data augmentation, and retrieval models. Our findings indicate that while FT boosts the performance across entities of varying popularity, RAG surpasses FT by a large margin particularly for least popular factual knowledge. Additionally, the success of both RAG and FT approaches is amplified by improving retrieval and data augmentation techniques. Fine tuning, while beneficial for small LMs, requires extensive resources. To address this issue, we propose the new Stimulus RAG approach that surpasses the effectiveness of fine tuning based approaches, thereby eliminating the need for the costly data augmentation and fine tuning step for enriching LMs with less popular factual knowledge.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-27
# 知識不足に対処したファインチューニング対検索生成

Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge ( http://arxiv.org/abs/2403.01432v4 )

ライセンス: Link先を確認
Heydar Soudani, Evangelos Kanoulas, Faegheh Hasibi, (参考訳) 言語モデル(LM)は膨大な事実知識を記憶し、様々なタスクやドメインにまたがって強力なパフォーマンスを示す。 しかし、例えばドメイン固有のアプリケーションにおいて、あまり人気のない概念や低周波の概念や実体を扱う場合、性能は低下する。 低頻度トピックにおけるLMの性能を高めるための2つの顕著なアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。 本稿では,質問応答タスクにおける低周波エンティティ処理におけるLMのカスタマイズに対するRAGとFTの影響について検討し,評価する。 サイズ,タイプ,微調整,データ拡張,検索モデルが異なる12個のLMに対して,広範囲にわたる実験を行った。 以上の結果から,FTはさまざまな人気を持つエンティティに対してパフォーマンスを向上するが,RAGは特に人気が低い事実知識において,FTをはるかに上回っていることが示唆された。 さらに、RAGとFTの両方のアプローチの成功は、検索とデータ拡張技術の改善によって増幅される。 微調整は小さなLMには有益であるが、広範囲のリソースを必要とする。 この問題に対処するために、我々は、微調整に基づくアプローチの有効性を超越した新しいStimulus RAGアプローチを提案する。

Language Models (LMs) memorize a vast amount of factual knowledge, exhibiting strong performance across diverse tasks and domains. However, it has been observed that the performance diminishes when dealing with less-popular or low-frequency concepts and entities, for example in domain specific applications. The two prominent approaches to enhance the performance of LMs on low-frequent topics are: Retrieval Augmented Generation (RAG) and fine-tuning (FT) over synthetic data. This paper explores and evaluates the impact of RAG and FT on customizing LMs in handling low-frequency entities on question answering tasks. We conduct extensive experiments on twelve LMs of varying size and type and different fine tuning, data augmentation, and retrieval models. Our findings indicate that while FT boosts the performance across entities of varying popularity, RAG surpasses FT by a large margin particularly for least popular factual knowledge. Additionally, the success of both RAG and FT approaches is amplified by improving retrieval and data augmentation techniques. Fine tuning, while beneficial for small LMs, requires extensive resources. To address this issue, we propose the new Stimulus RAG approach that surpasses the effectiveness of fine tuning based approaches, thereby eliminating the need for the costly data augmentation and fine tuning step for enriching LMs with less popular factual knowledge.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-27
# 3次元拡散政策: シンプルな3次元表現による一般化可能なビジュモータ政策学習

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations ( http://arxiv.org/abs/2403.03954v7 )

ライセンス: Link先を確認
Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu, (参考訳) 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと、一般化可能に学習することは、通常、大量の人間のデモンストレーションを消費する。 この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。 DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。 72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、24.2%の相対的な改善でベースラインを超えた。 4つの実ロボットタスクにおいて、DP3は、各タスクの40個のデモのみを考慮し、高い成功率85%の正確な制御を示し、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。 興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。 実世界のロボット学習における3D表現の重要性を明らかにする。 ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されている。

Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 24.2% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
翻訳日:2024-11-09 04:21:34 公開日:2024-09-27
# ガラス箱特徴量に基づく大規模言語モデルの自己評価

Self-Evaluation of Large Language Model based on Glass-box Features ( http://arxiv.org/abs/2403.04222v2 )

ライセンス: Link先を確認
Hui Huang, Yingqi Qu, Jing Liu, Muyun Yang, Bing Xu, Tiejun Zhao, Wenpeng Lu, (参考訳) オープンソースのLarge Language Models (LLMs) の普及は,評価手法の必要性を浮き彫りにしている。 既存の作業は主に外部評価に頼っており、トレーニングと戦略の推進に重点を置いている。 しかし、重要な側面であるモデル対応のガラス箱機能は見過ごされている。 本研究では,ガラス箱の特徴を自己評価のシナリオ,すなわち LLM を適用して独自の出力を評価することによる有用性について検討する。 ガラス箱の特徴群について検討し,ソフトマックス分布が自己評価の信頼性の高い指標となることを明らかにした。 ガラス箱の特徴を用いたLCMの自己評価の実現可能性を検証する。

The proliferation of open-source Large Language Models (LLMs) underscores the pressing need for evaluation methods. Existing works primarily rely on external evaluators, focusing on training and prompting strategies. However, a crucial aspect, model-aware glass-box features, is overlooked. In this study, we explore the utility of glass-box features under the scenario of self-evaluation, namely applying an LLM to evaluate its own output. We investigate various glass-box feature groups and discovered that the softmax distribution serves as a reliable quality indicator for self-evaluation. Experimental results on public benchmarks validate the feasibility of self-evaluation of LLMs using glass-box features.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-27
# 画像復元のためのインシシシト・イメージ・トゥ・イメージ・シュロディンガーブリッジ

Implicit Image-to-Image Schrodinger Bridge for Image Restoration ( http://arxiv.org/abs/2403.06069v2 )

ライセンス: Link先を確認
Yuang Wang, Siyeop Yoon, Pengfei Jin, Matthew Tivnan, Sifan Song, Zhennong Chen, Rui Hu, Li Zhang, Quanzheng Li, Zhiqiang Chen, Dufan Wu, (参考訳) 拡散に基づくモデルは画像復元作業において有効であることが広く認識されているが、ガウスノイズから始まる反復的復調過程は、しばしば推論速度を遅くする。 Image-to-Image Schr\"odinger Bridge (I$^2$SB)は、劣化した画像から生成プロセスを開始し、スコアベースの拡散モデルからトレーニング技術を活用することで、有望な代替手段を提供する。 本稿では,I$^3$SBの生成過程をさらに加速させるために,Imlicit Image-to-Image Schr\"odinger Bridge(I$^3$SB)を紹介する。 I$^3$SB は生成過程を非マルコフフレームワークに再構成し、初期劣化した画像を各ステップに組み込むことで、限界分布が I$^2$SB のものと一致することを保証する。 これにより、I$^2$SBから事前訓練されたネットワークを直接利用できる。 自然画像,ヒトの顔画像,医用画像に対する大規模な実験により,I$3$SBの加速効果が検証された。 I$^2$SBと比較すると、I$^3$SBはより少ない生成ステップで同じ知覚品質を達成できるが、基底真理に等しいあるいは改善された忠実さを維持している。

Diffusion-based models are widely recognized for their effectiveness in image restoration tasks; however, their iterative denoising process, which begins from Gaussian noise, often results in slow inference speeds. The Image-to-Image Schr\"odinger Bridge (I$^2$SB) presents a promising alternative by starting the generative process from corrupted images and leveraging training techniques from score-based diffusion models. In this paper, we introduce the Implicit Image-to-Image Schr\"odinger Bridge (I$^3$SB) to further accelerate the generative process of I$^2$SB. I$^3$SB reconfigures the generative process into a non-Markovian framework by incorporating the initial corrupted image into each step, while ensuring that the marginal distribution aligns with that of I$^2$SB. This allows for the direct use of the pretrained network from I$^2$SB. Extensive experiments on natural images, human face images, and medical images validate the acceleration benefits of I$^3$SB. Compared to I$^2$SB, I$^3$SB achieves the same perceptual quality with fewer generative steps, while maintaining equal or improved fidelity to the ground truth.
翻訳日:2024-11-09 04:10:35 公開日:2024-09-27
# プラティフィケーション: ゼロショット型マルチハイポセシス3次元人体運動推定

Platypose: Calibrated Zero-Shot Multi-Hypothesis 3D Human Motion Estimation ( http://arxiv.org/abs/2403.06164v2 )

ライセンス: Link先を確認
Paweł A. Pierzchlewicz, Caio O. da Silva, R. James Cotton, Fabian H. Sinz, (参考訳) 単一カメラの3Dポーズ推定は、奥行き、隠蔽、キーポイントノイズによる固有の曖昧さによる不明確な問題である。 マルチハイポテーシスは、この不確実性を推定し、複数の3次元ポーズを2次元計測と整合して提供する。 現在の研究は、単一フレームの静的ポーズ推定や単一仮説の動作推定のために複数の仮説を生成することに主に集中している。 本研究では,多仮説運動推定の新しい課題に焦点をあてる。 多相運動推定は、単に複数のフレームに適用された多相ポーズ推定ではなく、フレーム間の時間的相関を無視する。 代わりに、時間的に一貫したサンプルを生成することができる分布が必要であり、これは多仮説のポーズ推定や単一仮説のモーション推定よりもはるかに困難である。 この目的のために,ゼロショット3次元ポーズ列推定のための3次元モーションシーケンスを事前訓練した拡散モデルを用いたフレームワークであるPlatyposeを紹介する。 運動推定のための複数の仮説に基づくベースライン法の性能向上 さらにPlatyposeは、Human3.6M、MPI-INF-3DHP、および3DPWの静的ポーズでテストした場合、最先端のキャリブレーションと競合するジョイントエラーも達成している。 最後に、ゼロショットであるため、マルチカメラ推論などの異なる設定に柔軟に一般化する。

Single camera 3D pose estimation is an ill-defined problem due to inherent ambiguities from depth, occlusion or keypoint noise. Multi-hypothesis pose estimation accounts for this uncertainty by providing multiple 3D poses consistent with the 2D measurements. Current research has predominantly concentrated on generating multiple hypotheses for single frame static pose estimation or single hypothesis motion estimation. In this study we focus on the new task of multi-hypothesis motion estimation. Multi-hypothesis motion estimation is not simply multi-hypothesis pose estimation applied to multiple frames, which would ignore temporal correlation across frames. Instead, it requires distributions which are capable of generating temporally consistent samples, which is significantly more challenging than multi-hypothesis pose estimation or single-hypothesis motion estimation. To this end, we introduce Platypose, a framework that uses a diffusion model pretrained on 3D human motion sequences for zero-shot 3D pose sequence estimation. Platypose outperforms baseline methods on multiple hypotheses for motion estimation. Additionally, Platypose also achieves state-of-the-art calibration and competitive joint error when tested on static poses from Human3.6M, MPI-INF-3DHP and 3DPW. Finally, because it is zero-shot, our method generalizes flexibly to different settings such as multi-camera inference.
翻訳日:2024-11-09 04:10:35 公開日:2024-09-27
# 信頼より2倍早く考える: 包括的回答反射による大規模言語モデルの自己検出

Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection ( http://arxiv.org/abs/2403.09972v3 )

ライセンス: Link先を確認
Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua, (参考訳) LLM(Large Language Models)の自己検出は、LLMの出力の信頼性を評価するために、その能力を活用して、出力幻覚の問題を緩和する。 しかし、既存の自己検出アプローチは、LLMが生み出した回答を振り返ってのみ評価する。 この制限に対処するために,LLM生成解を超える包括的解答空間を考慮した新たな自己検出パラダイムを提案する。 複数の候補回答の信頼性を徹底的に比較し、LLM生成の誤った回答の過剰信頼を軽減する。 このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補回答の正当性を反映させ、それから総合的な目標回答評価のための正当性を集約するように指示する。 このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。 3つのタスクにまたがる6つのデータセットに関する大規模な実験は、提案フレームワークの有効性を実証している。

Self-detection for Large Language Models (LLMs) seeks to evaluate the trustworthiness of the LLM's output by leveraging its own capabilities, thereby alleviating the issue of output hallucination. However, existing self-detection approaches only retrospectively evaluate answers generated by LLM, typically leading to the over-trust in incorrectly generated answers. To tackle this limitation, we propose a novel self-detection paradigm that considers the comprehensive answer space beyond LLM-generated answers. It thoroughly compares the trustworthiness of multiple candidate answers to mitigate the over-trust in LLM-generated incorrect answers. Building upon this paradigm, we introduce a two-step framework, which firstly instructs LLM to reflect and provide justifications for each candidate answer, and then aggregates the justifications for comprehensive target answer evaluation. This framework can be seamlessly integrated with existing approaches for superior self-detection. Extensive experiments on six datasets spanning three tasks demonstrate the effectiveness of the proposed framework.
翻訳日:2024-11-09 04:10:35 公開日:2024-09-27
# 高精細な視力SLAMのためのコンパクトな3Dガウススプレイティング

Compact 3D Gaussian Splatting For Dense Visual SLAM ( http://arxiv.org/abs/2403.11247v2 )

ライセンス: Link先を確認
Tianchen Deng, Yaohui Chen, Leyan Zhang, Jianfei Yang, Shenghai Yuan, Jiuming Liu, Danwei Wang, Hesheng Wang, Weidong Chen, (参考訳) 近年の研究では、3DガウスをベースとしたSLAMが高品質な再現、正確なポーズ推定、シーンのリアルタイムレンダリングを可能にしている。 しかし、これらのアプローチは膨大な数の冗長な3Dガウス楕円体の上に構築されており、メモリとストレージのコストが高く、訓練速度が遅い。 この制限に対処するために,ガウス楕円体の数とパラメータサイズを小さくするコンパクトな3次元ガウス格子SLAMシステムを提案する。 余剰楕円体を減らすために、スライドウィンドウベースのマスキング戦略が最初に提案されている。 そして、ほとんどの3次元ガウス楕円体の共分散行列(幾何学)が非常によく似ており、3次元ガウス幾何学的属性、すなわちパラメータを圧縮する新しい幾何符号ブックを動機付けている。 再投射損失を伴う大域的バンドル調整法により,ロバストかつ高精度なポーズ推定を実現する。 大規模な実験により、シーン表現の最先端(SOTA)品質を維持しながら、トレーニングとレンダリングの高速化が実証された。

Recent work has shown that 3D Gaussian-based SLAM enables high-quality reconstruction, accurate pose estimation, and real-time rendering of scenes. However, these approaches are built on a tremendous number of redundant 3D Gaussian ellipsoids, leading to high memory and storage costs, and slow training speed. To address the limitation, we propose a compact 3D Gaussian Splatting SLAM system that reduces the number and the parameter size of Gaussian ellipsoids. A sliding window-based masking strategy is first proposed to reduce the redundant ellipsoids. Then we observe that the covariance matrix (geometry) of most 3D Gaussian ellipsoids are extremely similar, which motivates a novel geometry codebook to compress 3D Gaussian geometric attributes, i.e., the parameters. Robust and accurate pose estimation is achieved by a global bundle adjustment method with reprojection loss. Extensive experiments demonstrate that our method achieves faster training and rendering speed while maintaining the state-of-the-art (SOTA) quality of the scene representation.
翻訳日:2024-11-09 03:59:24 公開日:2024-09-27
# 自己監督型高分解能オフロードマッピングのためのディープベイズフュージョン

Deep Bayesian Future Fusion for Self-Supervised, High-Resolution, Off-Road Mapping ( http://arxiv.org/abs/2403.11876v2 )

ライセンス: Link先を確認
Shubhra Aich, Wenshan Wang, Parv Maheshwari, Matthew Sivaprakasam, Samuel Triest, Cherie Ho, Jason M. Gregory, John G. Rogers III, Sebastian Scherer, (参考訳) 高速オフロードナビゲーションは、ロボットが危険な障害物を避けながら、さまざまな表面を安全に移動できるようにするために、長距離で高解像度の地図を必要とする。 しかし、計算能力の制限とセンサノイズのため、オフロードマッピングへのほとんどのアプローチは、環境の粗い(20-40cm)マップの作成に重点を置いている。 本稿では,スパースセンシングデータ(30m前方2cm)から高解像度高解像度マップを生成するフレームワークであるFuture Fusionを提案する。 これは,(1)ステレオおよびLiDAR深度データにおける空間パターンを明示的に考慮した標準ディープラーニングモデルにおける有名なベイズフィルタリングの効率的な実現と,(2)生成的画像補完に共通する知覚的損失の活用により達成される。 提案手法は従来の基準よりも優れている。 さらに、学習した特徴と完成された高密度マップは、下流ナビゲーションタスクの改善につながる。

High-speed off-road navigation requires long-range, high-resolution maps to enable robots to safely navigate over different surfaces while avoiding dangerous obstacles. However, due to limited computational power and sensing noise, most approaches to off-road mapping focus on producing coarse (20-40cm) maps of the environment. In this paper, we propose Future Fusion, a framework capable of generating dense, high-resolution maps from sparse sensing data (30m forward at 2cm). This is accomplished by - (1) the efficient realization of the well-known Bayes filtering within the standard deep learning models that explicitly accounts for the sparsity pattern in stereo and LiDAR depth data, and (2) leveraging perceptual losses common in generative image completion. The proposed methodology outperforms the conventional baselines. Moreover, the learned features and the completed dense maps lead to improvements in the downstream navigation task.
翻訳日:2024-11-09 03:59:24 公開日:2024-09-27
# 量子コンピュータにおける基底状態解としての非線形ダイナミクス

Nonlinear dynamics as a ground-state solution on quantum computers ( http://arxiv.org/abs/2403.16791v2 )

ライセンス: Link先を確認
Albert J. Pool, Alejandro D. Somoza, Conor Mc Keever, Michael Lubasch, Birger Horstmann, (参考訳) 時間依存非線形微分方程式の解に対しては、量子ビットレジスタ内の空間と時間の両方を符号化する変分量子アルゴリズム(VQAs)を提案する。 時空符号化により、1つの基底状態計算から全時間進化を得ることができる。 本稿では,VQAが要求するコスト関数評価のために,効率的な量子回路を構築するための一般的な手順について述べる。 最適化時にバレンプラトー問題を緩和するために,適応型多重グリッド戦略を提案する。 このアプローチは非線形バーガーズ方程式に対して説明される。 我々は古典的に量子回路を最適化して所望の基底状態解を表現し、それらをIBM Q System OneとQuantinuum System Model H1上で実行し、現在の量子コンピュータが正確な結果を正確に再現できることを実証する。

For the solution of time-dependent nonlinear differential equations, we present variational quantum algorithms (VQAs) that encode both space and time in qubit registers. The spacetime encoding enables us to obtain the entire time evolution from a single ground-state computation. We describe a general procedure to construct efficient quantum circuits for the cost function evaluation required by VQAs. To mitigate the barren plateau problem during the optimization, we propose an adaptive multigrid strategy. The approach is illustrated for the nonlinear Burgers equation. We classically optimize quantum circuits to represent the desired ground-state solutions, run them on IBM Q System One and Quantinuum System Model H1, and demonstrate that current quantum computers are capable of accurately reproducing the exact results.
翻訳日:2024-11-09 03:48:22 公開日:2024-09-27
# 自然界の森を分類する「Proprioception」(動画あり)

Proprioception Is All You Need: Terrain Classification for Boreal Forests ( http://arxiv.org/abs/2403.16877v2 )

ライセンス: Link先を確認
Damien LaRocque, William Guimont-Martin, David-Alexandre Duclos, Philippe Giguère, François Pomerleau, (参考訳) フィールドロボティクスにおける最近の研究は、異なるタイプの地形に対するレジリエンスの重要性を強調した。 特にボレアル森林は、オフロードの自律航法のために考慮すべきモビリティを取り入れた多くの地形がある。 また、地球上で最大の陸生生物の1つであるボレアル森林は、自動運転車がますます一般的になると予想される地域である。 本稿では,プロテアーゼに基づく地形分類(TC)のための公開データセットであるBorealTCを導入することにより,この問題に対処する。 Husky A200で記録されたデータセットには、慣性測定ユニット(IMU)の116分間、モータ電流、車輪の計測データが含まれており、特に雪、氷、シルトロームといった典型的なボレアル森林の地形に焦点を当てている。 我々のデータセットと最先端技術からの別のデータセットを組み合わせることで、畳み込みニューラルネットワーク(CNN)と新しい状態空間モデル(SSM)ベースのMambaアーキテクチャの両方をTCタスク上で評価する。 興味深いことに、CNNは個々のデータセットでMambaよりも優れていますが、両方の組み合わせでトレーニングすると、Mambaはより精度が高くなります。 さらに,Mambaの学習能力は,データ量を増やすためのCNNよりも優れていることを示す。 2つのTCデータセットの組み合わせは、地形の特性で解釈できる潜在空間が得られることを示す。 また、分類における統合データセットの影響についても論じる。 ソースコードとデータセットは、https://github.com/norlab-ulaval/BorealTC.com/で公開されています。

Recent works in field robotics highlighted the importance of resiliency against different types of terrains. Boreal forests, in particular, are home to many mobility-impeding terrains that should be considered for off-road autonomous navigation. Also, being one of the largest land biomes on Earth, boreal forests are an area where autonomous vehicles are expected to become increasingly common. In this paper, we address this issue by introducing BorealTC, a publicly available dataset for proprioceptive-based terrain classification (TC). Recorded with a Husky A200, our dataset contains 116 min of Inertial Measurement Unit (IMU), motor current, and wheel odometry data, focusing on typical boreal forest terrains, notably snow, ice, and silty loam. Combining our dataset with another dataset from the state-of-the-art, we evaluate both a Convolutional Neural Network (CNN) and the novel state space model (SSM)-based Mamba architecture on a TC task. Interestingly, we show that while CNN outperforms Mamba on each separate dataset, Mamba achieves greater accuracy when trained on a combination of both. In addition, we demonstrate that Mamba's learning capacity is greater than a CNN for increasing amounts of data. We show that the combination of two TC datasets yields a latent space that can be interpreted with the properties of the terrains. We also discuss the implications of merging datasets on classification. Our source code and dataset are publicly available online: https://github.com/norlab-ulaval/BorealTC.
翻訳日:2024-11-09 03:48:22 公開日:2024-09-27
# 大きな言語モデルをより良いランク付けに

Make Large Language Model a Better Ranker ( http://arxiv.org/abs/2403.19181v3 )

ライセンス: Link先を確認
Wen-Shuo Chao, Zhi Zheng, Hengshu Zhu, Hao Liu, (参考訳) 大規模言語モデル(LLM)は、様々な分野において堅牢な能力を示し、LLM強化レコメンダシステム(RS)のパラダイムシフトにつながっている。 現在までの研究は、高い計算コストのためにLLMベースのレコメンデータにとって非効率な、ポイントワイドとペアワイドのレコメンデーションパラダイムに焦点を当てている。 しかし、既存のリストワイドアプローチは、ランキング目標と次点予測のミスアライメントのため、ランキングタスクでは不足している。 さらに、これらのLCMに基づく手法は、特に評価の規模を考慮すると、候補間の順序関係を効果的に解決するのに苦労する。 これらの課題に対処するために,Aligned Listwise Ranking Objectives (ALRO) を用いた大規模言語モデルフレームワークを提案する。 ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。 具体的には、ALROは、順序関係を最適化するために設計されたラムダ損失をカスタマイズした適応である、ソフトなラムダ損失を導入することで、リストワイズに明示的なフィードバックを採用する。 このメカニズムにより、より正確な最適化目標が提供され、ランキングプロセスが強化される。 さらに、ALROには、位置バイアスに対処する置換感受性学習機構が組み込まれている。 評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。

Large Language Models (LLMs) demonstrate robust capabilities across various fields, leading to a paradigm shift in LLM-enhanced Recommender System (RS). Research to date focuses on point-wise and pair-wise recommendation paradigms, which are inefficient for LLM-based recommenders due to high computational costs. However, existing list-wise approaches also fall short in ranking tasks due to misalignment between ranking objectives and next-token prediction. Moreover, these LLM-based methods struggle to effectively address the order relation among candidates, particularly given the scale of ratings. To address these challenges, this paper introduces the large language model framework with Aligned Listwise Ranking Objectives (ALRO). ALRO is designed to bridge the gap between the capabilities of LLMs and the nuanced requirements of ranking tasks. Specifically, ALRO employs explicit feedback in a listwise manner by introducing soft lambda loss, a customized adaptation of lambda loss designed for optimizing order relations. This mechanism provides more accurate optimization goals, enhancing the ranking process. Additionally, ALRO incorporates a permutation-sensitive learning mechanism that addresses position bias, a prevalent issue in generative models, without imposing additional computational burdens during inference. Our evaluative studies reveal that ALRO outperforms both existing embedding-based recommendation methods and LLM-based recommendation baselines.
翻訳日:2024-11-09 03:37:09 公開日:2024-09-27
# QDarts: 有限トンネル結合、非定常帯電エネルギー、センサドットの存在下での電荷遷移を求める量子ドット配列遷移シミュレータ

QDarts: A Quantum Dot Array Transition Simulator for finding charge transitions in the presence of finite tunnel couplings, non-constant charging energies and sensor dots ( http://arxiv.org/abs/2404.02064v3 )

ライセンス: Link先を確認
Jan A. Krzywda, Weikun Liu, Evert van Nieuwenburg, Oswin Krause, (参考訳) 平衡状態における量子ドットアレイ(QDA)デバイスの実効電荷安定性図の効率的なシミュレータであるQDartを提案する。 これは、高次元の電圧空間における(任意の2次元切断によって)コンクリートの電荷状態とその遷移の位置をピンポイントし、有限トンネル結合、非定常充電エネルギー、ノイズの多いセンサドットのシミュレーションを含む。 これらの機能は、文献における様々な実験結果の密なマッチングを可能にし、パッケージは、QDA実験をテストするための柔軟なツールを提供するとともに、新しいデバイスチューニング手法を開発するための道を開く。

We present QDarts, an efficient simulator for realistic charge stability diagrams of quantum dot array (QDA) devices in equilibrium states. It allows for pinpointing the location of concrete charge states and their transitions in a high-dimensional voltage space (via arbitrary two-dimensional cuts through it), and includes effects of finite tunnel coupling, non-constant charging energy and a simulation of noisy sensor dots. These features enable close matching of various experimental results in the literature, and the package hence provides a flexible tool for testing QDA experiments, as well as opening the avenue for developing new methods of device tuning.
翻訳日:2024-11-09 03:26:10 公開日:2024-09-27
# 言語モデルのバイアス解析における非定常ノルムの影響

The Impact of Unstated Norms in Bias Analysis of Language Models ( http://arxiv.org/abs/2404.03471v3 )

ライセンス: Link先を確認
Farnaz Kohankhaki, D. B. Emerson, Jacob-Junqi Tian, Laleh Seyyed-Kalantari, Faiza Khan Khattak, (参考訳) 大規模言語モデル(LLM)のバイアスは、過度な差別から暗黙的なステレオタイプまで、多くの形式を持つ。 対実バイアス評価はバイアスの定量化に広く用いられている手法であり、しばしばグループメンバーシップを明示するテンプレートベースのプローブに依存している。 LLMによって実行されるタスクの結果が、グループメンバーシップの変更に不変であるかどうかを測定する。 この研究で、テンプレートベースのプローブが非現実的なバイアス測定につながることが判明した。 例えば、LLMは、ホワイトレースに関連するテキストを他のグループよりも高いレートで否定的にキャストしているように見える。 我々は、これは、一般的には定まっていない規範(例えば、黒人大統領対大統領)と偏差測定に用いるテンプレート(例えば、黒人大統領対大統領大統領)の事前訓練されたテキスト(例えば、黒人大統領対大統領大統領)とのミスマッチによって人工的に発生すると仮定する。 この結果は、反事実バイアス定量化における明示的な言及を通じて、様々なグループメンバーシップの潜在的な誤解を招く影響を浮き彫りにした。

Bias in large language models (LLMs) has many forms, from overt discrimination to implicit stereotypes. Counterfactual bias evaluation is a widely used approach to quantifying bias and often relies on template-based probes that explicitly state group membership. It measures whether the outcome of a task, performed by an LLM, is invariant to a change of group membership. In this work, we find that template-based probes can lead to unrealistic bias measurements. For example, LLMs appear to mistakenly cast text associated with White race as negative at higher rates than other groups. We hypothesize that this arises artificially via a mismatch between commonly unstated norms, in the form of markedness, in the pretraining text of LLMs (e.g., Black president vs. president) and templates used for bias measurement (e.g., Black president vs. White president). The findings highlight the potential misleading impact of varying group membership through explicit mention in counterfactual bias quantification.
翻訳日:2024-11-09 03:26:10 公開日:2024-09-27
# CausalBench: LLMの因果学習能力に関する総合ベンチマーク

CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs ( http://arxiv.org/abs/2404.06349v2 )

ライセンス: Link先を確認
Yu Zhou, Xingyu Wu, Beicheng Huang, Jibin Wu, Liang Feng, Kay Chen Tan, (参考訳) 因果性を理解する能力は、大言語モデル(LLM)の出力説明と反ファクト推論の能力に大きな影響を与え、因果性は基礎となるデータ分布を明らかにする。 しかし、総合的なベンチマークがないため、LLMの因果学習能力の評価は制限されている。 このギャップを埋めるために,従来の因果学習アルゴリズムとの比較評価を可能にするために,因果研究コミュニティのデータに基づくCausalBenchを開発した。 包括的調査として,相関性,因果骨格,因果同定の3つの課題について検討した。 19のLLMの評価によると、クローズドソースのLCMは単純な因果関係の可能性を秘めているが、大規模ネットワーク(50ドル以下のノード)では従来のアルゴリズムにかなり遅れている。 具体的には、LLMはコライダー構造に苦しむが、チェーン構造、特にチェーンの長鎖因果関係において優れている。 これは、LLMの因果推論能力を高める方向を示唆しながら、現在のプロンプトアプローチをサポートする。 さらに、CausalBenchは背景知識とトレーニングデータを、LLMが文脈情報や数値分布から直接ではなく、異なる実体とのセマンティックアソシエーションを通じて因果関係を理解していることを示す評価中に、LLMのテキスト理解能力を徹底的に解き放つプロンプトに組み入れている。

The ability to understand causality significantly impacts the competence of large language models (LLMs) in output explanation and counterfactual reasoning, as causality reveals the underlying data distribution. However, the lack of a comprehensive benchmark currently limits the evaluation of LLMs' causal learning capabilities. To fill this gap, this paper develops CausalBench based on data from the causal research community, enabling comparative evaluations of LLMs against traditional causal learning algorithms. To provide a comprehensive investigation, we offer three tasks of varying difficulties, including correlation, causal skeleton, and causality identification. Evaluations of 19 leading LLMs reveal that, while closed-source LLMs show potential for simple causal relationships, they significantly lag behind traditional algorithms on larger-scale networks ($>50$ nodes). Specifically, LLMs struggle with collider structures but excel at chain structures, especially at long-chain causality analogous to Chains-of-Thought techniques. This supports the current prompt approaches while suggesting directions to enhance LLMs' causal reasoning capability. Furthermore, CausalBench incorporates background knowledge and training data into prompts to thoroughly unlock LLMs' text-comprehension ability during evaluation, whose findings indicate that, LLM understand causality through semantic associations with distinct entities, rather than directly from contextual information or numerical distributions.
翻訳日:2024-11-09 03:26:10 公開日:2024-09-27
# PIM-Opt:リアルタイム処理インメモリシステムにおける分散最適化アルゴリズムのデミスティファイション

PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System ( http://arxiv.org/abs/2404.07164v2 )

ライセンス: Link先を確認
Steve Rhyner, Haocong Luo, Juan Gómez-Luna, Mohammad Sadrosadati, Jiawei Jiang, Ataberk Olgun, Harshita Gupta, Ce Zhang, Onur Mutlu, (参考訳) 大規模なデータセットに対するモダン機械学習(ML)トレーニングは非常に時間を要する作業量です。 最適化アルゴリズムのSGD(Stochastic Gradient Descent)は、その効率性、単純性、一般化性能に頼っている。 SGDに基づく現代的なMLトレーニングワークロードに一般的に使用されるプロセッサ中心アーキテクチャ(CPU、GPUなど)は、大規模なデータセットにアクセスする際のデータのローカリティが低いため、プロセッサとメモリユニット間のデータ移動によってボトルネックとなる。 その結果、プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、計算機構をメモリ内または周辺に配置することで、データ移動のボトルネックを軽減するための有望なソリューションである。 我々のゴールは、データ集約型MLトレーニングワークロードを高速化するために、現実世界のPIMシステム上で人気のある分散SGDアルゴリズムの能力を理解することです。 この目的のために、私たちは 1) 実世界のUPMEM PIMシステムに複数の並列SGDアルゴリズムを実装した。 2)これらのアルゴリズムを,大規模データセット上でのMLトレーニングにおいて,性能,精度,スケーラビリティの観点から厳格に評価する。 3)従来のCPUとGPUのベースラインと比較し, 4) 将来のPIMハードウェアの意味を議論し,アルゴリズムのハードウエアなコードサインへの移行の必要性を強調した。 以上の結果から,3つの大きな発見が得られた。 1) UPMEM PIMシステムは、特に運用やデータタイプがPIMハードウェアでネイティブにサポートされている場合、多くのメモリバウンドMLトレーニングワークロードに対して、最先端のCPUやGPUの代替となる可能性がある。 2)PIMに最も適した最適化アルゴリズムを慎重に選択することが重要である。 3) UPMEM PIMシステムは,多くのデータ集約型MLトレーニングワークロードにおいて,ノード数とほぼ線形にスケールしない。 将来の研究を促進するために、すべてのコードをオープンソースにしています。

Modern Machine Learning (ML) training on large-scale datasets is a very time-consuming workload. It relies on the optimization algorithm Stochastic Gradient Descent (SGD) due to its effectiveness, simplicity, and generalization performance. Processor-centric architectures (e.g., CPUs, GPUs) commonly used for modern ML training workloads based on SGD are bottlenecked by data movement between the processor and memory units due to the poor data locality in accessing large datasets. As a result, processor-centric architectures suffer from low performance and high energy consumption while executing ML training workloads. Processing-In-Memory (PIM) is a promising solution to alleviate the data movement bottleneck by placing the computation mechanisms inside or near memory. Our goal is to understand the capabilities of popular distributed SGD algorithms on real-world PIM systems to accelerate data-intensive ML training workloads. To this end, we 1) implement several representative centralized parallel SGD algorithms on the real-world UPMEM PIM system, 2) rigorously evaluate these algorithms for ML training on large-scale datasets in terms of performance, accuracy, and scalability, 3) compare to conventional CPU and GPU baselines, and 4) discuss implications for future PIM hardware and highlight the need for a shift to an algorithm-hardware codesign. Our results demonstrate three major findings: 1) The UPMEM PIM system can be a viable alternative to state-of-the-art CPUs and GPUs for many memory-bound ML training workloads, especially when operations and datatypes are natively supported by PIM hardware, 2) it is important to carefully choose the optimization algorithms that best fit PIM, and 3) the UPMEM PIM system does not scale approximately linearly with the number of nodes for many data-intensive ML training workloads. We open source all our code to facilitate future research.
翻訳日:2024-11-09 03:26:10 公開日:2024-09-27
# 量子集積センシングと絡み合いによる通信

Quantum integrated sensing and communication via entanglement ( http://arxiv.org/abs/2404.08342v2 )

ライセンス: Link先を確認
Yu-Chen Liu, Yuan-Bin Cheng, Xing-Bo Pan, Ze-Zhou Sun, Dong Pan, Gui-Lu Long, (参考訳) 量子通信と量子気象学は量子情報科学の分野で広く応用されており、量子リモートセンシングは両者の交差点である。 これらの違いにもかかわらず、量子通信と量子リモートセンシングの間には顕著な共通点があり、量子状態の伝達によってそれらの機能を達成する。 本稿では,ハイゼンベルク限界下での量子センシングを実現するとともに,絡み合いの伝達による量子セキュアな通信を可能にする新しいQISACプロトコルを提案する。 われわれは盗聴者に対する安全を理論的に証明した。 QISACのセキュリティは、情報ビットの秘密容量と、センシングのための非対称なFisher情報ゲインとが特徴である。 限られた絡み合い資源の制約下で行われるシミュレーションを通して、QISACは位相推定において高い精度を維持していることを示す。 したがって、我々のQISACは将来の量子ネットワークの応用に新たな視点を提供する。

Quantum communication and quantum metrology are widely compelling applications in the field of quantum information science, and quantum remote sensing is an intersection of both. Despite their differences, there are notable commonalities between quantum communication and quantum remote sensing, as they achieve their functionalities through the transmission of quantum states. Here we propose a novel quantum integrated sensing and communication (QISAC) protocol, which achieves quantum sensing under the Heisenberg limit while simultaneously enabling quantum secure communication through the transmission of entanglements. We have theoretically proven its security against eavesdroppers. The security of QISAC is characterized by the secrecy capacity for information bit as well as asymmetric Fisher information gain for sensing. Through simulations conducted under the constraints of limited entanglement resources, we illustrate that QISAC maintains high accuracy in the estimation of phase. Hence our QISAC offers a fresh perspective for the applications of future quantum networks.
翻訳日:2024-11-09 03:14:34 公開日:2024-09-27
# アップルとオレンジの比較:オブジェクト分類タスクにおけるLLMによるマルチモーダルインテンション予測

Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task ( http://arxiv.org/abs/2404.08424v2 )

ライセンス: Link先を確認
Hassan Ali, Philipp Allgeuer, Stefan Wermter, (参考訳) 人間の意図に基づくシステムは、ロボットがユーザーの行動を理解し解釈し、人間と対話し、その行動に積極的に適応することを可能にする。 したがって、意図予測は、人間設計環境における社会ロボットとの自然な相互作用を生み出す上で重要である。 本稿では,大規模言語モデル(LLM)を用いて,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推測する。 本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, 環境状態やユーザの言語的手がかりと統合して, 階層的アーキテクチャにおけるユーザの意図を予測する, 新たなマルチモーダルアプローチを提案する。 5つのLCMを評価した結果,言語的および非言語的ユーザ・キューの推論の可能性を示し,社会的ロボットと協調しながら意図的予測を支援するために,文脈理解と実世界の知識を活用している。

Human intention-based systems enable robots to perceive and interpret user actions to interact with humans and adapt to their behavior proactively. Therefore, intention prediction is pivotal in creating a natural interaction with social robots in human-designed environments. In this paper, we examine using Large Language Models (LLMs) to infer human intention in a collaborative object categorization task with a physical robot. We propose a novel multimodal approach that integrates user non-verbal cues, like hand gestures, body poses, and facial expressions, with environment states and user verbal cues to predict user intentions in a hierarchical architecture. Our evaluation of five LLMs shows the potential for reasoning about verbal and non-verbal user cues, leveraging their context-understanding and real-world knowledge to support intention prediction while collaborating on a task with a social robot.
翻訳日:2024-11-09 03:14:34 公開日:2024-09-27
# GCOOSセンサ配置戦略を最適化する確率的地時空間二部ネットワーク

A Stochastic Geo-spatiotemporal Bipartite Network to Optimize GCOOS Sensor Placement Strategies ( http://arxiv.org/abs/2404.14357v1 )

ライセンス: Link先を確認
Ted Edward Holmberg, Elias Ioup, Mahdi Abdelguerfi, (参考訳) 本稿では,空間二部ネットワークモデルに適用可能な2つの新しい手法を提案する。 バイパーティイトネットワークはオブザーバノード、オブザーバブルノード、オブザーバブルノードとオブザーバブルノードを接続するエッジで構成される必要がある。 カバレッジとカバレッジの堅牢性スコアは、オブザーバノード配置の有効性を評価する。 この尺度は、モンテカルロシミュレーションと組み合わせて新しい観測ノードの最適配置を特定することにより、確率的データにとって有益である。 本稿ではメキシコ湾の確率的・動的環境の中で,地球時空間二部ネットワーク(GSTBN)を構築した。 このGSTBNは、GCOOSセンサーノードとHYCOM Region of Interest (RoI)イベントノードで構成される。 本研究の目的は, HYCOM海洋予測モデルによる予測結果を改善するため, GCOOSを拡張する最適配置を特定することである。

This paper proposes two new measures applicable in a spatial bipartite network model: coverage and coverage robustness. The bipartite network must consist of observer nodes, observable nodes, and edges that connect observer nodes to observable nodes. The coverage and coverage robustness scores evaluate the effectiveness of the observer node placements. This measure is beneficial for stochastic data as it may be coupled with Monte Carlo simulations to identify optimal placements for new observer nodes. In this paper, we construct a Geo-SpatioTemporal Bipartite Network (GSTBN) within the stochastic and dynamical environment of the Gulf of Mexico. This GSTBN consists of GCOOS sensor nodes and HYCOM Region of Interest (RoI) event nodes. The goal is to identify optimal placements to expand GCOOS to improve the forecasting outcomes by the HYCOM ocean prediction model.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-27
# TOP-Nav:Terrin, Obstacle, Proprioception Estimationを統合した脚付きナビゲーション

TOP-Nav: Legged Navigation Integrating Terrain, Obstacle and Proprioception Estimation ( http://arxiv.org/abs/2404.15256v4 )

ライセンス: Link先を確認
Junli Ren, Yikai Liu, Yingru Dai, Junfeng Long, Guijin Wang, (参考訳) 脚のついたナビゲーションは通常、オープンワールド、オフロード、挑戦的な環境で検査される。 これらのシナリオでは、外乱を推定するには、多重モーダル情報の複雑な合成が必要である。 これは、主に障害を避けることに焦点を当てた既存の作業において、大きな制限となる。 本研究では,包括的パスプランナとTerrain認識,Obstacle回避,クローズループプロプライオセプションを統合した新しい脚付きナビゲーションフレームワークTOP-Navを提案する。 TOP-Navは、経路計画と運動計画の両方において、視覚とプロプレセプションの相乗効果を強調している。 経路プランナ内では、障害物を効果的に回避しつつ、高い走行性を有する地形上の経路をロボットが選択できる地形推定器を提示し、統合する。 動作計画レベルでは、ナビゲーションコマンドを追跡するために移動制御器を実装できるだけでなく、経路プランナーに動作評価を提供するための受容アドバイザも構築する。 クローズループ動作フィードバックに基づいて、視覚に基づく地形と障害物推定のオンライン修正を行う。 そのため、TOP-Navは、ロボットが以前の知識の分布を超えて地形や乱れを扱えるように、オープンワールドナビゲーションを実現し、視覚条件によって課される制約を克服する。 TOP-Navは、シミュレーションと実世界の環境の両方で実施された広範な実験に基づいて、既存の手法と比較して、オープンワールドナビゲーションにおいて優れた性能を示す。

Legged navigation is typically examined within open-world, off-road, and challenging environments. In these scenarios, estimating external disturbances requires a complex synthesis of multi-modal information. This underlines a major limitation in existing works that primarily focus on avoiding obstacles. In this work, we propose TOP-Nav, a novel legged navigation framework that integrates a comprehensive path planner with Terrain awareness, Obstacle avoidance and close-loop Proprioception. TOP-Nav underscores the synergies between vision and proprioception in both path and motion planning. Within the path planner, we present and integrate a terrain estimator that enables the robot to select waypoints on terrains with higher traversability while effectively avoiding obstacles. In the motion planning level, we not only implement a locomotion controller to track the navigation commands, but also construct a proprioception advisor to provide motion evaluations for the path planner. Based on the close-loop motion feedback, we make online corrections for the vision-based terrain and obstacle estimations. Consequently, TOP-Nav achieves open-world navigation that the robot can handle terrains or disturbances beyond the distribution of prior knowledge and overcomes constraints imposed by visual conditions. Building upon extensive experiments conducted in both simulation and real-world environments, TOP-Nav demonstrates superior performance in open-world navigation compared to existing methods.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-27
# インコンテキスト学習による大規模言語モデルによるコモンセンス生成の多様性向上

Improving Diversity of Commonsense Generation by Large Language Models via In-Context Learning ( http://arxiv.org/abs/2404.16807v2 )

ライセンス: Link先を確認
Tianhui Zhang, Bei Peng, Danushka Bollegala, (参考訳) 生成コモンセンス推論 (Generative Commonsense Reasoning, GCR) は、コヒーレントな文を生成しながら、コモンセンス知識を用いて状況を理解するモデルを必要とする。 生成した文の品質は重要であるが、モデルが様々な常識的知識事実を使用する能力を反映しているため、生成の多様性も同様に重要である。 大規模言語モデル(LLM)は、微調整を必要とせず、与えられた例を用いて、コンテキスト内学習(ICL)を通じて、様々なタスクにわたる生成品質を向上させる能力を示した。 しかし, LLM出力の多様性については, これまで体系的に研究されていない。 そこで本研究では,LLM世代を多様化し,その品質を保ちつつ,簡易な手法を提案する。 3つのベンチマークGCRデータセットによる実験結果から,本手法は品質と多様性の理想的なバランスを達成できることが示された。 さらに,提案手法により生成された文は,既存のコモンセンスジェネレータの多様性を向上させるためのトレーニングデータとして利用することができる。

Generative Commonsense Reasoning (GCR) requires a model to reason about a situation using commonsense knowledge, while generating coherent sentences. Although the quality of the generated sentences is crucial, the diversity of the generation is equally important because it reflects the model's ability to use a range of commonsense knowledge facts. Large Language Models (LLMs) have shown proficiency in enhancing the generation quality across various tasks through in-context learning (ICL) using given examples without the need for any fine-tuning. However, the diversity aspect in LLM outputs has not been systematically studied before. To address this, we propose a simple method that diversifies the LLM generations, while preserving their quality. Experimental results on three benchmark GCR datasets show that our method achieves an ideal balance between the quality and diversity. Moreover, the sentences generated by our proposed method can be used as training data to improve diversity in existing commonsense generators.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-27
# 不純物を有する格子上の超拡散輸送

Superdiffusive transport on lattices with nodal impurities ( http://arxiv.org/abs/2404.16927v2 )

ライセンス: Link先を確認
Yu-Peng Wang, Jie Ren, Chen Fang, (参考訳) その結果, 1次元格子モデルでは, 相互作用が存在しない場合, ランダムな「ノイズ不純物」の存在下で超拡散輸送を示すことがわかった。 ここで、結節不純物は局所状態として定義され、その波動関数は運動量空間に零点(ノード)を持つ。 輸送行動の定義量である動力学指数$z$は、この結果を確立するために計算される。 具体的には、結節不純物しか持たない乱系において、動的指数 $z=4n/(4n-1)$ はノードの順序である。 システムが時間反転を持つ場合、ノードはペアに現れ、動的指数は$z=8n/(8n-1)$に拡張できる。 1<z<2$の場合、どちらも超拡散輸送を示す。

We show that 1D lattice models exhibit superdiffusive transport in the presence of random "nodal impurities" in the absence of interaction. Here a nodal impurity is defined as a localized state, the wave function of which has zeros (nodes) in momentum space. The dynamics exponent $z$, a defining quantity for transport behaviors, is computed to establish this result. To be specific, in a disordered system having only nodal impurities, the dynamical exponent $z=4n/(4n-1)$ where $n$ is the order of the node. If the system has time reversal, the nodes appear in pairs and the dynamical exponent can be enhanced to $z=8n/(8n-1)$. As $1<z<2$, both cases indicate superdiffusive transport.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-27
# 長期記憶ネットワーク予測を用いたセンサ応答時間短縮

Sensor Response-Time Reduction using Long-Short Term Memory Network Forecasting ( http://arxiv.org/abs/2404.17144v2 )

ライセンス: Link先を確認
Simon J. Ward, Muhamed Baljevic, Sharon M. Weiss, (参考訳) バイオセンサーの応答時間は、早期診断が患者の予後を著しく改善する医療診断などの安全クリティカルな応用において重要な指標である。 しかし、バイオセンサーが最終平衡状態に達する速度は、低質量輸送と長い分子拡散時間によって制限され、標的分子がバイオセンサーのアクティブな感知領域に到達するのに要する時間が増加する。 システムおよびセンサ設計の最適化は、センサー要素に到達する分子を高速に促進することができるが、全てのセンサプラットフォームで広く適用可能な応答時間削減のための単純で相補的なアプローチは、最終的な定常センサー応答を予測するために時系列予測を使用することである。 本研究では,長期記憶(LSTM)ネットワークのアンサンブルが,短時間の時間依存性バイオセンサ測定から平衡バイオセンサ応答を正確に予測し,それぞれ18.6および5.1の改善率の平均値と中央値で応答時間を著しく低減できることを示す。 モデルのアンサンブルは同時に不確実性を推定するが、これは予測とその後の安全に関する決定に対する信頼性を確保するのに不可欠である。 この手法は, 多チャンネル流体セルを用いて, 多孔質シリコンバイオセンサをバッファリングしたタンパク質溶液に露光することで, 100個の多孔質シリコンバイオセンサを並列に自動測定できる実時間実験データを用いて実証した。 LSTMネットワークアンサンブルと関連する不確実性定量化を用いて達成されたセンサ応答時間の劇的な改善により、バイオセンサーの信頼性と迅速な応答に対する扉が開かれ、より迅速な医療診断が可能となり、より迅速な臨床診断が可能となり、患者の結果や医療アクセスが向上し、食品や環境中の毒素の迅速同定が可能になる。

The response time of a biosensor is a crucial metric in safety-critical applications such as medical diagnostics where an earlier diagnosis can markedly improve patient outcomes. However, the speed at which a biosensor reaches a final equilibrium state can be limited by poor mass transport and long molecular diffusion times that increase the time it takes target molecules to reach the active sensing region of a biosensor. While optimization of system and sensor design can promote molecules reaching the sensing element faster, a simpler and complementary approach for response time reduction that is widely applicable across all sensor platforms is to use time-series forecasting to predict the ultimate steady-state sensor response. In this work, we show that ensembles of long short-term memory (LSTM) networks can accurately predict equilibrium biosensor response from a small quantity of initial time-dependent biosensor measurements, allowing for significant reduction in response time by a mean and median factor of improvement of 18.6 and 5.1 respectively. The ensemble of models simultaneously estimates uncertainty, which is vital for ensuring confidence in the predictions and subsequent safety-related decisions that are made. This approach is demonstrated on real-time experimental data collected by exposing porous silicon biosensors to buffered protein solutions using a multi-channel fluidic cell that enables the automated measurement of 100 porous silicon biosensors in parallel. The dramatic improvement in sensor response time achieved using LSTM network ensembles and associated uncertainty quantification opens the door to trustworthy and faster responding biosensors, enabling more rapid medical diagnostics for faster clinical decision making that can lead to improved patient outcomes and healthcare access, as well as quicker identification of toxins in food and the environment.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-27
# 大規模リコメンダシステムにおけるマルチタスク融合のためのオフポリティ強化学習アルゴリズム

An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems ( http://arxiv.org/abs/2404.17589v3 )

ライセンス: Link先を確認
Peng Liu, Cong Xu, Ming Zhao, Jiawei Zhu, Bin Wang, Yi Ren, (参考訳) マルチタスク・フュージョン(MTF)は、マルチタスク・ラーニング(MTL)が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化し、最終的なレコメンデーション結果を決定する。 近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。 しかし、これまでのMTFで使われている非政治RLアルゴリズムには、以下の深刻な問題がある。 1) アウト・オブ・ディストリビューション(OOD)問題を避けるため,その制約は過度に厳格であり,その性能を著しく損なう。 2 訓練データの作成に使用する探索政策を意識せず、実環境と相互作用しないため、準最適政策のみを学ぶことができる。 3) 従来の調査方針は非効率であり、ユーザエクスペリエンスを損ないます。 以上の問題を解決するために,大規模RSにおいてMTF用にカスタマイズされたIntegratedRL-MTFを提案する。 IntegratedRL-MTFは、オンライン探索ポリシーと非政治的RLモデルを統合し、過度な制約と複雑な制約を緩和し、その性能を大幅に改善します。 我々はまた、低値探索空間を排除し、潜在的高値状態-作用ペアの探索に焦点を当てた、極めて効率的な探索ポリシーを設計する。 さらに, 探索政策の助けを借りて, モデルの性能を高めるために, プログレッシブ・トレーニング・モードを採用する。 Tencent Newsの短いビデオチャンネルで、大規模なオフラインおよびオンラインの実験を行っています。 その結果,本モデルが他のモデルよりも優れていたことが示唆された。 統合RL-MTFは当社のRSや他のTencentの大規模RSに完全にデプロイされており、大幅な改善が達成されています。

As the last critical stage of RSs, Multi-Task Fusion (MTF) is responsible for combining multiple scores outputted by Multi-Task Learning (MTL) into a final score to maximize user satisfaction, which determines the ultimate recommendation results. Recently, to optimize long-term user satisfaction within a recommendation session, Reinforcement Learning (RL) is used for MTF in the industry. However, the off-policy RL algorithms used for MTF so far have the following severe problems: 1) to avoid out-of-distribution (OOD) problem, their constraints are overly strict, which seriously damage their performance; 2) they are unaware of the exploration policy used for producing training data and never interact with real environment, so only suboptimal policy can be learned; 3) the traditional exploration policies are inefficient and hurt user experience. To solve the above problems, we propose a novel method named IntegratedRL-MTF customized for MTF in large-scale RSs. IntegratedRL-MTF integrates off-policy RL model with our online exploration policy to relax overstrict and complicated constraints, which significantly improves its performance. We also design an extremely efficient exploration policy, which eliminates low-value exploration space and focuses on exploring potential high-value state-action pairs. Moreover, we adopt progressive training mode to further enhance our model's performance with the help of our exploration policy. We conduct extensive offline and online experiments in the short video channel of Tencent News. The results demonstrate that our model outperforms other models remarkably. IntegratedRL-MTF has been fully deployed in our RS and other large-scale RSs in Tencent, which have achieved significant improvements.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-27
# 自閉症成人に対するAAC(Augmentative and Alternative Communication)応用における社会的・技術的分断のブリッジ

Bridging the Social & Technical Divide in Augmentative and Alternative Communication (AAC) Applications for Autistic Adults ( http://arxiv.org/abs/2404.17730v2 )

ライセンス: Link先を確認
Lara J. Martin, Malathy Nagalakshmi, (参考訳) 自然言語処理(NLP)技術は、AAC(Augmentative and Alternative Communication)の改善に頻繁に用いられているが、これらの技術の多くは、ユーザの視点を含まない形で統合されている。 自閉症の成人は特にAACツールの設計を無視されている。 自閉症成人12名を対象に詳細なインタビューを行い,現在のAACの問題点を把握し,どの技術進歩が有用かを検討した。 技術的問題に加えて、社会的な問題も数多く存在することがわかりました。 インタビューでは、入力の柔軟性、出力の柔軟性、AACの選択または適応、AACの開始または交換のタイミング、利益、大人としてのアクセス、継続的な使用のための障害ブロック、社会的懸念、コミュニケーションの制御など、9つの異なるカテゴリのテーマを見つけました。 本稿では,これらのカテゴリを深く掘り下げて,開発者,NLP研究者,政策立案者に対するガイドラインを提案する。

Natural Language Processing (NLP) techniques are being used more frequently to improve high-tech Augmentative and Alternative Communication (AAC), but many of these techniques are integrated without the inclusion of the users' perspectives. Autistic adults are particularly neglected in the design of AAC tools. We conducted in-depth interviews with 12 autistic adults to find the pain points of current AAC and determine what technological advances they might find helpful. We found that in addition to technological issues, there are many societal issues as well. We found 9 different categories of themes from our interviews: input flexibility, output flexibility, selecting or adapting AAC for a good fit, when to start or swap AAC, benefits, access as an adult, stumbling blocks for continued use, social concerns, and control of communication. In this paper, we go through these categories in depth and then suggest possible guidelines for developers, NLP researchers, and policy makers.
翻訳日:2024-11-09 02:52:30 公開日:2024-09-27
# 安定非線形システムの性能向上のための学習

Learning to Boost the Performance of Stable Nonlinear Systems ( http://arxiv.org/abs/2405.00871v2 )

ライセンス: Link先を確認
Luca Furieri, Clara Lucía Galimberti, Giancarlo Ferrari-Trecate, (参考訳) 安全クリティカルな制御システムの規模と複雑さの増大は、最先端の最適化と機械学習アルゴリズムによって達成可能な、非並列なパフォーマンスを目指して、現在の制御アーキテクチャを進化させる必要性を浮き彫りにしている。 しかし、データ駆動型およびディープラーニングアプローチを用いた非線形制御システムの性能を向上しつつ、閉ループ安定性を維持することは重要な未解決課題である。 本稿では,閉ループ安定性保証による性能ブースティング問題に対処する。 具体的には、非線形系の内部モデル制御(IMC)原理と、安定な力学を学習するための最先端の非制約最適化手法の相乗効果を確立する。 本手法は, 安定非線形システムに対する性能ブースティング制御器の任意の深層ニューラルネットワーククラス上での学習を可能にし, 最適化が早期に停止してもL_p閉ループ安定性が保証され, 基礎構造が不明な場合でも, モデルの不確実性がゼロとなるにつれて, 安定化ポリシーのクラスにおける保守性は消滅する。 複数の数値実験によりコスト関数を自由に形成する可能性を示すため、分散制御を含む制御方式の実装の詳細と、それに対応する最適化手順について論じる。

The growing scale and complexity of safety-critical control systems underscore the need to evolve current control architectures aiming for the unparalleled performances achievable through state-of-the-art optimization and machine learning algorithms. However, maintaining closed-loop stability while boosting the performance of nonlinear control systems using data-driven and deep-learning approaches stands as an important unsolved challenge. In this paper, we tackle the performance-boosting problem with closed-loop stability guarantees. Specifically, we establish a synergy between the Internal Model Control (IMC) principle for nonlinear systems and state-of-the-art unconstrained optimization approaches for learning stable dynamics. Our methods enable learning over arbitrarily deep neural network classes of performance-boosting controllers for stable nonlinear systems; crucially, we guarantee L_p closed-loop stability even if optimization is halted prematurely, and even when the ground-truth dynamics are unknown, with vanishing conservatism in the class of stabilizing policies as the model uncertainty is reduced to zero. We discuss the implementation details of the proposed control schemes, including distributed ones, along with the corresponding optimization procedures, demonstrating the potential of freely shaping the cost functions through several numerical experiments.
翻訳日:2024-11-09 02:52:29 公開日:2024-09-27
# ベイズ最適化とテキスト・ツー・イメージモデルを用いた画像分類器故障の効率的な探索

Efficient Exploration of Image Classifier Failures with Bayesian Optimization and Text-to-Image Models ( http://arxiv.org/abs/2405.02332v2 )

ライセンス: Link先を確認
Adrien LeCoz, Houssem Ouertatani, Stéphane Herbin, Faouzi Adjed, (参考訳) 画像分類器は、現実世界で慎重に使用するべきである。 検証セットで評価されたパフォーマンスは、実世界でのパフォーマンスを反映しないかもしれない。 特に、分類器は訓練中に頻繁に遭遇するが、他の稀な条件ではうまく機能しない。 本研究では,画像分類器などのコンピュータビジョンモデルのベンチマークにおいて,テキスト・ツー・イメージ生成モデルの最近の進歩が有用である,という仮説を立てる。 しかし、それらの生成コストは、多数の合成画像を生成する必要がある場合に問題となり、これは多くの異なる属性の組み合わせをテストする必要がある場合である。 本稿では,画像生成,分類器評価,属性選択を交互に行う反復的手法として,画像分類器ベンチマーク手法を提案する。 この方法は、最終的に振る舞いの検出が不十分になる特性を効率的に探索する。

Image classifiers should be used with caution in the real world. Performance evaluated on a validation set may not reflect performance in the real world. In particular, classifiers may perform well for conditions that are frequently encountered during training, but poorly for other infrequent conditions. In this study, we hypothesize that recent advances in text-to-image generative models make them valuable for benchmarking computer vision models such as image classifiers: they can generate images conditioned by textual prompts that cause classifier failures, allowing failure conditions to be described with textual attributes. However, their generation cost becomes an issue when a large number of synthetic images need to be generated, which is the case when many different attribute combinations need to be tested. We propose an image classifier benchmarking method as an iterative process that alternates image generation, classifier evaluation, and attribute selection. This method efficiently explores the attributes that ultimately lead to poor behavior detection.
翻訳日:2024-11-09 02:52:29 公開日:2024-09-27
# AlphaMathのほぼゼロ:プロセスなしのプロセススーパービジョン

AlphaMath Almost Zero: Process Supervision without Process ( http://arxiv.org/abs/2405.03553v3 )

ライセンス: Link先を確認
Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々なタスクにおける性能を著しく向上させているが、特に数学的推論において、複雑で象徴的な多段階推論の課題に直面している。 LLMの数学的推論能力を強化するために、既存のほとんどの取り組みは、高価なだけでなく労働集約的な、高品質なプロセス管理データのためのドメインエキスパートまたはGPT-4の助けを求めることに集中している。 本研究では,モンテカルロ木探索(MCTS)を活用することにより,プロセスアノテーション(人間やGPT)の必要性を回避できる,革新的なフレームワークであるAlphaMathを提案する。 このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。 具体的には、LCMと値モデルを統合し、MCTSにおけるプロセス監視とステップレベルの評価信号の両方を自動的に生成する。 さらに,より効率的な推論手法であるステップレベルビームサーチを提案し,従来の確率にのみ依存するのではなく,より効果的な推論経路をナビゲートする政策モデル(LLM)を支援するために,値モデルを構築した。 ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。

Although recent advancements in large language models (LLMs) have significantly improved their performance on various tasks, they still face challenges with complex and symbolic multi-step reasoning, particularly in mathematical reasoning. To bolster the mathematical reasoning capabilities of LLMs, most existing efforts concentrate on seeking assistance from either domain experts or GPT-4 for high-quality process-supervised data, which is not only expensive but also labor-intensive. In our study, we propose an innovative framework, AlphaMath, that bypasses the need for process annotations (from humans or GPTs) by leveraging Monte Carlo Tree Search (MCTS). This framework focuses on unleashing the potential of a well-pretrained LLM to autonomously enhance its mathematical reasoning. Specifically, we integrate a value model with the LLM, automatically generating both process supervision and step-level evaluation signals in MCTS. Furthermore, we propose an efficient inference strategy, step-level beam search, where the value model is crafted to assist the policy model (i.e., LLM) in navigating more effective reasoning paths, rather than solely relying on prior probabilities. The experimental results on both in-domain and out-of-domain datasets demonstrate that even without GPT-4 or human-annotated process supervision, our AlphaMath framework achieves comparable or superior results to previous state-of-the-art methods.
翻訳日:2024-11-09 02:52:29 公開日:2024-09-27
# 非線形放物型PDEとPIDEのランダムディープ分割法の完全誤差解析

Full error analysis of the random deep splitting method for nonlinear parabolic PDEs and PIDEs ( http://arxiv.org/abs/2405.05192v2 )

ライセンス: Link先を確認
Ariel Neufeld, Philipp Schmocker, Sizhou Wu, (参考訳) 本稿では,[Beck, Becker, Cheridito, Jentzen, Neufeld (2021)]で導入された,高次元非線形放物型PDEとPIDEの両方を(おそらく)無限活性のジャンプで解くのに適したランダムニューラルネットワークを用いて, ディープスプリッティングアルゴリズムをランダムに拡張した。 いわゆるランダムディープスプリッティング手法の完全な誤差解析を行う。 特に, 非線形PDE あるいは PIDE の (特異粘性) 解に, ランダムな深さ分割法が収束することを証明する。 さらに, 既定リスク下での金融デリバティブの価格設定に係わる非線形PDEと非線形PIDEの両方を含むいくつかの数値例を考慮し, ランダムなディープスプリッティング手法を実証的に分析した。 特に, ランダムな深層分割法は, 10 万次元の非線形 PDE と PIDE をほぼ1秒で解くことができることを実証的に示す。

In this paper, we present a randomized extension of the deep splitting algorithm introduced in [Beck, Becker, Cheridito, Jentzen, and Neufeld (2021)] using random neural networks suitable to approximately solve both high-dimensional nonlinear parabolic PDEs and PIDEs with jumps having (possibly) infinite activity. We provide a full error analysis of our so-called random deep splitting method. In particular, we prove that our random deep splitting method converges to the (unique viscosity) solution of the nonlinear PDE or PIDE under consideration. Moreover, we empirically analyze our random deep splitting method by considering several numerical examples including both nonlinear PDEs and nonlinear PIDEs relevant in the context of pricing of financial derivatives under default risk. In particular, we empirically demonstrate in all examples that our random deep splitting method can approximately solve nonlinear PDEs and PIDEs in 10'000 dimensions within seconds.
翻訳日:2024-11-09 02:41:28 公開日:2024-09-27
# マジカルプの漁獲:大規模言語モデルにおける訓練下トークンの自動検出

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models ( http://arxiv.org/abs/2405.05417v2 )

ライセンス: Link先を確認
Sander Land, Max Bartolo, (参考訳) 言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。 このような'グリッチトークン'は、トークン化の語彙に存在するが、モデルトレーニング中にほとんど、あるいは完全に欠落しているトークンは、様々なモデルで観測されているが、それらを特定し、対処するための信頼できる方法が欠落している。 本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。 そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。 本研究は,これらのトークンが多種多様なモデルにまたがって普及していることを示し,言語モデルの効率性と安全性向上に関する洞察を提供する。

The disconnect between tokenizer creation and model training in language models allows for specific inputs, such as the infamous SolidGoldMagikarp token, to induce unwanted model behaviour. Although such `glitch tokens', tokens present in the tokenizer vocabulary but that are nearly or entirely absent during model training, have been observed across various models, a reliable method to identify and address them has been missing. We present a comprehensive analysis of Large Language Model tokenizers, specifically targeting this issue of detecting under-trained tokens. Through a combination of tokenizer analysis, model weight-based indicators, and prompting techniques, we develop novel and effective methods for automatically detecting these problematic tokens. Our findings demonstrate the prevalence of such tokens across a diverse set of models and provide insights into improving the efficiency and safety of language models.
翻訳日:2024-11-09 02:41:28 公開日:2024-09-27
# 分離型ニューラルネットワークを用いたグラディエントフローに基づく位相場モデリング

Gradient Flow Based Phase-Field Modeling Using Separable Neural Networks ( http://arxiv.org/abs/2405.06119v2 )

ライセンス: Link先を確認
Revanth Mattey, Susanta Ghosh, (参考訳) ギンズバーグ・ランダウ自由エネルギー汎関数の$L^2$勾配流は、位相分離をモデル化するために広く用いられるアレン・カーン方程式に導かれる。 アレン・カーン方程式を強形式で解く機械学習手法は、コロケーション手法の不正確さ、自動微分による高次空間微分の計算誤差、時空アプローチで必要とされるシステムサイズに悩まされている。 これらの制限を克服するため、上記の勾配流問題を解くための最小化運動スキームにおいて、相場の分離可能なニューラルネットワークに基づく近似を提案する。 各時間ステップにおいて、分離可能なニューラルネットワークを用いて、低ランクテンソル分解により空間の位相場を近似し、導関数計算を高速化する。 最小化運動スキームは自然にガウス二次法を用いて関数を計算することができる。 ニューラルネットワーク予測相場に `$tanh$' 変換を適用して、2つの相の値内の解を厳密に束縛する。 この変換のために、最小化運動スキームのエネルギー安定性に関する理論的保証を確立する。 この変換によって解をバウンディングすることが、分離可能なニューラルネットワークによるシャープインターフェースを効果的にモデル化する鍵であることを示唆している。 提案手法は相分離問題に対する最先端の機械学習手法よりも優れており,有限要素法よりも桁違いに高速である。

The $L^2$ gradient flow of the Ginzburg-Landau free energy functional leads to the Allen Cahn equation that is widely used for modeling phase separation. Machine learning methods for solving the Allen-Cahn equation in its strong form suffer from inaccuracies in collocation techniques, errors in computing higher-order spatial derivatives through automatic differentiation, and the large system size required by the space-time approach. To overcome these limitations, we propose a separable neural network-based approximation of the phase field in a minimizing movement scheme to solve the aforementioned gradient flow problem. At each time step, the separable neural network is used to approximate the phase field in space through a low-rank tensor decomposition thereby accelerating the derivative calculations. The minimizing movement scheme naturally allows for the use of Gauss quadrature technique to compute the functional. A `$tanh$' transformation is applied on the neural network-predicted phase field to strictly bounds the solutions within the values of the two phases. For this transformation, a theoretical guarantee for energy stability of the minimizing movement scheme is established. Our results suggest that bounding the solution through this transformation is the key to effectively model sharp interfaces through separable neural network. The proposed method outperforms the state-of-the-art machine learning methods for phase separation problems and is an order of magnitude faster than the finite element method.
翻訳日:2024-11-09 02:41:28 公開日:2024-09-27
# 変圧器を用いた放射線学レポートのレバレッジ・サマリー

Leveraging summary of radiology reports with transformers ( http://arxiv.org/abs/2405.06802v2 )

ライセンス: Link先を確認
Raul Salles de Padua, Imran Qureshi, (参考訳) 医療における2つの根本的な問題は、患者の手引きとトリアージによるものである。 医師は、専門家との効率的なコミュニケーションと、各事件の緊急性に関する意思決定を促進するために、複雑な発見の要約を行う必要があることが多い。 これらの課題に対処するために,変換器BERTtoBERTエンコーダとデコーダアーキテクチャからの双方向エンコーダ表現の調整を利用した最新の放射線学レポート要約モデルを提案する。 また、MIMIC CXRデータセット上で開発された将来のモデルのためのデータ処理パイプラインも提供する。 本手法は,医療データを拡張するための新しい手法と総合的なパフォーマンス分析を含む。 L F1スコアは58.75/100であり、より高度な注意機構を持つ特殊なチェックポイントよりも優れていた。 また、MIMIC胸部X線データセット上で開発された将来のモデルのためのデータ処理パイプラインも提供する。 本報告では, 放射線学報告の要約能力が大幅に向上し, より優れた臨床ワークフローの確保と患者ケアの強化の可能性を明らかにする。

Two fundamental problems in health-care stem from patient handoff and triage. Doctors are often required to perform complex findings summarization to facilitate efficient communication with specialists and decision making on the urgency of each case. To address these challenges, we present a state of the art radiology report summarization model utilizing adjusted bidirectional encoder representation from transformers BERTtoBERT encoder and decoder architecture. We also provide a data processing pipeline for future models developed on the the MIMIC CXR dataset. Our approach includes a novel method for augmenting medical data and a comprehensive performance analysis. Our best performing model achieved a recall oriented understudy for gisting evaluation L F1 score of 58.75/100, outperforming specialized checkpoints with more sophisticated attention mechanisms. We also provide a data processing pipeline for future models developed on the MIMIC chest X-ray dataset. The model introduced in this paper demonstrates significantly improved capacity in radiology report summarization, highlighting the potential for ensuring better clinical workflows and enhanced patient care.
翻訳日:2024-11-09 02:41:28 公開日:2024-09-27
# 放射線医学レポートの要約と印象

Summarizing Radiology Reports Findings into Impressions ( http://arxiv.org/abs/2405.06802v3 )

ライセンス: Link先を確認
Raul Salles de Padua, Imran Qureshi, (参考訳) 患者の手引きとトリアージは、医療の基本的な2つの問題である。 多くの場合、医師は複雑な発見を辛抱強く要約し、専門家と効率的にコミュニケーションし、どの患者に最も緊急な症例があるかを素早く判断しなければならない。 これらの課題を追求するために,(1)医学的データ増強のための新しい手法を用いた最先端の放射線学レポート要約性能モデル,(3)モデルの限界と放射線学知識の獲得に関する分析を行った。 また、MIMIC CXRデータセット上で開発された将来のモデルのためのデータ処理パイプラインも提供する。 我々の最高の性能モデルは、58.75/100 ROUGE-L F1の細調整されたBERT-to-BERTエンコーダであり、より高度な注意機構を持つ特別なチェックポイントよりも優れていた。 本研究におけるこれらの側面について検討する。

Patient hand-off and triage are two fundamental problems in health care. Often doctors must painstakingly summarize complex findings to efficiently communicate with specialists and quickly make decisions on which patients have the most urgent cases. In pursuit of these challenges, we present (1) a model with state-of-art radiology report summarization performance using (2) a novel method for augmenting medical data, and (3) an analysis of the model limitations and radiology knowledge gain. We also provide a data processing pipeline for future models developed on the the MIMIC CXR dataset. Our best performing model was a fine-tuned BERT-to-BERT encoder-decoder with 58.75/100 ROUGE-L F1, which outperformed specialized checkpoints with more sophisticated attention mechanisms. We investigate these aspects in this work.
翻訳日:2024-11-09 02:41:28 公開日:2024-09-27
# 事象因果同定のための文脈内コントラスト学習

In-context Contrastive Learning for Event Causality Identification ( http://arxiv.org/abs/2405.10512v2 )

ライセンス: Link先を確認
Chao Liang, Wei Xiang, Bang Wang, (参考訳) 事象因果同定(ECI)は、2つの事象間の因果関係の存在を決定することを目的としている。 最近の急進的な学習ベースのアプローチでは、ECIタスクに有望な改善が示されているが、その性能は、しばしば複数のプロンプトの繊細な設計と、メインタスクと派生タスクの正の相関に左右される。 インコンテキスト学習パラダイムは、複雑なプロンプトやデリバティブタスクへの依存を緩和し、プロンプト学習パラダイムにおけるラベル予測の明確なガイダンスを提供する。 しかし、類似学習における正と負の実証を区別するものではない。 このような考察から,コントラスト学習を利用したインコンテキストコントラスト学習(ICCL)モデルを提案する。 さらに、イベント因果同定を容易にするために、イベントペアに対してコントラスト学習を適用する。 ICCLはEventStoryLineやCausal-TimeBankなど,広く使用されているコーパスで評価され,その結果,最先端のアルゴリズムよりも大幅な性能向上が見られた。

Event Causality Identification (ECI) aims at determining the existence of a causal relation between two events. Although recent prompt learning-based approaches have shown promising improvements on the ECI task, their performance are often subject to the delicate design of multiple prompts and the positive correlations between the main task and derivate tasks. The in-context learning paradigm provides explicit guidance for label prediction in the prompt learning paradigm, alleviating its reliance on complex prompts and derivative tasks. However, it does not distinguish between positive and negative demonstrations for analogy learning. Motivated from such considerations, this paper proposes an In-Context Contrastive Learning (ICCL) model that utilizes contrastive learning to enhance the effectiveness of both positive and negative demonstrations. Additionally, we apply contrastive learning to event pairs to better facilitate event causality identification. Our ICCL is evaluated on the widely used corpora, including the EventStoryLine and Causal-TimeBank, and results show significant performance improvements over the state-of-the-art algorithms.
翻訳日:2024-11-09 02:30:11 公開日:2024-09-27
# EUのサイバーセキュリティ政策における不整合性リスク

The Incoherency Risk in the EU's New Cyber Security Policies ( http://arxiv.org/abs/2405.12043v2 )

ライセンス: Link先を確認
Jukka Ruohonen, (参考訳) 欧州連合(EU)は近年,新たなサイバーセキュリティ政策を追求している。 本稿では,このような4つの政策を簡潔に考察する。 その焦点は、統合の欠如、加盟国間のばらつき、制度上の機能不全など、健全な政策決定によって少なくとも部分的には避けられるべき問題である。 結果によると、この4つのポリシーはEUのサイバーセキュリティフレームワークの複雑さを大幅に高めた。 さらに、信頼、業界セクターと異なる技術間の相違、官僚的対立、技術的な問題など、潜在的な問題がある。 これらの知見により、この論文はEU政策の研究に貢献するだけでなく、サイバーセキュリティ政策全般の理解を深める。

The European Union (EU) has been pursuing new cyber security policies in recent years. This paper presents a short reflection of four such policies. The focus is on potential incoherency, meaning a lack of integration, divergence between the member states, institutional dysfunction, and other related problems that should be at least partially avoidable by sound policy-making. According to the results, the four policies have substantially increased the complexity of the EU's cyber security framework. In addition, there are potential problems with trust, divergence between industry sectors and different technologies, bureaucratic conflicts, and technical issues, among other things. With these insights, the paper not only contributes to the study of EU policies but also advances the understanding of cyber security policies in general.
翻訳日:2024-11-09 02:30:11 公開日:2024-09-27
# 3Qubit反強磁性熱機械における磁気異方性の影響

Effects of Magnetic Anisotropy on 3-Qubit Antiferromagnetic Thermal Machines ( http://arxiv.org/abs/2405.12339v2 )

ライセンス: Link先を確認
Bastian Castorene, Francisco J. Peña, Ariel Norambuena, Sergio E. Ulloa, Cristobal Araya, Patricio Vargas, (参考訳) 本研究は, 反強磁性ハイゼンベルクXXXモデルによって記述された, 鎖と環のトポロジーを持つ3つの量子ビット系の異方性効果について検討する。 我々はスターリングサイクルとオットーサイクルを探索し、容易な軸異方性は全てのケースにおいてエンジン効率を大幅に向上させることを示した。 低温では、リング構成はスターリングサイクル中の作業と効率の両方においてチェーンよりも優れる。 さらに、両方のトポロジーにおいて、スターリングサイクルは量子臨界点における有限の作用でカルノー効率を達成する。 対照的に、準静電オットーエンジンはこれらの点でカルノット効率に達するが、有用な作業は得られない。 特にスターリングサイクルは、エンジンまたは冷凍機としてのみ機能する準静的オットーサイクルとは異なり、全ての熱運転用エンジン、冷蔵庫、ヒーター、加速器を展示している。

This study investigates the anisotropic effects on a system of three qubits with chain and ring topology, described by the antiferromagnetic Heisenberg XXX model subjected to a homogeneous magnetic field. We explore the Stirling and Otto cycles and find that easy-axis anisotropy significantly enhances engine efficiency across all cases. At low temperatures, the ring configuration outperforms the chain on both work and efficiency during the Stirling cycle. Additionally, in both topologies, the Stirling cycle achieves Carnot efficiency with finite work at quantum critical points. In contrast, the quasistatic Otto engine also reaches Carnot efficiency at these points but yields no useful work. Notably, the Stirling cycle exhibits all thermal operational regimes engine, refrigerator, heater, and accelerator unlike the quasistatic Otto cycle, which functions only as an engine or refrigerator.
翻訳日:2024-11-09 02:30:11 公開日:2024-09-27
# 今日の法典から明日の交響曲:2030年までの開発者ルーチンのAIトランスフォーメーション

From Today's Code to Tomorrow's Symphony: The AI Transformation of Developer's Routine by 2030 ( http://arxiv.org/abs/2405.12731v2 )

ライセンス: Link先を確認
Ketai Qiu, Niccolò Puccinelli, Matteo Ciniselli, Luca Di Grazia, (参考訳) ソフトウェアエンジニアリングの急速な発展の中で、人工知能(AI)をソフトウェア開発ライフサイクル(SDLC)に統合することは、開発者にとって変革的な時代を告げるものだ。 最近、私たちは、コーディング、デバッグ、ソフトウェア設計の重要な要素となったGitHub CopilotやOpenAIのChatGPTといったツールによって実証された、AI支援プログラミングへの重要なシフトを支援しました。 本稿では,2024年におけるAI支援プログラミングの現状と2030年における私たちの予測との対比分析を行い,AIの進歩が実装フェーズの強化にどのように寄与するかを考察し,手動コーダからAI駆動開発エコシステムのオーケストレータへの開発者の役割を根本的に変えた。 メンタルヘルスサポート、障害検出、コードの最適化、チームインタラクション、スキル開発における現在の制限に対処する、2030人の開発者に包括的なサポートを提供するAIツールであるHyperAssistantを構想している。 私たちはAIを補完的な力として強調し、それを置き換えるのではなく、開発者の能力を増強し、洗練された、信頼性があり、セキュアなソフトウェアソリューションを作り上げます。 私たちのビジョンは、プログラミングプラクティス、課題、将来の方向性の進化を予測し、開発者とAIがより緊密に協力し、SE効率、セキュリティ、クリエイティビティにおいて大きな飛躍を約束する新しいパラダイムを形成することです。

In the rapidly evolving landscape of software engineering, the integration of Artificial Intelligence (AI) into the Software Development Life-Cycle (SDLC) heralds a transformative era for developers. Recently, we have assisted to a pivotal shift towards AI-assisted programming, exemplified by tools like GitHub Copilot and OpenAI's ChatGPT, which have become a crucial element for coding, debugging, and software design. In this paper we provide a comparative analysis between the current state of AI-assisted programming in 2024 and our projections for 2030, by exploring how AI advancements are set to enhance the implementation phase, fundamentally altering developers' roles from manual coders to orchestrators of AI-driven development ecosystems. We envision HyperAssistant, an augmented AI tool that offers comprehensive support to 2030 developers, addressing current limitations in mental health support, fault detection, code optimization, team interaction, and skill development. We emphasize AI as a complementary force, augmenting developers' capabilities rather than replacing them, leading to the creation of sophisticated, reliable, and secure software solutions. Our vision seeks to anticipate the evolution of programming practices, challenges, and future directions, shaping a new paradigm where developers and AI collaborate more closely, promising a significant leap in SE efficiency, security and creativity.
翻訳日:2024-11-09 02:18:45 公開日:2024-09-27
# LLMエージェントの社会的不合理性を探る:社会的認知の視点から

Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View ( http://arxiv.org/abs/2405.14744v2 )

ライセンス: Link先を確認
Xuan Liu, Jie Zhang, Song Guo, Haoyang Shang, Chengxu Yang, Quanyan Zhu, (参考訳) 大規模言語モデル(LLM)は、人間の偏見を含むように訓練されたデータによって幻覚に直面することが示されている。 LLMエージェントは複雑な社会環境にますます採用されているため、迫力と自然な疑問が浮かび上がってくる: LLMエージェントの体系的な幻覚を利用して人間の認知バイアスを反映し、不合理な社会的知性を示すことができるか? 本稿では,現代LLMエージェントにおける不合理行動について,理論的知見を取り入れた実践的社会科学実験を融合させて検討する。 具体的には、幻覚特性を利用して認知バイアスを通じてLLMエージェントの社会的知性を評価し、強化するオープンエンドマルチLLMエージェントフレームワークであるCogMirを提案する。 CogMirサブセットを用いた実験の結果,LLMエージェントとヒトは不確定な条件下で不合理性および社会的意思決定において高い一貫性を示し,LLMエージェントの社会的存在としての社会的存在性を強調し,幻覚特性の重要性を強調した。 さらに、CagMirフレームワークは、LLMエージェントのソーシャルインテリジェンスに関するさらなる研究を促進するための貴重なプラットフォームとしての可能性を示している。

Large language models (LLMs) have been shown to face hallucination issues due to the data they trained on often containing human bias; whether this is reflected in the decision-making process of LLM Agents remains under-explored. As LLM Agents are increasingly employed in intricate social environments, a pressing and natural question emerges: Can we utilize LLM Agents' systematic hallucinations to mirror human cognitive biases, thus exhibiting irrational social intelligence? In this paper, we probe the irrational behavior among contemporary LLM Agents by melding practical social science experiments with theoretical insights. Specifically, We propose CogMir, an open-ended Multi-LLM Agents framework that utilizes hallucination properties to assess and enhance LLM Agents' social intelligence through cognitive biases. Experimental results on CogMir subsets show that LLM Agents and humans exhibit high consistency in irrational and prosocial decision-making under uncertain conditions, underscoring the prosociality of LLM Agents as social entities and highlighting the significance of hallucination properties. Additionally, the CogMir framework demonstrates its potential as a valuable platform for encouraging more research into the social intelligence of LLM Agents.
翻訳日:2024-11-09 02:18:45 公開日:2024-09-27
# ゼロ次最適化によるフェデレーション学習における次元自由通信の実現

Achieving Dimension-Free Communication in Federated Learning via Zeroth-Order Optimization ( http://arxiv.org/abs/2405.15861v3 )

ライセンス: Link先を確認
Zhe Li, Bicheng Ying, Zidong Liu, Chaosheng Dong, Haibo Yang, (参考訳) Federated Learning (FL)は、分散データソース間の協調的およびプライバシ保護機械学習のための有望なフレームワークを提供する。 しかし、FLに関連するかなりの通信コストは、その効率を著しく上回っている。 具体的には、各通信ラウンドにおいて、通信コストはモデルの次元と線形にスケールする。 様々な通信効率の戦略にもかかわらず、本質的な次元に依存した通信コストは、現在のFL実装において大きなボトルネックとなっている。 モデルパラメータの次元$d$に関係なく,クライアントとサーバ間のスカラー値の一定数だけを各ラウンドで送信することにより,ゼロ階最適化手法を活用し,通信コストを$\mathscr{O}(d)$から$\mathscr{O}(1)$に削減する。 理論的には、非凸関数において、我々のアルゴリズムが最先端の速度を達成することを証明し、標準的な仮定の下でクライアント数とローカルステップの線形高速化を示す。 さらなる低い有効ランクの仮定により、収束率はモデル次元$d$にも依存しないことを示すことができる。 古典的なディープラーニングトレーニングと大規模言語モデルの微調整の両方を含む経験的評価は、通信オーバーヘッドを大幅に削減することを示している。 特に、DeComFLは、数十億のパラメータを持つモデルを微調整するために、サーバとクライアントの間で合計で1MBのデータを送信することで、これを達成します。

Federated Learning (FL) offers a promising framework for collaborative and privacy-preserving machine learning across distributed data sources. However, the substantial communication costs associated with FL significantly challenge its efficiency. Specifically, in each communication round, the communication costs scale linearly with the model's dimension, which presents a formidable obstacle, especially in large model scenarios. Despite various communication-efficient strategies, the intrinsic dimension-dependent communication cost remains a major bottleneck for current FL implementations. This paper proposes a novel dimension-free communication algorithm -- DeComFL, which leverages the zeroth-order optimization techniques and reduces the communication cost from $\mathscr{O}(d)$ to $\mathscr{O}(1)$ by transmitting only a constant number of scalar values between clients and the server in each round, regardless of the dimension $d$ of the model parameters. Theoretically, in non-convex functions, we prove that our algorithm achieves state-of-the-art rates, which show a linear speedup of the number of clients and local steps under standard assumptions. With additional low effective rank assumption, we can further show the convergence rate is independent of the model dimension $d$ as well. Empirical evaluations, encompassing both classic deep learning training and large language model fine-tuning, demonstrate significant reductions in communication overhead. Notably, DeComFL achieves this by transmitting only around 1MB of data in total between the server and a client to fine-tune a model with billions of parameters.
翻訳日:2024-11-09 02:18:45 公開日:2024-09-27
# コモンズを統治する - 大規模ソフトウェア開発におけるコードオーナシップとコードクロン

Governing the Commons: Code Ownership and Code-Clones in Large-Scale Software Development ( http://arxiv.org/abs/2405.15866v2 )

ライセンス: Link先を確認
Anders Sundelin, Javier Gonzalez-Huerta, Richard Torkar, Krzysztof Wnuk, (参考訳) コンテキスト: 弱いあるいは集合的なオーナシップを採用するソフトウェア開発組織では,さまざまなチームがさまざまなコンポーネントの変更を自律的に実施することが期待される。 これにより、個々のコンポーネントの知識と責任の両方に多様性が生まれます。 目的: 目的は、異なるチームが異なるコンポーネントを変更するときに、コードのクローンという形で技術的負債を導入する方法と理由を理解することです。 方法: 大規模な産業ソフトウェアシステムの一部である8つのコンポーネントの10チームによる変更サイズとクローンの導入に関するデータを収集しました。 次に、多レベル一般化線形モデル(MLGLM)を設計し、チームの異なる振る舞いを説明する。 最後に、3つの開発チーム、さらにラインマネージャとアーキテクトチームと結果について議論し、モデル推論が期待と一致しているかを評価しました。 反応は記録され、数学的に符号化された。 結果: 結果は、異なるコンポーネントでチームが異なる振る舞いをすることを示している。そして、チームからのフィードバックは、チームの振る舞いを説明するこの方法が、オーナシップの従来の要約統計を補完するものとして有用であることを示している。 結論: 私たちのモデルベースのアプローチは、異なるコンポーネントを変更することで、コードクローンのチーム導入の有用な視覚化を可能にします。 ビジュアライゼーションは役に立つ洞察を与え、平均的なチームと比較することで、チーム間の比較は避けられる、と実践者は述べている。 ですからこれは,弱いあるいは集合的なオーナシップを採用するソフトウェア開発組織内のチームにとって,有用なフィードバックツールになる可能性があるのです。

Context: In software development organizations employing weak or collective ownership, different teams are allowed and expected to autonomously perform changes in various components. This creates diversity both in the knowledge of, and in the responsibility for, individual components. Objective: Our objective is to understand how and why different teams introduce technical debt in the form of code clones as they change different components. Method: We collected data about change size and clone introductions made by ten teams in eight components which was part of a large industrial software system. We then designed a Multi-Level Generalized Linear Model (MLGLM), to illustrate the teams' differing behavior. Finally, we discussed the results with three development teams, plus line manager and the architect team, evaluating whether the model inferences aligned with what they expected. Responses were recorded and thematically coded. Results: The results show that teams do behave differently in different components, and the feedback from the teams indicates that this method of illustrating team behavior can be useful as a complement to traditional summary statistics of ownership. Conclusions: We find that our model-based approach produces useful visualizations of team introductions of code clones as they change different components. Practitioners stated that the visualizations gave them insights that were useful, and by comparing with an average team, inter-team comparisons can be avoided. Thus, this has the potential to be a useful feedback tool for teams in software development organizations that employ weak or collective ownership.
翻訳日:2024-11-09 02:18:45 公開日:2024-09-27
# LUCIE:O(1000)メンバーアンサンブルの長期安定性と物理的整合性を有する軽量無結合クリメートエミュレータ

LUCIE: A Lightweight Uncoupled ClImate Emulator with long-term stability and physical consistency for O(1000)-member ensembles ( http://arxiv.org/abs/2405.16297v2 )

ライセンス: Link先を確認
Haiwen Guan, Troy Arcomano, Ashesh Chattopadhyay, Romit Maulik, (参考訳) 軽量で、訓練が容易で、低解像度で、完全にデータ駆動型気候エミュレータであるLUCIEを紹介します。 最先端のAI天気モデルとは異なり、LUCIEは安定していて、100ドル(約1万1000円)のアンサンブルメンバーによる100ドル(約1万2000円)の自己回帰シミュレーションで安定している。 LUCIEによる気温、風速、降水量、湿度の長期平均気候学は、変動性とともにERA5のデータと一致する。 さらに, 長期シミュレーションの大規模なアンサンブルから, 極端な気象事象とその帰還期間を推定できることを示す。 さらに、自己回帰的誤差の増大を抑制するためのハードコントラスト付き一階積分器によるトレーニング戦略、微細な力学をより正確に捉えるためのスペクトル正規化戦略、そして最後に、安定性と物理的整合性を損なうことなく、エミュレータのデータ制限(最低2ドルで6ドル毎のデータ)のトレーニングを可能にする最適化アルゴリズムについても論じる。 最後に,LUCIEの長期バイアスとトレーニングサンプル数を比較するためのスケーリング実験を行った。 重要な点として、LUCIEは1つのA-100 GPUでたった2.4ドル(約2,400円)でトレーニングできる簡単なモデルであり、長期シミュレーションの大きなアンサンブル、シミュレーションに対する変数の異なる影響、外部の強制に対する動的応答、極端な気象事象の推定など、重要な科学的疑問に答えられる複数の実験を可能にする。

We present a lightweight, easy-to-train, low-resolution, fully data-driven climate emulator, LUCIE, that can be trained on as low as $2$ years of $6$-hourly ERA5 data. Unlike most state-of-the-art AI weather models, LUCIE remains stable and physically consistent for $100$ years of autoregressive simulation with $100$ ensemble members. Long-term mean climatology from LUCIE's simulation of temperature, wind, precipitation, and humidity matches that of ERA5 data, along with the variability. We further demonstrate how well extreme weather events and their return periods can be estimated from a large ensemble of long-term simulations. We further discuss an improved training strategy with a hard-constrained first-order integrator to suppress autoregressive error growth, a novel spectral regularization strategy to better capture fine-scale dynamics, and finally an optimization algorithm that enables data-limited (as low as $2$ years of $6$-hourly data) training of the emulator without losing stability and physical consistency. Finally, we provide a scaling experiment to compare the long-term bias of LUCIE with respect to the number of training samples. Importantly, LUCIE is an easy to use model that can be trained in just $2.4$h on a single A-100 GPU, allowing for multiple experiments that can explore important scientific questions that could be answered with large ensembles of long-term simulations, e.g., the impact of different variables on the simulation, dynamic response to external forcing, and estimation of extreme weather events, amongst others.
翻訳日:2024-11-09 02:07:29 公開日:2024-09-27
# EMRマージング:チューニング不要な高性能モデルマージング

EMR-Merging: Tuning-Free High-Performance Model Merging ( http://arxiv.org/abs/2405.17461v2 )

ライセンス: Link先を確認
Chenyu Huang, Peng Ye, Tao Chen, Tong He, Xiangyu Yue, Wanli Ouyang, (参考訳) プレトレイン-ファインチューンパラダイムの成功は、多くのモデルウェイトのリリースをもたらす。 この場合、マルチタスク機能を持つ単一モデルを実現するために、異なるタスクで微調整されたモデルをマージすることは、その実行可能性に注目が集まっている。 既存のモデルマージ手法は通常、(1)重要なパフォーマンス劣化または(2)追加のデータやトレーニングによるチューニングを必要とする。 本稿では,既存のモデル統合パラダイムを再考し,分析する。 一つのモデルの重みを使用すれば、すべてのモデルの性能をシミュレートすることはほとんどできない。 この問題に対処するため、Elect, Mask & Rescale-Merging (EMR-Merging)を提案する。 はじめに (a)全てのモデル重みから統一モデルを選択し、 b) マスクとリスケーラを含む極めて軽量なタスク固有変調器を生成し、それぞれが統一されたモデルと各特定のモデルとの方向と大きさを整列させる。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。 EMR-Merging は、異なる視覚モデル(最大30まで)、NLPモデル、PEFTモデル、マルチモーダルモデルなど、異なる古典的および新しく確立された設定下での既存のマージ手法と比較して優れた性能を示す。

The success of pretrain-finetune paradigm brings about the release of numerous model weights. In this case, merging models finetuned on different tasks to enable a single model with multi-task capabilities is gaining increasing attention for its practicability. Existing model merging methods usually suffer from (1) significant performance degradation or (2) requiring tuning by additional data or training. In this paper, we rethink and analyze the existing model merging paradigm. We discover that using a single model's weights can hardly simulate all the models' performance. To tackle this issue, we propose Elect, Mask & Rescale-Merging (EMR-Merging). We first (a) elect a unified model from all the model weights and then (b) generate extremely lightweight task-specific modulators, including masks and rescalers, to align the direction and magnitude between the unified model and each specific model, respectively. EMR-Merging is tuning-free, thus requiring no data availability or any additional training while showing impressive performance. We find that EMR-Merging shows outstanding performance compared to existing merging methods under different classical and newly-established settings, including merging different numbers of vision models (up to 30), NLP models, PEFT models, and multi-modal models.
翻訳日:2024-11-09 02:07:29 公開日:2024-09-27
# 量子ウォークにおける繰り返し測定とランダム散乱

Repeated measurements and random scattering in quantum walks ( http://arxiv.org/abs/2405.20151v2 )

ライセンス: Link先を確認
Klaus Ziegler, (参考訳) 量子ウォークにおけるランダム散乱の効果を有限グラフ上で検討し, 繰り返し測定の結果と比較した。 この目的のために、構成的アプローチは、基礎となるヒルベルト空間に対して局所的で非局所化された基底を導入することによって採用される。 これにより、固有ベクトルが局所化または非局所化されるハミルトニアンを設計することができる。 いくつかの具体例を示して、固有ベクトルの局所化がグラフ上の遷移確率を制限し、監視された進化において暗黒状態をもたらすことを示した。 繰り返し測定とランダム散乱は、量子ウォークを制御するための効率的なツールを提供すると結論付けている。

We study the effect of random scattering in quantum walks on a finite graph and compare it with the effect of repeated measurements. To this end, a constructive approach is employed by introducing a localized and a delocalized basis for the underlying Hilbert space. This enables us to design Hamiltonians whose eigenvectors are either localized or delocalized. By presenting some specific examples we demonstrate that the localization of eigenvectors restricts the transition probabilities on the graph and leads to dark states in the monitored evolution. We conclude that repeated measurements as well as random scattering provide efficient tools for controlling quantum walks.
翻訳日:2024-11-09 02:07:29 公開日:2024-09-27
# Bi-Directional Transformers vs. Word2vec: Lifted Compiled Codeにおける脆弱性の発見

Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code ( http://arxiv.org/abs/2405.20611v3 )

ライセンス: Link先を確認
Gary A. McCully, John D. Hastings, Shengjie Xu, Adam Fortier, (参考訳) コンパイルされたバイナリ内の脆弱性の検出は、高レベルのコード構造や、アーキテクチャ依存関係、コンパイラ、最適化オプションなどの他の要素が失われているため、難しい。 これらの障害に対処するために,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いて,中間表現(LLVM IR)コードから意味学を学ぶ。 長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約48kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。 この研究は、LLVMコードを用いて構築された複数双方向トランスフォーマー(BERT, RoBERTa)埋め込みを用いたWord2vecモデルの比較において、コンパイルされたバイナリの脆弱性を検出するためにニューラルネットワークをトレーニングした。 Word2vec Skip-Gramモデルでは、脆弱性の検出、Word2vec Continuous Bag of Words(CBOW)、BERT、RoBERTaの精度が92%向上した。 このことは、データサンプルの限られた数(例:48K)が双方向トランスフォーマーベースモデルのトレーニングに使用される場合、複雑なコンテキスト埋め込みは、このタスクに対してより単純な word2vec モデルよりも利点をもたらすものではないことを示唆している。 比較結果は、コンパイラに依存しないセマンティックコード表現を学習し、コンパイルされたバイナリの脆弱性を機械学習で検出する最適な埋め込みを選択するための新しい洞察を提供する。

Detecting vulnerabilities within compiled binaries is challenging due to lost high-level code structures and other factors such as architectural dependencies, compilers, and optimization options. To address these obstacles, this research explores vulnerability detection using natural language processing (NLP) embedding techniques with word2vec, BERT, and RoBERTa to learn semantics from intermediate representation (LLVM IR) code. Long short-term memory (LSTM) neural networks were trained on embeddings from encoders created using approximately 48k LLVM functions from the Juliet dataset. This study is pioneering in its comparison of word2vec models with multiple bidirectional transformers (BERT, RoBERTa) embeddings built using LLVM code to train neural networks to detect vulnerabilities in compiled binaries. Word2vec Skip-Gram models achieved 92% validation accuracy in detecting vulnerabilities, outperforming word2vec Continuous Bag of Words (CBOW), BERT, and RoBERTa. This suggests that complex contextual embeddings may not provide advantages over simpler word2vec models for this task when a limited number (e.g. 48K) of data samples are used to train the bidirectional transformer-based models. The comparative results provide novel insights into selecting optimal embeddings for learning compiler-independent semantic code representations to advance machine learning detection of vulnerabilities in compiled binaries.
翻訳日:2024-11-09 01:56:09 公開日:2024-09-27
# EnterpriseEM: エンタープライズセマンティック検索のための微調整の埋め込み

EnterpriseEM: Fine-tuned Embeddings for Enterprise Semantic Search ( http://arxiv.org/abs/2406.00010v2 )

ライセンス: Link先を確認
Kamalkumar Rathinasamy, Jayarama Nettar, Amit Kumar, Vishal Manchanda, Arun Vijayakumar, Ayush Kataria, Venkateshprasanna Manjunath, Chidambaram GS, Jaskirat Singh Sodhi, Shoeb Shaikh, Wasim Akhtar Khan, Prashant Singh, Tanishq Dattatray Ige, Vipin Tiwari, Rajab Ali Mondal, Harshini K, S Reka, Chetana Amancharla, Faiz ur Rahman, Harikrishnan P A, Indraneel Saha, Bhavya Tiwary, Navin Shankar Patel, Pradeep T S, Balaji A J, Priyapravas, Mohammed Rafee Tarafdar, (参考訳) 企業は、プロプライエタリな非構造化データを管理するという重大な課題に対処し、効率的な情報検索を妨げる。 これにより、AIによる情報検索ソリューションが出現し、従業員の問い合わせに対処するために、適切な洞察を抽出するように設計されている。 これらのソリューションは、しばしば基礎成分として事前訓練された埋め込みモデルと生成モデルを利用する。 事前学習した埋め込みは、元のトレーニング目標に基づいて近接性や不均一性を示す可能性があるが、企業固有のデータの特徴と完全に一致しない可能性があり、企業環境の検索目標と最適以下に一致させる。 本稿では,企業環境に事前学習した埋め込みモデルをコンテキスト化するための包括的方法論を提案する。 企業で普及している検索課題に適合するように埋め込みを適応させることで,情報検索ソリューションの性能向上を目指す。 本稿では,微調整のプロセス,検索精度への影響,企業情報管理における潜在的メリットについて論じる。 本研究は,エンタープライズ環境での検索結果の精度と妥当性を向上させるため,微調整埋め込みモデルの有効性を示すものである。

Enterprises grapple with the significant challenge of managing proprietary unstructured data, hindering efficient information retrieval. This has led to the emergence of AI-driven information retrieval solutions, designed to adeptly extract relevant insights to address employee inquiries. These solutions often leverage pre-trained embedding models and generative models as foundational components. While pre-trained embeddings may exhibit proximity or disparity based on their original training objectives, they might not fully align with the unique characteristics of enterprise-specific data, leading to suboptimal alignment with the retrieval goals of enterprise environments. In this paper, we propose a comprehensive methodology for contextualizing pre-trained embedding models to enterprise environments, covering the entire process from data preparation to model fine-tuning and evaluation. By adapting the embeddings to better suit the retrieval tasks prevalent in enterprises, we aim to enhance the performance of information retrieval solutions. We discuss the process of fine-tuning, its effect on retrieval accuracy, and the potential benefits for enterprise information management. Our findings demonstrate the efficacy of fine-tuned embedding models in improving the precision and relevance of search results in enterprise settings.
翻訳日:2024-11-09 01:56:09 公開日:2024-09-27
# 量子システムにおける固有状態エネルギー決定のための新しい量子古典ハイブリッドアルゴリズム

A Novel Quantum-Classical Hybrid Algorithm for Determining Eigenstate Energies in Quantum Systems ( http://arxiv.org/abs/2406.00296v2 )

ライセンス: Link先を確認
Qing-Xing Xie, Yan Zhao, (参考訳) 効率的な量子コンピューティングアルゴリズムの開発は、様々な分野にまたがる計算上の問題に対処するために不可欠である。 本稿では、任意の量子系の固有エネルギースペクトルを効率的に計算するための新しい量子アルゴリズムXZ24を提案する。 ハミルトン$\hat{H}$と初期参照状態$|\psi_{\text{ref}} \rangle$が与えられたとき、アルゴリズムは補助クォービットの状態から$\langle \psi_{\text{ref}} | \cos(\hat{H} t) | \psi_{\text{ref}} \rangle$に関する情報を抽出する。 フーリエ変換を適用することにより、アルゴリズムは基準波動関数と大きな重なりを持つハミルトニアンの固有状態のエネルギーを解く。 提案手法は,既存のアルゴリズムと比較して,XZ24の効率と精度が優れていることを示す理論解析と数値シミュレーションである。 XZ24には3つの大きな利点がある: 1. 固有状態の準備の必要性を排除し、非無視的な重複を持つ参照状態のみを必要とし、変分量子固有解法のような手法で改善する。 2. 測定オーバーヘッドを低減し、補助量子ビットを1つだけ測定する。 精度が$\epsilon$のシステムの場合、サンプリング複雑性は$O(L \cdot \epsilon^{-1})$とスケールする。 相対精度$\epsilon$が十分であれば、複雑性は$O(\epsilon^{-1})$とスケールし、システムサイズに依存しない。 3. 参照状態に応じて複数の固有エネルギーの同時計算を可能にする。 我々は、XZ24が量子システムシミュレーションを進歩させ、量子コンピューティングの応用を強化することを期待する。

Developing efficient quantum computing algorithms is essential for tackling computationally challenging problems across various fields. This paper presents a novel quantum algorithm, XZ24, for efficiently computing the eigen-energy spectra of arbitrary quantum systems. Given a Hamiltonian $\hat{H}$ and an initial reference state $|\psi_{\text{ref}} \rangle$, the algorithm extracts information about $\langle \psi_{\text{ref}} | \cos(\hat{H} t) | \psi_{\text{ref}} \rangle$ from an auxiliary qubit's state. By applying a Fourier transform, the algorithm resolves the energies of eigenstates of the Hamiltonian with significant overlap with the reference wavefunction. We provide a theoretical analysis and numerical simulations, showing XZ24's superior efficiency and accuracy compared to existing algorithms. XZ24 has three key advantages: 1. It removes the need for eigenstate preparation, requiring only a reference state with non-negligible overlap, improving upon methods like the Variational Quantum Eigensolver. 2. It reduces measurement overhead, measuring only one auxiliary qubit. For a system of size $L$ with precision $\epsilon$, the sampling complexity scales as $O(L \cdot \epsilon^{-1})$. When relative precision $\epsilon$ is sufficient, the complexity scales as $O(\epsilon^{-1})$, making measurements independent of system size. 3. It enables simultaneous computation of multiple eigen-energies, depending on the reference state. We anticipate that XZ24 will advance quantum system simulations and enhance applications in quantum computing.
翻訳日:2024-11-09 01:56:09 公開日:2024-09-27
# 原始情報を用いたロバストな等角予測

Robust Conformal Prediction Using Privileged Information ( http://arxiv.org/abs/2406.05405v2 )

ライセンス: Link先を確認
Shai Feldman, Yaniv Romano, (参考訳) そこで本研究では,学習データ中のノイズや障害変数などの破損に対して頑健な,保証されたカバレッジ率で予測セットを生成する手法を開発した。 我々のアプローチは、i.d仮定の下で有効となる予測セットを構築するための強力なフレームワークである共形予測に基づいている。 重要なことは、汚職によって引き起こされる分布シフトのため、直感的に整合予測を適用することは、この設定において確実な予測を提供しないということである。 分配シフトを考慮し、特権情報(PI)へのアクセスを前提とします。 PIは、分散シフトを説明する追加機能として定式化されているが、トレーニング中にのみ利用可能であり、テスト時に不在である。 本稿では,重み付き共形予測の新たな一般化を導入し,理論的カバレッジを保証する手法を提案する。 実データと合成データの両方に対する実証実験により,提案手法は有効なカバレッジ率を達成し,理論的な保証に支えられていない既存手法と比較して,より有意義な予測を構築できることが示唆された。

We develop a method to generate prediction sets with a guaranteed coverage rate that is robust to corruptions in the training data, such as missing or noisy variables. Our approach builds on conformal prediction, a powerful framework to construct prediction sets that are valid under the i.i.d assumption. Importantly, naively applying conformal prediction does not provide reliable predictions in this setting, due to the distribution shift induced by the corruptions. To account for the distribution shift, we assume access to privileged information (PI). The PI is formulated as additional features that explain the distribution shift, however, they are only available during training and absent at test time. We approach this problem by introducing a novel generalization of weighted conformal prediction and support our method with theoretical coverage guarantees. Empirical experiments on both real and synthetic datasets indicate that our approach achieves a valid coverage rate and constructs more informative predictions compared to existing methods, which are not supported by theoretical guarantees.
翻訳日:2024-11-09 01:44:51 公開日:2024-09-27
# 文脈外知識推論における大規模言語モデル

Large Language Models are Limited in Out-of-Context Knowledge Reasoning ( http://arxiv.org/abs/2406.07393v3 )

ライセンス: Link先を確認
Peng Hu, Changjiang Gao, Ruiqi Gao, Jiajun Chen, Shujian Huang, (参考訳) 大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。 しかし、以前の作業は、文脈やプロンプトではなく、トレーニングデータから情報を推測する能力など、文脈外の推論能力に挑戦する。 本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。 我々は,LLMのOCKR能力を体系的に評価する7つのOCKRタスクを用いた合成データセットを設計した。 このデータセットを用いて、複数のLCMを評価し、知識が個別または隣接のトレーニング環境で訓練されているかどうかに関わらず、その側面における習熟度が制限されていることを発見した。 さらに、推論例による推論のためのモデルをトレーニングしても大きな改善は得られず、一方、明示的な知識検索を行うためのモデルをトレーニングすることは、属性知識の検索に役立ち、関係知識の検索には役立ち、モデルの限定的なOCKR能力は知識検索の難しさによるものであることを示す。 さらに,言語間知識伝達をOCKRの別形態として扱い,その能力を評価する。 その結果,評価モデルは言語間で知識を伝達する能力に限界があることが示唆された。

Large Language Models (LLMs) possess extensive knowledge and strong capabilities in performing in-context reasoning. However, previous work challenges their out-of-context reasoning ability, i.e., the ability to infer information from their training data, instead of from the context or prompt. This paper focuses on a significant aspect of out-of-context reasoning: Out-of-Context Knowledge Reasoning (OCKR), which is to combine multiple knowledge to infer new knowledge. We designed a synthetic dataset with seven representative OCKR tasks to systematically assess the OCKR capabilities of LLMs. Using this dataset, we evaluated several LLMs and discovered that their proficiency in this aspect is limited, regardless of whether the knowledge is trained in a separate or adjacent training settings. Moreover, training the model to reason with reasoning examples does not result in significant improvement, while training the model to perform explicit knowledge retrieval helps for retrieving attribute knowledge but not the relation knowledge, indicating that the model's limited OCKR capabilities are due to difficulties in knowledge retrieval. Furthermore, we treat cross-lingual knowledge transfer as a distinct form of OCKR, and evaluate this ability. Our results show that the evaluated model also exhibits limited ability in transferring knowledge across languages.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-27
# 生ビデオを超えて: 大きなマルチモーダルモデルで編集されたビデオを理解する

Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model ( http://arxiv.org/abs/2406.10484v2 )

ライセンス: Link先を確認
Lu Xu, Sijie Zhu, Chunyuan Li, Chia-Wen Kuo, Fan Chen, Xinyao Wang, Guang Chen, Dawei Du, Ye Yuan, Longyin Wen, (参考訳) 新たなビデオLMM (Large Multimodal Models) は,VQA (Visual Question Answering) という形で一般的なビデオ理解において,カメラによって生映像をキャプチャする,大幅な改善を実現している。 しかし、現実世界のアプリケーションにおけるビデオの大部分は、編集されたビデオである‘textit{e g } で、ユーザーは通常、ソーシャルメディアプラットフォームに公開する前に、生のビデオにエフェクトや修正を加える。 編集されたビデオは通常、高い視聴数を持つが、既存のビデオLMM、 \textit{i.e.}、ActivityNet-QA、VideoChatGPTベンチマークではカバーされない。 本稿では,人気のショートビデオプラットフォームである‘textit{i.e.},TikTok’の編集ビデオを活用し,エフェクト,面白い,ミーム,ゲームという4つの典型的な編集カテゴリをカバーするビデオVQAベンチマーク(EditVid-QA)を構築する。 ファニービデオとミームビデオは、曖昧な理解と高レベルの推論をベンチマークし、エフェクトとゲームは人工デザインの理解能力を評価する。 オープンソースビデオのLMMのほとんどはEditVid-QAベンチマークでは不十分で、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示している。 Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,LMMの一般化能力を向上させるため,提案したEditVid-QAベンチマークの性能を高め,高品質なトレーニングデータの有効性を示す。 また, GPT-3.5 判定器を用いた既存の評価プロトコルの深刻な問題,すなわち「sorry」攻撃では, VideoChatGPT 評価プロトコルの正確性スコアが4.3以上で GPT 判定器から極めて高い評価が得られる。 この攻撃を避けるため,GPT-4判定とキーワードフィルタリングによる評価を行った。 データセットはhttps://github.com/XenonLamb/EditVid-QAでリリースされる。

The emerging video LMMs (Large Multimodal Models) have achieved significant improvements on generic video understanding in the form of VQA (Visual Question Answering), where the raw videos are captured by cameras. However, a large portion of videos in real-world applications are edited videos, \textit{e.g.}, users usually cut and add effects/modifications to the raw video before publishing it on social media platforms. The edited videos usually have high view counts but they are not covered in existing benchmarks of video LMMs, \textit{i.e.}, ActivityNet-QA, or VideoChatGPT benchmark. In this paper, we leverage the edited videos on a popular short video platform, \textit{i.e.}, TikTok, and build a video VQA benchmark (named EditVid-QA) covering four typical editing categories, i.e., effect, funny, meme, and game. Funny and meme videos benchmark nuanced understanding and high-level reasoning, while effect and game evaluate the understanding capability of artificial design. Most of the open-source video LMMs perform poorly on the EditVid-QA benchmark, indicating a huge domain gap between edited short videos on social media and regular raw videos. To improve the generalization ability of LMMs, we collect a training set for the proposed benchmark based on both Panda-70M/WebVid raw videos and small-scale TikTok/CapCut edited videos, which boosts the performance on the proposed EditVid-QA benchmark, indicating the effectiveness of high-quality training data. We also identified a serious issue in the existing evaluation protocol using the GPT-3.5 judge, namely a "sorry" attack, where a sorry-style naive answer can achieve an extremely high rating from the GPT judge, e.g., over 4.3 for correctness score on VideoChatGPT evaluation protocol. To avoid the "sorry" attacks, we evaluate results with GPT-4 judge and keyword filtering. The dataset is released at https://github.com/XenonLamb/EditVid-QA.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-27
# 数学的推論のためのステップレベル値設定最適化

Step-level Value Preference Optimization for Mathematical Reasoning ( http://arxiv.org/abs/2406.10858v2 )

ライセンス: Link先を確認
Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan, (参考訳) 暗黙の報酬モデルを用いた直接選好最適化(DPO)は人間のフィードバック(RLHF)からの強化学習の代替として有効であることが証明されている。 しかし、応答の全体的な選好アノテーションは、数学的推論のような複雑な多段階推論タスクにおいて、モデル出力のきめ細かい品質を完全に捉えていない。 この制限に対処するために、ステップレベル値優先最適化(SVPO)と呼ばれる新しいアルゴリズムを導入する。 提案手法ではモンテカルロ木探索(MCTS)を用いて,マルチステップ推論のためのステップレベルの選好を自動的にアノテートする。 さらに、学習からランクまでの観点から、暗黙の報酬モデルの振る舞いを再現するために明示的な値モデルを訓練し、標準的な選好最適化を補完する。 この値モデルにより、LLMは推論時に最小のコストでより高い報酬応答を生成することができる。 実験により,本手法は,領域内および領域外両方の数学的推論ベンチマークにおいて,最先端の性能を実現することを示す。 私たちのコードは \url{https://github.com/MARIO-Math-Reasoning/Super_MARIO} で利用可能です。

Direct Preference Optimization (DPO) using an implicit reward model has proven to be an effective alternative to reinforcement learning from human feedback (RLHF) for fine-tuning preference aligned large language models (LLMs). However, the overall preference annotations of responses do not fully capture the fine-grained quality of model outputs in complex multi-step reasoning tasks, such as mathematical reasoning. To address this limitation, we introduce a novel algorithm called Step-level Value Preference Optimization (SVPO). Our approach employs Monte Carlo Tree Search (MCTS) to automatically annotate step-level preferences for multi-step reasoning. Furthermore, from the perspective of learning-to-rank, we train an explicit value model to replicate the behavior of the implicit reward model, complementing standard preference optimization. This value model enables the LLM to generate higher reward responses with minimal cost during inference. Experimental results demonstrate that our method achieves state-of-the-art performance on both in-domain and out-of-domain mathematical reasoning benchmarks. Our code is available at \url{https://github.com/MARIO-Math-Reasoning/Super_MARIO}.
翻訳日:2024-11-09 01:22:29 公開日:2024-09-27
# 境界とバグ:パルチザンジェリーマンダー検出のための対称性メトリクスの限界

Bounds and Bugs: The Limits of Symmetry Metrics to Detect Partisan Gerrymandering ( http://arxiv.org/abs/2406.12167v2 )

ライセンス: Link先を確認
Ellen Veomett, (参考訳) 我々は,パルチザンジェリーマンダー検出のための2つの対称性指標,平均メディア差(MM)とパルチザンバイアス(PB)について検討した。 本研究は,本研究の主目的として,まず,パルチザン・ジェリーマンダーの基盤は,所望の政党が極端に多くの議席を獲得できるように地図を描くことであり,中道差とパルチザン・ビアスの両方が,パルチザン・ジェリーマンダーの検出に利用されていることを主張する。 次に、平均メディア差とパルチザンバイアスの理論的および実証的な分析を行う。 理論的分析では、投票共有Vと議席共有Sを有する選挙データを構築できる投票共有、議席共有ペア(V,S)について検討し、各地区でターンアウトが等しくなる。 我々は、その構築された選挙データに基づいて、MMとPBが達成できる値の範囲を算出する。 この過程で、投票共有V、議席共有S、MM = 0で構成された選挙データが存在する投票共有、議席共有ペア(V,S)の範囲を見つけ、PBに対応する範囲が(V,S)ペアのセットであることを示す。 MM = 0(およびPB = 0)が許容されるような(V,S)ペアの集合は、各地区でのターンアウトが異なることが許されるときにどのように変化するかを示す。 この理論解析の結果を観察することにより、この2つの指標が、地図が極端に多くの地区を獲得したとき、どのように検出できないかを例示する。 これらの例が構築されているので、我々は実験的な研究でこれに従う。これは18の異なる米国地図で、この2つの指標が、地図が極端に多くの地区を獲得したときに検出できないことを示す。

We consider two symmetry metrics to detect partisan gerrymandering: the Mean-Median Difference (MM) and Partisan Bias (PB). To lay the groundwork for our main results, we first assert that the foundation of a partisan gerrymander is to draw a map so that the preferred party wins an extreme number of seats, and that both the Mean-Median Difference and Partisan Bias have been used to detect partisan gerrymandering. We then provide both a theoretical and empirical analysis of the Mean-Median Difference and Partisan Bias. In our theoretical analysis, we consider vote-share, seat-share pairs (V,S) for which one can construct election data having vote share V and seat share S, and turnout is equal in each district. We calculate the range of values that MM and PB can achieve on that constructed election data. In the process, we find the range of vote-share, seat share pairs (V,S) for which there is constructed election data with vote share V , seat share S, and MM = 0, and see that the corresponding range for PB is the same set of (V,S) pairs. We show how the set of such (V,S) pairs allowing for MM = 0 (and PB = 0) changes when turnout in each district is allowed to be different. By observing the results of this theoretical analysis, we give examples of how these two metrics are unable to detect when a map has an extreme number of districts won. Because these examples are constructed, we follow this with our empirical study, in which we show on 18 different U.S. maps that these two metrics are unable to detect when a map has an extreme number of districts won.
翻訳日:2024-11-09 01:22:29 公開日:2024-09-27
# 「Global is Good, Local is Bad?」 : LLMにおけるブランドバイアスの理解

"Global is Good, Local is Bad?": Understanding Brand Bias in LLMs ( http://arxiv.org/abs/2406.13997v2 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Hieu Minh Nguyen, Gene Louis Kim, (参考訳) 近年の多くの研究では、LSMの社会的偏見について研究されているが、ブランド偏見はほとんど注目されていない。 本研究は, LLMの異なるブランドに対する偏見を考察し, 製品レコメンデーションや市場分析などのユースケースにおいて, LLMが広く利用されていることを考えると, 重要な懸念点である。 バイアスドモデルは社会的不平等を永続させ、確立したグローバルブランドを不公平に好んで、地元のブランドを疎外する可能性がある。 4つのブランドカテゴリにわたるキュレートされたデータセットを用いて、この分野におけるLCMの挙動を探索する。 世界のブランドを肯定的な属性で結び付け、高所得国の個人に豪華な贈り物を推薦するという観点からも、この分野には一貫した偏見のパターンがある。 また, LLM は, 特定の状況下での LLM 出力において, 地域ブランドの嗜好を高めるようなカントリー・オブ・オリジンの影響を受けていることも確認した。

Many recent studies have investigated social biases in LLMs but brand bias has received little attention. This research examines the biases exhibited by LLMs towards different brands, a significant concern given the widespread use of LLMs in affected use cases such as product recommendation and market analysis. Biased models may perpetuate societal inequalities, unfairly favoring established global brands while marginalizing local ones. Using a curated dataset across four brand categories, we probe the behavior of LLMs in this space. We find a consistent pattern of bias in this space -- both in terms of disproportionately associating global brands with positive attributes and disproportionately recommending luxury gifts for individuals in high-income countries. We also find LLMs are subject to country-of-origin effects which may boost local brand preference in LLM outputs in specific contexts.
翻訳日:2024-11-09 01:22:29 公開日:2024-09-27
# QPaug: LLMのオープンドメイン質問回答に対する質問とパスの強化

QPaug: Question and Passage Augmentation for Open-Domain Question Answering of LLMs ( http://arxiv.org/abs/2406.14277v2 )

ライセンス: Link先を確認
Minsang Kim, Cheoneum Park, Seungjun Baek, (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)のパラメトリック知識を補う手段として、オープンドメイン質問応答(ODQA)タスクに多くの注目を集めている。 従来のアプローチでは、無関係なコンテキストを取り除くために検索されたパスの処理に重点を置いていたが、質問があいまいな場合や複雑である場合、検索されたパスの品質に大きく依存していた。 本稿では,オープンドメインQAのためのLLMを用いたQPaug法を提案する。 QPaugは最初に、元の質問を複数のステップのサブクエリに分解する。 質問を詳細なサブクエストとプランニングで強化することにより、検索対象についてより具体的なクエリを作成できるようになり、検索性能が向上する。 また,抽出された通路に注意を散らす情報や意見の分割を含む場合の補償として,LLMによる自己生成通路を付加し,回答抽出を指導する。 実験の結果,QPaugは従来の最先端技術よりも優れており,既存のRAG法よりも大きな性能向上を実現していることがわかった。 ソースコードは \url{https://github.com/kmswin1/QPaug} で入手できる。

Retrieval-augmented generation (RAG) has received much attention for Open-domain question-answering (ODQA) tasks as a means to compensate for the parametric knowledge of large language models (LLMs). While previous approaches focused on processing retrieved passages to remove irrelevant context, they still rely heavily on the quality of retrieved passages which can degrade if the question is ambiguous or complex. In this paper, we propose a simple yet efficient method called question and passage augmentation (QPaug) via LLMs for open-domain QA. QPaug first decomposes the original questions into multiple-step sub-questions. By augmenting the original question with detailed sub-questions and planning, we are able to make the query more specific on what needs to be retrieved, improving the retrieval performance. In addition, to compensate for the case where the retrieved passages contain distracting information or divided opinions, we augment the retrieved passages with self-generated passages by LLMs to guide the answer extraction. Experimental results show that QPaug outperforms the previous state-of-the-art and achieves significant performance gain over existing RAG methods. The source code is available at \url{https://github.com/kmswin1/QPaug}.
翻訳日:2024-11-09 01:10:29 公開日:2024-09-27
# 物理インフォームドニューラルネットワークによる山火事拡散のパラメータ学習

Physics-informed neural networks for parameter learning of wildfire spreading ( http://arxiv.org/abs/2406.14591v2 )

ライセンス: Link先を確認
Konstantinos Vogiatzoglou, Costas Papadimitriou, Vasilis Bontozoglou, Konstantinos Ampountolas, (参考訳) 野生の火災は恐ろしい自然の危険をもたらし、山火事の予防、監視、介入、および対応のために、データ駆動型で物理学にインフォームされたデジタル双生児を開発する緊急の必要性を浮き彫りにしている。 この研究の方向性として、解釈可能な山火事拡散モデルの未知のパラメータを学習するために設計された物理情報ニューラルネットワーク(PiNN)を導入する。 検討されたモデリング手法は、山火事の複雑な挙動を捉えるのに不可欠な重要なモデルパラメータによって記述された基本的な物理法則を統合する。 提案する機械学習フレームワークは,大規模・エネルギー保全の第一原理を含む,山火事のダイナミクスを規定する物理的制約を伴って,人工ニューラルネットワークの理論を活用する。 2002年6月19日にカリフォルニア州で発生したトロイ火災の観測データ(地表面熱画像)とともに、高忠実度シミュレーターから得られた1次元および2次元のファイアフロントの時空間進化に関する合成データを用いて、物理情報を用いたパラメータ同定のためのPiNNの訓練を実現する。 パラメータ学習の結果,1次元および2次元の火災拡散シナリオおよびトロイ火災における山火事モデルの未知の係数を明らかにする上で,提案したPiNNの予測能力を実証した。 さらに、この手法はノイズの多いデータが存在する場合でも、同じパラメータを識別することで堅牢性を示す。 このPiNNアプローチを包括的なフレームワークに組み込むことで、物理インフォームドデジタルツインは、インテリジェントな山火事の管理とリスク評価を強化し、アクティブでリアクティブな戦略のための強力なツールを提供する。

Wildland fires pose a terrifying natural hazard, underscoring the urgent need to develop data-driven and physics-informed digital twins for wildfire prevention, monitoring, intervention, and response. In this direction of research, this work introduces a physics-informed neural network (PiNN) designed to learn the unknown parameters of an interpretable wildfire spreading model. The considered modeling approach integrates fundamental physical laws articulated by key model parameters essential for capturing the complex behavior of wildfires. The proposed machine learning framework leverages the theory of artificial neural networks with the physical constraints governing wildfire dynamics, including the first principles of mass and energy conservation. Training of the PiNN for physics-informed parameter identification is realized using synthetic data on the spatiotemporal evolution of one- and two-dimensional firefronts, derived from a high-fidelity simulator, as well as empirical data (ground surface thermal images) from the Troy Fire that occurred on June 19, 2002, in California. The parameter learning results demonstrate the predictive ability of the proposed PiNN in uncovering the unknown coefficients of the wildfire model in one- and two-dimensional fire spreading scenarios as well as the Troy Fire. Additionally, this methodology exhibits robustness by identifying the same parameters even in the presence of noisy data. By integrating this PiNN approach into a comprehensive framework, the envisioned physics-informed digital twin will enhance intelligent wildfire management and risk assessment, providing a powerful tool for proactive and reactive strategies.
翻訳日:2024-11-09 01:10:29 公開日:2024-09-27
# SynRS3D:モノクルリモートセンシング画像からのグローバル3次元意味理解のための合成データセット

SynRS3D: A Synthetic Dataset for Global 3D Semantic Understanding from Monocular Remote Sensing Imagery ( http://arxiv.org/abs/2406.18151v2 )

ライセンス: Link先を確認
Jian Song, Hongruixuan Chen, Weihao Xuan, Junshi Xia, Naoto Yokoya, (参考訳) 単一視点高解像度リモートセンシング(RS)画像からのグローバルなセマンティック3D理解は、地球観測(EO)にとって不可欠である。 しかし、このタスクは、地理的に制限されたデータ可用性だけでなく、アノテーションやデータ収集のコストが高いため、重大な課題に直面している。 これらの課題に対処するため、合成データは容易にアクセス可能で、大規模で多様なデータセットの提供を可能にすることによって、有望なソリューションを提供する。 我々は、EOのための特殊な合成データ生成パイプラインを開発し、最大の合成RS3DデータセットであるSynRS3Dを紹介する。 SynRS3Dは69,667個の高解像度光学画像で構成されており、世界中の6つの異なる都市スタイルをカバーし、8種類のランドカバー、正確な高さ情報、建築変更マスクを備えている。 本手法は, 合成データに基づくグローバルなモノクロ3D意味理解を可能にするため, 土地被覆マッピングと高度推定タスクの合成シナリオから実際のシナリオへのRS固有の遷移を容易にする。 各種実世界のデータセットに対する大規模な実験により, 合成データセットの適応性と有効性を示すとともに, RS3DADA法を提案する。 SynRS3Dおよび関連コードは利用可能である。

Global semantic 3D understanding from single-view high-resolution remote sensing (RS) imagery is crucial for Earth Observation (EO). However, this task faces significant challenges due to the high costs of annotations and data collection, as well as geographically restricted data availability. To address these challenges, synthetic data offer a promising solution by being easily accessible and thus enabling the provision of large and diverse datasets. We develop a specialized synthetic data generation pipeline for EO and introduce SynRS3D, the largest synthetic RS 3D dataset. SynRS3D comprises 69,667 high-resolution optical images that cover six different city styles worldwide and feature eight land cover types, precise height information, and building change masks. To further enhance its utility, we develop a novel multi-task unsupervised domain adaptation (UDA) method, RS3DAda, coupled with our synthetic dataset, which facilitates the RS-specific transition from synthetic to real scenarios for land cover mapping and height estimation tasks, ultimately enabling global monocular 3D semantic understanding based on synthetic data. Extensive experiments on various real-world datasets demonstrate the adaptability and effectiveness of our synthetic dataset and proposed RS3DAda method. SynRS3D and related codes will be available.
翻訳日:2024-11-09 01:10:29 公開日:2024-09-27
# トラップイオン格子手術における資源オーバーヘッドと到達率

Resource overheads and attainable rates for trapped-ion lattice surgery ( http://arxiv.org/abs/2406.18764v3 )

ライセンス: Link先を確認
Hudson Leone, Thinh Le, S. Srikara, Simon Devitt, (参考訳) 本研究では,空間的に分離されたイオン表面符号間の耐故障性格子手術に必要なイオン数の推定を行う。 さらに、論理量子ビット当たりの「通信イオン」を多数与えて達成可能な格子手術率を決定する。 我々の分析は、症候群抽出サイクルの発生率に大きく依存するため、技術の現状を調査し、特定の技術的マイルストーンが満たされた場合、合理的に実現できる10ドルから1000ドルまでの3つのサイクルタイムを提案する。 その結果,最も低速な症例では数百個の資源イオンが必要であり,最速の場合では数十万近い資源イオンが必要であることが示唆された。 これらの禁止的な見積もりに寄与する主な要因は、イオンがトラップ間で結合できる制限速度である。 以上の結果から,トラップイオン量子コンピュータのスケールにおいて,光カップリングが一桁以上の精度で向上することの必要性が示唆された。

We present estimates for the number of ions needed to implement fault-tolerant lattice surgery between spatially separated trapped-ion surface codes. Additionally, we determine attainable lattice surgery rates given a number of dedicated ``communication ions" per logical qubit. Because our analysis depends heavily on the rate that syndrome extraction cycles take place, we survey the state-of the art and propose three possible cycle times between $10$ and $1000 \mu s$ that we could reasonably see realised provided certain technological milestones are met. Consequently, our numerical results indicate that hundreds of resource ions will be needed for lattice surgery in the slowest case, while close to a hundred thousand will be needed in the fastest case. The main factor contributing to these prohibitive estimates is the limited rate that ions can be coupled across traps. Our results indicate an urgent need for optical coupling to improve by one or more orders of magnitude for trapped-ion quantum computers to scale.
翻訳日:2024-11-09 01:10:29 公開日:2024-09-27
# 多言語ASRシステムの自己回帰デコーダの連続学習最適化

Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems ( http://arxiv.org/abs/2407.03645v3 )

ライセンス: Link先を確認
Chin Yuen Kwok, Jia Qi Yip, Eng Siong Chng, (参考訳) 継続学習(CL)は、事前学習されたデータの性能を維持しながら、新しいデータで訓練済みモデルを微調整する。 これは多言語ASR(MASR)の機能拡張に特に関係している。 しかし、コンピュータビジョンと強化学習タスクを主目的とする既存のCL手法では、MASRに直接適用した場合、しばしば準最適結果が得られる。 これはMASRモデルにおける自己回帰デコーダのCLが難しいためである。 これを検証するために,デコーダに4つの最適化を提案する。 その中には、デコーダ層勾配手術、未使用のトークン埋め込みの凍結、新たに追加されたトークンの出力の抑制、学習率の再スケーリングが含まれる。 Common VoiceデータセットからWhisperを10の未確認言語に適用する実験により、これらの最適化により、新しい言語のAWERを妥協することなく、事前訓練された言語の平均単語誤り率(AWER)が14.2%から12.4%に低下することを示した。

Continual Learning (CL) involves fine-tuning pre-trained models with new data while maintaining the performance on the pre-trained data. This is particularly relevant for expanding multilingual ASR (MASR) capabilities. However, existing CL methods, mainly designed for computer vision and reinforcement learning tasks, often yield sub-optimal results when directly applied to MASR. We hypothesise that this is because CL of the auto-regressive decoder in the MASR model is difficult. To verify this, we propose four optimizations on the decoder. They include decoder-layer gradient surgery, freezing unused token embeddings, suppressing output of newly added tokens, and learning rate re-scaling. Our experiments on adapting Whisper to 10 unseen languages from the Common Voice dataset demonstrate that these optimizations reduce the Average Word Error Rate (AWER) of pretrained languages from 14.2% to 12.4% compared with Experience Replay, without compromising the AWER of new languages.
翻訳日:2024-11-09 00:59:29 公開日:2024-09-27
# ハイブリッド戦略を用いた3次元点雲の知覚誘導品質測定

Perception-Guided Quality Metric of 3D Point Clouds Using Hybrid Strategy ( http://arxiv.org/abs/2407.03885v2 )

ライセンス: Link先を確認
Yujie Zhang, Qi Yang, Yiling Xu, Shan Liu, (参考訳) フルリファレンスポイントクラウド品質評価(FR-PCQA)は、歪んだポイントクラウドの品質を利用可能なリファレンスで推測することを目的としている。 既存のFR-PCQAメトリクスのほとんどは、人間の視覚システム(HVS)が様々な歪みレベル(例えば、高品質サンプルの歪み検出と低品質サンプルの外観認識)に応じて視覚情報に動的に取り組むという事実を無視し、統一された特徴を用いて点雲の品質を測定する。 このギャップを埋めるために,本論文では,2つの視覚的戦略を適応的に活用して点雲の質を予測するための知覚誘導ハイブリッド計量(PHM)を提案する。高品質な試料の可視差を測定するため,PHMはマスキング効果を考慮に入れ,絶対差の効果的な補正因子としてテクスチャ複雑性を利用する。一方,PHMはスペクトルグラフ理論を利用して,低品質試料の外観劣化を評価する。 グラフ上の幾何信号の変化とスペクトルグラフウェーブレット係数の変化を利用して、それぞれ幾何学的およびテクスチャ的外観劣化を特徴づける。 最後に、2つのコンポーネントから得られた結果を非線形法で組み合わせて、テストポイントクラウドの全体的な品質スコアを生成する。 5つの独立データベース上での実験結果から,PHMがSOTA(State-of-the-art)性能を達成し,複数歪み環境での大幅な性能向上を実現していることが示された。 コードはhttps://github.com/zhangyujie-1998/PHMで公開されている。

Full-reference point cloud quality assessment (FR-PCQA) aims to infer the quality of distorted point clouds with available references. Most of the existing FR-PCQA metrics ignore the fact that the human visual system (HVS) dynamically tackles visual information according to different distortion levels (i.e., distortion detection for high-quality samples and appearance perception for low-quality samples) and measure point cloud quality using unified features. To bridge the gap, in this paper, we propose a perception-guided hybrid metric (PHM) that adaptively leverages two visual strategies with respect to distortion degree to predict point cloud quality: to measure visible difference in high-quality samples, PHM takes into account the masking effect and employs texture complexity as an effective compensatory factor for absolute difference; on the other hand, PHM leverages spectral graph theory to evaluate appearance degradation in low-quality samples. Variations in geometric signals on graphs and changes in the spectral graph wavelet coefficients are utilized to characterize geometry and texture appearance degradation, respectively. Finally, the results obtained from the two components are combined in a non-linear method to produce an overall quality score of the tested point cloud. The results of the experiment on five independent databases show that PHM achieves state-of-the-art (SOTA) performance and offers significant performance improvement in multiple distortion environments. The code is publicly available at https://github.com/zhangyujie-1998/PHM.
翻訳日:2024-11-09 00:59:29 公開日:2024-09-27
# 深部強化学習に基づく周波数領域と時間領域の同時解析による2.5D ICの配電ネットワークの階層的デカップリングキャパシタ最適化

Hierarchical Decoupling Capacitor Optimization for Power Distribution Network of 2.5D ICs with Co-Analysis of Frequency and Time Domains Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2407.04737v2 )

ライセンス: Link先を確認
Yuanyuan Duan, Haiyang Feng, Zhiping Yu, Hanming Wu, Leilai Shao, Xiaolei Zhu, (参考訳) メモリ帯域幅の増大と計算密度の増大に伴い、複数のチップレットをインターポーザに統合する2.5D設計が有望なソリューションとして登場した。 しかし、この統合は、データレートの増加と多数のI/Oにより、小さな信号ノイズと同時切替ノイズ(SSN)を緩和するために、オンチップとオンプロファイラの両方で電力分配ネットワーク(PDN)の高度な最適化を必要とする、大きな課題をもたらす。 2.5Dシステムにおける従来のPDN最適化戦略は、主に小さな信号ノイズを減らすためにデカップリングコンデンサ(デキャップ)を統合することでインピーダンスの低減に重点を置いている。 残念なことに,本実験の結果から,周波数領域解析のみに頼って結合SSNに対処するには不十分であることが証明された。 本研究では,チップ上の小型信号雑音とSSNの両方に対処するために,深部強化学習を用いた新しい2相最適化フローを提案する。 当初、周波数領域のインピーダンスを最適化し、過設計を避けながら許容範囲内で小さな信号ノイズを維持する。 その後、時間領域において、より正確なSSN重度測定である電圧違反積分(VVI)を最小化するためにPDNを精査する。 我々の知る限り、これはオンチップとオンインターポーザPDNの戦略的デキャップ配置による小さな信号ノイズとSN伝搬の両方に同時に対処する最初のデュアルドメイン最適化戦略であり、2.5D統合システムのためのロバストPDNの設計において大きな進歩をもたらす。

With the growing need for higher memory bandwidth and computation density, 2.5D design, which involves integrating multiple chiplets onto an interposer, emerges as a promising solution. However, this integration introduces significant challenges due to increasing data rates and a large number of I/Os, necessitating advanced optimization of the power distribution networks (PDNs) both on-chip and on-interposer to mitigate the small signal noise and simultaneous switching noise (SSN). Traditional PDN optimization strategies in 2.5D systems primarily focus on reducing impedance by integrating decoupling capacitors (decaps) to lessen small signal noises. Unfortunately, relying solely on frequency-domain analysis has been proven inadequate for addressing coupled SSN, as indicated by our experimental results. In this work, we introduce a novel two-phase optimization flow using deep reinforcement learning to tackle both the on-chip small signal noise and SSN. Initially, we optimize the impedance in the frequency domain to maintain the small signal noise within acceptable limits while avoiding over-design. Subsequently, in the time domain, we refine the PDN to minimize the voltage violation integral (VVI), a more accurate measure of SSN severity. To the best of our knowledge, this is the first dual-domain optimization strategy that simultaneously addresses both the small signal noise and SSN propagation through strategic decap placement in on-chip and on-interposer PDNs, offering a significant step forward in the design of robust PDNs for 2.5D integrated systems.
翻訳日:2024-11-08 23:35:45 公開日:2024-09-27
# Gut-Brain軸シナプスにおける分子量子(MolQ)通信チャネル

Molecular Quantum (MolQ) Communication Channel in the Gut-Brain Axis Synapse ( http://arxiv.org/abs/2407.07106v2 )

ライセンス: Link先を確認
Bitop Maitra, Ozgur B. Akan, (参考訳) 腸-脳軸は、腸と脳の間のコミュニケーションリンクである。 腸脳軸がホメオスタシスにおいて重要な役割を担っていることは知られているが、その全体的なメカニズムはまだ分かっていない。 しかし、神経シナプスでは、古典的な分子間通信はリガンド-受容体複合体の形成によって説明され、イオンチャネルが開く。 さらに、イオンチャネルが開く前に満たさなければならない条件もいくつかある。 本研究では,神経伝達物質がシナプスの裂孔を通して拡散する内脳軸について,分子間通信を考慮した検討を行った。 シナプスのシナプス後膜である迷走神経(VN)膜では、イオンチャネルの開口を開始する量子通信(QC)を行い、腸から脳への通信信号を開始する。 分子量子(MolQ)通信という新しい通信パラダイムを進化させる。 QCモデルに基づいて出力状態を理論的に解析し、入力したニューロトランスミッタの濃度を考慮してQCをシミュレートし、入力のエントロピーと相互情報、すなわちニューロトランスミッタの濃度、出力、すなわちイオンチャネルの開口を分析して検証する。

The gut-brain axis is the communication link between the gut and the brain. Although it is known that the gut-brain axis plays a pivotal role in homeostasis, its overall mechanism is still not known. However, for neural synapses, classical molecular communication is described by the formation of ligand-receptor complexes, which leads to the opening of ion channels. Moreover, there are some conditions that need to be fulfilled before the opening of the ion channel. In this study, we consider the gut-brain axis, where neurotransmitters diffuse through the synaptic cleft, considering molecular communication. On the vagus nerve (VN) membrane, i.e., the post-synaptic membrane of the synapse, it undergoes a quantum communication (QC), which initiates the opening of the ion channel, thus initiating the communication signal from the gut to the brain. It evolves a new paradigm of communication approach, Molecular Quantum (MolQ) communication. Based on the QC model, we theoretically analyze the output states, and QC is simulated considering the incoming neurotransmitter's concentration and validated by analyzing the entropy and the mutual information of the input, i.e., neurotransmitter's concentration, and output, i.e., ion channel opening.
翻訳日:2024-11-08 22:51:19 公開日:2024-09-27
# SIC-POVMと実二次体の位数

SIC-POVMs and orders of real quadratic fields ( http://arxiv.org/abs/2407.08048v2 )

ライセンス: Link先を確認
Gene S. Kopp, Jeffrey C. Lagarias, (参考訳) 対称情報量完備な正値測度 (SICs あるいは SIC-POVMs) を数えて分類する問題、すなわち$\mathbb{C}^d$ における$d^2$等角直線の集合を考える。 4 \leq d \leq 90$ に対して、次元 $d$ のワイル=ハイゼンベルク共変 SIC の既知同値類数は、(必ずしも可逆ではない)イデアル類の実二次位数$(d+1)(d-3)$ のイデアル類モノイドの濃度と等しい。 同様に、これは、$\mathbf{GL}_2(\mathbb{Z})$ conjugacy class in $\mathbf{SL}_2(\mathbb{Z})$ of trace $d-1$である。 等式はすべての$d \geq 4$に拡張されると推測する。 我々は、Appleby, Flammia, McConnell, and Yard (arXiv:1604.06098) の「クラス場仮説」を洗練し、ワイル-ハイゼンベルク共変 SIC を定義する等角直線に対するベクトル成分の比によって生成される正確なクラス場を予測する。 次元$d$ の SIC に射影的に関連付けられた類体は、自然部分順序を包含する。

We consider the problem of counting and classifying symmetric informationally complete positive operator-valued measures (SICs or SIC-POVMs), that is, sets of $d^2$ equiangular lines in $\mathbb{C}^d$. For $4 \leq d \leq 90$, we show the number of known equivalence classes of Weyl--Heisenberg covariant SICs in dimension $d$ equals the cardinality of the ideal class monoid of (not necessarily invertible) ideal classes in the real quadratic order of discriminant $(d+1)(d-3)$. Equivalently, this is the number of $\mathbf{GL}_2(\mathbb{Z})$ conjugacy classes in $\mathbf{SL}_2(\mathbb{Z})$ of trace $d-1$. We conjecture the equality extends to all $d \geq 4$. We prove that this conjecture implies more that one equivalence class of Weyl--Heisenberg covariant SICs for every $d > 22$. We refine the "class field hypothesis" of Appleby, Flammia, McConnell, and Yard (arXiv:1604.06098) to predict the exact class field generated by the ratios of vector entries for the equiangular lines defining a Weyl--Heisenberg covariant SIC. The class fields conjecturally associated to SICs in dimension $d$ have a natural partial order under inclusion; we show the natural inclusions of these fields in the partial order are strict, except in a small family of cases.
翻訳日:2024-11-08 22:29:09 公開日:2024-09-27
# ヨーロッパにおける亡命見習いのチャットボット

A Chatbot for Asylum-Seeking Migrants in Europe ( http://arxiv.org/abs/2407.09197v2 )

ライセンス: Link先を確認
Bettina Fazzinga, Elena Palmieri, Margherita Vestoso, Luca Bolognini, Andrea Galassi, Filippo Furfaro, Paolo Torroni, (参考訳) 本稿では,ヨーロッパにおける亡命希望者のためのチャットボットACMEについて紹介する。 ACMEは、計算的議論に依存しており、移民が適用可能な最も高いレベルの保護を特定するのを支援することを目的としている。 このことは、亡命申請者を支援する領土委員会、裁判所、人道団体の負担を減らすことで、より持続可能な移住に寄与した。 背景となるコンテキスト、システムアーキテクチャ、基礎技術、そしてツールをドメインの専門家で検証するためのケーススタディについて説明する。

We present ACME: A Chatbot for asylum-seeking Migrants in Europe. ACME relies on computational argumentation and aims to help migrants identify the highest level of protection they can apply for. This would contribute to a more sustainable migration by reducing the load on territorial commissions, Courts, and humanitarian organizations supporting asylum applicants. We describe the background context, system architecture, underlying technologies, and a case study used to validate the tool with domain experts.
翻訳日:2024-11-08 22:06:29 公開日:2024-09-27
# パラメトリックダウンコンバージョンにおける高次元最大絡み合った光子対

High-dimensional maximally entangled photon pairs in parametric down-conversion ( http://arxiv.org/abs/2407.09280v3 )

ライセンス: Link先を確認
Richard Bernecker, Baghdasar Baghdasaryan, Stephan Fritzsche, (参考訳) 自発パラメトリックダウンコンバージョンから生成される光子対は、絡み合った2部フォトニックシステムを実現するための確立された方法である。 軌道角運動量(OAM)を持つラゲール・ガウスモードは、高次元の絡み合った量子状態を作るために一般的に利用される。 %であった。 次元 d>2 のヒルベルト空間の場合、最大絡み合った状態(MES)は量子通信プロトコルの容量とセキュリティを改善するのに役立つ。 しかし、有限 OAM 基底のよく定義された高次元部分空間における MES の直接生成は依然として挑戦である。 ここでは, ポンプビームの空間分布と結晶の非線形プロファイルを同時に利用して, サブ空間内のOAMモードの追加空間フィルタリングを行うことなくMESを生成する方法について定式化する。 我々は、最大絡み合った四角形 (d=3) および四角形 (d=5) を用いて、我々のアプローチを説明する。

Photon pairs generated from spontaneous parametric down-conversion are a well-established method to realize entangled bipartite photonic systems. Laguerre-Gaussian modes, which carry orbital angular momentum (OAM), are commonly exploited to engineer high-dimensional entangled quantum states. %experimentally. For Hilbert spaces with dimension d>2, maximally entangled states (MESs) help to improve the capacity and security of quantum communication protocols, among several other promising features. However, the direct generation of MES in well-defined high-dimensional subspaces of the infinite OAM basis has remained a challenge. Here, we formalize how the spatial distribution of the pump beam and the nonlinear profile of the crystal can be simultaneously utilized to generate MES without additional spatial filtering of OAM modes within a subspace. We illustrate our approach with maximally entangled qutrits (d=3) and ququints (d=5).
翻訳日:2024-11-08 22:06:29 公開日:2024-09-27
# 目に見えないトポロジへの一般化:生物学的神経活動の制御に向けて

Generalisation to unseen topologies: Towards control of biological neural network activity ( http://arxiv.org/abs/2407.12789v2 )

ライセンス: Link先を確認
Laurens Engwegen, Daan Brinks, Wendelin Böhmer, (参考訳) 生体神経ネットワークにおけるクローズドループ制御の進歩のための新しいイメージングおよび神経刺激技術 これにより、活動伝播の研究、および病理行動の診断と治療に応用できる。 活動伝播の部分的に観察可能な特性、エッジを観測できないネットワーク、神経系の動的性質などにより、適応的で一般化可能な制御が必要である。 本稿では,この一般化問題を解析するために,異なるトポロジを持つニューロンネットワークを手続き的に生成する環境を提案する。 さらに、提示された部分観測可能な環境下での深部RLエージェントの一般化性能を評価するために、既存のトランスフォーマーベースアーキテクチャを調整した。 エージェントは、限られた数のトレーニングネットワークから見えないテストネットワークへの制御を一般化する能力を示す。

Novel imaging and neurostimulation techniques open doors for advancements in closed-loop control of activity in biological neural networks. This would allow for applications in the investigation of activity propagation, and for diagnosis and treatment of pathological behaviour. Due to the partially observable characteristics of activity propagation, through networks in which edges can not be observed, and the dynamic nature of neuronal systems, there is a need for adaptive, generalisable control. In this paper, we introduce an environment that procedurally generates neuronal networks with different topologies to investigate this generalisation problem. Additionally, an existing transformer-based architecture is adjusted to evaluate the generalisation performance of a deep RL agent in the presented partially observable environment. The agent demonstrates the capability to generalise control from a limited number of training networks to unseen test networks.
翻訳日:2024-11-08 20:36:48 公開日:2024-09-27
# SpaREDベンチマーク:空間的トランスクリプトミクスの完成による組織像からの遺伝子発現予測の強化

SpaRED benchmark: Enhancing Gene Expression Prediction from Histology Images with Spatial Transcriptomics Completion ( http://arxiv.org/abs/2407.13027v2 )

ライセンス: Link先を確認
Gabriel Mejia, Daniela Ruiz, Paula Cárdenas, Leonardo Manrique, Daniela Vega, Pablo Arbeláez, (参考訳) 空間トランスクリプトミクス(Spatial Transcriptomics)は、組織像と空間的に解決された遺伝子発現プロファイルを整合させる新しい技術である。 画期的ではあるが、取得したデータに高い腐敗をもたらす遺伝子捕獲に苦慮している。 潜在的な応用を考えると、最近の研究は、組織像からのみトランスクリプトームプロファイルを予測することに重点を置いている。 しかし、データベース、前処理技術、トレーニングハイパーパラメータの違いは、メソッド間の公正な比較を妨げている。 これらの課題に対処するために,26の公開資料から収集した体系的キュレートおよび処理されたデータベースを提案する。 さらに、欠落した遺伝子発現を推定するための最先端のトランスフォーマーベースの補完手法を提案し、全てのデータセットにおける転写プロファイル予測の性能を大幅に向上させる。 我々の貢献は、現在までの組織像からの遺伝子発現予測の最も包括的なベンチマークであり、空間転写学の今後の研究の足掛かりとなっている。

Spatial Transcriptomics is a novel technology that aligns histology images with spatially resolved gene expression profiles. Although groundbreaking, it struggles with gene capture yielding high corruption in acquired data. Given potential applications, recent efforts have focused on predicting transcriptomic profiles solely from histology images. However, differences in databases, preprocessing techniques, and training hyperparameters hinder a fair comparison between methods. To address these challenges, we present a systematically curated and processed database collected from 26 public sources, representing an 8.6-fold increase compared to previous works. Additionally, we propose a state-of-the-art transformer based completion technique for inferring missing gene expression, which significantly boosts the performance of transcriptomic profile predictions across all datasets. Altogether, our contributions constitute the most comprehensive benchmark of gene expression prediction from histology images to date and a stepping stone for future research on spatial transcriptomics.
翻訳日:2024-11-08 20:25:29 公開日:2024-09-27
# 階層型ウィンドウ付きグラフ注意ネットワークとインド手話認識のための大規模データセット

Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition ( http://arxiv.org/abs/2407.14224v2 )

ライセンス: Link先を確認
Suvajit Patra, Arkadip Maitra, Megha Tiwari, K. Kumaran, Swathy Prabhu, Swami Punyeshwarananda, Soumitra Samanta, (参考訳) 自動手話(SL)認識はコンピュータビジョンコミュニティにおいて重要な課題である。 堅牢なSL認識システムを構築するためには,特にインド手話(ISL)に欠けている大量のデータが必要である。 本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。 このデータセットは、20人(男性10人、女性10人)の聴覚障害者(40033本のビデオを含む)が記録した聴覚障害者コミュニティにおける、2002年の日常的な一般的な単語をカバーしている。 人体上半身の骨格グラフを用いて,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。 HWGATは、ヒト骨格グラフによって誘導される異なる身体部位に注意を向けることで、特徴的な動きを捉えようとする。 提案するデータセットの有用性と本モデルの有用性を,広範囲な実験により評価した。 InCLUDE, LSA64, AUTSL, WLASLでは, 従来のキーポイントベースモデルと比較してそれぞれ1.10, 0.46, 0.78, 6.84ポイントの性能向上を図った。

Automatic Sign Language (SL) recognition is an important task in the computer vision community. To build a robust SL recognition system, we need a considerable amount of data which is lacking particularly in Indian sign language (ISL). In this paper, we introduce a large-scale isolated ISL dataset and a novel SL recognition model based on skeleton graph structure. The dataset covers 2002 daily used common words in the deaf community recorded by 20 (10 male and 10 female) deaf adult signers (contains 40033 videos). We propose a SL recognition model namely Hierarchical Windowed Graph Attention Network (HWGAT) by utilizing the human upper body skeleton graph. The HWGAT tries to capture distinctive motions by giving attention to different body parts induced by the human skeleton graph. The utility of the proposed dataset and the usefulness of our model are evaluated through extensive experiments. We pre-trained the proposed model on the presented dataset and fine-tuned it across different sign language datasets further boosting the performance of 1.10, 0.46, 0.78, and 6.84 percentage points on INCLUDE, LSA64, AUTSL and WLASL respectively compared to the existing state-of-the-art keypoints-based models.
翻訳日:2024-11-08 19:38:31 公開日:2024-09-27
# ガウス過程回帰のための量子忠実カーネルのベンチマーク

Benchmarking of quantum fidelity kernels for Gaussian process regression ( http://arxiv.org/abs/2407.15961v2 )

ライセンス: Link先を確認
Xuyang Guo, Jun Dai, Roman V. Krems, (参考訳) 量子コンピューティングアルゴリズムは、機械学習の分類問題に対して性能の高い量子カーネルを生成することが示されている。 本稿では,現実的関心事の回帰問題に対する量子カーネルの性能について検討する。 量子カーネルのバイアスのないベンチマークを行うには、古典的カーネルの最も最適な機能形式と、各データセットに対して最も最適な量子カーネルを構築する必要がある。 ガウス過程モデルに対して量子カーネルを推定するために用いられる量子ゲートの列を最適化するために,ベイズ情報規準のアナログを用いたアルゴリズムを開発した。 このアルゴリズムは、結果のカーネルの性能を改善しながら、量子回路の複雑さを漸進的に増加させ、固定された量子回路のアンサッツよりも少ない量子ゲートでモデル精度を得ることを示した。 得られた量子核は、多原子分子に対する大域ポテンシャルエネルギー表面(PES)の正確なモデルを構築するのに利用できることを示す。 2000 個のエネルギー点のランダム分布で得られる6次元 PES の平均補間誤差は、H$_3$O$^+$, 15 cm$^{-1}$ for H$_2$CO, 88 cm$^{-1}$ for HNO$_2$である。 ガウス過程回帰に対する古典的カーネルの構成最適化は同じ誤差に収束することを示す。 このことは、量子カーネルが回帰問題に対して古典的なカーネルと同じ表現性が得られることを示唆している。

Quantum computing algorithms have been shown to produce performant quantum kernels for machine-learning classification problems. Here, we examine the performance of quantum kernels for regression problems of practical interest. For an unbiased benchmarking of quantum kernels, it is necessary to construct the most optimal functional form of the classical kernels and the most optimal quantum kernels for each given data set. We develop an algorithm that uses an analog of the Bayesian information criterion to optimize the sequence of quantum gates used to estimate quantum kernels for Gaussian process models. The algorithm increases the complexity of the quantum circuits incrementally, while improving the performance of the resulting kernels, and is shown to yield much higher model accuracy with fewer quantum gates than a fixed quantum circuit ansatz. We demonstrate that quantum kernels thus obtained can be used to build accurate models of global potential energy surfaces (PES) for polyatomic molecules. The average interpolation error of the six-dimensional PES obtained with a random distribution of 2000 energy points is 16 cm$^{-1}$ for H$_3$O$^+$, 15 cm$^{-1}$ for H$_2$CO and 88 cm$^{-1}$ for HNO$_2$. We show that a compositional optimization of classical kernels for Gaussian process regression converges to the same errors. This indicates that quantum kernels can achieve the same, though not better, expressivity as classical kernels for regression problems.
翻訳日:2024-11-08 15:45:25 公開日:2024-09-27
# 表現論的多重性のための量子アルゴリズム

Quantum Algorithms for Representation-Theoretic Multiplicities ( http://arxiv.org/abs/2407.17649v3 )

ライセンス: Link先を確認
Martin Larocca, Vojtech Havlicek, (参考訳) Kostka, Littlewood-Richardson, Plethysm, Kronecker 係数は、表現論や代数的コンビネータ論において重要な役割を果たす対称群の表現の分解において既約表現の多重性である。 表現の次元の比が多項式であるときに、これらの係数を計算するための量子アルゴリズムを与え、この問題の計算複雑性を研究する。 この制限の下では、Kostka数を計算するための効率的な古典的アルゴリズムがあることを示し、Littlewood-Richardson係数の類似アルゴリズムの存在を予想する。 このような古典的アルゴリズムがプレトヒズムとクロネッカーの係数に対して直接作用しない理由を論じ、我々の量子アルゴリズムがこの問題に対してスーパーポリノミカルなスピードアップをもたらすと推測する。 我々は、これらの係数の計算において、量子アルゴリズムが何らかの硬さの障害を避ける方法を示すことにより、この予想を支持する。 我々は、帰納法を用いて多重度を推定し、異なるコスト対インプット依存を有する別の量子アルゴリズムを提案する。

Kostka, Littlewood-Richardson, Plethysm and Kronecker coefficients are the multiplicities of irreducible representations in decomposition of representations of the symmetric group that play an important role in representation theory and algebraic combinatorics. We give quantum algorithms for computing these coefficients whenever the ratio of dimensions of the representations is polynomial and study the computational complexity of this problem. We show that there is an efficient classical algorithm for computing the Kostka numbers under this restriction and conjecture the existence of an analogous algorithm for the Littlewood-Richardson coefficients. We argue why such classical algorithm does not straightforwardly work for the Plethysm and Kronecker coefficients and conjecture that our quantum algorithms lead to superpolynomial speedups for this problem. We support this conjecture by showing how our quantum algorithm avoids some hardness obstructions in computation of these coefficients. We give another quantum algorithm that estimates the multiplicities using induction and has a different cost-to-input dependence.
翻訳日:2024-11-08 15:12:19 公開日:2024-09-27
# DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conqueralignment and Correction

DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction ( http://arxiv.org/abs/2407.17779v2 )

ライセンス: Link先を確認
Chaofan Gan, Yuanpeng Tu, Yuxi Li, Weiyao Lin, (参考訳) 近年の2Dおよび3Dデータのバーストにより、クロスモーダル検索が注目されている。 しかし、非専門家による手作業によるラベリングは、あいまいな2D/3Dコンテンツに対して、必然的に破損したアノテーションを導入する。 従来の研究は、手作りの閾値を持つ単純分割戦略を設計することでこの問題に対処してきたが、その性能は一般に閾値に対して非常に敏感である。 さらに、各分割されたサブセット内の貴重な監視信号を完全に活用することができない。 この問題に対処するため,多モード動的分割(MDD)と適応配向補正(AAC)を組み合わせた2D-3Dクロスモーダル配向補正フレームワーク(DAC)を提案する。 具体的には、前者は、多モード損失分布内の補償情報に基づいて、各サンプルに対する適応的信頼度モデリングにより、正確なサンプル分割を行う。 次に、AACでは、異なるサブセットのサンプルを異なるアライメント戦略を用いて、意味的コンパクト性を完全に向上させ、一方、自己補正戦略を導入して表現の質を向上させるため、ノイズラベルへの過度な適合を緩和する。 さらに。 実世界のシナリオにおける有効性を評価するため,1156個の実雑音ラベルを付加した200kレベルのサンプルを含む,難易度の高いObjaverse-N200を提案する。 従来のベンチマークと新たに提案されたベンチマークの両方に対する大規模な実験は、DACが最先端モデルよりも大きなマージンで優れているという、DACの汎用性と優位性を示している。 (つまり、ModelNet40は+5.9%、Objaverse-N200は+5.8%)。

With the recent burst of 2D and 3D data, cross-modal retrieval has attracted increasing attention recently. However, manual labeling by non-experts will inevitably introduce corrupted annotations given ambiguous 2D/3D content. Though previous works have addressed this issue by designing a naive division strategy with hand-crafted thresholds, their performance generally exhibits great sensitivity to the threshold value. Besides, they fail to fully utilize the valuable supervisory signals within each divided subset. To tackle this problem, we propose a Divide-and-conquer 2D-3D cross-modal Alignment and Correction framework (DAC), which comprises Multimodal Dynamic Division (MDD) and Adaptive Alignment and Correction (AAC). Specifically, the former performs accurate sample division by adaptive credibility modeling for each sample based on the compensation information within multimodal loss distribution. Then in AAC, samples in distinct subsets are exploited with different alignment strategies to fully enhance the semantic compactness and meanwhile alleviate over-fitting to noisy labels, where a self-correction strategy is introduced to improve the quality of representation. Moreover. To evaluate the effectiveness in real-world scenarios, we introduce a challenging noisy benchmark, namely Objaverse-N200, which comprises 200k-level samples annotated with 1156 realistic noisy labels. Extensive experiments on both traditional and the newly proposed benchmarks demonstrate the generality and superiority of our DAC, where DAC outperforms state-of-the-art models by a large margin. (i.e., with +5.9% gain on ModelNet40 and +5.8% on Objaverse-N200).
翻訳日:2024-11-08 15:12:19 公開日:2024-09-27
# 結合チャネル系におけるトンネル時間

Tunneling time in coupled-channel systems ( http://arxiv.org/abs/2407.17981v2 )

ライセンス: Link先を確認
Peng Guo, Vladimir Gasparian, Antonio Pérez-Garrido, Esther Jódar, (参考訳) 本稿では, 量子粒子のトンネル時間を記述するために, 複数のエネルギーレベルを持つ複合化合物や, 準1次元の多重チャネル系に還元可能な複素構造体を用いて, 量子粒子のトンネル時間を記述するための2チャネル形式について述べる。

In present work, we present a couple-channel formalism for the description of tunneling time of a quantum particle through a composite compound with multiple energy levels or a complex structure that can be reduced to a quasi-one-dimensional multiple-channel system.
翻訳日:2024-11-08 15:01:09 公開日:2024-09-27
# オート・データ・プルーニングによる人間活動認識用ODLコアの小型化

A Tiny Supervised ODL Core with Auto Data Pruning for Human Activity Recognition ( http://arxiv.org/abs/2408.01283v2 )

ライセンス: Link先を確認
Hiroki Matsutani, Radu Marculescu, (参考訳) 本稿では,人間活動認識のための入力データの分布変化に対処できる,低コストで低消費電力の小型教師ありオンデバイス学習(ODL)コアを提案する。 リソース制限エッジデバイス用のODLは近年研究されているが、実行時にこれらのデバイスにトレーニングラベルを正確に提供する方法は未解決のままである。 この問題に対処するために、教師付きODLと自動データプルーニングを組み合わせることで、教師装置から予測されたラベルを取得するのに必要なクエリ数を削減し、モデル再トレーニング時の消費電力を削減することを提案する。 データプルーニングしきい値が自動的に調整され、手動のしきい値調整が不要になる。 人間の活動認識のための数mWの小さなMLソリューションとして、45nmのCMOSプロセス技術を用いて、自動データプルーニングをサポートする教師付きODLコアを設計する。 我々は,コアに必要なメモリサイズが同一形状の多層パーセプトロン(MLP)よりも小さく,消費電力は3.39mWであることを示した。 人間の活動認識データセットを用いた実験では、提案した自動データプルーニングにより通信容量が55.7%減少し、消費電力は0.9%の精度で減少した。

In this paper, we introduce a low-cost and low-power tiny supervised on-device learning (ODL) core that can address the distributional shift of input data for human activity recognition. Although ODL for resource-limited edge devices has been studied recently, how exactly to provide the training labels to these devices at runtime remains an open-issue. To address this problem, we propose to combine an automatic data pruning with supervised ODL to reduce the number queries needed to acquire predicted labels from a nearby teacher device and thus save power consumption during model retraining. The data pruning threshold is automatically tuned, eliminating a manual threshold tuning. As a tinyML solution at a few mW for the human activity recognition, we design a supervised ODL core that supports our automatic data pruning using a 45nm CMOS process technology. We show that the required memory size for the core is smaller than the same-shaped multilayer perceptron (MLP) and the power consumption is only 3.39mW. Experiments using a human activity recognition dataset show that the proposed automatic data pruning reduces the communication volume by 55.7% and power consumption accordingly with only 0.9% accuracy loss.
翻訳日:2024-11-08 13:18:17 公開日:2024-09-27
# 相対論的 Foldy-Wouthuysen Hamiltonian への先行補正

Leading correction to the relativistic Foldy-Wouthuysen Hamiltonian ( http://arxiv.org/abs/2408.01770v2 )

ライセンス: Link先を確認
Alexander J. Silenko, (参考訳) 外部場と相互作用するディラック粒子に対しては、エリクセンによって得られたFoldy-Wouthuysen変換の正確な演算子を使用し、既知の相対論的Foldy-Wouthuysen Hamiltonianへの弱場近似のリード補正を厳格に導き出す。 この目的のために、Eriksen演算子の平方根の演算子抽出を行う。 導出補正は相対論的粒子の散乱に重要である。 第2次相対論的波動方程式によるこの散乱の記述はより便利であるため、第1次および第2次相対論的波動方程式の一般接続を決定する。 ディラック粒子の場合、第二次相対論的波動方程式はFoldy-Wouthuysen Hamiltonian と同様の補正で得られる。

For Dirac particles interacting with external fields, we use the exact operator of the Foldy-Wouthuysen transformation obtained by Eriksen and rigorously derive a leading correction in the weak-field approximation to the known relativistic Foldy-Wouthuysen Hamiltonian. For this purpose, we carry out the operator extraction of a square root in the Eriksen operator. The derived correction is important for the scattering of relativistic particles. Since the description of this scattering by a relativistic wave equation of the second order is more convenient, we determine a general connection between relativistic wave equations of the first and second orders. For Dirac particles, the relativistic wave equation of the second order is obtained with the correction similar to that to the Foldy-Wouthuysen Hamiltonian.
翻訳日:2024-11-08 13:07:08 公開日:2024-09-27
# ニューラルバンドのメタクラスタリング

Meta Clustering of Neural Bandits ( http://arxiv.org/abs/2408.05586v2 )

ライセンス: Link先を確認
Yikun Ban, Yunzhe Qi, Tianxin Wei, Lihui Liu, Jingrui He, (参考訳) 文脈的盗賊は、レコメンデーションプロセスを、各項目がアームと見なされ、T$ラウンドの後悔を最小限に抑える、シーケンシャルな意思決定プロセスとして定式化する強力な枠組みとして特定されてきた。 本稿では,従来の作業を任意の報酬関数に拡張することで,推薦システムにおけるユーザの不均一性とユーザ相関のバランスをとることにより,ニューラルバンドのクラスタリングという新たな問題について検討する。 この問題を解決するために,メタラーナーを用いて動的クラスタに迅速に適応するM-CNBという新しいアルゴリズムと,情報的アッパー信頼境界(UCB)に基づく探索戦略を提案する。 提案アルゴリズムは, 対角的文脈に耐えるインスタンス依存性能保証を提供するとともに, その保証が, 同一仮定の下での最先端(SOTA)アプローチと同等であることを示す。 M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。 提案手法は,オンラインレコメンデーションとオンライン分類性能の向上に有効であることを示す。

The contextual bandit has been identified as a powerful framework to formulate the recommendation process as a sequential decision-making process, where each item is regarded as an arm and the objective is to minimize the regret of $T$ rounds. In this paper, we study a new problem, Clustering of Neural Bandits, by extending previous work to the arbitrary reward function, to strike a balance between user heterogeneity and user correlations in the recommender system. To solve this problem, we propose a novel algorithm called M-CNB, which utilizes a meta-learner to represent and rapidly adapt to dynamic clusters, along with an informative Upper Confidence Bound (UCB)-based exploration strategy. We provide an instance-dependent performance guarantee for the proposed algorithm that withstands the adversarial context, and we further prove the guarantee is at least as good as state-of-the-art (SOTA) approaches under the same assumptions. In extensive experiments conducted in both recommendation and online classification scenarios, M-CNB outperforms SOTA baselines. This shows the effectiveness of the proposed approach in improving online recommendation and online classification performance.
翻訳日:2024-11-08 11:49:24 公開日:2024-09-27
# 医用画像登録における深層学習 : マジックかミラージュか?

Deep Learning in Medical Image Registration: Magic or Mirage? ( http://arxiv.org/abs/2408.05839v2 )

ライセンス: Link先を確認
Rohit Jena, Deeksha Sethi, Pratik Chaudhari, James C. Gee, (参考訳) 古典的最適化と学習に基づく手法は、変形可能な画像登録における2つの支配パラダイムである。 最適化に基づく手法は、モダリティ全体にわたる一般化性と堅牢な性能を誇っているが、学習に基づく手法は、弱い監督と償却最適化を取り入れ、ピーク性能を約束する。 しかし、どちらのパラダイムも互いにうまく機能する正確な条件は、既存の文献では明確に述べられていない。 本稿では,画素ごとの強度とラベルの分布の相互情報と,古典的登録法の性能とを明示的に対応させる。 この強い相関関係は、学習に基づく手法のアーキテクチャ設計がこの相関に影響を与えそうにないという事実を示唆している。 この仮説は、最先端の古典的および学習に基づく手法で完全に検証されている。 しかし, 従来の手法では不可能な, 高忠実度とラベル登録が可能である。 次に、この高忠実度特徴学習はドメインシフトの不変性に変換されず、学習に基づく手法はデータ分布の変化に敏感であることを示す。 最後に、これらの観測に基づいて、与えられた登録問題に最適なパラダイムを選択するための一般的なレシピを提案する。

Classical optimization and learning-based methods are the two reigning paradigms in deformable image registration. While optimization-based methods boast generalizability across modalities and robust performance, learning-based methods promise peak performance, incorporating weak supervision and amortized optimization. However, the exact conditions for either paradigm to perform well over the other are shrouded and not explicitly outlined in the existing literature. In this paper, we make an explicit correspondence between the mutual information of the distribution of per-pixel intensity and labels, and the performance of classical registration methods. This strong correlation hints to the fact that architectural designs in learning-based methods is unlikely to affect this correlation, and therefore, the performance of learning-based methods. This hypothesis is thoroughly validated with state-of-the-art classical and learning-based methods. However, learning-based methods with weak supervision can perform high-fidelity intensity and label registration, which is not possible with classical methods. Next, we show that this high-fidelity feature learning does not translate to invariance to domain shift, and learning-based methods are sensitive to such changes in the data distribution. Finally, we propose a general recipe to choose the best paradigm for a given registration problem, based on these observations.
翻訳日:2024-11-08 11:49:24 公開日:2024-09-27
# サードパーティクラウドサービスとFHE(回路深度管理におけるデータエンコーディングの回転)を用いた実用的プライバシ保護アイデンティティ検証

Practical Privacy-Preserving Identity Verification using Third-Party Cloud Services and FHE (Role of Data Encoding in Circuit Depth Management) ( http://arxiv.org/abs/2408.08002v2 )

ライセンス: Link先を確認
Deep Inder Mohan, Srinivas Vivek, (参考訳) 国家デジタルID認証システムは、特に発展途上国において、商品やサービスの効果的な流通において重要な役割を担っている。 このようなシステムのデプロイとメンテナンスに要するコストと、社内の技術的専門知識の欠如が相まって、政府はこのサービスを可能な限りサードパーティのクラウドサービスプロバイダにアウトソースしようとしている。 これにより、ユーザの個人情報のプライバシーに関する懸念が高まる。 本研究では,サードパーティのクラウドサービスが,BFVなどのFHE方式を用いて暗号化されたIDデータを処理する,実用的なプライバシ保護デジタルID(ID)検証プロトコルを提案する。 政府のような信頼できる組織の役割は完全には排除されていないが、我々のプロトコルはそのような関係者の計算負荷を大幅に削減する。 FHEを用いたプライバシー保護ID認証プロトコルを実装する上での課題は、正確なおよび/またはファジィな人口統計や、安全な年齢比較を含む生体認証マッチングなど、さまざまなタイプのクエリをサポートすることである。 暗号工学の観点からは、我々の主な技術的貢献は、人口統計学的および生体的ユーザーデータを2つのBFV暗号文にエンコードするユーザーデータ符号化方式であり、また、様々な種類のID検証クエリをサードパーティのクラウドにアウトソースするのに役立つ。 私たちの符号化方式は、信頼できるエンティティによって実行される唯一の計算が、クエリ非依存の"拡張"復号化であることも保証します。 これは、信頼されたサーバに非論理的操作をアウトソースする最近の作業とは対照的である。 我々は,Microsoft SEAL FHEライブラリを用いてプロトコルを実装し,その実用性を実証する。

National digital identity verification systems have played a critical role in the effective distribution of goods and services, particularly, in developing countries. Due to the cost involved in deploying and maintaining such systems, combined with a lack of in-house technical expertise, governments seek to outsource this service to third-party cloud service providers to the extent possible. This leads to increased concerns regarding the privacy of users' personal data. In this work, we propose a practical privacy-preserving digital identity (ID) verification protocol where the third-party cloud services process the identity data encrypted using a (single-key) Fully Homomorphic Encryption (FHE) scheme such as BFV. Though the role of a trusted entity such as government is not completely eliminated, our protocol does significantly reduces the computation load on such parties. A challenge in implementing a privacy-preserving ID verification protocol using FHE is to support various types of queries such as exact and/or fuzzy demographic and biometric matches including secure age comparisons. From a cryptographic engineering perspective, our main technical contribution is a user data encoding scheme that encodes demographic and biometric user data in only two BFV ciphertexts and yet facilitates us to outsource various types of ID verification queries to a third-party cloud. Our encoding scheme also ensures that the only computation done by the trusted entity is a query-agnostic "extended" decryption. This is in stark contrast with recent works that outsource all the non-arithmetic operations to a trusted server. We implement our protocol using the Microsoft SEAL FHE library and demonstrate its practicality.
翻訳日:2024-11-08 07:29:14 公開日:2024-09-27
# RBLA:FLaaSにおける微調整不均一モデルのランクベースロラ集約

RBLA: Rank-Based-LoRA-Aggregation for Fine-tuning Heterogeneous Models in FLaaS ( http://arxiv.org/abs/2408.08699v2 )

ライセンス: Link先を確認
Shuaijun Chen, Omid Tavallaie, Niousha Nazemi, Albert Y. Zomaya, (参考訳) Federated Learning(FL)は、モバイルデバイスやデスクトップ、CPUやGPUを備えたデバイスなど、さまざまなデバイスにデプロイ可能な、プライバシーに配慮した分散型学習フレームワークである。 サーバベースのフェデレートラーニング・アズ・ア・サービス(FLaaS)のコンテキストにおいて、FLは中央サーバがローカルデータに直接アクセスすることなく、複数のデバイス間でトレーニングプロセスを調整することを可能にする。 Low-Rank Adaptation (LoRA) は、モデルのパラメータの低次元部分空間に焦点をあてることで、効率的に微調整を行う手法である。 このアプローチは、すべてのパラメータをスクラッチから微調整するのに比べて、計算とメモリのコストを大幅に削減する。 FLと統合された場合、特にFLaaS環境では、LoRAはローカルモデルのランクを調整することで様々な計算能力を持つ様々なハードウェアに柔軟で効率的なデプロイメントを可能にする。 しかし、LoRA対応FLでは、異なるクライアントが様々なランクのモデルをトレーニングし、サーバ上でモデルアグリゲーションの課題を引き起こす可能性がある。 異なるランクのモデルを集約する現在の方法は、パディングウェイトを均一な形状にすることで、グローバルモデルの性能を低下させることができる。 この問題を解決するために,不均質なLoRA構造のための新しいモデル集約手法であるRange-Based LoRA Aggregation (RBLA)を提案する。 RBLAは、異なるランクのモデルにまたがる重要な特徴を保存している。 本稿では,FLaaS環境におけるアグリゲーションモデルの再形成に使用される現在のパディング手法の問題点を解析する。 RBLAは,低ランクと高ランクの両特徴を両立するランクベースアグリゲーション手法である。 最後に,最先端手法との比較実験により,RBLAの有効性を実証した。

Federated Learning (FL) is a promising privacy-aware distributed learning framework that can be deployed on various devices, such as mobile phones, desktops, and devices equipped with CPUs or GPUs. In the context of server-based Federated Learning as a Service (FLaaS), FL enables a central server to coordinate the training process across multiple devices without direct access to local data, thereby enhancing privacy and data security. Low-Rank Adaptation (LoRA) is a method that efficiently fine-tunes models by focusing on a low-dimensional subspace of the model's parameters. This approach significantly reduces computational and memory costs compared to fine-tuning all parameters from scratch. When integrated with FL, particularly in a FLaaS environment, LoRA allows for flexible and efficient deployment across diverse hardware with varying computational capabilities by adjusting the local model's rank. However, in LoRA-enabled FL, different clients may train models with varying ranks, which poses challenges for model aggregation on the server. Current methods for aggregating models of different ranks involve padding weights to a uniform shape, which can degrade the global model's performance. To address this issue, we propose Rank-Based LoRA Aggregation (RBLA), a novel model aggregation method designed for heterogeneous LoRA structures. RBLA preserves key features across models with different ranks. This paper analyzes the issues with current padding methods used to reshape models for aggregation in a FLaaS environment. Then, we introduce RBLA, a rank-based aggregation method that maintains both low-rank and high-rank features. Finally, we demonstrate the effectiveness of RBLA through comparative experiments with state-of-the-art methods.
翻訳日:2024-11-08 07:18:07 公開日:2024-09-27
# タスク非依存型継続的学習における成長誘導型フォーミングの克服

Overcoming Growth-Induced Forgetting in Task-Agnostic Continual Learning ( http://arxiv.org/abs/2408.10566v4 )

ライセンス: Link先を確認
Yuqing Zhao, Divya Saxena, Jiannong Cao, Xiaoyun Liu, Changlin Song, (参考訳) 連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。 しかし、不適切なモデルの成長は、成長によって引き起こされる忘れ(GIFt)と呼ばれる、未学習の知識を著しく劣化させる可能性がある。 既存の研究は、モデル成長と適応性の向上のためにランダム初期化を採用するが、不適切なモデル成長によって引き起こされるGIFtの存在を認識できないことが多い。 この監視は、忘れることの包括的な制御を制限し、モデル成長の完全な利用を妨げる。 我々は、この問題を最初に特定し、GIFtの根本原因について詳細な研究を行い、モデル成長戦略の中で層拡大が際立っており、モデル機能に影響を与えない層を広げている。 しかし、レイヤー拡張の直接的な採用は課題を呈している。 データ駆動制御と、適応性と知識保持のバランスをとるために拡張されたパラメータの初期化が欠けている。 本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。 SparseGrowはデータ駆動のスパース層拡張を使用して、成長中の効率的なパラメータ使用量を制御し、過剰な成長と機能変更からGIFtを削減する。 また、トレーニング後期におけるスパース成長とオンデータ初期化を組み合わせて、学習された分散に適合し、保持性と適応性を高める、部分的に0値の拡張を生成します。 さらに忘れるのを最小にするため、スパースマスクを計算し、重要なパラメータのデータ駆動保存を可能にする。 さまざまな設定,ケース,タスク番号を持つデータセットを対象とした実験を通じて,レイヤ拡張の必要性を実証し,GIFtを克服する上でのSparseGrowの有効性を示し,インクリメンタルタスクへの適応性と知識保持を強調した。

In continual learning (CL), model growth enhances adaptability over new data, improving knowledge retention for more tasks. However, improper model growth can lead to severe degradation of previously learned knowledge, an issue we name as growth-induced forgetting (GIFt), especially in task-agnostic CL using entire grown model for inference. Existing works, despite adopting model growth and random initialization for better adaptability, often fail to recognize the presence of GIFt caused by improper model growth. This oversight limits comprehensive control of forgetting and hinders full utilization of model growth. We are the first in CL to identify this issue and conduct an in-depth study on root cause of GIFt, where layer expansion stands out among model growth strategies, widening layers without affecting model functionality. Yet, direct adoption of layer expansion presents challenges. It lacks data-driven control and initialization of expanded parameters to balance adaptability and knowledge retention. This paper presents a novel SparseGrow approach to overcome the issue of GIFt while enhancing adaptability over new data. SparseGrow employs data-driven sparse layer expansion to control efficient parameter usage during growth, reducing GIFt from excessive growth and functionality changes. It also combines sparse growth with on-data initialization at training late-stage to create partially 0-valued expansions that fit learned distribution, enhancing retention and adaptability. To further minimize forgetting, freezing is applied by calculating the sparse mask, allowing data-driven preservation of important parameters. Through experiments across datasets with various settings, cases, and task numbers, we demonstrate the necessity of layer expansion and showcase the effectiveness of SparseGrow in overcoming GIFt, highlighting its adaptability and knowledge retention for incremental tasks.
翻訳日:2024-11-08 06:33:42 公開日:2024-09-27
# タイムド・オパチーの明るい面

The Bright Side of Timed Opacity ( http://arxiv.org/abs/2408.12240v3 )

ライセンス: Link先を確認
Étienne André, Sarah Dépernet, Engel Lefaucheux, (参考訳) 2009年、フランク・カッシーズ(Franck Cassez)は、攻撃者がタイムスタンプで何らかの行動を観察し、情報を引き出そうとするタイムド・オートマトン(TA)では決定不可能であることを示した。 さらに彼は、イベント記録オートマトンのようなサブクラスに対しても、決定不能が成り立つことを示した。 本稿では、クロック数、動作数、時間の性質、あるいは観測可能なイベント記録オートマトンと呼ばれる新しいサブクラスに制限を加えて、TAの他のいくつかのサブクラスに対する不透明性の定義について考察する。 不透明度は1回のTAと1時間のTAと$\epsilon$-transitionsを除いて主に回収可能である。 次に,攻撃者による観察回数が制限された新たな決定可能なサブクラスを示す。

In 2009, Franck Cassez showed that the timed opacity problem, where an attacker can observe some actions with their timestamps and attempts to deduce information, is undecidable for timed automata (TAs). Moreover, he showed that the undecidability holds even for subclasses such as event-recording automata. In this article, we consider the same definition of opacity for several other subclasses of TAs: with restrictions on the number of clocks, of actions, on the nature of time, or on a new subclass called observable event-recording automata. We show that opacity can mostly be retrieved, except for one-action TAs and for one-clock TAs with $\epsilon$-transitions, for which undecidability remains. We then exhibit a new decidable subclass in which the number of observations made by the attacker is limited.
翻訳日:2024-11-08 05:49:00 公開日:2024-09-27
# Mask-Encoded Sparsification:コミュニケーション効率の良いスプリット学習におけるバイアス付き勾配の緩和

Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning ( http://arxiv.org/abs/2408.13787v3 )

ライセンス: Link先を確認
Wenxuan Zhou, Zhihao Qu, Shen-Huan Lyu, Miao Cai, Baoliu Ye, (参考訳) 本稿では,資源制約のあるデバイスが大規模モデルトレーニングに関わっている,スプリットラーニング(SL)シナリオにおける高い圧縮比を達成するために設計された,新しいフレームワークを提案する。 本研究は, SL内の特徴写像を圧縮することにより, 収束率に悪影響を及ぼし, 結果の一般化能力を低下させるバイアス勾配が生じることを示した。 我々の理論的分析は,従来の手法が過小評価していたSL性能を,圧縮誤差が批判的に阻害する方法についての知見を提供する。 これらの課題に対処するために、時間的複雑さを増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。 厳密な理論解析により,本フレームワークは圧縮誤差を大幅に低減し,収束を加速する。 また,本手法が訓練効率と通信複雑性に関する既存ソリューションより優れていることを検証する。

This paper introduces a novel framework designed to achieve a high compression ratio in Split Learning (SL) scenarios where resource-constrained devices are involved in large-scale model training. Our investigations demonstrate that compressing feature maps within SL leads to biased gradients that can negatively impact the convergence rates and diminish the generalization capabilities of the resulting models. Our theoretical analysis provides insights into how compression errors critically hinder SL performance, which previous methodologies underestimate. To address these challenges, we employ a narrow bit-width encoded mask to compensate for the sparsification error without increasing the order of time complexity. Supported by rigorous theoretical analysis, our framework significantly reduces compression errors and accelerates the convergence. Extensive experiments also verify that our method outperforms existing solutions regarding training efficiency and communication complexity.
翻訳日:2024-11-08 05:15:13 公開日:2024-09-27
# I2EBench: インストラクションベースの画像編集のための総合ベンチマーク

I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing ( http://arxiv.org/abs/2408.14180v2 )

ライセンス: Link先を確認
Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun, Rongrong Ji, (参考訳) Instruction-based Image Editing (IIE) の分野では重要な進歩があった。 しかし、これらのモデルを評価することは大きな課題となる。 この分野での重要な要件は、編集結果を正確に評価し、さらなる開発に有用な洞察を提供するための総合的な評価ベンチマークを確立することである。 I2EBenchは,IIEモデルが生成した編集画像の品質を複数の次元から自動評価するための総合的なベンチマークである。 I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。 特徴は3つある。 1) 総合評価次元: I2EBenchは,高次・低次両方の側面をカバーする16の評価次元から構成され,各IIEモデルの総合評価を提供する。 2) 人間の知覚アライメント: ベンチマークと人間の知覚との整合性を確保するため, 各評価次元について広範なユーザ調査を行った。 3)有意義なリサーチインサイト:16次元にわたる既存のIIEモデルの利点とデメリットを分析することで,この分野における今後の発展を導く貴重な研究インサイトを提供する。 我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。 すべてのIIEモデルのコード、データセット、および生成されたイメージは、githubで提供されている。

Significant progress has been made in the field of Instruction-based Image Editing (IIE). However, evaluating these models poses a significant challenge. A crucial requirement in this field is the establishment of a comprehensive evaluation benchmark for accurately assessing editing results and providing valuable insights for its further development. In response to this need, we propose I2EBench, a comprehensive benchmark designed to automatically evaluate the quality of edited images produced by IIE models from multiple dimensions. I2EBench consists of 2,000+ images for editing, along with 4,000+ corresponding original and diverse instructions. It offers three distinctive characteristics: 1) Comprehensive Evaluation Dimensions: I2EBench comprises 16 evaluation dimensions that cover both high-level and low-level aspects, providing a comprehensive assessment of each IIE model. 2) Human Perception Alignment: To ensure the alignment of our benchmark with human perception, we conducted an extensive user study for each evaluation dimension. 3) Valuable Research Insights: By analyzing the advantages and disadvantages of existing IIE models across the 16 dimensions, we offer valuable research insights to guide future development in the field. We will open-source I2EBench, including all instructions, input images, human annotations, edited images from all evaluated methods, and a simple script for evaluating the results from new IIE models. The code, dataset and generated images from all IIE models are provided in github: https://github.com/cocoshe/I2EBench.
翻訳日:2024-11-08 05:04:12 公開日:2024-09-27
# CNN抽出特徴と機械学習分類器を用いたレモン病とオレンジ病の分類

Lemon and Orange Disease Classification using CNN-Extracted Features and Machine Learning Classifier ( http://arxiv.org/abs/2408.14206v2 )

ライセンス: Link先を確認
Khandoker Nosiba Arifin, Sayma Akter Rupa, Md Musfique Anwar, Israt Jahan, (参考訳) レモンとオレンジはどちらも世界でもっとも経済的に重要なキツネの果実である。 レモンとオレンジの生産は、成長段階の病気によって深刻な影響を受ける。 果実の品質は欠陥があるため劣化している。 そのため,レモンやオレンジの大量消失を予防するためには,正確な診断が必要である。 レモンとオレンジの病原性分類法を提案した。 このアプローチは、早期の病気の検出と介入を可能にし、収量損失を減らし、リソース割り当てを最適化する。 疾患分類の初期モデリングには、VGG16、VGG19、ResNet50といった革新的なディープラーニングアーキテクチャを使用する。 さらに、より良い精度を達成するために、分類問題に使用される基本的な機械学習アルゴリズムには、ランダムフォレスト、ネイブベイズ、K-Nearest Neighbors (KNN)、ロジスティック回帰がある。 レモンとオレンジの果物の病気は、モデルによりより正確に分類される(レモンは95.0%、オレンジは99.69%)。 モデルの基本的な特徴は、ResNet50事前訓練モデルから抽出され、疾患は他の分類器に対するVGG16とVGG19のパフォーマンスを上回り、ロジスティック回帰によって分類される。 実験結果から,提案モデルが既存のモデルよりも優れており,そのほとんどはソフトマックス分類器を用いて,個々の分類器を使わずに疾患を分類していることがわかった。

Lemons and oranges, both are the most economically significant citrus fruits globally. The production of lemons and oranges is severely affected due to diseases in its growth stages. Fruit quality has degraded due to the presence of flaws. Thus, it is necessary to diagnose the disease accurately so that we can avoid major loss of lemons and oranges. To improve citrus farming, we proposed a disease classification approach for lemons and oranges. This approach would enable early disease detection and intervention, reduce yield losses, and optimize resource allocation. For the initial modeling of disease classification, the research uses innovative deep learning architectures such as VGG16, VGG19 and ResNet50. In addition, for achieving better accuracy, the basic machine learning algorithms used for classification problems include Random Forest, Naive Bayes, K-Nearest Neighbors (KNN) and Logistic Regression. The lemon and orange fruits diseases are classified more accurately (95.0% for lemon and 99.69% for orange) by the model. The model's base features were extracted from the ResNet50 pre-trained model and the diseases are classified by the Logistic Regression which beats the performance given by VGG16 and VGG19 for other classifiers. Experimental outcomes show that the proposed model also outperforms existing models in which most of them classified the diseases using the Softmax classifier without using any individual classifiers.
翻訳日:2024-11-08 05:04:12 公開日:2024-09-27
# 次世代予測によるインテクスト模倣学習

In-Context Imitation Learning via Next-Token Prediction ( http://arxiv.org/abs/2408.15980v2 )

ライセンス: Link先を確認
Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg, (参考訳) そこで本研究では,ロボットが入力フェーズで提供したコンテキスト情報を,基本となるポリシーパラメータを更新することなく解釈することで,新たなタスクを実行する,実ロボット上でコンテキスト内模倣学習を行うための,次世代の予測モデルを強化する方法について検討する。 In-Context Robot Transformer (ICRT) は, 言語データや報酬関数に頼らずに, 感覚運動系の自己回帰予測を行う因果変換器である。 この定式化により、人間の遠隔操作を通して収集された画像観察、行動、状態タプルを構成する新しいタスクの知覚的軌跡をモデルに含ませることで、テスト時に新しいタスクを柔軟かつ無訓練で実行することが可能となる。 Franka Emikaロボットを用いた実験では、ICRTはプロンプトとトレーニングデータの両方とは異なる環境構成であっても、プロンプトによって指定された新しいタスクに適応できることを示した。 マルチタスク環境のセットアップでは、ICRTはロボット工学における現在の最先端の次世代予測モデルよりも、目に見えないタスクへの一般化に優れています。 コード、チェックポイント、データはhttps://icrt.dev/で公開されている。

We explore how to enhance next-token prediction models to perform in-context imitation learning on a real robot, where the robot executes new tasks by interpreting contextual information provided during the input phase, without updating its underlying policy parameters. We propose In-Context Robot Transformer (ICRT), a causal transformer that performs autoregressive prediction on sensorimotor trajectories without relying on any linguistic data or reward function. This formulation enables flexible and training-free execution of new tasks at test time, achieved by prompting the model with sensorimotor trajectories of the new task composing of image observations, actions and states tuples, collected through human teleoperation. Experiments with a Franka Emika robot demonstrate that the ICRT can adapt to new tasks specified by prompts, even in environment configurations that differ from both the prompt and the training data. In a multitask environment setup, ICRT significantly outperforms current state-of-the-art next-token prediction models in robotics on generalizing to unseen tasks. Code, checkpoints and data are available on https://icrt.dev/
翻訳日:2024-11-08 04:30:58 公開日:2024-09-27
# ペプチド-ヌクレオチド相互作用のモデル化のための大規模多モードバイオシークエンストランス

Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions ( http://arxiv.org/abs/2408.16245v2 )

ライセンス: Link先を確認
Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann, (参考訳) トランスフォーマーアーキテクチャはバイオインフォマティクスに革命をもたらし、生体分子の性質の理解と予測の進歩を促した。 大規模生物配列変換器の研究のほとんど全ては、一度に1つのドメイン(単一オーミック、通常ヌクレオチドまたはペプチド)に焦点を当てている。 これらのモデルは、各領域の下流のタスクで驚くほど成功し、ペプチド配列や構造モデリングにおいて特に顕著なブレークスルーを達成した。 しかしながら、これらの単一オーミックモデルは、生物的に最も重要なヌクレオチド-ペプチド相互作用であるマルチオーミックなタスクをモデル化することができない。 本研究は,最初のマルチオミックヌクレオチド-ペプチド基盤モデルについて述べる。 これらのマルチオミクスモデル(MOM)は,未ラベルの生物配列でのみ訓練されているにもかかわらず,分子生物学の中央ドッグマと突発的に一致した様々な単一オミクス分布の関節表現を学習できることを示す。 さらに、MOMは、与えられたオリゴヌクレオチドとペプチドの結合相互作用のギブス自由エネルギー({\Delta}G)の変化を予測し、オリゴヌクレオチド配列({\Delta}{\Delta}G)の変異によるこの結合相互作用への影響を予測し、ペプチド-ヌクレオチド相互作用タスクの最先端結果を達成するために微調整できることを示した。 また, ペプチド-ヌクレオチド結合の相互作用にどのペプチド残基が最も関与しているかを予測するために, 事前の構造訓練を必要とせず, 新規に有用な構造情報を学習できることが示唆された。 最後に、マルチオミックなバイオシーケンスモデルが単一オミクス分布で訓練された基礎モデルに非依存であることを示すとともに、これらのモデルを構築するためのより一般化された、あるいは基礎的なアプローチを示唆する。

The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually nucleotides or peptides. These models have seen incredible success in downstream tasks in each domain and have achieved particularly noteworthy breakthroughs in sequences of peptides and structural modeling. However, these single-omic models are naturally incapable of modeling multi-omic tasks, one of the most biologically critical being nucleotide-peptide interactions. We present our work training the first multi-omic nucleotide-peptide foundation models. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology, despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on peptide-nucleotide interaction tasks, namely predicting the change in Gibbs free energy ({\Delta}G) of the binding interaction between a given oligonucleotide and peptide, as well as the effect on this binding interaction due to mutations in the oligonucleotide sequence ({\Delta}{\Delta}G). Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any prior structural training, allowing us to predict which peptide residues are most involved in the peptide-nucleotide binding interaction. Lastly, we provide evidence that multi-omic biosequence models are non-inferior to foundation models trained on single-omics distributions, suggesting a more generalized or foundational approach to building these models.
翻訳日:2024-11-08 04:19:50 公開日:2024-09-27
# 批判に基づく正規化学習のスター幾何学

The Star Geometry of Critic-Based Regularizer Learning ( http://arxiv.org/abs/2408.16852v2 )

ライセンス: Link先を確認
Oscar Leong, Eliza O'Reilly, Yong Sheng Soh, (参考訳) 変分正規化は、統計的推論タスクと逆問題を解決するための古典的な手法であり、現代のデータ駆動アプローチは、深いニューラルネットワークを通して正規化をパラメータ化し、印象的な経験的性能を示す。 最近の研究はタスク依存型正規化器を学習している。 これは、非教師付き、批判に基づく損失関数において、測定値と地上構造データに関する情報を統合することでなされる。 しかし、このプロセスを通して学習した正規化器の構造と、それが2つのデータ分布にどのように関係しているかについては、ほとんど理論がない。 この課題を進展させるために、星型天体のゲージ(またはミンコフスキー汎函数)という特定の正規化器の族上で正規化器を学ぶために、批判に基づく損失関数を最適化する研究を開始する。 このファミリには、一般的に使用されるレギュレータが含まれており、ディープニューラルネットワークによってパラメータ化されるレギュレータとプロパティを共有する。 本稿では,確率測度間の統計的距離の変動表現から得られた批判に基づく損失について検討する。 恒星幾何学と二重ブラン・ミンコフスキー理論のツールを利用することで、これらの損失をデータ分布に依存する二重混合体積と解釈できることを示す。 これにより、ある場合において最適な正則化器の正確な式を導出できる。 最後に、どのニューラルネットワークアーキテクチャがそのような星体ゲージを生じさせるかを特定し、いつそのような正規化器が最適化に有利な性質を持つかを明らかにする。 より広く、この研究は、恒星幾何学のツールが教師なし正規化学習の幾何学を理解するのにどのように役立つかを強調している。

Variational regularization is a classical technique to solve statistical inference tasks and inverse problems, with modern data-driven approaches parameterizing regularizers via deep neural networks showcasing impressive empirical performance. Recent works along these lines learn task-dependent regularizers. This is done by integrating information about the measurements and ground-truth data in an unsupervised, critic-based loss function, where the regularizer attributes low values to likely data and high values to unlikely data. However, there is little theory about the structure of regularizers learned via this process and how it relates to the two data distributions. To make progress on this challenge, we initiate a study of optimizing critic-based loss functions to learn regularizers over a particular family of regularizers: gauges (or Minkowski functionals) of star-shaped bodies. This family contains regularizers that are commonly employed in practice and shares properties with regularizers parameterized by deep neural networks. We specifically investigate critic-based losses derived from variational representations of statistical distances between probability measures. By leveraging tools from star geometry and dual Brunn-Minkowski theory, we illustrate how these losses can be interpreted as dual mixed volumes that depend on the data distribution. This allows us to derive exact expressions for the optimal regularizer in certain cases. Finally, we identify which neural network architectures give rise to such star body gauges and when do such regularizers have favorable properties for optimization. More broadly, this work highlights how the tools of star geometry can aid in understanding the geometry of unsupervised regularizer learning.
翻訳日:2024-11-08 04:08:49 公開日:2024-09-27
# 最適化のための特徴量に基づく解釈可能なサロゲート

Feature-Based Interpretable Surrogates for Optimization ( http://arxiv.org/abs/2409.01869v2 )

ライセンス: Link先を確認
Marc Goerigk, Michael Hartisch, Sebastian Merten, Kartikey Sharma, (参考訳) 最適化モデルが実際に使われるためには、ユーザが結果を信頼することが重要です。 この側面における重要な要素は、ソリューションプロセスの解釈可能性である。 本質的に解釈可能な最適化モデルのための以前のフレームワークでは、決定木を使用して、下層の最適化モデルのソリューションにインスタンスをマッピングしていた。 この研究に基づき、より一般的な最適化ルールを用いて、解釈可能性をさらに向上し、同時に、意思決定者により多くの自由を与える方法について検討する。 提案したルールは、具体的な解ではなく、共通の特徴を特徴とする解の集合にマップされる。 このような最適化ルールを見つけるために、混合整数プログラミングの定式化とヒューリスティックスを用いた正確な方法論を提案する。 また、これらの手法がもたらす課題と機会についても概説する。 特に,提案手法が提案するソリューション品質の改善を,既存の解釈可能な最適化サロゲートと比較して実証し,解釈可能性と性能の関係について考察する。 これらの知見は、合成データと実世界のデータの両方を用いた実験によって裏付けられる。

For optimization models to be used in practice, it is crucial that users trust the results. A key factor in this aspect is the interpretability of the solution process. A previous framework for inherently interpretable optimization models used decision trees to map instances to solutions of the underlying optimization model. Based on this work, we investigate how we can use more general optimization rules to further increase interpretability and, at the same time, give more freedom to the decision-maker. The proposed rules do not map to a concrete solution but to a set of solutions characterized by common features. To find such optimization rules, we present an exact methodology using mixed-integer programming formulations as well as heuristics. We also outline the challenges and opportunities that these methods present. In particular, we demonstrate the improvement in solution quality that our approach offers compared to existing interpretable surrogates for optimization, and we discuss the relationship between interpretability and performance. These findings are supported by experiments using both synthetic and real-world data.
翻訳日:2024-11-07 23:56:04 公開日:2024-09-27
# AdEMAMixオプティマイザ:より良く、より速く、より古いもの

The AdEMAMix Optimizer: Better, Faster, Older ( http://arxiv.org/abs/2409.03137v2 )

ライセンス: Link先を確認
Matteo Pagliardini, Pierre Ablin, David Grangier, (参考訳) Momentumベースのオプティマイザは、幅広い機械学習アプリケーションの中心である。 これらは典型的には、勾配の指数移動平均(EMA)に依存し、古い勾配の現在の寄与を指数関数的に減衰させる。 このことは、勾配が局所線型近似であり、損失の風景に沿って反復が移動するにつれてその関係が失われることを意味する。 この研究は、過去の勾配を蓄積するために単一のEMAを使用することに疑問を投げかけ、この選択がいかに準最適であるかを実証的に示す。 本稿では,Adamオプティマイザに2つのEMAを混合した簡単な修正を加えたAdEMAMixを提案する。 言語モデリングと画像分類に関する我々の実験は、驚くほど驚くべきことに、勾配が数万のステップに関連があることを示しています。 101$BトークンでトレーニングされたAdEMAMix LLMは、197$BトークンでトレーニングされたAdamWモデル(+95\%$)と互換性がある。 さらに,本手法は,トレーニング中のモデル忘れを著しく遅くする。 私たちの研究は、EMAを超えて過去の勾配を活用するために、さまざまな種類の関数のさらなる探索を動機付けています。

Momentum based optimizers are central to a wide range of machine learning applications. These typically rely on an Exponential Moving Average (EMA) of gradients, which decays exponentially the present contribution of older gradients. This accounts for gradients being local linear approximations which lose their relevance as the iterate moves along the loss landscape. This work questions the use of a single EMA to accumulate past gradients and empirically demonstrates how this choice can be sub-optimal: a single EMA cannot simultaneously give a high weight to the immediate past, and a non-negligible weight to older gradients. Building on this observation, we propose AdEMAMix, a simple modification of the Adam optimizer with a mixture of two EMAs to better take advantage of past gradients. Our experiments on language modeling and image classification show -- quite surprisingly -- that gradients can stay relevant for tens of thousands of steps. They help to converge faster, and often to lower minima: e.g., a $1.3$B parameter AdEMAMix LLM trained on $101$B tokens performs comparably to an AdamW model trained on $197$B tokens ($+95\%$). Moreover, our method significantly slows-down model forgetting during training. Our work motivates further exploration of different types of functions to leverage past gradients, beyond EMAs.
翻訳日:2024-11-07 23:23:02 公開日:2024-09-27
# LLM検出器はいまだに現実に足りていない:LLMで作られた短いニュース風ポストを例に

LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts ( http://arxiv.org/abs/2409.03291v2 )

ライセンス: Link先を確認
Henrique Da Silva Gameiro, Andrei Kucharavy, Ljiljana Dolamic, (参考訳) 大規模言語モデル (LLM) によって生成された偽情報が, 広く普及する強力なLLMの出現に伴い, 主要な関心事となっている。 歴史的に、LSM検出器は解法として評価されてきたが、現実世界での有効性はまだ証明されていない。 本稿では,適度に洗練された攻撃者による短いニュースのような投稿を,情報操作における重要な設定に焦点をあてる。 既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。 全ての試験されたゼロショット検出器は、以前のベンチマークと矛盾なく動作し、サンプリング温度の増加に対して非常に脆弱である。 LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。 前者はドメイン固有のベンチマークが必要であることを示し、後者は、対立回避のレジリエンスと参照する人文への過度な適合のトレードオフを示唆し、どちらもベンチマークでの評価が必要であり、現在は欠落している。 これは、現在のLLM検出器のベンチマーク手法を再検討し、動的に拡張可能なベンチマークを提供することを示唆している(https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection)。

With the emergence of widely available powerful LLMs, disinformation generated by large Language Models (LLMs) has become a major concern. Historically, LLM detectors have been touted as a solution, but their effectiveness in the real world is still to be proven. In this paper, we focus on an important setting in information operations -- short news-like posts generated by moderately sophisticated attackers. We demonstrate that existing LLM detectors, whether zero-shot or purpose-trained, are not ready for real-world use in that setting. All tested zero-shot detectors perform inconsistently with prior benchmarks and are highly vulnerable to sampling temperature increase, a trivial attack absent from recent benchmarks. A purpose-trained detector generalizing across LLMs and unseen attacks can be developed, but it fails to generalize to new human-written texts. We argue that the former indicates domain-specific benchmarking is needed, while the latter suggests a trade-off between the adversarial evasion resilience and overfitting to the reference human text, with both needing evaluation in benchmarks and currently absent. We believe this suggests a re-consideration of current LLM detector benchmarking approaches and provides a dynamically extensible benchmark to allow it (https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection).
翻訳日:2024-11-07 23:23:02 公開日:2024-09-27
# CCFExp: 顔面麻痺者に対する周期的クロスフュージョン拡散モデルを用いた顔面画像合成

CCFExp: Facial Image Synthesis with Cycle Cross-Fusion Diffusion Model for Facial Paralysis Individuals ( http://arxiv.org/abs/2409.07271v2 )

ライセンス: Link先を確認
Weixiang Gao, Yifan Xia, (参考訳) 顔面麻痺は顔面筋の運動に影響を及ぼす不安定な状態であり、表情が著しく低下する。 現在、顔面麻痺の診断は難しい課題であり、しばしば臨床医の主観的判断と経験に大きく依存しており、評価過程の多様性と不確実性をもたらす可能性がある。 現実の状況における有望な応用の1つは、顔面麻痺の自動推定である。 しかし、顔の麻痺データセットの不足は、自動診断と治療介入のための堅牢な機械学習モデルの開発を制限している。 本研究の目的は、このギャップに対処するために高品質な顔面麻痺データセットを合成し、より正確で効率的なアルゴリズムトレーニングを可能にすることである。 具体的には、拡散モデルに基づく新しいサイクルクロスフュージョン表現生成モデル(CCFExp)を提案し、顔情報の異なる特徴を組み合わせ、顔領域における顔の外観とテクスチャの視覚的詳細を強化する。 本手法の有効性を実証するために, 一般的に用いられている顔面麻痺の公立臨床データセットについて, 質的, 定量的に評価を行った。 実験結果から,提案手法は最先端の手法を超越し,よりリアルな顔画像を生成し,アイデンティティの整合性を維持することが示唆された。

Facial paralysis is a debilitating condition that affects the movement of facial muscles, leading to a significant loss of facial expressions. Currently, the diagnosis of facial paralysis remains a challenging task, often relying heavily on the subjective judgment and experience of clinicians, which can introduce variability and uncertainty in the assessment process. One promising application in real-life situations is the automatic estimation of facial paralysis. However, the scarcity of facial paralysis datasets limits the development of robust machine learning models for automated diagnosis and therapeutic interventions. To this end, this study aims to synthesize a high-quality facial paralysis dataset to address this gap, enabling more accurate and efficient algorithm training. Specifically, a novel Cycle Cross-Fusion Expression Generative Model (CCFExp) based on the diffusion model is proposed to combine different features of facial information and enhance the visual details of facial appearance and texture in facial regions, thus creating synthetic facial images that accurately represent various degrees and types of facial paralysis. We have qualitatively and quantitatively evaluated the proposed method on the commonly used public clinical datasets of facial paralysis to demonstrate its effectiveness. Experimental results indicate that the proposed method surpasses state-of-the-art methods, generating more realistic facial images and maintaining identity consistency.
翻訳日:2024-11-07 21:53:46 公開日:2024-09-27
# AnySkin:ロボットタッチのためのプラグ&プレイスキンセンシング

AnySkin: Plug-and-play Skin Sensing for Robotic Touch ( http://arxiv.org/abs/2409.08276v3 )

ライセンス: Link先を確認
Raunaq Bhirangi, Venkatesh Pattabiraman, Enes Erciyes, Yifeng Cao, Tess Hellebrekers, Lerrel Pinto, (参考訳) 触覚は、重要かつ有用な感覚モダリティとして広く受け入れられているが、視覚やプロプレセプションといった他の感覚モダリティと比べて、青くなっている。 AnySkinは、触覚センシング -- 汎用性、置換性、データ再利用性 -- を阻害する重要な課題に対処する。 AnySkinは、ReSkinをシンプルにデザインし、センサーインターフェースからセンサーエレクトロニクスを分離することで、電話ケースを装着して充電器を接続するのと同じくらい簡単に統合できる。 さらに、AnySkinは、学習された操作ポリシーのクロスインスタンスの一般化性を持つ最初の非校正触覚センサである。 まず,AnySkinセンサを用いたスリップ検出とポリシー学習を特徴付けるとともに,AnySkinのインスタンスでトレーニングされたモデルのゼロショット一般化を新しいインスタンスに示し,DIGITやReSkinのような既存の触覚ソリューションと比較する。 実験、製造の詳細、設計ファイルのビデオはhttps://any-skin.github.io/で見ることができる。

While tactile sensing is widely accepted as an important and useful sensing modality, its use pales in comparison to other sensory modalities like vision and proprioception. AnySkin addresses the critical challenges that impede the use of tactile sensing -- versatility, replaceability, and data reusability. Building on the simplistic design of ReSkin, and decoupling the sensing electronics from the sensing interface, AnySkin simplifies integration making it as straightforward as putting on a phone case and connecting a charger. Furthermore, AnySkin is the first uncalibrated tactile-sensor with cross-instance generalizability of learned manipulation policies. To summarize, this work makes three key contributions: first, we introduce a streamlined fabrication process and a design tool for creating an adhesive-free, durable and easily replaceable magnetic tactile sensor; second, we characterize slip detection and policy learning with the AnySkin sensor; and third, we demonstrate zero-shot generalization of models trained on one instance of AnySkin to new instances, and compare it with popular existing tactile solutions like DIGIT and ReSkin. Videos of experiments, fabrication details and design files can be found on https://any-skin.github.io/
翻訳日:2024-11-07 21:20:36 公開日:2024-09-27
# Fusing Dynamics Equation: LLMエージェントを用いたソーシャルオピニオン予測アルゴリズム

Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents ( http://arxiv.org/abs/2409.08717v2 )

ライセンス: Link先を確認
Junchi Yao, Hongjie Zhang, Jie Ou, Dingyi Zuo, Zheng Yang, Zhicheng Dong, (参考訳) ソーシャルメディアが社会運動や世論形成の重要な基盤になりつつある中で、ユーザの意見のダイナミクスを正確にシミュレートし、予測することは、社会現象を理解し、政策を立て、世論を導く上で非常に重要である。 しかし、既存のシミュレーション手法では、ユーザの振る舞いの複雑さやダイナミクスを捉えるのが困難である。 本稿では,ソーシャルメディア利用者の意見を動的に表現するための革新的なシミュレーション手法であるFDE-LLMアルゴリズムを提案する。 これは、大規模言語モデル(LLM)の行動と意見の進化過程を効果的に制限し、実際のサイバー世界との整合性を高める。 特にFDE-LLMは、ユーザーを意見のリーダーとフォロワーに分類している。 意見のリーダーはLLMロールプレイングに基づいており、CAモデルによって制約されている一方、意見の支持者はCAモデルとSIRモデルを組み合わせた動的システムに統合されている。 この革新的な設計はシミュレーションの精度と効率を大幅に改善する。 4つの実際のWeiboデータセットで実験を行い、オープンソースのモデルChatGLMを用いて検証した。 その結果,従来のエージェント・ベース・モデリング(ABM)の意見拡散アルゴリズムやLLMの意見拡散アルゴリズムと比較して,FDE-LLMの精度と解釈性が高いことがわかった。

In the context where social media is increasingly becoming a significant platform for social movements and the formation of public opinion, accurately simulating and predicting the dynamics of user opinions is of great importance for understanding social phenomena, policy making, and guiding public opinion. However, existing simulation methods face challenges in capturing the complexity and dynamics of user behavior. Addressing this issue, this paper proposes an innovative simulation method for the dynamics of social media user opinions, the FDE-LLM algorithm, which incorporates opinion dynamics and epidemic model. This effectively constrains the actions and opinion evolution process of large language models (LLM), making them more aligned with the real cyber world. In particular, the FDE-LLM categorizes users into opinion leaders and followers. Opinion leaders are based on LLM role-playing and are constrained by the CA model, while opinion followers are integrated into a dynamic system that combines the CA model with the SIR model. This innovative design significantly improves the accuracy and efficiency of the simulation. Experiments were conducted on four real Weibo datasets and validated using the open-source model ChatGLM. The results show that, compared to traditional agent-based modeling (ABM) opinion dynamics algorithms and LLM-based opinion diffusion algorithms, our FDE-LLM algorithm demonstrates higher accuracy and interpretability.
翻訳日:2024-11-07 21:09:04 公開日:2024-09-27
# GP-GPT:遺伝子フェノタイプマッピングのための大規模言語モデル

GP-GPT: Large Language Model for Gene-Phenotype Mapping ( http://arxiv.org/abs/2409.09825v2 )

ライセンス: Link先を確認
Yanjun Lyu, Zihao Wu, Lu Zhang, Jing Zhang, Yiwei Li, Wei Ruan, Zhengliang Liu, Xiaowei Yu, Chao Cao, Tong Chen, Minheng Chen, Yan Zhuang, Xiang Li, Rongjie Liu, Chao Huang, Wentao Li, Tianming Liu, Dajiang Zhu, (参考訳) 生物医学領域では, 自然言語処理の成功により, 事前学習型大規模言語モデル (LLM) が注目されている。 しかし、マルチソースゲノムデータの複雑な特性と不均一性は、これらのモデルをバイオインフォマティクスやバイオメディカル分野に適用する際に大きな課題を生じさせる。 これらの課題に対処するため、GP-GPTは、遺伝的・フェノタイプ知識表現とゲノム関係解析のための最初の専門的な大規模言語モデルである。 本モデルは, ゲノム学, プロテオミクス, 医学遺伝学において3,000,000以上の用語からなる包括的コーパス上で, 大規模に検証された複数のデータセットと学術出版物から得られた2段階の微調整を行った。 GP-GPTは、医学遺伝情報を正確に取得し、ゲノム情報検索や関係決定などの一般的なゲノム解析タスクを実行する能力を示す。 ドメイン固有のタスクの比較実験により、GP-GPTはLlama2、Llama3、GPT-4といった最先端のLLMよりも優れていた。 これらの結果は、GP-GPTが遺伝子疾患研究を強化し、ゲノム学と医学遺伝学の分野における正確かつ効率的な分析を促進する可能性を強調している。 本研究はGP-GPTにおける生体因子の表現の微妙な変化を実証し,遺伝子フェノタイプ研究へのLLMの適用の可能性を示した。

Pre-trained large language models(LLMs) have attracted increasing attention in biomedical domains due to their success in natural language processing. However, the complex traits and heterogeneity of multi-sources genomics data pose significant challenges when adapting these models to the bioinformatics and biomedical field. To address these challenges, we present GP-GPT, the first specialized large language model for genetic-phenotype knowledge representation and genomics relation analysis. Our model is fine-tuned in two stages on a comprehensive corpus composed of over 3,000,000 terms in genomics, proteomics, and medical genetics, derived from multiple large-scale validated datasets and scientific publications. GP-GPT demonstrates proficiency in accurately retrieving medical genetics information and performing common genomics analysis tasks, such as genomics information retrieval and relationship determination. Comparative experiments across domain-specific tasks reveal that GP-GPT outperforms state-of-the-art LLMs, including Llama2, Llama3 and GPT-4. These results highlight GP-GPT's potential to enhance genetic disease relation research and facilitate accurate and efficient analysis in the fields of genomics and medical genetics. Our investigation demonstrated the subtle changes of bio-factor entities' representations in the GP-GPT, which suggested the opportunities for the application of LLMs to advancing gene-phenotype research.
翻訳日:2024-11-07 20:46:36 公開日:2024-09-27
# 2Dか2Dか: ジェスチャー表現の次元性は3次元音声合成にどのように影響するか?

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? ( http://arxiv.org/abs/2409.10357v2 )

ライセンス: Link先を確認
Téo Guichoux, Laure Soulier, Nicolas Obin, Catherine Pelachaud, (参考訳) 共同音声ジェスチャーはコミュニケーションの基本である。 近年の深層学習技術の出現は, 身体的会話エージェントのための, 生活型, 同期的共同音声ジェスチャの創出を助長している。 人間のポーズ検出技術を介して、YouTubeなどのプラットフォームからビデオコンテンツを集約する「インザワイルド」データセットは、音声に整列した2D骨格シーケンスを提供することで実現可能なソリューションを提供する。 リフトモデルの同時開発により、これらの2次元シーケンスを3次元ジェスチャーデータベースに変換することができる。 しかし、2D抽出されたポーズから推定される3Dのポーズは、本質的には2D領域に残る接地真実の近似である点に注意する必要がある。 この区別は、ジェスチャ表現の次元性が生成した動きの質に与える影響についての疑問を提起する。 本研究では,2次元もしくは3次元の関節座標をトレーニングデータとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。 生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。 ジェスチャー生成分野において広く使われている指標を用いて客観的評価を行い、また、異なるアプローチを質的に評価するユーザスタディを行う。

Co-speech gestures are fundamental for communication. The advent of recent deep learning techniques has facilitated the creation of lifelike, synchronous co-speech gestures for Embodied Conversational Agents. "In-the-wild" datasets, aggregating video content from platforms like YouTube via human pose detection technologies, provide a feasible solution by offering 2D skeletal sequences aligned with speech. Concurrent developments in lifting models enable the conversion of these 2D sequences into 3D gesture databases. However, it is important to note that the 3D poses estimated from the 2D extracted poses are, in essence, approximations of the ground-truth, which remains in the 2D domain. This distinction raises questions about the impact of gesture representation dimensionality on the quality of generated motions - a topic that, to our knowledge, remains largely unexplored. Our study examines the effect of using either 2D or 3D joint coordinates as training data on the performance of speech-to-gesture deep generative models. We employ a lifting model for converting generated 2D pose sequences into 3D and assess how gestures created directly in 3D stack up against those initially generated in 2D and then converted to 3D. We perform an objective evaluation using widely used metrics in the gesture generation field as well as a user study to qualitatively evaluate the different approaches.
翻訳日:2024-11-07 20:35:12 公開日:2024-09-27
# Schrodingerの記憶: 大規模言語モデル

Schrodinger's Memory: Large Language Models ( http://arxiv.org/abs/2409.10482v3 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) 記憶がすべての人間の活動の基礎であり、記憶がなければ、人々は日々の生活の中でどんなタスクも実行できなくなるでしょう。 LLM(Large Language Models)の開発に伴い、言語能力は人間に匹敵するものになりつつある。 しかし、LLMにはメモリがありますか? 現在のパフォーマンスに基づいて、LLMはメモリを示すように見える。 では、このメモリの基盤となるメカニズムは何ですか? これまでの研究では、LLMの記憶能力と基礎となる理論の深い研究が欠けていた。 本稿では,LLMのメモリ機構を説明するために,Universal Approximation Theorem (UAT) を用いる。 また,様々なLCMの記憶能力を検証する実験を行い,これらの記憶能力に基づいてその能力を評価する新しい手法を提案する。 LLMメモリはSchr\"odingerのメモリのように動作し、特定のメモリがクエリされたときにのみ観測可能である。 クエリに応答して、モデルがその出力に基づいてメモリを保持するかどうかを判断するのみである。 最後に、人間の脳とLDMの記憶能力を比較し、それらの操作機構の類似点と相違点を明らかにすることで、この概念を拡張した。

Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr\"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.
翻訳日:2024-11-07 20:35:12 公開日:2024-09-27
# 単一分散分散(DDD)レジャーのマルチレベル検証

Multilevel Verification on a Single Digital Decentralized Distributed (DDD) Ledger ( http://arxiv.org/abs/2409.11410v2 )

ライセンス: Link先を確認
Ayush Thada, Aanchal Kandpal, Dipanwita Sinha Mukharjee, (参考訳) 本稿では、ブロックチェーンのような分散分散デジタル(DDD)台帳をマルチレベル検証で使用するためのアプローチを提案する。 Blockchainのような通常のDDD台帳では、単一のレベルの検証しか利用できないため、階層構造があり、各レベルに検証が必要なシステムでは役に立たない。 階層が自然に出現するシステムでは、システムの問題に対するソリューションに階層を組み込むことで、より良いソリューションを思いつくことができます。 階層化の導入は、階層内の複数のレベルと複数のレベルの検証が可能であることを意味しており、階層内の与えられたレベルによる以前の階層レベルの作業の検証など、対処する必要のあるさまざまな階層間の相互作用によって引き起こされる他の課題を意味する。 本論文は,これらすべての問題に対処し,任意の時刻におけるシステムの状態とシステム障害の確率をトレースするロードマップを提供する。

This paper presents an approach to using decentralized distributed digital (DDD) ledgers like blockchain with multi-level verification. In regular DDD ledgers like Blockchain, only a single level of verification is available, which makes it not useful for those systems where there is a hierarchy and verification is required on each level. In systems where hierarchy emerges naturally, the inclusion of hierarchy in the solution for the problem of the system enables us to come up with a better solution. Introduction to hierarchy means there could be several verification within a level in the hierarchy and more than one level of verification, which implies other challenges induced by an interaction between the various levels of hierarchies that also need to be addressed, like verification of the work of the previous level of hierarchy by given level in the hierarchy. The paper will address all these issues, and provide a road map to trace the state of the system at any given time and probability of failure of the system.
翻訳日:2024-11-07 20:01:55 公開日:2024-09-27
# 大規模リコメンダシステムにおけるマルチタスク融合のための強化状態強化学習アルゴリズム

An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems ( http://arxiv.org/abs/2409.11678v2 )

ライセンス: Link先を確認
Peng Liu, Jiawei Zhu, Cong Xu, Ming Zhao, Bin Wang, (参考訳) Recommender Systems(RS)の最終段階として、Multi-Task Fusion(MTF)は、Multi-Task Learning(MTL)によって予測される複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化し、最終的な推奨結果を決定する。 近年,リコメンデーションセッションにおける長期的ユーザ満足度を最大化するために,大規模RSにおけるMDFには強化学習(Reinforcement Learning, RL)が広く用いられている。 しかしながら、モデリングパターンによって制限されている現在のRL-MTFメソッドは、各ユーザに対してアクションを生成する状態としてのみユーザ機能を利用することができるが、アイテム機能やその他の価値ある機能を利用できないため、最適以下の結果が得られる。 この問題に対処するには、現在のRL-MTFのモデリングパターンを破る必要がある。 この問題を解決するために,RSにおけるMTFのための拡張状態RL法を提案する。 上記の方法と異なり,提案手法はまず,ユーザの特徴,項目の特徴,その他の重要な特徴を拡張状態としてまとめて定義する。 我々の知る限り、このモデリングパターンはRL-MTFの分野で初めて提案されている。 大規模なRSで大規模なオフラインおよびオンライン実験を行う。 その結果,本モデルが他のモデルよりも優れていたことが示唆された。 拡張状態RLは半年以上にわたって我々のRSに完全にデプロイされ、ベースラインに比べて+3.84%のユーザ有効消費と+0.58%のユーザ持続時間が改善された。

As the last key stage of Recommender Systems (RSs), Multi-Task Fusion (MTF) is in charge of combining multiple scores predicted by Multi-Task Learning (MTL) into a final score to maximize user satisfaction, which decides the ultimate recommendation results. In recent years, to maximize long-term user satisfaction within a recommendation session, Reinforcement Learning (RL) is widely used for MTF in large-scale RSs. However, limited by their modeling pattern, all the current RL-MTF methods can only utilize user features as the state to generate actions for each user, but unable to make use of item features and other valuable features, which leads to suboptimal results. Addressing this problem is a challenge that requires breaking through the current modeling pattern of RL-MTF. To solve this problem, we propose a novel method called Enhanced-State RL for MTF in RSs. Unlike the existing methods mentioned above, our method first defines user features, item features, and other valuable features collectively as the enhanced state; then proposes a novel actor and critic learning process to utilize the enhanced state to make much better action for each user-item pair. To the best of our knowledge, this novel modeling pattern is being proposed for the first time in the field of RL-MTF. We conduct extensive offline and online experiments in a large-scale RS. The results demonstrate that our model outperforms other models significantly. Enhanced-State RL has been fully deployed in our RS more than half a year, improving +3.84% user valid consumption and +0.58% user duration time compared to baseline.
翻訳日:2024-11-07 19:50:48 公開日:2024-09-27
# 思考と発話を同時に行う大規模言語モデルの2層学習と復号化

Dual-Layer Training and Decoding of Large Language Model with Simultaneously Thinking and Speaking ( http://arxiv.org/abs/2409.12059v2 )

ライセンス: Link先を確認
Ningyuan Xi, Xiaoyu Wang, Yetao Wu, Teng Chen, Qingqing Gu, Jinxian Qu, Zhonglin Jiang, Yong Chen, Luo Ji, (参考訳) 大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。 近年,言語モデルの思考能力を高める研究がいくつか行われているが,そのほとんどはデータ駆動や訓練に基づくものではない。 本稿では,自然界における認知的メカニズムに動機付けられ,まず思考を考察し,クエリに基づいて応答を表現できるTaSと呼ばれる新しいモデルアーキテクチャを設計する。 我々は,素早い応答サンプルから思考内容を注釈付けしたり生成したりするために,いくつかのパイプラインを設計し,その後,思考層として振る舞う中間層に言語ヘッドを付加する。 思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。 定性的な例と定量的な結果の両方がTaSの有効性と性能を検証した。 私たちのコードはhttps://anonymous.4open.science/r/TadE.comで利用可能です。

Large Language Model can reasonably understand and generate human expressions but may lack of thorough thinking and reasoning mechanisms. Recently there have been several studies which enhance the thinking ability of language models but most of them are not data-driven or training-based. In this paper, we are motivated by the cognitive mechanism in the natural world, and design a novel model architecture called TaS which allows it to first consider the thoughts and then express the response based upon the query. We design several pipelines to annotate or generate the thought contents from prompt-response samples, then add language heads in a middle layer which behaves as the thinking layer. We train the language model by the thoughts-augmented data and successfully let the thinking layer automatically generate reasonable thoughts and finally output more reasonable responses. Both qualitative examples and quantitative results validate the effectiveness and performance of TaS. Our code is available at https://anonymous.4open.science/r/TadE.
翻訳日:2024-11-07 19:26:16 公開日:2024-09-27
# TinyVLA:ロボットマニピュレーションのための高速かつデータ効率のビジョン・ランゲージ・アクションモデル

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation ( http://arxiv.org/abs/2409.12514v2 )

ライセンス: Link先を確認
Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, Jian Tang, (参考訳) VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。 しかしながら、現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要とするため、現実のデプロイメントが困難である、という重大な課題に直面している。 本稿では,既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚-言語-行動モデル群を紹介する。 本フレームワークは,TinyVLAを構築する上で不可欠な2つのコンポーネントを組み込んでいる。(1) 堅牢で高速なマルチモーダルモデルによるポリシーバックボーンの初期化,(2) 精密なロボット動作を実現するための微調整中に拡散ポリシーデコーダを統合する。 我々はTinyVLAをシミュレーションと実際のロボットの両方で広範囲に評価し、我々のアプローチが性能や性能の面で最先端のVLAモデルであるOpenVLAよりも優れていることを実証した。 さらに、TinyVLAは言語命令、新しいオブジェクト、見えない位置、オブジェクトの外観の変化、背景の変化、環境の変化など、様々な次元にわたる強力な一般化能力を示し、しばしばOpenVLAのパフォーマンスにマッチまたは超えている。 政策学習に事前学習されたマルチモーダルモデルを利用することに関して,‘methodname’は興味深い視点を提供すると考えている。 私たちのプロジェクトはhttps://tiny-vla.github.ioにあります。

Vision-Language-Action (VLA) models have shown remarkable potential in visuomotor control and instruction comprehension through end-to-end learning processes. However, current VLA models face significant challenges: they are slow during inference and require extensive pre-training on large amounts of robotic data, making real-world deployment difficult. In this paper, we introduce a new family of compact vision-language-action models, called TinyVLA, which offers two key advantages over existing VLA models: (1) faster inference speeds, and (2) improved data efficiency, eliminating the need for pre-training stage. Our framework incorporates two essential components to build TinyVLA: (1) initializing the policy backbone with robust, high-speed multimodal models, and (2) integrating a diffusion policy decoder during fine-tuning to enable precise robot actions. We conducted extensive evaluations of TinyVLA in both simulation and on real robots, demonstrating that our approach significantly outperforms the state-of-the-art VLA model, OpenVLA, in terms of speed and data efficiency, while delivering comparable or superior performance. Additionally, TinyVLA exhibits strong generalization capabilities across various dimensions, including language instructions, novel objects, unseen positions, changes in object appearance, background variations, and environmental shifts, often matching or exceeding the performance of OpenVLA. We believe that \methodname offers an interesting perspective on utilizing pre-trained multimodal models for policy learning. Our project is at https://tiny-vla.github.io.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-27
# TinyVLA:ロボットマニピュレーションのための高速かつデータ効率のビジョン・ランゲージ・アクションモデル

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation ( http://arxiv.org/abs/2409.12514v3 )

ライセンス: Link先を確認
Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, Jian Tang, (参考訳) VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。 しかしながら、現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要とするため、現実のデプロイメントが困難である、という重大な課題に直面している。 本稿では,既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚-言語-行動モデル群を紹介する。 本フレームワークは,TinyVLAを構築する上で不可欠な2つのコンポーネントを組み込んでいる。(1) 堅牢で高速なマルチモーダルモデルによるポリシーバックボーンの初期化,(2) 精密なロボット動作を実現するための微調整中に拡散ポリシーデコーダを統合する。 我々はTinyVLAをシミュレーションと実際のロボットの両方で広範囲に評価し、我々のアプローチが性能や性能の面で最先端のVLAモデルであるOpenVLAよりも優れていることを実証した。 さらに、TinyVLAは言語命令、新しいオブジェクト、見えない位置、オブジェクトの外観の変化、背景の変化、環境の変化など、様々な次元にわたる強力な一般化能力を示し、しばしばOpenVLAのパフォーマンスにマッチまたは超えている。 政策学習に事前学習されたマルチモーダルモデルを利用することに関して,‘methodname’は興味深い視点を提供すると考えている。 私たちのプロジェクトはhttps://tiny-vla.github.ioにあります。

Vision-Language-Action (VLA) models have shown remarkable potential in visuomotor control and instruction comprehension through end-to-end learning processes. However, current VLA models face significant challenges: they are slow during inference and require extensive pre-training on large amounts of robotic data, making real-world deployment difficult. In this paper, we introduce a new family of compact vision-language-action models, called TinyVLA, which offers two key advantages over existing VLA models: (1) faster inference speeds, and (2) improved data efficiency, eliminating the need for pre-training stage. Our framework incorporates two essential components to build TinyVLA: (1) initializing the policy backbone with robust, high-speed multimodal models, and (2) integrating a diffusion policy decoder during fine-tuning to enable precise robot actions. We conducted extensive evaluations of TinyVLA in both simulation and on real robots, demonstrating that our approach significantly outperforms the state-of-the-art VLA model, OpenVLA, in terms of speed and data efficiency, while delivering comparable or superior performance. Additionally, TinyVLA exhibits strong generalization capabilities across various dimensions, including language instructions, novel objects, unseen positions, changes in object appearance, background variations, and environmental shifts, often matching or exceeding the performance of OpenVLA. We believe that \methodname offers an interesting perspective on utilizing pre-trained multimodal models for policy learning. Our project is at https://tiny-vla.github.io.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-27
# Kolmogorov-Arnold Networks を用いたコンピュータビジョンにおける連続学習に関する予備的検討

A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2409.13550v1 )

ライセンス: Link先を確認
Alessandro Cacciatore, Valerio Morelli, Federica Paganica, Emanuele Frontoni, Lucia Migliorelli, Daniele Berardini, (参考訳) 深層学習は多層パーセプトロン (MLP) に支配されており、様々な領域における他の最適化可能なモデルよりも優れていることが示されている。 近年,MLPの代替としてKAN(Kolmogorov-Arnold Networks)が登場している。 著者らによると、Kansは、連続的な学習シナリオにおける破滅的な忘れ込みなど、MLPにおけるいくつかの大きな問題に対処している。 しかし、この主張はおもちゃの1Dデータセットの回帰タスクの結果によってのみ支持されている。 本稿では,コンピュータビジョンにおける継続学習タスクにおけるkanのパフォーマンスを評価することで,特にMNISTデータセットを用いて調査を拡大する。 そこで我々は,MLPと2つのKANモデルの構造的解析を行い,関連するアーキテクチャが同一数のトレーニング可能なパラメータを持つことを保証した。 提案手法は, 従来のMPPとオリジナルのKANの実装の両方において, 効率の良いバージョンのKANが優れていることを示す。 さらに, MLP および Kan におけるハイパーパラメータの影響と, バイアスやスケールウェイトなどのkan におけるトレーニング可能なパラメータの影響を解析した。 さらに,最近のkanベースの畳み込みニューラルネットワークの予備調査を行い,その性能を従来の畳み込みニューラルネットワークと比較する。 私たちのコードはhttps://github.com/MrPio/KAN-Continual_Learning_testsで確認できます。

Deep learning has long been dominated by multi-layer perceptrons (MLPs), which have demonstrated superiority over other optimizable models in various domains. Recently, a new alternative to MLPs has emerged - Kolmogorov-Arnold Networks (KAN)- which are based on a fundamentally different mathematical framework. According to their authors, KANs address several major issues in MLPs, such as catastrophic forgetting in continual learning scenarios. However, this claim has only been supported by results from a regression task on a toy 1D dataset. In this paper, we extend the investigation by evaluating the performance of KANs in continual learning tasks within computer vision, specifically using the MNIST datasets. To this end, we conduct a structured analysis of the behavior of MLPs and two KAN-based models in a class-incremental learning scenario, ensuring that the architectures involved have the same number of trainable parameters. Our results demonstrate that an efficient version of KAN outperforms both traditional MLPs and the original KAN implementation. We further analyze the influence of hyperparameters in MLPs and KANs, as well as the impact of certain trainable parameters in KANs, such as bias and scale weights. Additionally, we provide a preliminary investigation of recent KAN-based convolutional networks and compare their performance with that of traditional convolutional neural networks. Our codes can be found at https://github.com/MrPio/KAN-Continual_Learning_tests.
翻訳日:2024-11-07 06:30:58 公開日:2024-09-27
# Kolmogorov-Arnold Networks を用いたコンピュータビジョンにおける連続学習に関する予備的検討

A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2409.13550v2 )

ライセンス: Link先を確認
Alessandro Cacciatore, Valerio Morelli, Federica Paganica, Emanuele Frontoni, Lucia Migliorelli, Daniele Berardini, (参考訳) 深層学習は多層パーセプトロン (MLP) に支配されており、様々な領域における他の最適化可能なモデルよりも優れていることが示されている。 近年,MLPの代替としてKAN(Kolmogorov-Arnold Networks)が登場している。 著者らによると、Kansは、連続的な学習シナリオにおける破滅的な忘れ込みなど、MLPにおけるいくつかの大きな問題に対処している。 しかし、この主張はおもちゃの1Dデータセットの回帰タスクの結果によってのみ支持されている。 本稿では,コンピュータビジョンにおける継続学習タスクにおけるkanのパフォーマンスを評価することで,特にMNISTデータセットを用いて調査を拡大する。 そこで我々は,MLPと2つのKANモデルの構造的解析を行い,関連するアーキテクチャが同一数のトレーニング可能なパラメータを持つことを保証した。 提案手法は, 従来のMPPとオリジナルのKANの実装の両方において, 効率の良いバージョンのKANが優れていることを示す。 さらに, MLP および Kan におけるハイパーパラメータの影響と, バイアスやスケールウェイトなどのkan におけるトレーニング可能なパラメータの影響を解析した。 さらに,最近のkanベースの畳み込みニューラルネットワークの予備調査を行い,その性能を従来の畳み込みニューラルネットワークと比較する。 私たちのコードはhttps://github.com/MrPio/KAN-Continual_Learning_testsで確認できます。

Deep learning has long been dominated by multi-layer perceptrons (MLPs), which have demonstrated superiority over other optimizable models in various domains. Recently, a new alternative to MLPs has emerged - Kolmogorov-Arnold Networks (KAN)- which are based on a fundamentally different mathematical framework. According to their authors, KANs address several major issues in MLPs, such as catastrophic forgetting in continual learning scenarios. However, this claim has only been supported by results from a regression task on a toy 1D dataset. In this paper, we extend the investigation by evaluating the performance of KANs in continual learning tasks within computer vision, specifically using the MNIST datasets. To this end, we conduct a structured analysis of the behavior of MLPs and two KAN-based models in a class-incremental learning scenario, ensuring that the architectures involved have the same number of trainable parameters. Our results demonstrate that an efficient version of KAN outperforms both traditional MLPs and the original KAN implementation. We further analyze the influence of hyperparameters in MLPs and KANs, as well as the impact of certain trainable parameters in KANs, such as bias and scale weights. Additionally, we provide a preliminary investigation of recent KAN-based convolutional networks and compare their performance with that of traditional convolutional neural networks. Our codes can be found at https://github.com/MrPio/KAN-Continual_Learning_tests.
翻訳日:2024-11-07 06:30:58 公開日:2024-09-27
# FracGM: Geman-McClure Robust Estimatorのための高速なフラクショナルプログラミング手法

FracGM: A Fast Fractional Programming Technique for Geman-McClure Robust Estimator ( http://arxiv.org/abs/2409.13978v1 )

ライセンス: Link先を確認
Bang-Shien Chen, Yu-Kai Lin, Jian-Yu Chen, Chih-Wei Huang, Jann-Long Chern, Ching-Cherng Sun, (参考訳) コンピュータビジョン、ロボティクス、ナビゲーションにおいて、ロバスト推定は必須であり、精度を向上させるために、アウトリア測定の影響を最小限に抑えることを目的としている。 本稿では,分数計画法を利用したGeman-McClureのロバストな推定法であるFracGMを提案する。 この解法は、元の非凸分数問題を凸双対問題と線形方程式系に再構成し、反復最適化パターンで繰り返し解決する。 漸進的な非凸性アプローチと比較すると、この戦略はより高速な収束率とより優れた外部回帰能力を示す。 さらに,提案手法のグローバル最適性は,所定の条件下で保証することができる。 本稿では,Wahbaの回転問題と3次元ポイントクラウド登録,緩和前処理とプロジェクション後処理を併用したFracGMソルバを提案する。 最先端のアルゴリズムと比較して、アウトレーヤレートが20\%から80\%に増加すると、FracGMは53\%と88\%のローテーションと変換が増加する。 現実のシナリオでは、FracGMは計算時間を19.43\%改善しながら18の内13の結果でより良い結果を達成する。

Robust estimation is essential in computer vision, robotics, and navigation, aiming to minimize the impact of outlier measurements for improved accuracy. We present a fast algorithm for Geman-McClure robust estimation, FracGM, leveraging fractional programming techniques. This solver reformulates the original non-convex fractional problem to a convex dual problem and a linear equation system, iteratively solving them in an alternating optimization pattern. Compared to graduated non-convexity approaches, this strategy exhibits a faster convergence rate and better outlier rejection capability. In addition, the global optimality of the proposed solver can be guaranteed under given conditions. We demonstrate the proposed FracGM solver with Wahba's rotation problem and 3-D point-cloud registration along with relaxation pre-processing and projection post-processing. Compared to state-of-the-art algorithms, when the outlier rates increase from 20\% to 80\%, FracGM shows 53\% and 88\% lower rotation and translation increases. In real-world scenarios, FracGM achieves better results in 13 out of 18 outcomes, while having a 19.43\% improvement in the computation time.
翻訳日:2024-11-07 04:17:38 公開日:2024-09-27
# FracGM: Geman-McClure Robust Estimatorのための高速なフラクショナルプログラミング手法

FracGM: A Fast Fractional Programming Technique for Geman-McClure Robust Estimator ( http://arxiv.org/abs/2409.13978v2 )

ライセンス: Link先を確認
Bang-Shien Chen, Yu-Kai Lin, Jian-Yu Chen, Chih-Wei Huang, Jann-Long Chern, Ching-Cherng Sun, (参考訳) コンピュータビジョン、ロボティクス、ナビゲーションにおいて、ロバスト推定は必須であり、精度を向上させるために、アウトリア測定の影響を最小限に抑えることを目的としている。 本稿では,分数計画法を利用したGeman-McClureのロバストな推定法であるFracGMを提案する。 この解法は、元の非凸分数問題を凸双対問題と線形方程式系に再構成し、反復最適化パターンで繰り返し解決する。 漸進的な非凸性アプローチと比較すると、この戦略はより高速な収束率とより優れた外部回帰能力を示す。 さらに,提案手法のグローバル最適性は,所定の条件下で保証することができる。 本稿では,Wahbaの回転問題と3次元ポイントクラウド登録,緩和前処理とプロジェクション後処理を併用したFracGMソルバを提案する。 最先端のアルゴリズムと比較して、アウトレーヤレートが20%から80%に増加すると、FracGMは53%と88%のローテーションと変換が増加する。 現実のシナリオでは、FracGMは計算時間を19.43%改善しながら、18のうち13でより良い結果を得る。

Robust estimation is essential in computer vision, robotics, and navigation, aiming to minimize the impact of outlier measurements for improved accuracy. We present a fast algorithm for Geman-McClure robust estimation, FracGM, leveraging fractional programming techniques. This solver reformulates the original non-convex fractional problem to a convex dual problem and a linear equation system, iteratively solving them in an alternating optimization pattern. Compared to graduated non-convexity approaches, this strategy exhibits a faster convergence rate and better outlier rejection capability. In addition, the global optimality of the proposed solver can be guaranteed under given conditions. We demonstrate the proposed FracGM solver with Wahba's rotation problem and 3-D point-cloud registration along with relaxation pre-processing and projection post-processing. Compared to state-of-the-art algorithms, when the outlier rates increase from 20% to 80%, FracGM shows 53% and 88% lower rotation and translation increases. In real-world scenarios, FracGM achieves better results in 13 out of 18 outcomes, while having a 19.43% improvement in the computation time.
翻訳日:2024-11-07 04:17:38 公開日:2024-09-27
# JVID:映像生成における視覚的品質と時間的一貫性のための共同映像拡散

JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation ( http://arxiv.org/abs/2409.14149v1 )

ライセンス: Link先を確認
Hadrien Reynaud, Matthew Baugh, Mischa Dombrowski, Sarah Cechnicka, Qingjie Meng, Bernhard Kainz, (参考訳) 高品質かつ時間的に整合したビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。 本研究では,2つの拡散モデルを統合することで,画像上で訓練された潜時画像拡散モデル(LIDM)と映像データ上で訓練された潜時映像拡散モデル(LVDM)を組み合わせる。 LIDMは画像品質を高め,LVDMは時間的整合性を確保する。 このユニークな組み合わせにより、ビデオ生成における複雑な時空間力学を効果的に扱うことができる。 その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。

We introduce the Joint Video-Image Diffusion model (JVID), a novel approach to generating high-quality and temporally coherent videos. We achieve this by integrating two diffusion models: a Latent Image Diffusion Model (LIDM) trained on images and a Latent Video Diffusion Model (LVDM) trained on video data. Our method combines these models in the reverse diffusion process, where the LIDM enhances image quality and the LVDM ensures temporal consistency. This unique combination allows us to effectively handle the complex spatio-temporal dynamics in video generation. Our results demonstrate quantitative and qualitative improvements in producing realistic and coherent videos.
翻訳日:2024-11-07 03:22:12 公開日:2024-09-27
# JVID:映像生成における視覚的品質と時間的一貫性のための共同映像拡散

JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation ( http://arxiv.org/abs/2409.14149v2 )

ライセンス: Link先を確認
Hadrien Reynaud, Matthew Baugh, Mischa Dombrowski, Sarah Cechnicka, Qingjie Meng, Bernhard Kainz, (参考訳) 高品質かつ時間的に整合したビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。 本研究では,2つの拡散モデルを統合することで,画像上で訓練された潜時画像拡散モデル(LIDM)と映像データ上で訓練された潜時映像拡散モデル(LVDM)を組み合わせる。 LIDMは画像品質を高め,LVDMは時間的整合性を確保する。 このユニークな組み合わせにより、ビデオ生成における複雑な時空間力学を効果的に扱うことができる。 その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。

We introduce the Joint Video-Image Diffusion model (JVID), a novel approach to generating high-quality and temporally coherent videos. We achieve this by integrating two diffusion models: a Latent Image Diffusion Model (LIDM) trained on images and a Latent Video Diffusion Model (LVDM) trained on video data. Our method combines these models in the reverse diffusion process, where the LIDM enhances image quality and the LVDM ensures temporal consistency. This unique combination allows us to effectively handle the complex spatio-temporal dynamics in video generation. Our results demonstrate quantitative and qualitative improvements in producing realistic and coherent videos.
翻訳日:2024-11-07 03:22:11 公開日:2024-09-27
# 分散システムモデルチェックと検証のためのマルチグレード仕様

Multi-Grained Specifications for Distributed System Model Checking and Verification ( http://arxiv.org/abs/2409.14301v2 )

ライセンス: Link先を確認
Lingzhi Ouyang, Xudong Sun, Ruize Tang, Yu Huang, Madhav Jivrajani, Xiaoxing Ma, Tianyin Xu, (参考訳) 本稿では,複雑な分散コーディネーションシステムであるZooKeeperの正当性を特定し,検証した。 我々は、ZooKeeperのきめ細かい振る舞いをモデル化するためにTLA+を使用し、TLCモデルチェッカーを使用してその正しさ特性を検証する。 基本的な課題は、仕様の粒度とモデルチェックのスケーラビリティのバランスをとることです -- きめ細かい仕様は、状態空間の爆発を引き起こします。 この課題に対処するため、構成可能なモジュールの粒度が異なる仕様を作成し、特定のシナリオに基づいてそれらを混合した仕様に構成する。 例えば、コードの変更を検証するために、変更したモジュールのきめ細かい仕様と、変更されていないコードの詳細を保存されたインタラクションで抽象化する粗い仕様を作成します。 多粒度仕様を書くことは実行可能なプラクティスであり、特に変更が通常ローカルでインクリメンタルなソフトウェアを進化させるためには、状態空間を保たずにモデルコードギャップに対処できることを示します。 5種類の不変性に反する6つの重大なバグを検出し、そのコード修正を確認しました。 また、プロトコル設計を改善して、正しく実装できるようにしています。

This paper presents our experience specifying and verifying the correctness of ZooKeeper, a complex and evolving distributed coordination system. We use TLA+ to model fine-grained behaviors of ZooKeeper and use the TLC model checker to verify its correctness properties; we also check conformance between the model and code. The fundamental challenge is to balance the granularity of specifications and the scalability of model checking -- fine-grained specifications lead to state-space explosion, while coarse-grained specifications introduce model-code gaps. To address this challenge, we write specifications with different granularities for composable modules, and compose them into mixed-grained specifications based on specific scenarios. For example, to verify code changes, we compose fine-grained specifications of changed modules and coarse-grained specifications that abstract away details of unchanged code with preserved interactions. We show that writing multi-grained specifications is a viable practice and can cope with model-code gaps without untenable state space, especially for evolving software where changes are typically local and incremental. We detected six severe bugs that violate five types of invariants and verified their code fixes; the fixes have been merged to ZooKeeper. We also improve the protocol design to make it easy to implement correctly.
翻訳日:2024-11-06 23:15:03 公開日:2024-09-27
# 分散システムモデルチェックと検証のためのマルチグレード仕様

Multi-Grained Specifications for Distributed System Model Checking and Verification ( http://arxiv.org/abs/2409.14301v3 )

ライセンス: Link先を確認
Lingzhi Ouyang, Xudong Sun, Ruize Tang, Yu Huang, Madhav Jivrajani, Xiaoxing Ma, Tianyin Xu, (参考訳) 本稿では,複雑な分散コーディネーションシステムであるZooKeeperの正当性を特定し,検証した。 我々は、ZooKeeperのきめ細かい振る舞いをモデル化するためにTLA+を使用し、TLCモデルチェッカーを使用してその正しさ特性を検証する。 基本的な課題は、仕様の粒度とモデルチェックのスケーラビリティのバランスをとることです -- きめ細かい仕様は、状態空間の爆発を引き起こします。 この課題に対処するため、構成可能なモジュールの粒度が異なる仕様を作成し、特定のシナリオに基づいてそれらを混合した仕様に構成する。 例えば、コードの変更を検証するために、変更したモジュールのきめ細かい仕様と、変更されていないコードの詳細を保存されたインタラクションで抽象化する粗い仕様を作成します。 多粒度仕様を書くことは実行可能なプラクティスであり、特に変更が通常ローカルでインクリメンタルなソフトウェアを進化させるためには、状態空間を保たずにモデルコードギャップに対処できることを示します。 5種類の不変性に反する6つの重大なバグを検出し、そのコード修正を確認しました。 また、プロトコル設計を改善して、正しく実装できるようにしています。

This paper presents our experience specifying and verifying the correctness of ZooKeeper, a complex and evolving distributed coordination system. We use TLA+ to model fine-grained behaviors of ZooKeeper and use the TLC model checker to verify its correctness properties; we also check conformance between the model and code. The fundamental challenge is to balance the granularity of specifications and the scalability of model checking -- fine-grained specifications lead to state-space explosion, while coarse-grained specifications introduce model-code gaps. To address this challenge, we write specifications with different granularities for composable modules, and compose them into mixed-grained specifications based on specific scenarios. For example, to verify code changes, we compose fine-grained specifications of changed modules and coarse-grained specifications that abstract away details of unchanged code with preserved interactions. We show that writing multi-grained specifications is a viable practice and can cope with model-code gaps without untenable state space, especially for evolving software where changes are typically local and incremental. We detected six severe bugs that violate five types of invariants and verified their code fixes; the fixes have been merged to ZooKeeper. We also improve the protocol design to make it easy to implement correctly.
翻訳日:2024-11-06 23:15:03 公開日:2024-09-27
# 均一な位置同定と圧縮損失を有するLLM圧縮トークンの高効率化

More Effective LLM Compressed Tokens with Uniformly Spread Position Identifiers and Compression Loss ( http://arxiv.org/abs/2409.14364v1 )

ライセンス: Link先を確認
Runsong Zhao, Pengcheng Huang, Xinyu Liu, Chunyang Xiao, Tong Xiao, Jingbo Zhu, (参考訳) Transformer の入力を圧縮トークンに圧縮することで、高速でコスト効率のよい LLM を実行することができる。 ICAEの圧縮手法に基づいて,圧縮トークンの位置識別選択を慎重に検討し,新しい圧縮損失を提案する。 提案手法は, ICAEの4倍の圧縮率 (4倍の圧縮比) を達成すると同時に, 同等の再構成性能が得られることを示す。

Compressing Transformer inputs into compressd tokens allows running LLMs with improved speed and cost efficiency. Based on the compression method ICAE, we carefully examine the position identifier choices for compressed tokens and also propose a new compression loss. We demonstrate empirically that our proposed methods achieve significantly higher compression ratios (15x compared to 4x for ICAE), while being able to attain comparable reconstruction performance.
翻訳日:2024-11-06 23:04:03 公開日:2024-09-27
# 均一な位置同定と圧縮損失を有するLLM圧縮トークンの高効率化

More Effective LLM Compressed Tokens with Uniformly Spread Position Identifiers and Compression Loss ( http://arxiv.org/abs/2409.14364v2 )

ライセンス: Link先を確認
Runsong Zhao, Pengcheng Huang, Xinyu Liu, Chunyang Xiao, Tong Xiao, Jingbo Zhu, (参考訳) Transformer の入力を圧縮トークンに圧縮することで、高速でコスト効率のよい LLM を実行することができる。 ICAEの圧縮手法に基づいて,圧縮トークンの位置識別選択を慎重に検討し,新しい圧縮損失を提案する。 提案手法は, ICAEの4倍の圧縮率 (4倍の圧縮比) を達成すると同時に, 同等の再構成性能が得られることを示す。

Compressing Transformer inputs into compressd tokens allows running LLMs with improved speed and cost efficiency. Based on the compression method ICAE, we carefully examine the position identifier choices for compressed tokens and also propose a new compression loss. We demonstrate empirically that our proposed methods achieve significantly higher compression ratios (15x compared to 4x for ICAE), while being able to attain comparable reconstruction performance.
翻訳日:2024-11-06 23:04:03 公開日:2024-09-27
# 光ファイバー増幅器の寿命予測のためのスパース低利得セルフアテンション変換器

Sparse Low-Ranked Self-Attention Transformer for Remaining Useful Lifetime Prediction of Optical Fiber Amplifiers ( http://arxiv.org/abs/2409.14378v1 )

ライセンス: Link先を確認
Dominic Schneider, Lutz Rapp, (参考訳) 光ファイバー増幅器は、現在の光ネットワークの重要な要素である。 これらのコンポーネントの故障は、影響を受けるリンク上の通信トラフィックが中断されるため、ネットワークオペレーターの収入が著しく低下する。 予測保守(PdM)の文脈におけるRemaining useful lifetime(RUL)予測を光ファイバー増幅器に適用し、早期のシステム障害を予測することにより、目標とする保守動作の計画を通じてネットワーク障害を最小限に抑え、信頼性と安全性を確保する。 光ファイバー増幅器は複雑なシステムであり、様々な動作条件下で動作し、正確な予測が難しい。 システムの監視能力の増大は、データ駆動型RUL予測手法の適用を容易にするデータセットをもたらす。 特にディープラーニングモデルは優れた性能を示しているが、RUL予測のための比較的小さなデータセットに基づく一般化は難しい。 本稿では,Sparse Low-ranked Self-Attention Transformer (SLAT) を新しいRUL予測法として提案する。 SLATはエンコーダ-デコーダアーキテクチャに基づいており、2つの並列動作エンコーダがセンサーと時間ステップの機能を抽出する。 自己認識機構を利用することで、長期依存関係を長いシーケンスから学習することができる。 注意行列と低ランクパラメトリゼーションにおけるスパーシティの実装は、過度な適合を減らし、一般化を増大させる。 EDFAで実証された光ファイバ増幅器やターボファンエンジンからの参照データセットへの実験的応用は、SLATが最先端の手法より優れていることを示している。

Optical fiber amplifiers are key elements in present optical networks. Failures of these components result in high financial loss of income of the network operator as the communication traffic over an affected link is interrupted. Applying Remaining useful lifetime (RUL) prediction in the context of Predictive Maintenance (PdM) to optical fiber amplifiers to predict upcoming system failures at an early stage, so that network outages can be minimized through planning of targeted maintenance actions, ensures reliability and safety. Optical fiber amplifier are complex systems, that work under various operating conditions, which makes correct forecasting a difficult task. Increased monitoring capabilities of systems results in datasets that facilitate the application of data-driven RUL prediction methods. Deep learning models in particular have shown good performance, but generalization based on comparatively small datasets for RUL prediction is difficult. In this paper, we propose Sparse Low-ranked self-Attention Transformer (SLAT) as a novel RUL prediction method. SLAT is based on an encoder-decoder architecture, wherein two parallel working encoders extract features for sensors and time steps. By utilizing the self-attention mechanism, long-term dependencies can be learned from long sequences. The implementation of sparsity in the attention matrix and a low-rank parametrization reduce overfitting and increase generalization. Experimental application to optical fiber amplifiers exemplified on EDFA, as well as a reference dataset from turbofan engines, shows that SLAT outperforms the state-of-the-art methods.
翻訳日:2024-11-06 22:52:53 公開日:2024-09-27
# 光ファイバー増幅器の寿命予測のためのスパース低利得セルフアテンション変換器

Sparse Low-Ranked Self-Attention Transformer for Remaining Useful Lifetime Prediction of Optical Fiber Amplifiers ( http://arxiv.org/abs/2409.14378v2 )

ライセンス: Link先を確認
Dominic Schneider, Lutz Rapp, (参考訳) 光ファイバー増幅器は、現在の光ネットワークの重要な要素である。 これらのコンポーネントの故障は、影響を受けるリンク上の通信トラフィックが中断されるため、ネットワークオペレーターの収入が著しく低下する。 予測保守(PdM)の文脈におけるRemaining useful lifetime(RUL)予測を光ファイバー増幅器に適用し、早期のシステム障害を予測することにより、目標とする保守動作の計画を通じてネットワーク障害を最小限に抑え、信頼性と安全性を確保する。 光ファイバー増幅器は複雑なシステムであり、様々な動作条件下で動作し、正確な予測が難しい。 システムの監視能力の増大は、データ駆動型RUL予測手法の適用を容易にするデータセットをもたらす。 特にディープラーニングモデルは優れた性能を示しているが、RUL予測のための比較的小さなデータセットに基づく一般化は難しい。 本稿では,Sparse Low-ranked Self-Attention Transformer (SLAT) を新しいRUL予測法として提案する。 SLATはエンコーダ-デコーダアーキテクチャに基づいており、2つの並列動作エンコーダがセンサーと時間ステップの機能を抽出する。 自己認識機構を利用することで、長期依存関係を長いシーケンスから学習することができる。 注意行列と低ランクパラメトリゼーションにおけるスパーシティの実装は、過度な適合を減らし、一般化を増大させる。 EDFAで実証された光ファイバ増幅器やターボファンエンジンからの参照データセットへの実験的応用は、SLATが最先端の手法より優れていることを示している。

Optical fiber amplifiers are key elements in present optical networks. Failures of these components result in high financial loss of income of the network operator as the communication traffic over an affected link is interrupted. Applying Remaining useful lifetime (RUL) prediction in the context of Predictive Maintenance (PdM) to optical fiber amplifiers to predict upcoming system failures at an early stage, so that network outages can be minimized through planning of targeted maintenance actions, ensures reliability and safety. Optical fiber amplifier are complex systems, that work under various operating conditions, which makes correct forecasting a difficult task. Increased monitoring capabilities of systems results in datasets that facilitate the application of data-driven RUL prediction methods. Deep learning models in particular have shown good performance, but generalization based on comparatively small datasets for RUL prediction is difficult. In this paper, we propose Sparse Low-ranked self-Attention Transformer (SLAT) as a novel RUL prediction method. SLAT is based on an encoder-decoder architecture, wherein two parallel working encoders extract features for sensors and time steps. By utilizing the self-attention mechanism, long-term dependencies can be learned from long sequences. The implementation of sparsity in the attention matrix and a low-rank parametrization reduce overfitting and increase generalization. Experimental application to optical fiber amplifiers exemplified on EDFA, as well as a reference dataset from turbofan engines, shows that SLAT outperforms the state-of-the-art methods.
翻訳日:2024-11-06 22:52:53 公開日:2024-09-27
# PackageIntel: パッケージエコシステムにおけるインテリジェンスの自動抽出のための大規模言語モデルを活用する

PackageIntel: Leveraging Large Language Models for Automated Intelligence Extraction in Package Ecosystems ( http://arxiv.org/abs/2409.15049v2 )

ライセンス: Link先を確認
Wenbo Guo, Chengwei Liu, Limin Wang, Jiahui Wu, Zhengzi Xu, Cheng Huang, Yong Fang, Yang Liu, (参考訳) パブリックレジストリにおける悪意あるパッケージの台頭は、ソフトウェアサプライチェーン(SSC)のセキュリティに重大な脅威をもたらす。 学術や産業では、この問題に対処するためにSCA(Software composition analysis)のような手法を採用していますが、既存のアプローチでは、タイムリーで包括的なインテリジェンス更新が欠如しています。 本稿では,悪意あるパッケージインテリジェンスの収集,処理,検索に革命をもたらす新しいプラットフォームであるPackageIntelを紹介する。 徹底的な探索手法、多様なソースからの雪玉サンプリング、特別なプロンプトを備えた大規模言語モデル(LLM)を活用することにより、PackageIntelは、カバレッジ、タイムライン、精度の向上を保証する。 我々は,21の異なるインテリジェンスリポジトリから生成された20,692のNPMおよびPyPIパッケージを含む包括的データベースを開発した。 実証的な評価では、PackageIntelは98.6%の精度、F1スコアは92.0のインテリジェンス抽出を達成している。 さらに、SnykやOSVのような主要なデータベースよりも平均70%早く脅威を検出し、インテリジェンスごとに0.094ドルで費用対効果で運用する。 このプラットフォームは、下流のパッケージマネージャミラーレジストリで1,000以上の悪意あるパッケージを特定し、報告している。 この研究は、ソフトウェアサプライチェーンエコシステム内の脅威を特定し緩和するための、堅牢で効率的でタイムリーなソリューションを提供する。

The rise of malicious packages in public registries poses a significant threat to software supply chain (SSC) security. Although academia and industry employ methods like software composition analysis (SCA) to address this issue, existing approaches often lack timely and comprehensive intelligence updates. This paper introduces PackageIntel, a novel platform that revolutionizes the collection, processing, and retrieval of malicious package intelligence. By utilizing exhaustive search techniques, snowball sampling from diverse sources, and large language models (LLMs) with specialized prompts, PackageIntel ensures enhanced coverage, timeliness, and accuracy. We have developed a comprehensive database containing 20,692 malicious NPM and PyPI packages sourced from 21 distinct intelligence repositories. Empirical evaluations demonstrate that PackageIntel achieves a precision of 98.6% and an F1 score of 92.0 in intelligence extraction. Additionally, it detects threats on average 70% earlier than leading databases like Snyk and OSV, and operates cost-effectively at $0.094 per intelligence piece. The platform has successfully identified and reported over 1,000 malicious packages in downstream package manager mirror registries. This research provides a robust, efficient, and timely solution for identifying and mitigating threats within the software supply chain ecosystem.
翻訳日:2024-11-06 20:27:58 公開日:2024-09-27
# 変形性アテンション変換器を用いた拡散型RGB-Dセマンティックセマンティックセグメンテーション

Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer ( http://arxiv.org/abs/2409.15117v2 )

ライセンス: Link先を確認
Minh Bui, Kostas Alexis, (参考訳) 視覚に基づく知覚と推論は、あらゆる自律システムにおけるシーン理解に不可欠である。 RGBと深度画像は、環境の意味的特徴と幾何学的特徴の両方を捉えるために一般的に使用される。 このデータを確実に解釈する手法の開発は、しばしばノイズ測定が避けられない現実世界のアプリケーションにとって重要である。 本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。 さらに,デフォルマブルアテンション変換器をエンコーダとして利用して,奥行き画像から特徴を抽出することで,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証した。 我々の生成フレームワークは、RGB-D画像の基盤となる分布をモデル化し、差別的手法と比較して、トレーニング時間を大幅に削減した挑戦シナリオにおいて、堅牢な性能を達成することができることを示す。 実験結果から,本手法はNYUv2データセットとSUN-RGBDデータセットの両方において,特に最も困難な画像データにおいて,最先端の性能を実現することが示唆された。 私たちのプロジェクトページはhttps://diffusionmms.github.io/で公開されます。

Vision-based perception and reasoning is essential for scene understanding in any autonomous system. RGB and depth images are commonly used to capture both the semantic and geometric features of the environment. Developing methods to reliably interpret this data is critical for real-world applications, where noisy measurements are often unavoidable. In this work, we introduce a diffusion-based framework to address the RGB-D semantic segmentation problem. Additionally, we demonstrate that utilizing a Deformable Attention Transformer as the encoder to extract features from depth images effectively captures the characteristics of invalid regions in depth measurements. Our generative framework shows a greater capacity to model the underlying distribution of RGB-D images, achieving robust performance in challenging scenarios with significantly less training time compared to discriminative methods. Experimental results indicate that our approach achieves State-of-the-Art performance on both the NYUv2 and SUN-RGBD datasets in general and especially in the most challenging of their image data. Our project page will be available at https://diffusionmms.github.io/
翻訳日:2024-11-06 20:27:58 公開日:2024-09-27
# RAMBO: RAGベースのレポジトリ-レベルメソッドボディコンプリートを強化

RAMBO: Enhancing RAG-based Repository-Level Method Body Completion ( http://arxiv.org/abs/2409.15204v2 )

ライセンス: Link先を確認
Tuan-Dung Bui, Duc-Thieu Luu-Van, Thanh-Phat Nguyen, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo, (参考訳) コード補完はソフトウェア開発において必須であり、コンテキストに基づいてコードスニペットを予測することで開発者を支援する。 完了タスクの中で、メソッドボディコンプリート(MBC)は、そのシグネチャとコンテキストに基づいて、完全なメソッドボディを生成するため、特に難しい。 メソッド本体はカスタムAPIやモジュール間の依存関係、プロジェクト固有の規約といったリポジトリ固有の要素を統合する必要がある。 本稿では,レポジトリレベルのMBCのための新しいRAGベースのアプローチであるRAMBOを紹介する。 類似したメソッドボディを取得する代わりに、RAMBOはクラス、メソッド、変数/フィールドなど、レポジトリ固有の要素とその関連する使用法を識別する。 これらの要素とその関連する使用法をコード生成プロセスに組み込むことで、RAMBOはより正確で文脈的に関連するメソッドボディを保証する。 40のJavaプロジェクトにわたるコードLLMによる実験結果は、RAMBOが最先端のリポジトリレベルのMBCアプローチを著しく上回り、BLEUが46%、CodeBLEUが57%、コンパイルレートが36%、Exact Matchが3倍に向上したことを示している。 特に、RAMBOはRepoCoderのOracleメソッドをExact Matchで最大12%上回り、リポジトリレベルのMBCの新しいベンチマークを設定した。

Code completion is essential in software development, helping developers by predicting code snippets based on context. Among completion tasks, Method Body Completion (MBC) is particularly challenging as it involves generating complete method bodies based on their signatures and context. This task becomes significantly harder in large repositories, where method bodies must integrate repositoryspecific elements such as custom APIs, inter-module dependencies, and project-specific conventions. In this paper, we introduce RAMBO, a novel RAG-based approach for repository-level MBC. Instead of retrieving similar method bodies, RAMBO identifies essential repository-specific elements, such as classes, methods, and variables/fields, and their relevant usages. By incorporating these elements and their relevant usages into the code generation process, RAMBO ensures more accurate and contextually relevant method bodies. Our experimental results with leading code LLMs across 40 Java projects show that RAMBO significantly outperformed the state-of-the-art repository-level MBC approaches, with the improvements of up to 46% in BLEU, 57% in CodeBLEU, 36% in Compilation Rate, and up to 3X in Exact Match. Notably, RAMBO surpassed RepoCoder Oracle method by up to 12% in Exact Match, setting a new benchmark for repository-level MBC.
翻訳日:2024-11-06 20:27:58 公開日:2024-09-27
# 近傍ニューラルネットワークを用いた貯留層定常特性の推定

Reservoir Static Property Estimation Using Nearest-Neighbor Neural Network ( http://arxiv.org/abs/2409.15295v1 )

ライセンス: Link先を確認
Yuhe Wang, (参考訳) 本稿では, 近接ニューラルネットワークを用いた貯留層モデルにおける静的特性の空間分布の推定手法を提案する。 この手法は複雑な非線形関数の近似におけるニューラルネットワークの強み、特に空間補間を含むタスクに有効である。 このアルゴリズムは、データポイント間の局所的な空間関係を捉え、補間過程に固有の不確かさを定量化するためにランダム化を導入する。 このアプローチは、逆距離重み付け(IDW)やクリギング(Kriging)のような従来の統計手法の制限に対処する。 空間的近接性と不確かさの定量化を統合することにより、ポーシティや透水性といった静的な特性予測の精度を向上させることができる。

This note presents an approach for estimating the spatial distribution of static properties in reservoir modeling using a nearest-neighbor neural network. The method leverages the strengths of neural networks in approximating complex, non-linear functions, particularly for tasks involving spatial interpolation. It incorporates a nearest-neighbor algorithm to capture local spatial relationships between data points and introduces randomization to quantify the uncertainty inherent in the interpolation process. This approach addresses the limitations of traditional geostatistical methods, such as Inverse Distance Weighting (IDW) and Kriging, which often fail to model the complex non-linear dependencies in reservoir data. By integrating spatial proximity and uncertainty quantification, the proposed method can improve the accuracy of static property predictions like porosity and permeability.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-27
# 近傍ニューラルネットワークを用いた貯留層定常特性の推定

Reservoir Static Property Estimation Using Nearest-Neighbor Neural Network ( http://arxiv.org/abs/2409.15295v2 )

ライセンス: Link先を確認
Yuhe Wang, (参考訳) 本稿では, 近接ニューラルネットワークを用いた貯留層モデルにおける静的特性の空間分布の推定手法を提案する。 この手法は複雑な非線形関数の近似におけるニューラルネットワークの強み、特に空間補間を含むタスクに有効である。 このアルゴリズムは、データポイント間の局所的な空間関係を捉え、補間過程に固有の不確かさを定量化するためにランダム化を導入する。 このアプローチは、逆距離重み付け(IDW)やクリギング(Kriging)のような従来の統計手法の制限に対処する。 空間的近接性と不確かさの定量化を統合することにより、ポーシティや透水性といった静的な特性予測の精度を向上させることができる。

This note presents an approach for estimating the spatial distribution of static properties in reservoir modeling using a nearest-neighbor neural network. The method leverages the strengths of neural networks in approximating complex, non-linear functions, particularly for tasks involving spatial interpolation. It incorporates a nearest-neighbor algorithm to capture local spatial relationships between data points and introduces randomization to quantify the uncertainty inherent in the interpolation process. This approach addresses the limitations of traditional geostatistical methods, such as Inverse Distance Weighting (IDW) and Kriging, which often fail to model the complex non-linear dependencies in reservoir data. By integrating spatial proximity and uncertainty quantification, the proposed method can improve the accuracy of static property predictions like porosity and permeability.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-27
# Frechet Audio Distanceによる音楽における感情バイアスの再考

Rethinking Emotion Bias in Music via Frechet Audio Distance ( http://arxiv.org/abs/2409.15545v2 )

ライセンス: Link先を確認
Yuanchao Li, Azalea Gui, Dimitra Emmanouilidou, Hannes Gamper, (参考訳) 音楽感情の主観的性質は、認識と生成の両方に固有のバイアスをもたらす。 本研究では,Frechet Audio Distance(FAD)とともに,多様なオーディオエンコーダを用いた音楽感情認識(MER)と感情音楽生成(EMG)の研究を行う。 本研究は、MERのベンチマーク評価から始まり、単一のオーディオエンコーダを用いた場合の限界と、異なる測定値間で観測される相違について強調する。 次に、複数のエンコーダからFADを用いてMER演奏の評価を行い、より客観的な音楽感情の測定方法を提案する。 さらに、生成した音楽の感情の変化と卓越性を改善し、現実性を高めるために、改良されたEMGアプローチを導入する。 さらに,2つのベースラインモデルとEMGモデルを比較し,実音楽と合成音楽で伝達される感情間のリアリズムの相違について検討した。 実験結果から,MERとEMGの双方の感情バイアス問題を明らかにし,FADと多様なオーディオエンコーダを用いて音楽感情を客観的に評価する可能性を実証した。

The subjective nature of music emotion introduces inherent bias in both recognition and generation, especially when relying on a single audio encoder, emotion classifier, or evaluation metric. In this work, we conduct a study on Music Emotion Recognition (MER) and Emotional Music Generation (EMG), employing diverse audio encoders alongside the Frechet Audio Distance (FAD), a reference-free evaluation metric. Our study begins with a benchmark evaluation of MER, highlighting the limitations associated with using a single audio encoder and the disparities observed across different measurements. We then propose assessing MER performance using FAD from multiple encoders to provide a more objective measure of music emotion. Furthermore, we introduce an enhanced EMG approach designed to improve both the variation and prominence of generated music emotion, thus enhancing realism. Additionally, we investigate the realism disparities between the emotions conveyed in real and synthetic music, comparing our EMG model against two baseline models. Experimental results underscore the emotion bias problem in both MER and EMG and demonstrate the potential of using FAD and diverse audio encoders to evaluate music emotion objectively.
翻訳日:2024-11-06 19:43:38 公開日:2024-09-27
# 大規模視覚変換器を用いたグラム染色式血液培養スライスの自動評価のための新しいフレームワーク

A Novel Framework for the Automated Characterization of Gram-Stained Blood Culture Slides Using a Large-Scale Vision Transformer ( http://arxiv.org/abs/2409.15546v2 )

ライセンス: Link先を確認
Jack McMahon, Naofumi Tomita, Elizabeth S. Tatishev, Adrienne A. Workman, Cristina R Costales, Niaz Banaei, Isabella W. Martin, Saeed Hassanpour, (参考訳) 本研究では,グラムスライディング画像(WSI)の人工知能による特徴付けのための新しい枠組みを提案する。 血液ストリーム感染症の診断試験として、グラム染色は患者の治療に重要な早期データを提供する。 グラム染色の迅速かつ信頼性の高い解析は、より良い臨床結果に肯定的な関連があることが示され、グラム染色分析を自動化するための改善ツールの必要性が強調されている。 本研究では,従来の畳み込みニューラルネットワーク(CNN)ベースの手法よりも大規模なデータセットに対して,パッチレベルの手動アノテーションを必要としないため,よりスケーラブルなGram-stained WSI分類のための新しいトランスフォーマーベースモデルを開発した。 また、ダートマス・ヒッチコック医療センター(アメリカ合衆国ニューハンプシャー州レバノン)の大規模なグラム染色データセットを導入し、グラム染色WSIの5つの主要カテゴリの分類について検討した:クラスタにおけるグラム陽性コッチ、ペア/チェーンにおけるグラム陽性コッチ、グラム陽性ロッド、グラム陰性ロッド、細菌のないスライド。 本モデルでは, 475-slideデータセット上の5倍のネスト型クロスバリデーションを用いて, 0.858 (95% CI: 0.805, 0.905) と0.952 (95% CI: 0.922, 0.976) の AUC の分類精度を実現し, グラム染色分類における大規模トランスフォーマモデルの可能性を示した。 さらに、トレーニングされたモデルの一般化性を実証し、追加の微調整をすることなく、外部データセット上での強力なパフォーマンスを実現する。

This study introduces a new framework for the artificial intelligence-assisted characterization of Gram-stained whole-slide images (WSIs). As a test for the diagnosis of bloodstream infections, Gram stains provide critical early data to inform patient treatment. Rapid and reliable analysis of Gram stains has been shown to be positively associated with better clinical outcomes, underscoring the need for improved tools to automate Gram stain analysis. In this work, we developed a novel transformer-based model for Gram-stained WSI classification, which is more scalable to large datasets than previous convolutional neural network (CNN) -based methods as it does not require patch-level manual annotations. We also introduce a large Gram stain dataset from Dartmouth-Hitchcock Medical Center (Lebanon, New Hampshire, USA) to evaluate our model, exploring the classification of five major categories of Gram-stained WSIs: Gram-positive cocci in clusters, Gram-positive cocci in pairs/chains, Gram-positive rods, Gram-negative rods, and slides with no bacteria. Our model achieves a classification accuracy of 0.858 (95% CI: 0.805, 0.905) and an AUC of 0.952 (95% CI: 0.922, 0.976) using five-fold nested cross-validation on our 475-slide dataset, demonstrating the potential of large-scale transformer models for Gram stain classification. We further demonstrate the generalizability of our trained model, which achieves strong performance on external datasets without additional fine-tuning.
翻訳日:2024-11-06 19:43:38 公開日:2024-09-27
# CauSkelNet:人間の行動分析のための因果表現学習

CauSkelNet: Causal Representation Learning for Human Behaviour Analysis ( http://arxiv.org/abs/2409.15564v2 )

ライセンス: Link先を確認
Xingrui Gu, Chuyi Jiang, Erte Wang, Zekun Wu, Qiang Cui, Leimin Tian, Lianlong Wu, Siyang Song, Chuang Yu, (参考訳) 従来の運動認識機械学習手法では,モデル解釈可能性の欠如と人間の動きの深い理解に制約され,因果推論に基づく表現学習手法を導入し,人間の関節のダイナミクスや複雑な動作をよりよく理解する。 本稿では,Peter-Clark (PC) アルゴリズムとKullback-Leibler (KL) の分岐を組み合わせた2段階のフレームワークを提案し,関節間の因果関係の同定と定量化を行う。 本手法は,対話を効果的に捉え,解釈可能な頑健な表現を生成する。 EmoPainデータセットの実験から、私たちの因果GCNは従来のGCNよりも精度、F1スコア、リコール、特に保護行動の検出において優れています。 また、このモデルはデータスケールの変更に対して非常に不変であり、実用アプリケーションにおける信頼性を高めている。 我々のアプローチは、人間の動作分析を前進させ、より適応的なインテリジェントヘルスケアソリューションの道を開く。

Constrained by the lack of model interpretability and a deep understanding of human movement in traditional movement recognition machine learning methods, this study introduces a novel representation learning method based on causal inference to better understand human joint dynamics and complex behaviors. We propose a two-stage framework that combines the Peter-Clark (PC) algorithm and Kullback-Leibler (KL) divergence to identify and quantify causal relationships between joints. Our method effectively captures interactions and produces interpretable, robust representations. Experiments on the EmoPain dataset show that our causal GCN outperforms traditional GCNs in accuracy, F1 score, and recall, especially in detecting protective behaviors. The model is also highly invariant to data scale changes, enhancing its reliability in practical applications. Our approach advances human motion analysis and paves the way for more adaptive intelligent healthcare solutions.
翻訳日:2024-11-06 19:32:29 公開日:2024-09-27
# デジェネリアシー境界グラフの局所微分プライバシーに基づくサイクルカウント

Cycle Counting under Local Differential Privacy for Degeneracy-bounded Graphs ( http://arxiv.org/abs/2409.16688v2 )

ライセンス: Link先を確認
Quentin Hillebrand, Vorapong Suppakitpaisarn, Tetsuo Shibuya, (参考訳) そこで本稿では,デジェネリティーに縛られた入力グラフに対して,局所的な差分プライバシーの下でサイクル数をカウントするアルゴリズムを提案する。 多くの研究は、プライバシーの概念の下で三角形の数を数えることに重点を置いており、これらのアルゴリズムの期待$\ell_2$-errorが$\Omega(n^{1.5})$であることを示す。 長さ 4 (C_4$) のサイクル数によってパラメータ化されるとき、最良の三角法カウントアルゴリズムは、$O(n^{1.5} + \sqrt{C_4}) = O(n^2)$の誤差を持つ。 本稿では,$\ell_2$-error of $O(\delta^{1.5} n^{0.5} + \delta^{0.5} d_{\max}^{0.5} n^{0.5})$, $\delta$ is the degeneracy and $d_{\max}$ is the maximum degree of the graphを紹介する。 実用的なソーシャルネットワークで一般的に見られる退化性有界グラフ(\delta \in \Theta(1)$)に対して、我々のアルゴリズムは$O(d_{\max}^{0.5} n^{0.5}) = O(n)$の$\ell_2$-errorを達成する。 我々のアルゴリズムの中核的な考え方は、全てのノードの次数をほぼソートする前処理ステップに続く正確な三角形の数である。 このアプローチは、同じ$\ell_2$-error、すなわち$O(\delta^{(k-2)/2} d_{\max}^{0.5} n^{(k-2)/2} + \delta^{k/2} n^{(k-2)/2})$または$O(d_{\max}^{0.5} n^{(k-2)/2}) = O(n^{(k-1)/2})$を維持して長さ$k$のサイクル数を近似するために拡張することができる。

We propose an algorithm for counting the number of cycles under local differential privacy for degeneracy-bounded input graphs. Numerous studies have focused on counting the number of triangles under the privacy notion, demonstrating that the expected $\ell_2$-error of these algorithms is $\Omega(n^{1.5})$, where $n$ is the number of nodes in the graph. When parameterized by the number of cycles of length four ($C_4$), the best existing triangle counting algorithm has an error of $O(n^{1.5} + \sqrt{C_4}) = O(n^2)$. In this paper, we introduce an algorithm with an expected $\ell_2$-error of $O(\delta^{1.5} n^{0.5} + \delta^{0.5} d_{\max}^{0.5} n^{0.5})$, where $\delta$ is the degeneracy and $d_{\max}$ is the maximum degree of the graph. For degeneracy-bounded graphs ($\delta \in \Theta(1)$) commonly found in practical social networks, our algorithm achieves an expected $\ell_2$-error of $O(d_{\max}^{0.5} n^{0.5}) = O(n)$. Our algorithm's core idea is a precise count of triangles following a preprocessing step that approximately sorts the degree of all nodes. This approach can be extended to approximate the number of cycles of length $k$, maintaining a similar $\ell_2$-error, namely $O(\delta^{(k-2)/2} d_{\max}^{0.5} n^{(k-2)/2} + \delta^{k/2} n^{(k-2)/2})$ or $O(d_{\max}^{0.5} n^{(k-2)/2}) = O(n^{(k-1)/2})$ for degeneracy-bounded graphs.
翻訳日:2024-11-06 17:20:02 公開日:2024-09-27
# 多視点擬似ラベル音声からの半教師付き認知状態分類

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling ( http://arxiv.org/abs/2409.16937v2 )

ライセンス: Link先を確認
Yuanchao Li, Zixing Zhang, Jing Han, Peter Bell, Catherine Lai, (参考訳) ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類のような広範囲な主観的評価を必要とするタスクにおいて共通の課題である。 本研究では,音響特性と言語特性を両立させる多視点擬似ラベル手法を導入し,分類モデルの学習に最も自信のあるデータを選択することを目的とした,半教師付き学習(SSL)フレームワークを提案する。 複数のオーディオエンコーダが生成した埋め込みから算出したFrechetオーディオ距離を用いてラベル付きデータをラベル付きデータと比較する。 言語学的には,提案したタスク固有知識に基づいて音声認識の書き起こしやラベルの予測を行うために,大規模言語モデルが促される。 両情報源からの擬似ラベルが一致したときには、高信頼データを識別し、ミスマッチを低信頼データとして扱う。 バイモーダル分類器は、予め定義された基準を満たすまで、低信頼データを反復的にラベル付けするように訓練される。 感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。 実験の結果,ラベル付きデータの30%しか使用していない完全教師付き学習と比較して競争性能が向上し,選択した2つのベースラインを著しく上回ることがわかった。

The lack of labeled data is a common challenge in speech classification tasks, particularly those requiring extensive subjective assessment, such as cognitive state classification. In this work, we propose a Semi-Supervised Learning (SSL) framework, introducing a novel multi-view pseudo-labeling method that leverages both acoustic and linguistic characteristics to select the most confident data for training the classification model. Acoustically, unlabeled data are compared to labeled data using the Frechet audio distance, calculated from embeddings generated by multiple audio encoders. Linguistically, large language models are prompted to revise automatic speech recognition transcriptions and predict labels based on our proposed task-specific knowledge. High-confidence data are identified when pseudo-labels from both sources align, while mismatches are treated as low-confidence data. A bimodal classifier is then trained to iteratively label the low-confidence data until a predefined criterion is met. We evaluate our SSL framework on emotion recognition and dementia detection tasks. Experimental results demonstrate that our method achieves competitive performance compared to fully supervised learning using only 30% of the labeled data and significantly outperforms two selected baselines.
翻訳日:2024-11-06 17:10:14 公開日:2024-09-27
# 非弾性クーパー対トンネル増幅器(ICTA)におけるバイアス電圧ノイズの影響

Influence of bias voltage noise on the Inelastic Cooper-Pair Tunneling Amplifier (ICTA) ( http://arxiv.org/abs/2409.18349v1 )

ライセンス: Link先を確認
Ulrich Martel, Romain Albert, Florian Blanchet, Joël Griesmar, Gabriel Ouellet, Hugo Therrien, Naveen Nehra, Nicolas Bourlet, Max Hofheinz, (参考訳) 実験により、直流パラメトリック増幅方式を実装した非弾性クーパー対トンネル増幅器(ICTA)は、ジョセフソンパラメトリック増幅器と同様の利得と雑音性能が得られることを示した。 実験データとシミュレーションを用いて,超伝導フラックス量子で分割された積分電圧バイアスノイズが増幅帯域以下である限り,ICTAは準量子限界雑音を有することを示す。 周波数として表される積分電圧ノイズの半分の幅のフル幅が5.6MHzである場合、ノイズが1.7倍以下の20dBのゲインを観測する。

We experimentally show that the Inelastic Cooper-Pair Tunneling Amplifier (ICTA), implementing a DC-powered parametric amplification scheme, can achieve gain and noise performance similar to that of Josephson parametric amplifiers. Using experimental data and simulations, we show that the ICTA has near-quantum-limited noise as long as the integral voltage bias noise divided by the superconducting flux quantum is below the amplification bandwidth. We observe a gain of 20 dB with noise below 1.7 times the quantum limit when the full width at half maximum of the integral voltage noise, expressed as frequency, is 5.6 MHz.
翻訳日:2024-11-06 06:50:51 公開日:2024-09-27
# ソフトウェアセキュリティトピックの追跡

Tracking Software Security Topics ( http://arxiv.org/abs/2409.18351v1 )

ライセンス: Link先を確認
Phong Minh Vu, Tung Thanh Nguyen, (参考訳) ソフトウェアセキュリティインシデントは毎日発生し、毎月何千ものソフトウェアセキュリティレポートが発表されている。 したがって、ソフトウェアセキュリティ研究者、エンジニア、その他のステークホルダーが、ソフトウェアセキュリティに関するトピックをリアルタイムで追跡することは困難である。 本稿では,この問題に対する新しいツールであるSOSKを提案する。 SOSKは、ユーザーがソフトウェアセキュリティレポートのコレクションをインポートすることを可能にする。 レポートのテキスト記述から最も重要なキーワードを前処理し、抽出する。 キーワードの埋め込みベクトルの類似性に基づいて、SOSKは、はるかに小さなユーザが提供するキーワードセットから設定されたキーワードを拡張または/または洗練することができる。 したがって、SOSKはユーザーが興味のあるトピックを定義し、そのトピックに関連するセキュリティレポートを効果的に検索することを可能にする。 予備評価の結果,SOSKはキーワードを拡張し,ユーザ要求に関連するレポートを検索できることがわかった。

Software security incidents occur everyday and thousands of software security reports are announced each month. Thus, it is difficult for software security researchers, engineers, and other stakeholders to follow software security topics of their interests in real-time. In this paper, we propose, SOSK, a novel tool for this problem. SOSK allows a user to import a collection of software security reports. It pre-processes and extracts the most important keywords from the textual description of the reports. Based on the similarity of embedding vectors of keywords, SOSK can expand and/or refine a keyword set from a much smaller set of user-provided keywords. Thus, SOSK allows users to define any topic of their interests and retrieve security reports relevant to that topic effectively. Our preliminary evaluation shows that SOSK can expand keywords and retrieve reports relevant to user requests.
翻訳日:2024-11-06 06:50:51 公開日:2024-09-27
# SinoSynth: 一般化可能なCBCT画像強調のための物理に基づくドメインランダム化手法

SinoSynth: A Physics-based Domain Randomization Approach for Generalizable CBCT Image Enhancement ( http://arxiv.org/abs/2409.18355v1 )

ライセンス: Link先を確認
Yunkui Pang, Yilin Liu, Xu Chen, Pew-Thian Yap, Jun Lian, (参考訳) Cone Beam Computed Tomography (CBCT) は医学に様々な応用がある。 CBCTスキャンの高画質化は、正確な診断と治療のデリバリに不可欠である。 しかし、CBCT画像のノイズやアーティファクトへの感受性は、その有用性と信頼性の両方を損なう。 既存の方法は通常、画像から画像への変換アプローチを通じてCBCTアーティファクトに対処する。 しかし、これらの手法はトレーニングデータに存在するアーティファクトタイプによって制限されており、画像プロトコルの変動に起因するCBCT劣化の完全なスペクトルをカバーしていない可能性がある。 すべてのシナリオを含む追加データを取得することは、しばしば課題となる。 そこで本研究では,様々なCBCT固有のアーティファクトをシミュレートした物理モデルであるSinoSynthを提案する。 広範にわたる実験により、合成データに基づいてトレーニングされた複数の異なる生成ネットワークが、異種多施設データセットにおいて顕著な結果をもたらし、実際のデータでトレーニングされた同じネットワークよりも優れた性能を示すことを示した。 さらに, この劣化モデルは, 条件付き生成モデルにおいて解剖学的制約を強制する手段として有用であり, 高品質かつ構造保存された合成CT画像が得られることを示す。

Cone Beam Computed Tomography (CBCT) finds diverse applications in medicine. Ensuring high image quality in CBCT scans is essential for accurate diagnosis and treatment delivery. Yet, the susceptibility of CBCT images to noise and artifacts undermines both their usefulness and reliability. Existing methods typically address CBCT artifacts through image-to-image translation approaches. These methods, however, are limited by the artifact types present in the training data, which may not cover the complete spectrum of CBCT degradations stemming from variations in imaging protocols. Gathering additional data to encompass all possible scenarios can often pose a challenge. To address this, we present SinoSynth, a physics-based degradation model that simulates various CBCT-specific artifacts to generate a diverse set of synthetic CBCT images from high-quality CT images without requiring pre-aligned data. Through extensive experiments, we demonstrate that several different generative networks trained on our synthesized data achieve remarkable results on heterogeneous multi-institutional datasets, outperforming even the same networks trained on actual data. We further show that our degradation model conveniently provides an avenue to enforce anatomical constraints in conditional generative models, yielding high-quality and structure-preserving synthetic CT images.
翻訳日:2024-11-06 06:50:51 公開日:2024-09-27
# FedDCL:フェデレーション学習とデータコラボレーションに基づくハイブリッド型プライバシ保護フレームワーク

FedDCL: a federated data collaboration learning as a hybrid-type privacy-preserving framework based on federated learning and data collaboration ( http://arxiv.org/abs/2409.18356v1 )

ライセンス: Link先を確認
Akira Imakura, Tetsuya Sakurai, (参考訳) 近年,複数の機関が生データを共有せずに保持するデータの統合分析を可能にするプライバシー保護統合分析として,フェデレーション学習が注目されている。 一方,フェデレーテッド・ラーニングでは,機関間の反復的なコミュニケーションが必要であり,外部との継続的なコミュニケーションが極めて困難である状況において,実装に大きな課題がある。 本研究では,フェデレーション学習と最近提案された非モデル共有型フェデレーション学習をデータコラボレーション分析として組み合わせることで,そのようなコミュニケーション問題を解決するフェデレーションデータ協調学習(FedDCL)を提案する。 提案するFedDCLフレームワークでは,各利用者機関が独立に次元再現型中間表現を構築し,グループ内DCサーバ上で近隣機関と共有する。 各グループ内のDCサーバでは、中間表現はコラボレート表現と呼ばれる組込み可能な形式に変換される。 その後、グループ内のDCサーバ間でフェデレーション学習が行われる。 提案するFedDCLフレームワークは,ユーザ機関による反復的な通信を必要としないため,外部との継続的な通信が極めて困難である状況でも実装可能である。 実験の結果,提案したFedDCLの性能は,既存のフェデレーション学習に匹敵することがわかった。

Recently, federated learning has attracted much attention as a privacy-preserving integrated analysis that enables integrated analysis of data held by multiple institutions without sharing raw data. On the other hand, federated learning requires iterative communication across institutions and has a big challenge for implementation in situations where continuous communication with the outside world is extremely difficult. In this study, we propose a federated data collaboration learning (FedDCL), which solves such communication issues by combining federated learning with recently proposed non-model share-type federated learning named as data collaboration analysis. In the proposed FedDCL framework, each user institution independently constructs dimensionality-reduced intermediate representations and shares them with neighboring institutions on intra-group DC servers. On each intra-group DC server, intermediate representations are transformed to incorporable forms called collaboration representations. Federated learning is then conducted between intra-group DC servers. The proposed FedDCL framework does not require iterative communication by user institutions and can be implemented in situations where continuous communication with the outside world is extremely difficult. The experimental results show that the performance of the proposed FedDCL is comparable to that of existing federated learning.
翻訳日:2024-11-06 06:50:51 公開日:2024-09-27
# 流体の高速かつ高精度な統計的計算のための生成AI

Generative AI for fast and accurate Statistical Computation of Fluids ( http://arxiv.org/abs/2409.18359v1 )

ライセンス: Link先を確認
Roberto Molinaro, Samuel Lanthaler, Bogdan Raonić, Tobias Rohner, Victor Armegioiu, Zhong Yi Wan, Fei Sha, Siddhartha Mishra, Leonardo Zepeda-Núñez, (参考訳) 本稿では,3次元乱流の高速,高精度,ロバストな統計計算を行うための生成AIアルゴリズムを提案する。 GenCFDと呼ばれる我々のアルゴリズムは条件付きスコアベース拡散モデルに基づいている。 我々は, 圧縮性流体と圧縮性流体の両方を用いた広範囲な数値実験を通じて, GenCFDが, 平均, 分散, 点pdf, 高次モーメントなどの統計量の非常に正確な近似を提供するとともに, 乱流の高品質な実例を生成し, 優れたスペクトル分解能を確保することを実証した。 対照的に、平均(絶対)二乗誤差を最小化するために訓練された演算子学習ベースラインのアンサンブルは、平均フローに回帰する。 拡散モデルが流体の流れを正確に生成する驚くべきメカニズムを明らかにするための厳密な理論的結果を示す。 これらのメカニズムは、明示的な解析式に順応しつつ、乱流の関連する特徴を示す可溶性おもちゃモデルで説明される。

We present a generative AI algorithm for addressing the challenging task of fast, accurate and robust statistical computation of three-dimensional turbulent fluid flows. Our algorithm, termed as GenCFD, is based on a conditional score-based diffusion model. Through extensive numerical experimentation with both incompressible and compressible fluid flows, we demonstrate that GenCFD provides very accurate approximation of statistical quantities of interest such as mean, variance, point pdfs, higher-order moments, while also generating high quality realistic samples of turbulent fluid flows and ensuring excellent spectral resolution. In contrast, ensembles of operator learning baselines which are trained to minimize mean (absolute) square errors regress to the mean flow. We present rigorous theoretical results uncovering the surprising mechanisms through which diffusion models accurately generate fluid flows. These mechanisms are illustrated with solvable toy models that exhibit the relevant features of turbulent fluid flows while being amenable to explicit analytical formulas.
翻訳日:2024-11-06 06:50:51 公開日:2024-09-27
# 分散型ソーシャルネットワークにおけるデータプライバシ保護アーキテクチャ

Architecture for Protecting Data Privacy in Decentralized Social Networks ( http://arxiv.org/abs/2409.18360v1 )

ライセンス: Link先を確認
Quang Cao, Katerina Vgena, Aikaterini-Georgia Mavroeidi, Christos Kalloniatis, Xun Yi, Son Hoang Dau, (参考訳) 中央集権型ソーシャルネットワークは、私たちのデジタル時代のコミュニケーション、コネクション、情報共有情報に変革的な影響を与えてきた。 しかし、ユーザーのプライバシーや個人の権利に関する懸念も持ち上がっている。 これらの懸念に応えて,Access Control Smart Contractsによって完成したブロックチェーン技術と分散ストレージネットワークを活用した,分散ソーシャルネットワークを提案する。 最初のフェーズは、総合的な文献レビュー、分散化されたソーシャルネットワークへの探究、レビュー方法論の説明、結果の提示を含む。 これらの知見と過去の研究ギャップの分析に基づいて、分散化されたソーシャルネットワークのための新しいアーキテクチャを提案する。 結論として、主要な結果は、ユーザのプライバシを保護するために分散化されたソーシャルネットワークの利点を強調します。 さらに、ユーザは、GDPR(General Data Protection Regulation)に従って、投稿された情報に対して、すべての権利を持つ。

Centralized social networks have experienced a transformative impact on our digital era communication, connection, and information-sharing information. However, it has also raised significant concerns regarding users' privacy and individual rights. In response to these concerns, this paper proposes a novel Decentralized Social Network employing Blockchain technology and Decentralized Storage Networks completed by Access Control Smart Contracts. The initial phase comprises a comprehensive literature review, delving into decentralized social networks, explaining the review methodology, and presenting the resulting findings. Building upon these findings and an analysis of previous research gaps, we propose a novel architecture for decentralized social networks. In conclusion, the principal results highlight the benefit of our decentralized social network to protect user privacy. Moreover, the users have all rights to their posted information following the General Data Protection Regulation (GDPR).
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# コンテンツに基づく特徴量による欠陥予測

Defect Prediction with Content-based Features ( http://arxiv.org/abs/2409.18365v1 )

ライセンス: Link先を確認
Hung Viet Pham, Tung Thanh Nguyen, (参考訳) 従来の欠陥予測アプローチでは、ソースファイル内のコード行数など、ソフトウェアシステムの設計や実装の複雑さを測定するメトリクスを使用することが多い。 本稿では,ソースコードの内容に基づく異なるアプローチについて検討する。 私たちの重要な前提は、ソフトウェアシステムのソースコードには、その技術的側面に関する情報が含まれており、それらの側面は、欠陥発生のレベルが異なるかもしれないということです。 したがって、ソースコードファイルから抽出された単語、トピック、データタイプ、パッケージ名などのコンテンツベースの機能を使用して、その欠陥を予測することができる。 我々は広範な経験的評価を行い、以下の結果を得た。 一 この内容に基づく特徴は、コードの複雑さの指標よりも高い予測力を有する。 二 特徴選択、縮小及び組み合わせの使用により、予測性能がさらに向上する。

Traditional defect prediction approaches often use metrics that measure the complexity of the design or implementing code of a software system, such as the number of lines of code in a source file. In this paper, we explore a different approach based on content of source code. Our key assumption is that source code of a software system contains information about its technical aspects and those aspects might have different levels of defect-proneness. Thus, content-based features such as words, topics, data types, and package names extracted from a source code file could be used to predict its defects. We have performed an extensive empirical evaluation and found that: i) such content-based features have higher predictive power than code complexity metrics and ii) the use of feature selection, reduction, and combination further improves the prediction performance.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# 高速なランダム化動的デカップリング

Faster Randomized Dynamical Decoupling ( http://arxiv.org/abs/2409.18369v1 )

ライセンス: Link先を確認
Changhao Yi, Leeseok Kim, Milad Marvian, (参考訳) 本稿では、任意の決定論的DDの性能を2つ以上の追加パルスを用いることで改善する、ランダム化された動的疎結合(DD)プロトコルを提案する。 提案手法はパルス列を確率的に適用することにより実現し,結合強度と線形にスケールする誤差項を効果的に除去する。 その結果、数個のパルスを用いたランダム化プロトコルは、かなり多くのパルスを必要とする決定論的DDプロトコルよりも優れていることを示した。 さらに,従来最適と考えられていたUhrig DDなど,システムのヒルベルト空間における誤りの低減を目的とした決定論的DDシーケンスと比較して,乱数化プロトコルが改善することを示す。 性能を厳格に評価するために,独立性のある高次DDプロトコルの解析に適した新しい解析手法を提案する。 また,広く使われている決定論的プロトコルと比較して,ランダム化プロトコルの利点を裏付ける数値シミュレーションを行った。

We present a randomized dynamical decoupling (DD) protocol that can improve the performance of any given deterministic DD, by using no more than two additional pulses. Our construction is implemented by probabilistically applying sequences of pulses, which, when combined, effectively eliminate the error terms that scale linearly with the system-environment coupling strength. As a result, we show that a randomized protocol using a few pulses can outperform deterministic DD protocols that require considerably more pulses. Furthermore, we prove that the randomized protocol provides an improvement compared to deterministic DD sequences that aim to reduce the error in the system's Hilbert space, such as Uhrig DD, which had been previously regarded to be optimal. To rigorously evaluate the performance, we introduce new analytical methods suitable for analyzing higher-order DD protocols that might be of independent interest. We also present numerical simulations confirming the significant advantage of using randomized protocols compared to widely used deterministic protocols.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# 不均一媒質中の粘弾性波動方程式の発見と反転

Discovery and inversion of the viscoelastic wave equation in inhomogeneous media ( http://arxiv.org/abs/2409.18370v1 )

ライセンス: Link先を確認
Su Chen, Yi Ding, Hiroe Miyake, Xiaojun Li, (参考訳) 科学機械学習において、偏微分方程式をスパースデータとノイズデータから正確に識別するタスクは重要な課題である。 現在のスパース回帰法はスパースおよびノイズデータセット上の不正確な方程式を特定でき、様々な係数には適さない。 この問題に対処するために,探索と埋め込みという2つの交互方向最適化フェーズを組み合わせたハイブリッドフレームワークを提案する。 発見フェーズは、観測から支配方程式を予め識別するために、現在よく開発されたスパース回帰技術を採用している。 埋め込みフェーズは、繰り返し畳み込みニューラルネットワーク(RCNN)を実装し、離散化された波動方程式の形式に関わる時間空間反復の効率的なプロセスを可能にする。 RCNNモデルはさらに不完全なスパース回帰結果を最適化し、より正確な関数項と係数を得る。 発見埋め込み相の更新を交互に行い、ノイズや低分解能の測定から本質的な物理方程式をしっかり特定することができる。 提案手法の性能を評価するため, 弾性・粘弾性および均質・不均質媒質中の波動方程式に関する様々なシナリオで数値実験を行った。 提案手法は,空間領域と時間領域の両方において,高レベルのノイズと限られたデータ可用性に直面した場合でも,優れた堅牢性と精度を示すことを示す。

In scientific machine learning, the task of identifying partial differential equations accurately from sparse and noisy data poses a significant challenge. Current sparse regression methods may identify inaccurate equations on sparse and noisy datasets and are not suitable for varying coefficients. To address this issue, we propose a hybrid framework that combines two alternating direction optimization phases: discovery and embedding. The discovery phase employs current well-developed sparse regression techniques to preliminarily identify governing equations from observations. The embedding phase implements a recurrent convolutional neural network (RCNN), enabling efficient processes for time-space iterations involved in discretized forms of wave equation. The RCNN model further optimizes the imperfect sparse regression results to obtain more accurate functional terms and coefficients. Through alternating update of discovery-embedding phases, essential physical equations can be robustly identified from noisy and low-resolution measurements. To assess the performance of proposed framework, numerical experiments are conducted on various scenarios involving wave equation in elastic/viscoelastic and homogeneous/inhomogeneous media. The results demonstrate that the proposed method exhibits excellent robustness and accuracy, even when faced with high levels of noise and limited data availability in both spatial and temporal domains.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# アウト・オブ・ディストリビューション一般化を伴う圧縮性オイラー方程式に対するモデル制約不連続ガレルキンネットワーク(DGNet)

A model-constrained Discontinuous Galerkin Network (DGNet) for Compressible Euler Equations with Out-of-Distribution Generalization ( http://arxiv.org/abs/2409.18371v1 )

ライセンス: Link先を確認
Hai Van Nguyen, Jau-Uei Chen, William Cole Nockolds, Wesley Lao, Tan Bui-Thanh, (参考訳) 大規模複雑力学系の実時間的正確な解法は、特にデジタル双対文脈において、制御、最適化、不確実性定量化、および意思決定に極めて必要である。 本研究では, モデル制約の不連続なGalerkin Network (DGNet) アプローチを開発し, モデル制約付きTagent Slope Learning Approach for Dynamical Systems, for compressible Euler equations with out-of-distriion generalization。 DGNetの中核は、いくつかの重要な戦略のシナジーである。 一 時間積分方式を利用して時間相関を捉え、ニューラルネットワークの速度を利用して計算時間を短縮すること。 二 学習した接地斜面が支配方程式を満たすことを保証するために、モデルに制約のあるアプローチを採用すること。 3) エッジがリーマンソルバサロゲートモデルおよびノードがボリューム積分補正サロゲートモデルを表現し、不連続性キャパシティの取得、エラー低減のエイリアス化、メッシュ離散化の一般化を可能にするGNNインスパイアされたアーキテクチャの利用。 (四)異なる初期条件、境界条件、解の順序にまたがる代理モデルの一般化を可能にする入力正規化手法を実装すること。 (v) サロゲートモデルと真の数値モデルとの合意を暗黙的に二階微分まで促進し、長期的安定性と予測能力を確保するとともに、トレーニング中にデータ生成エンジンとして機能し、未知のデータへの一般化を促進するデータランダム化手法を取り入れた。 新しいDGNet手法の有効性, 安定性, 一般化性を検証するため, 1次元および2次元圧縮可能なオイラー方程式問題に対する包括的数値計算結果を提案する。

Real-time accurate solutions of large-scale complex dynamical systems are critically needed for control, optimization, uncertainty quantification, and decision-making in practical engineering and science applications, particularly in digital twin contexts. In this work, we develop a model-constrained discontinuous Galerkin Network (DGNet) approach, an extension to our previous work [Model-constrained Tagent Slope Learning Approach for Dynamical Systems], for compressible Euler equations with out-of-distribution generalization. The core of DGNet is the synergy of several key strategies: (i) leveraging time integration schemes to capture temporal correlation and taking advantage of neural network speed for computation time reduction; (ii) employing a model-constrained approach to ensure the learned tangent slope satisfies governing equations; (iii) utilizing a GNN-inspired architecture where edges represent Riemann solver surrogate models and nodes represent volume integration correction surrogate models, enabling capturing discontinuity capacity, aliasing error reduction, and mesh discretization generalizability; (iv) implementing the input normalization technique that allows surrogate models to generalize across different initial conditions, boundary conditions, and solution orders; and (v) incorporating a data randomization technique that not only implicitly promotes agreement between surrogate models and true numerical models up to second-order derivatives, ensuring long-term stability and prediction capacity, but also serves as a data generation engine during training, leading to enhanced generalization on unseen data. To validate the effectiveness, stability, and generalizability of our novel DGNet approach, we present comprehensive numerical results for 1D and 2D compressible Euler equation problems.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# ワッサーシュタイン生成逆数ネットワークの潜在空間の適応学習

Adaptive Learning of the Latent Space of Wasserstein Generative Adversarial Networks ( http://arxiv.org/abs/2409.18374v1 )

ライセンス: Link先を確認
Yixuan Qiu, Qingyi Gao, Xiao Wang, (参考訳) GAN(generative adversarial network)やVAE(variantal auto-encoder)といった潜伏変数に基づく生成モデルは、多くの分野において顕著なパフォーマンスのため、多くの関心を集めている。 しかし、自然像のような多くのデータは通常、周囲ユークリッド空間を成すのではなく、より低次元の多様体に収まる。 したがって、潜伏次元の不適切な選択は、データの構造を明らかにするのに失敗し、おそらく潜伏表現のミスマッチと生成品質の低下をもたらす。 これらの問題に対処するために、我々はWasserstein Auto-EncoderとWasserstein GANを融合させ、データ多様体の固有次元が修正された潜時分布によって適応的に学習できるように、潜時Wasserstein GAN (LWGAN) と呼ばれる新しいフレームワークを提案する。 我々は,学習した符号化分布の内在次元がデータ多様体の次元に等しいようなエンコーダネットワークとジェネレータネットワークが存在することを証明した。 理論的には、我々の推定固有次元はデータ多様体の真の次元の一貫した推定である。 一方、LWGANの一般化誤差の上限は、人口の観点からは、合成データ分布を実データ分布に類似させることを意味する。 総合的な実証実験により,LWGANは複数のシナリオで正しい内在次元を同定し,学習された潜伏分布から抽出して高品質な合成データを生成することができることを示した。

Generative models based on latent variables, such as generative adversarial networks (GANs) and variational auto-encoders (VAEs), have gained lots of interests due to their impressive performance in many fields. However, many data such as natural images usually do not populate the ambient Euclidean space but instead reside in a lower-dimensional manifold. Thus an inappropriate choice of the latent dimension fails to uncover the structure of the data, possibly resulting in mismatch of latent representations and poor generative qualities. Towards addressing these problems, we propose a novel framework called the latent Wasserstein GAN (LWGAN) that fuses the Wasserstein auto-encoder and the Wasserstein GAN so that the intrinsic dimension of the data manifold can be adaptively learned by a modified informative latent distribution. We prove that there exist an encoder network and a generator network in such a way that the intrinsic dimension of the learned encoding distribution is equal to the dimension of the data manifold. We theoretically establish that our estimated intrinsic dimension is a consistent estimate of the true dimension of the data manifold. Meanwhile, we provide an upper bound on the generalization error of LWGAN, implying that we force the synthetic data distribution to be similar to the real data distribution from a population perspective. Comprehensive empirical experiments verify our framework and show that LWGAN is able to identify the correct intrinsic dimension under several scenarios, and simultaneously generate high-quality synthetic data by sampling from the learned latent distribution.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# AM-MTEEG:インパルス的連想記憶に基づくマルチタスク脳波分類

AM-MTEEG: Multi-task EEG classification based on impulsive associative memory ( http://arxiv.org/abs/2409.18375v1 )

ライセンス: Link先を確認
Junyan Li, Bin Hu, Zhi-Hong Guan, (参考訳) 脳波に基づく脳-コンピュータインタフェース(BCI)は様々な分野に応用できるが、その発達は限られたデータと大きな個人間変動によって妨げられている。 ヒト海馬における学習と記憶の原理に着想を得て,学習に基づくインパルスニューラル表現と双方向連想メモリ(AM)を組み合わせたマルチタスク(MT)分類モデル(AM-MTEEG)を提案する。 このモデルは個々の脳波を独立したタスクとして扱い、個人間での機能共有を促進する。 本モデルは,畳み込みエンコーダデコーダと結合して,共有特徴を抽出するインパルス型ニューラル集団と,特徴をクラスにマップする双方向連想記憶行列とから構成される。 2つのBCIコンペティションデータセットによる実験結果から、我々のモデルは最先端モデルと比較して平均精度を向上し、個人間の性能ばらつきを低減し、双方向連想メモリによって再構成された波形は、モデルの分類結果に対して解釈可能であることが示された。 我々のモデルにおけるニューロンの発火パターンは、海馬ニューロンの神経コーディングと同様、高度に調整されており、我々のモデルが生物学的に類似していることが示される。

Electroencephalogram-based brain-computer interface (BCI) has potential applications in various fields, but their development is hindered by limited data and significant cross-individual variability. Inspired by the principles of learning and memory in the human hippocampus, we propose a multi-task (MT) classification model, called AM-MTEEG, which combines learning-based impulsive neural representations with bidirectional associative memory (AM) for cross-individual BCI classification tasks. The model treats the EEG classification of each individual as an independent task and facilitates feature sharing across individuals. Our model consists of an impulsive neural population coupled with a convolutional encoder-decoder to extract shared features and a bidirectional associative memory matrix to map features to class. Experimental results in two BCI competition datasets show that our model improves average accuracy compared to state-of-the-art models and reduces performance variance across individuals, and the waveforms reconstructed by the bidirectional associative memory provide interpretability for the model's classification results. The neuronal firing patterns in our model are highly coordinated, similarly to the neural coding of hippocampal neurons, indicating that our model has biological similarities.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# CurricuLLM:大規模言語モデルを用いた複雑なロボットスキル学習のための自動タスクカリキュラム設計

CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models ( http://arxiv.org/abs/2409.18382v1 )

ライセンス: Link先を確認
Kanghyun Ryu, Qiayuan Liao, Zhongyu Li, Koushil Sreenath, Negar Mehr, (参考訳) カリキュラム学習(英: Curriculum learning)は、強化学習(RL)における訓練機構であり、訓練中のタスクの難易度を徐々に増加させ、複雑な政策の達成を促進する。 しかし、特定のタスクに有効なカリキュラムを設計するには、広範囲のドメイン知識と人的介入が必要であり、様々なドメインにまたがる適用性が制限される。 私たちの中核となる考え方は、多言語データに対する広範なトレーニングと世界知識をカプセル化する能力によって、タスクを効率的に分解し、さまざまなロボティクス環境にまたがるスキルを分解する大きな可能性を秘めている、ということです。 さらに、自然言語をRLエージェントの実行可能なコードに翻訳するLLMの実証的な成功により、タスクキュリキュラの生成におけるそれらの役割が強化される。 本研究では,カリキュラム設計におけるLLMの高レベル計画とプログラミング機能を活用するCurricuLLMを提案する。 CurricuLLM は: (ステップ) 1)自然言語形式のタスク学習を支援するサブタスクの生成(ステップ) 2)報酬コードと目標配分コードを含む実行可能タスクコードにおけるサブタスクの自然言語記述の翻訳と(ステップ) 3)軌道展開とサブタスク記述に基づく訓練された政策の評価。 操作,ナビゲーション,移動など,様々なロボットシミュレーション環境におけるCurricuLLMの評価を行い,複雑なロボット制御タスクの学習を支援することを示す。 さらに,CurricuLLMで学習した実世界のヒューマノイド移動政策を検証する。 コードはhttps://github.com/labicon/CurricuLLMで提供されている。

Curriculum learning is a training mechanism in reinforcement learning (RL) that facilitates the achievement of complex policies by progressively increasing the task difficulty during training. However, designing effective curricula for a specific task often requires extensive domain knowledge and human intervention, which limits its applicability across various domains. Our core idea is that large language models (LLMs), with their extensive training on diverse language data and ability to encapsulate world knowledge, present significant potential for efficiently breaking down tasks and decomposing skills across various robotics environments. Additionally, the demonstrated success of LLMs in translating natural language into executable code for RL agents strengthens their role in generating task curricula. In this work, we propose CurricuLLM, which leverages the high-level planning and programming capabilities of LLMs for curriculum design, thereby enhancing the efficient learning of complex target tasks. CurricuLLM consists of: (Step 1) Generating sequence of subtasks that aid target task learning in natural language form, (Step 2) Translating natural language description of subtasks in executable task code, including the reward code and goal distribution code, and (Step 3) Evaluating trained policies based on trajectory rollout and subtask description. We evaluate CurricuLLM in various robotics simulation environments, ranging from manipulation, navigation, and locomotion, to show that CurricuLLM can aid learning complex robot control tasks. In addition, we validate humanoid locomotion policy learned through CurricuLLM in real-world. The code is provided in https://github.com/labicon/CurricuLLM
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# Robo-CSK-Organizer:多目的ロボットのための検出対象を整理するための共通知識

Robo-CSK-Organizer: Commonsense Knowledge to Organize Detected Objects for Multipurpose Robots ( http://arxiv.org/abs/2409.18385v1 )

ライセンス: Link先を確認
Rafael Hidalgo, Jesse Parron, Aparna S. Varde, Weitian Wang, (参考訳) 本稿では,ロボットのコンテキスト認識能力を高めるために,従来の知識から常識知識を注入するRobo-CSK-Organizerというシステムを提案する。 これは多目的ロボット工学において特に有用である。 ChatGPTのようなディープラーニングツールにのみ依存しているシステムとは異なり、Robo-CSK-Organizerシステムでは、以下の通りで際立っている。 曖昧さをうまく解決し、オブジェクト配置における一貫性を維持する。 さらに、多様なタスクベースの分類に適応する。 さらに、これは説明可能なAIに貢献し、それによって信頼と人間とロボットのコラボレーションを改善するのに役立ちます。 室内ロボティクスの設定をシミュレートした制御実験により、Robo-CSK-Organizerは、オブジェクトを文脈的に関係のある場所に配置しながら、優れたパフォーマンスを示す。 この研究は、人間の認知のしきい値に近いロボット工学において、常識に基づく意思決定を行うAIベースのシステムの能力を強調している。 そのため、Robo-CSK-OrganizerはAIとロボティクスに肯定的な影響を与える。

This paper presents a system called Robo-CSK-Organizer that infuses commonsense knowledge from a classical knowledge based to enhance the context recognition capabilities of robots so as to facilitate the organization of detected objects by classifying them in a task-relevant manner. It is particularly useful in multipurpose robotics. Unlike systems relying solely on deep learning tools such as ChatGPT, the Robo-CSK-Organizer system stands out in multiple avenues as follows. It resolves ambiguities well, and maintains consistency in object placement. Moreover, it adapts to diverse task-based classifications. Furthermore, it contributes to explainable AI, hence helping to improve trust and human-robot collaboration. Controlled experiments performed in our work, simulating domestic robotics settings, make Robo-CSK-Organizer demonstrate superior performance while placing objects in contextually relevant locations. This work highlights the capacity of an AI-based system to conduct commonsense-guided decision-making in robotics closer to the thresholds of human cognition. Hence, Robo-CSK-Organizer makes positive impacts on AI and robotics.
翻訳日:2024-11-06 06:41:07 公開日:2024-09-27
# ソーシャルメディアのアルゴリズムは誤報を抑えることができるが、そうだろうか?

Social media algorithms can curb misinformation, but do they? ( http://arxiv.org/abs/2409.18393v1 )

ライセンス: Link先を確認
Chhandak Bagchi, Filippo Menczer, Jennifer Lundquist, Monideepa Tarafdar, Anthony Paik, Przemyslaw A. Grabowicz, (参考訳) Guessらによる$\textit{Science}$の最近の記事は、FacebookのニュースフィードアルゴリズムがFacebookユーザーの誤情報や政治的情報にさらされることに与える影響を推定している。 しかし、その報告と結論は、2020年アメリカ合衆国大統領選挙の後にFacebookのニュースフィードアルゴリズムに一時的な変更が相次いだことを説明していない。 ここでは,これらの緊急対策が,ニュースフィードアルゴリズムを用いた研究の制御グループにおける誤情報量を体系的に減少させることを実証する。 この問題は、読者が研究の結果を誤って解釈し、研究期間外に使われるFacebookのニュースフィードアルゴリズムが、逆の時系列フィードと比較して政治的誤った情報を緩和していると結論づけたのかもしれない。

A recent article in $\textit{Science}$ by Guess et al. estimated the effect of Facebook's news feed algorithm on exposure to misinformation and political information among Facebook users. However, its reporting and conclusions did not account for a series of temporary emergency changes to Facebook's news feed algorithm in the wake of the 2020 U.S. presidential election that were designed to diminish the spread of voter-fraud misinformation. Here, we demonstrate that these emergency measures systematically reduced the amount of misinformation in the control group of the study, which was using the news feed algorithm. This issue may have led readers to misinterpret the results of the study and to conclude that the Facebook news feed algorithm used outside of the study period mitigates political misinformation as compared to reverse chronological feed.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# 文脈認識型プロンプトチューニングを用いた大規模言語モデルによるコードの脆弱性修復

Code Vulnerability Repair with Large Language Model using Context-Aware Prompt Tuning ( http://arxiv.org/abs/2409.18395v1 )

ライセンス: Link先を確認
Arshiya Khan, Guannan Liu, Xing Gao, (参考訳) 大きな言語モデル(LLM)は、脆弱性のあるコードの検出と修復において、特に変数やコードフロー、コード構造など、複数の側面に関わる脆弱性に対処する上で、重大な課題を示している。 本研究では、GitHub CopilotをLLMとして使用し、バッファオーバーフロー脆弱性に焦点を当てる。 実験の結果,バッファオーバーフローの脆弱性に対処する際のCopilotの能力には,76%の脆弱性検出率と15%の脆弱性修正率の差が認められた。 そこで本研究では,バッファオーバーフローの修復におけるLLM性能の向上を目的とした,文脈認識型プロンプトチューニング手法を提案する。 さまざまなセキュリティやコードコンテキストを含む、脆弱性に関する一連のドメイン知識を注入することにより、Copilotが成功した修復率は63%に向上し、ドメイン知識のない修復に比べて4倍以上改善したことを示す。

Large Language Models (LLMs) have shown significant challenges in detecting and repairing vulnerable code, particularly when dealing with vulnerabilities involving multiple aspects, such as variables, code flows, and code structures. In this study, we utilize GitHub Copilot as the LLM and focus on buffer overflow vulnerabilities. Our experiments reveal a notable gap in Copilot's abilities when dealing with buffer overflow vulnerabilities, with a 76% vulnerability detection rate but only a 15% vulnerability repair rate. To address this issue, we propose context-aware prompt tuning techniques designed to enhance LLM performance in repairing buffer overflow. By injecting a sequence of domain knowledge about the vulnerability, including various security and code contexts, we demonstrate that Copilot's successful repair rate increases to 63%, representing more than four times the improvement compared to repairs without domain knowledge.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# 不均一な量子化はスパイキングニューラルネットワークの活性を規則化する

Heterogeneous quantization regularizes spiking neural network activity ( http://arxiv.org/abs/2409.18396v1 )

ライセンス: Link先を確認
Roy Moyal, Kyrus R. Mama, Matthew Einhorn, Ayon Borthakur, Thomas A. Cleland, (参考訳) 非規制入力からの物体の特徴の学習と認識は、人工知能システムにとって長年の課題であった。 脳は、小さなノイズの観測サンプルを与えられた安定した表現を学ぶのに適しており、感覚のモダリティを通じて、この能力は、ドメインの知識によって知らされる信号条件のステップのカスケードによって支援される。 特に、嗅覚系は、濃度変動、環境干渉、予測不可能に相関するセンサ親和性によって合成されるソース分離およびノイズ化問題を解消する。 最適に機能させるためには、そのプラスティックネットワークは統計的に良好な入力を必要とする。 本稿では、アナログデータを正規化し、スパイク位相表現に量子化する、データブラインドニューロモルフィック信号条件付け戦略を提案する。 入力は、不均一なシナプス重みによって複製された主ニューロンの列に配信される。これは、層利用を規則化し、ネットワークの操作範囲に全アクティビティをヨーキングし、制御されていないオープンセット刺激のばらつきに頑健な内部表現をレンダリングする。 我々は、このメカニズムを、量子化重みの範囲と密度が蓄積された入力統計に適応し、アクティビティの正規化と情報保持のバランスをとることで資源利用を最適化するデータ認識キャリブレーションステップを追加することで拡張する。

The learning and recognition of object features from unregulated input has been a longstanding challenge for artificial intelligence systems. Brains are adept at learning stable representations given small samples of noisy observations; across sensory modalities, this capacity is aided by a cascade of signal conditioning steps informed by domain knowledge. The olfactory system, in particular, solves a source separation and denoising problem compounded by concentration variability, environmental interference, and unpredictably correlated sensor affinities. To function optimally, its plastic network requires statistically well-behaved input. We present a data-blind neuromorphic signal conditioning strategy whereby analog data are normalized and quantized into spike phase representations. Input is delivered to a column of duplicated spiking principal neurons via heterogeneous synaptic weights; this regularizes layer utilization, yoking total activity to the network's operating range and rendering internal representations robust to uncontrolled open-set stimulus variance. We extend this mechanism by adding a data-aware calibration step whereby the range and density of the quantization weights adapt to accumulated input statistics, optimizing resource utilization by balancing activity regularization and information retention.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# 科学機械学習地震学

Scientific Machine Learning Seismology ( http://arxiv.org/abs/2409.18397v1 )

ライセンス: Link先を確認
Tomohisa Okazaki, (参考訳) 科学機械学習(SciML)は、機械学習、特にディープラーニングと物理理論を統合し、複雑な自然現象を理解し予測する学際的な研究分野である。 物理知識を取り入れることで、SciMLは自然科学において制限される観測データへの依存を減らす。 本稿では,SciMLの基本概念,その地震学への応用,今後の展望について述べる。 具体的には、物理インフォームドニューラルネットワーク(PINN)とニューラル演算子(NO)の2つの一般的な手法が主に議論されている。 PINNは、制御法則を損失関数に組み込むことで、前方および逆問題の両方に対処することができる。 PINNの使用は、微分方程式の同時解、未決定系の推論、物理学に基づく正規化などの分野に拡大している。 これらの研究の方向性は、自然科学における深層学習の範囲を広げることになる。 NOは、無限次元空間間の関係を扱う演算子学習用に設計されたモデルである。 観測データやシミュレーションデータに基づく複雑なシステムの時間進化をモデル化する上で、NOは有望であることを示す。 大量のデータを必要とすることが多いため、NOと物理インフォームドラーニングを組み合わせることは大きな可能性を秘めている。 最後に、SciMLは深層学習を超えて、観測データを物理原理と統合して自然現象をモデル化する統計的(または数学的)フレームワークであると考えられている。 地震学において、数学的に厳密なベイズ統計は過去数十年にわたって発展してきたが、より柔軟でスケーラブルな深層学習は近年になって現れたばかりである。 どちらのアプローチも、広い意味ではSciMLの一部と見なすことができる。 両方向の理論的および実践的な洞察は、SciML方法論を前進させ、地震現象の理解を深める。

Scientific machine learning (SciML) is an interdisciplinary research field that integrates machine learning, particularly deep learning, with physics theory to understand and predict complex natural phenomena. By incorporating physical knowledge, SciML reduces the dependency on observational data, which is often limited in the natural sciences. In this article, the fundamental concepts of SciML, its applications in seismology, and prospects are described. Specifically, two popular methods are mainly discussed: physics-informed neural networks (PINNs) and neural operators (NOs). PINNs can address both forward and inverse problems by incorporating governing laws into the loss functions. The use of PINNs is expanding into areas such as simultaneous solutions of differential equations, inference in underdetermined systems, and regularization based on physics. These research directions would broaden the scope of deep learning in natural sciences. NOs are models designed for operator learning, which deals with relationships between infinite-dimensional spaces. NOs show promise in modeling the time evolution of complex systems based on observational or simulation data. Since large amounts of data are often required, combining NOs with physics-informed learning holds significant potential. Finally, SciML is considered from a broader perspective beyond deep learning: statistical (or mathematical) frameworks that integrate observational data with physical principles to model natural phenomena. In seismology, mathematically rigorous Bayesian statistics has been developed over the past decades, whereas more flexible and scalable deep learning has only emerged recently. Both approaches can be considered as part of SciML in a broad sense. Theoretical and practical insights in both directions would advance SciML methodologies and thereby deepen our understanding of earthquake phenomena.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# 深部畳み込みネットワークを用いた非構造道路における自律走行のマルチモーダル軌道予測

Multimodal Trajectory Prediction for Autonomous Driving on Unstructured Roads using Deep Convolutional Network ( http://arxiv.org/abs/2409.18399v1 )

ライセンス: Link先を確認
Lei Li, Zhifa Chen, Jian Wang, Bin Zhou, Guizhen Yu, Xiaoxuan Chen, (参考訳) 近年, オープンピット採掘における自律運転の適用は, 安全かつ効率的な鉱物輸送の実現に注目が集まっている。 都市構造道路と比較して、鉱業地の未構造道路は境界が不均一であり、明確な車線標識がない。 これにより、他の人間駆動車両の軌道を予測するための十分な制約情報が欠如し、軌道予測問題において高い不確実性をもたらす。 対象車両の複数の軌道とその確率を予測する手法を提案する。 対象車両の周囲環境と歴史的軌跡をラスタ化画像として符号化し, 深部畳み込みネットワークへの入力として, 対象車両の複数軌道の予測に用いる。 オープンピットマイニングにおける自律走行シナリオに特化して設計されたデータセットをオフラインでテストし,物理に基づく手法と比較,評価した。 オープンソースコードとデータはhttps://github.com/LLsxyc/mine_motion_prediction.gitで公開されている。

Recently, the application of autonomous driving in open-pit mining has garnered increasing attention for achieving safe and efficient mineral transportation. Compared to urban structured roads, unstructured roads in mining sites have uneven boundaries and lack clearly defined lane markings. This leads to a lack of sufficient constraint information for predicting the trajectories of other human-driven vehicles, resulting in higher uncertainty in trajectory prediction problems. A method is proposed to predict multiple possible trajectories and their probabilities of the target vehicle. The surrounding environment and historical trajectories of the target vehicle are encoded as a rasterized image, which is used as input to our deep convolutional network to predict the target vehicle's multiple possible trajectories. The method underwent offline testing on a dataset specifically designed for autonomous driving scenarios in open-pit mining and was compared and evaluated against physics-based method. The open-source code and data are available at https://github.com/LLsxyc/mine_motion_prediction.git
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# GenesisTex2: 安定的で、一貫性があり、高品質なテキスト・ツー・テクスチャ・ジェネレーション

GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation ( http://arxiv.org/abs/2409.18401v1 )

ライセンス: Link先を確認
Jiawei Lu, Yingpeng Zhang, Zengjun Zhao, He Wang, Kun Zhou, Tianjia Shao, (参考訳) 大規模テキスト誘導画像拡散モデルでは、テキスト・ツー・イメージ(T2I)生成の驚くべき結果が示されている。 しかし、これらのモデルを用いて3次元幾何学のテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。 プロジェクション・アンド・インペインティングのアプローチを使った初期の作品では、世代多様性を維持することができたが、しばしば顕著な成果物やスタイルの矛盾が生じた。 最近の手法ではこれらの矛盾に対処しようとするが、ぼやけや過飽和、過密といった他の問題もしばしば導入している。 これらの課題を克服するために,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。 まず,各視点にまたがる空間的関連パッチに集中させることで,視点間の整合性を保ちながら,局所的詳細性を高めることを目的として,自己注意層に局所的注意関係のメカニズムを導入する。 さらに,多様性を犠牲にすることなく,様々な視点での整合性を確保するために,新しい潜時空間マージパイプラインを提案する。 本手法は, テクスチャの整合性や視覚的品質に関して, 従来の最先端技術よりもはるかに優れており, 蒸留法よりもはるかに高速である。 重要なことは、我々のフレームワークは追加のトレーニングや微調整を必要としないため、パブリックプラットフォームで利用可能な広範囲のモデルに高度に適応できます。

Large-scale text-guided image diffusion models have shown astonishing results in text-to-image (T2I) generation. However, applying these models to synthesize textures for 3D geometries remains challenging due to the domain gap between 2D images and textures on a 3D surface. Early works that used a projecting-and-inpainting approach managed to preserve generation diversity but often resulted in noticeable artifacts and style inconsistencies. While recent methods have attempted to address these inconsistencies, they often introduce other issues, such as blurring, over-saturation, or over-smoothing. To overcome these challenges, we propose a novel text-to-texture synthesis framework that leverages pretrained diffusion models. We first introduce a local attention reweighing mechanism in the self-attention layers to guide the model in concentrating on spatial-correlated patches across different views, thereby enhancing local details while preserving cross-view consistency. Additionally, we propose a novel latent space merge pipeline, which further ensures consistency across different viewpoints without sacrificing too much diversity. Our method significantly outperforms existing state-of-the-art techniques regarding texture consistency and visual quality, while delivering results much faster than distillation-based methods. Importantly, our framework does not require additional training or fine-tuning, making it highly adaptable to a wide range of models available on public platforms.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# 埋め込みとエミュレート:シミュレーションに基づく推論のためのコントラスト表現

Embed and Emulate: Contrastive representations for simulation-based inference ( http://arxiv.org/abs/2409.18402v1 )

ライセンス: Link先を確認
Ruoxi Jiang, Peter Y. Lu, Rebecca Willett, (参考訳) 科学モデリングと工学の応用は、物理モデルに適合するパラメータ推定法に大きく依存し、実世界の測定を用いて数値シミュレーションを校正する。 抽出可能な確率を持つ解析統計モデルがないため、現代のシミュレーションベース推論(SBI)法はまず数値シミュレータを用いてパラメータのデータセットとシミュレーション出力を生成する。 このデータセットは、観測データから得られた確率を近似し、システムパラメータを推定するために使用される。 いくつかのSBI手法では、データ生成とパラメータ推定を高速化するために機械学習エミュレータを使用している。 しかし、これらのアプローチを高次元物理系に適用することは、高次元エミュレータを訓練するコストと複雑さのため、依然として困難である。 本稿では,高次元データと複雑なマルチモーダルパラメータ後部を効率的に処理するコントラスト学習に基づく新しいSBI手法であるEmbed and Emulate(E&E)を紹介する。 E&Eは、データ(要約統計学)とそれに対応する高速エミュレータの低次元埋め込みを学び、推論中に高価なシミュレーションや高次元エミュレータを実行する必要がなくなる。 合成実験により学習した潜伏空間の理論的性質を説明し, 高次元のカオスロレンツ96システムを用いて, 現実的, 非同定可能なパラメータ推定タスクにおいて, 既存の手法よりも優れた性能を示す。

Scientific modeling and engineering applications rely heavily on parameter estimation methods to fit physical models and calibrate numerical simulations using real-world measurements. In the absence of analytic statistical models with tractable likelihoods, modern simulation-based inference (SBI) methods first use a numerical simulator to generate a dataset of parameters and simulated outputs. This dataset is then used to approximate the likelihood and estimate the system parameters given observation data. Several SBI methods employ machine learning emulators to accelerate data generation and parameter estimation. However, applying these approaches to high-dimensional physical systems remains challenging due to the cost and complexity of training high-dimensional emulators. This paper introduces Embed and Emulate (E&E): a new SBI method based on contrastive learning that efficiently handles high-dimensional data and complex, multimodal parameter posteriors. E&E learns a low-dimensional latent embedding of the data (i.e., a summary statistic) and a corresponding fast emulator in the latent space, eliminating the need to run expensive simulations or a high dimensional emulator during inference. We illustrate the theoretical properties of the learned latent space through a synthetic experiment and demonstrate superior performance over existing methods in a realistic, non-identifiable parameter estimation task using the high-dimensional, chaotic Lorenz 96 system.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# SpecCFA: アプリケーション対応サブパス推測による制御フロー検査/監査の強化

SpecCFA: Enhancing Control Flow Attestation/Auditing via Application-Aware Sub-Path Speculation ( http://arxiv.org/abs/2409.18403v1 )

ライセンス: Link先を確認
Adam Caulfield, Liam Tyler, Ivan De Oliveira Nunes, (参考訳) 現代のサイバー物理システムの最先端では、マイクロコントローラユニット(MCU)が安全にクリティカルな検知/作動を担っている。 しかし、MCUのコスト制約は汎用コンピュータの通常のセキュリティメカニズムを除外する。 したがって、MCUソフトウェアの完全性を検証するために、様々な低コストのセキュリティアーキテクチャが提案されている。 制御フロー検証(CFA)により、検証器(Vrf)は証明器MCU(Prv)の動作を遠隔で評価し、全てのPrv制御フロー転送(CFLog)の認証されたトレースを生成する。 さらに、制御フロー監査アーキテクチャは、証拠のVrfへの配信を保証することにより、CFAを増大させる。 残念ながら、既存のCFAの制限はCFLogの保存と送信のコストにかかっている。 これらの問題から、事前の作業では静的な(コンテキストに敏感な)最適化が提案されている。 ただし、設定可能なプログラム固有の最適化はサポートしていない。 本研究では,プログラムが予測可能な制御フローサブパスを生成できる可能性に留意し,プログラム固有の予測可能性を利用して,すべてのセキュリティ保証を維持しつつ,CFAを動的に最適化することができることを論じる。 そこで本研究では,CFAにおける動的サブパス推測手法であるSpecCFAを提案する。 SpecCFAは、Vrfがテスト済みプログラムごとに制御フローのサブパスを安全に推測することを可能にする。 実行時に、CFLogのサブパスが事前に定義された憶測と一致した場合、サブパス全体が予約されたシンボルに置き換えられる。 SpecCFAは複数の可変長制御フローサブパスを同時に推測することができる。 我々は,2つのオープンソース制御フロー監査アーキテクチャ上にSpecCFAを実装した。1つはカスタムハードウェア設計に基づくもので,もう1つはコモディティのTrusted Execution Environment (ARM TrustZone-M)に基づくものである。 どちらの場合も、SpecCFAはリソース制約のMCUにとって重要なストレージ/パフォーマンスコストを大幅に削減する。

At the edge of modern cyber-physical systems, Micro-Controller Units (MCUs) are responsible for safety-critical sensing/actuation. However, MCU cost constraints rule out the usual security mechanisms of general-purpose computers. Thus, various low-cost security architectures have been proposed to remotely verify MCU software integrity. Control Flow Attestation (CFA) enables a Verifier (Vrf) to remotely assess the run-time behavior of a prover MCU (Prv), generating an authenticated trace of all of Prv control flow transfers (CFLog). Further, Control Flow Auditing architectures augment CFA by guaranteeing the delivery of evidence to Vrf. Unfortunately, a limitation of existing CFA lies in the cost to store and transmit CFLog, as even simple MCU software may generate large traces. Given these issues, prior work has proposed static (context-insensitive) optimizations. However, they do not support configurable program-specific optimizations. In this work, we note that programs may produce unique predictable control flow sub-paths and argue that program-specific predictability can be leveraged to dynamically optimize CFA while retaining all security guarantees. Therefore, we propose SpecCFA: an approach for dynamic sub-path speculation in CFA. SpecCFA allows Vrf to securely speculate on likely control flow sub-paths for each attested program. At run-time, when a sub-path in CFLog matches a pre-defined speculation, the entire sub-path is replaced by a reserved symbol. SpecCFA can speculate on multiple variable-length control flow sub-paths simultaneously. We implement SpecCFA atop two open-source control flow auditing architectures: one based on a custom hardware design and one based on a commodity Trusted Execution Environment (ARM TrustZone-M). In both cases, SpecCFA significantly lowers storage/performance costs that are critical to resource-constrained MCUs.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# 問合せ型オブジェクト検出器を用いた時空間行動検出のためのクエリマッチング

Query matching for spatio-temporal action detection with query-based object detector ( http://arxiv.org/abs/2409.18408v1 )

ライセンス: Link先を確認
Shimon Hori, Kazuki Omi, Toru Tamaki, (参考訳) 本稿では,クエリに基づくオブジェクト検出モデルであるDETRを時空間動作検出に拡張する手法を提案する。 提案手法は,各フレームにDETRを適用し,特徴シフトを用いて時間情報を組み込む。 しかし、DETRのオブジェクトクエリは異なるオブジェクトに対応する可能性があるため、単純な機能シフトは効果がない。 この問題を解決するために、異なるフレーム間のクエリマッチングを提案し、同じオブジェクトのクエリが一致し、機能シフトに使用されることを保証する。 JHMDB21データセットの性能は,提案したクエリマッチングを用いてクエリ機能をシフトした場合に大きく向上することを示す。

In this paper, we propose a method that extends the query-based object detection model, DETR, to spatio-temporal action detection, which requires maintaining temporal consistency in videos. Our proposed method applies DETR to each frame and uses feature shift to incorporate temporal information. However, DETR's object queries in each frame may correspond to different objects, making a simple feature shift ineffective. To overcome this issue, we propose query matching across different frames, ensuring that queries for the same object are matched and used for the feature shift. Experimental results show that performance on the JHMDB21 dataset improves significantly when query features are shifted using the proposed query matching.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# BoT-Drive:POMDPを用いた自律運転のための階層的行動と軌道計画

BoT-Drive: Hierarchical Behavior and Trajectory Planning for Autonomous Driving using POMDPs ( http://arxiv.org/abs/2409.18411v1 )

ライセンス: Link先を確認
Xuanjin Jin, Chendong Zeng, Shengfa Zhu, Chunxiao Liu, Panpan Cai, (参考訳) 動的道路環境の不確実性は、自律運転における行動や軌道計画に重大な課題をもたらす。 本稿では,部分観測可能なマルコフ決定プロセス(POMDP)フレームワークにおける動作と軌道レベルの不確実性に対処する計画アルゴリズムであるBoT-Driveを紹介する。 BoT-Driveは、未知の行動意図を特徴付けるためにドライバモデルを使用し、そのモデルパラメータを使用して隠れた運転スタイルを推論する。 ドライバーモデルを自動運転車の意思決定行動として扱うことで、BoT-DriveはPOMDPに固有の指数関数的な複雑さに効果的に取り組むことができる。 安全性と堅牢性を高めるため、プランナーは、さらに重要サンプリングを適用して、計画された高レベルな動作に照らされた駆動軌道を洗練させる。 実世界のデータによる評価によると、BoT-Driveは、通常の都市運転シーンと複雑な都市運転シーンで既存の計画手法と学習ベースの手法の両方を一貫して上回り、運転安全性と信頼性が著しく向上している。

Uncertainties in dynamic road environments pose significant challenges for behavior and trajectory planning in autonomous driving. This paper introduces BoT-Drive, a planning algorithm that addresses uncertainties at both behavior and trajectory levels within a Partially Observable Markov Decision Process (POMDP) framework. BoT-Drive employs driver models to characterize unknown behavioral intentions and utilizes their model parameters to infer hidden driving styles. By also treating driver models as decision-making actions for the autonomous vehicle, BoT-Drive effectively tackles the exponential complexity inherent in POMDPs. To enhance safety and robustness, the planner further applies importance sampling to refine the driving trajectory conditioned on the planned high-level behavior. Evaluation on real-world data shows that BoT-Drive consistently outperforms both existing planning methods and learning-based methods in regular and complex urban driving scenes, demonstrating significant improvements in driving safety and reliability.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# SciDFM:科学のためのミックス・オブ・エクササイズを持つ大規模言語モデル

SciDFM: A Large Language Model with Mixture-of-Experts for Science ( http://arxiv.org/abs/2409.18412v1 )

ライセンス: Link先を確認
Liangtai Sun, Danyu Luo, Da Ma, Zihan Zhao, Baocai Chen, Zhennan Shen, Su Zhu, Lu Chen, Xin Chen, Kai Yu, (参考訳) 近年,科学的な発見を支援するために大規模言語モデル(LLM)を活用することへの関心が高まっている。 しかし、ほとんどのLSMは一般科学にのみ焦点をあてるが、化学分子やアミノ酸配列のようなドメイン固有の知識は欠如している。 これらのギャップを埋めるために、私たちはSciDFMを紹介します。これは、スクラッチから訓練され、大学レベルの科学的推論を行い、分子やアミノ酸配列を理解することができます。 ドメイン固有のデータベースのデータだけでなく、さまざまな分野の科学論文や書籍を含む大規模学習コーパスを収集する。 ダウンストリームベンチマークの性能を改善するために,多くの命令データに対して事前学習したモデルをさらに微調整する。 実験結果から,SciDFMはSciEvalやSciQなどの一般的な科学的ベンチマークにおいて高い性能を示し,類似サイズのモデル間のドメイン固有ベンチマークにおいてSOTA性能に達することを示す。 さらに、専門家層を分析し、専門家選択の結果が異なる分野のデータによって異なることを示す。 より広範な研究コミュニティのために、私たちはhttps://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0でSciDFMをオープンソース化しました。

Recently, there has been a significant upsurge of interest in leveraging large language models (LLMs) to assist scientific discovery. However, most LLMs only focus on general science, while they lack domain-specific knowledge, such as chemical molecules and amino acid sequences. To bridge these gaps, we introduce SciDFM, a mixture-of-experts LLM, which is trained from scratch and is able to conduct college-level scientific reasoning and understand molecules and amino acid sequences. We collect a large-scale training corpus containing numerous scientific papers and books from different disciplines as well as data from domain-specific databases. We further fine-tune the pre-trained model on lots of instruction data to improve performances on downstream benchmarks. From experiment results, we show that SciDFM achieves strong performance on general scientific benchmarks such as SciEval and SciQ, and it reaches a SOTA performance on domain-specific benchmarks among models of similar size. We further analyze the expert layers and show that the results of expert selection vary with data from different disciplines. To benefit the broader research community, we open-source SciDFM at https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# VickreyFeedback:人間のフィードバックによる強化学習のための費用効率の良いデータ構築

VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2409.18417v1 )

ライセンス: Link先を確認
Guoxi Zhang, Jiuding Duan, (参考訳) 本稿では,Reinforcement Learning from Human Feedback (RLHF) の費用対効果について述べる。 RLHFは、大きな言語モデル(LLM)の出力よりも人間の好みのデータセットを活用して、人間の期待をLLMに注入する。 選好アノテーションには収益化コストが伴うが、選好データセットの経済的有用性は今のところ考慮されていない。 この状況がさらに悪化しているのは、嗜好データセットの複雑な非推移的あるいは循環的関係を考えると、微調整 LLM の既存のアルゴリズムは包括的嗜好を捉えるには程遠いことである。 これにより、好みデータが時間とともに蓄積される運用環境において、大幅なコスト効率の懸念が生じる。 本稿では, LLM の細調整を収益化経済と捉え, ドル単位の選好データ収集効率を向上させるためのオークション機構を導入する。 提案手法の導入は, 良好なモデル性能を維持しつつ, RLHFのコスト効率を高める上で重要な役割を担っていることを示す。 提案したオークションベースのプロトコルは,高品質なフィードバックに集中することで,微調整 LLM のコスト効率が向上することを示した。

This paper addresses the cost-efficiency aspect of Reinforcement Learning from Human Feedback (RLHF). RLHF leverages datasets of human preferences over outputs of large language models (LLM) to instill human expectations into LLMs. While preference annotation comes with a monetized cost, the economic utility of a preference dataset has not been considered by far. What exacerbates this situation is that given complex intransitive or cyclic relationships in preference datasets, existing algorithms for fine-tuning LLMs are still far from capturing comprehensive preferences. This raises severe cost-efficiency concerns in production environments, where preference data accumulate over time. In this paper, we see the fine-tuning of LLMs as a monetized economy and introduce an auction mechanism to improve the efficiency of the preference data collection in dollar terms. We show that introducing an auction mechanism can play an essential role in enhancing the cost-efficiency of RLHF while maintaining satisfactory model performance. Experimental results demonstrate that our proposed auction-based protocol is cost-efficient for fine-tuning LLMs by concentrating on high-quality feedback.
翻訳日:2024-11-06 06:31:22 公開日:2024-09-27
# 逆スケール変分スカラー化によるロバストネットワーク学習

Robust Network Learning via Inverse Scale Variational Sparsification ( http://arxiv.org/abs/2409.18419v1 )

ライセンス: Link先を確認
Zhiling Zhou, Zirui Liu, Chengming Xu, Yanwei Fu, Xinwei Sun, (参考訳) ニューラルネットワークは多くのAIタスクにおいて大きな進歩を遂げてきたが、自然破壊、敵対的ノイズ、低解像度のアーティファクトなど、さまざまなノイズタイプに弱いままである。 既存の多くのアプローチは、特定のノイズタイプに対する堅牢性を強化し、他のものへの適応性を制限することに重点を置いている。 従来の研究は、テクスチャや物体の輪郭といった重要な特徴を曖昧にしがちなスペクトルの観点を採用することで、一般的な堅牢性に対処してきた。 しかし,提案手法では,時間連続な逆スケール空間の定式化において,逆スケールの変動スペーサ化の枠組みを導入する。 このフレームワークは、画素間の違いを識別し、最終的にスムーズな画像の大規模特徴のみを保持することによって、より微細な特徴を徐々に学習する。 周波数に基づく手法と異なり,音質や物体の輪郭といった高コントラストの細部も保持する小型の特徴をスムースにすることで,ノイズを除去する。 さらに、我々のフレームワークは実装の単純さと効率性を提供します。 このアルゴリズムをニューラルネットワークトレーニングに統合することにより、大規模機能の学習を優先するモデルを導出する。 各種騒音に対する頑健性の向上によるアプローチの有効性を示す。

While neural networks have made significant strides in many AI tasks, they remain vulnerable to a range of noise types, including natural corruptions, adversarial noise, and low-resolution artifacts. Many existing approaches focus on enhancing robustness against specific noise types, limiting their adaptability to others. Previous studies have addressed general robustness by adopting a spectral perspective, which tends to blur crucial features like texture and object contours. Our proposed solution, however, introduces an inverse scale variational sparsification framework within a time-continuous inverse scale space formulation. This framework progressively learns finer-scale features by discerning variational differences between pixels, ultimately preserving only large-scale features in the smoothed image. Unlike frequency-based methods, our approach not only removes noise by smoothing small-scale features where corruptions often occur but also retains high-contrast details such as textures and object contours. Moreover, our framework offers simplicity and efficiency in implementation. By integrating this algorithm into neural network training, we guide the model to prioritize learning large-scale features. We show the efficacy of our approach through enhanced robustness against various noise types.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# 物理駆動型温度場再構成のためのセンサ配置最適化手法

A physics-driven sensor placement optimization methodology for temperature field reconstruction ( http://arxiv.org/abs/2409.18423v1 )

ライセンス: Link先を確認
Xu Liu, Wen Yao, Wei Peng, Zhuojia Fu, Zixue Xiang, Xiaoqian Chen, (参考訳) スパースセンサーからグローバルフィールドを認識することは、物理システムの監視、分析、設計において大きな課題となっている。 この文脈では、センサ配置最適化が重要な問題である。 既存の研究の多くは、数値データや実験データなしでデータのないシナリオで抽出可能なデータベースの基準を構築するのに、大きくて十分なデータを必要としている。 そこで本研究では,センサ位置を最適化するための物理基準を用いた温度場再構成のための,新しい物理駆動型センサ配置最適化手法を提案する。 提案手法では,まず,最適解を解析し,誤差境界がセンサ位置によって決定される条件数と相関していることを示すことにより,ノイズシナリオ下での復元誤差の理論的上下界を導出する。 さらに、物理に基づく基準である条件数を用いて、遺伝的アルゴリズムによりセンサ位置を最適化する。 最後に、最良のセンサは、非侵襲的なエンドツーエンドモデル、非侵襲的なリダクションオーダーモデル、物理インフォームドモデルなど、再構成モデルによって検証される。 実験の結果,PSPO法はランダム選択法と均一選択法を大きく上回り,ほぼ一桁の精度で再現精度を向上することを示した。 さらに,PSPO法は既存のデータ駆動配置最適化法に匹敵する再現性を達成できる。

Perceiving the global field from sparse sensors has been a grand challenge in the monitoring, analysis, and design of physical systems. In this context, sensor placement optimization is a crucial issue. Most existing works require large and sufficient data to construct data-based criteria, which are intractable in data-free scenarios without numerical and experimental data. To this end, we propose a novel physics-driven sensor placement optimization (PSPO) method for temperature field reconstruction using a physics-based criterion to optimize sensor locations. In our methodological framework, we firstly derive the theoretical upper and lower bounds of the reconstruction error under noise scenarios by analyzing the optimal solution, proving that error bounds correlate with the condition number determined by sensor locations. Furthermore, the condition number, as the physics-based criterion, is used to optimize sensor locations by the genetic algorithm. Finally, the best sensors are validated by reconstruction models, including non-invasive end-to-end models, non-invasive reduced-order models, and physics-informed models. Experimental results, both on a numerical and an application case, demonstrate that the PSPO method significantly outperforms random and uniform selection methods, improving the reconstruction accuracy by nearly an order of magnitude. Moreover, the PSPO method can achieve comparable reconstruction accuracy to the existing data-driven placement optimization methods.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# 物理インフォームドニューラルネットワークのトレーニング用デュアルコーングラディエントディフレッシュ

Dual Cone Gradient Descent for Training Physics-Informed Neural Networks ( http://arxiv.org/abs/2409.18426v1 )

ライセンス: Link先を確認
Youngsik Hwang, Dong-Young Lim, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、境界損失とPDE残留損失の両方を組み込んだ損失関数を最小化することにより、偏微分方程式(PDE)を解くための顕著なアプローチとして登場した。 様々な科学計算タスクにおける顕著な経験的性能にもかかわらず、PINNはしばしば合理的なソリューションを生成できず、そのような病理学的行動は説明と解決が難しいままである。 本稿では,各損失関数の勾配が大きな不均衡を示す場合にPINNを悪用し,負の内積値を示す。 これらの問題に対処するため,2つの円錐領域に収まるように勾配の向きを調節する新しい最適化フレームワークDual Cone Gradient Descent (DCGD)を提案する。 この領域は、PDE残差損失と境界損失の両方の勾配を持つ内積が非負となるベクトルの集合として定義される。 理論的には,非凸条件下でのDCGDアルゴリズムの収束特性を解析する。 様々なベンチマーク式において、DCGDは様々な評価指標で他の最適化アルゴリズムよりも優れていることを示す。 特に、DCGDは、既存の最適調整モデルと比較して、予測精度が優れ、PINNや複雑なPDEの故障モードの訓練の安定性が向上する。 さらに、学習速度アニールやニューラルタンジェントカーネル(NTK)など、PINNの一般的な戦略と組み合わせることで、DCGDをさらに改善することができる。

Physics-informed neural networks (PINNs) have emerged as a prominent approach for solving partial differential equations (PDEs) by minimizing a combined loss function that incorporates both boundary loss and PDE residual loss. Despite their remarkable empirical performance in various scientific computing tasks, PINNs often fail to generate reasonable solutions, and such pathological behaviors remain difficult to explain and resolve. In this paper, we identify that PINNs can be adversely trained when gradients of each loss function exhibit a significant imbalance in their magnitudes and present a negative inner product value. To address these issues, we propose a novel optimization framework, Dual Cone Gradient Descent (DCGD), which adjusts the direction of the updated gradient to ensure it falls within a dual cone region. This region is defined as a set of vectors where the inner products with both the gradients of the PDE residual loss and the boundary loss are non-negative. Theoretically, we analyze the convergence properties of DCGD algorithms in a non-convex setting. On a variety of benchmark equations, we demonstrate that DCGD outperforms other optimization algorithms in terms of various evaluation metrics. In particular, DCGD achieves superior predictive accuracy and enhances the stability of training for failure modes of PINNs and complex PDEs, compared to existing optimally tuned models. Moreover, DCGD can be further improved by combining it with popular strategies for PINNs, including learning rate annealing and the Neural Tangent Kernel (NTK).
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# 単純N-bestリグレードを用いた野生における多言語ASRの改良

Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking ( http://arxiv.org/abs/2409.18428v1 )

ライセンス: Link先を確認
Brian Yan, Vineel Pratap, Shinji Watanabe, Michael Auli, (参考訳) 多言語自動音声認識(ASR)モデルは通常、発声の基調言語が知られている環境で評価されるが、最も実用的な設定ではそうではないことが多い。 自動音声言語識別(SLID)モデルは完全ではなく、誤分類は最終的なASR精度に大きな影響を及ぼす。 本稿では,言語モデルやテキストベース言語識別モデルなどの外的特徴を用いて,複数の顕著な音響モデルの多言語ASR精度を向上させるための,単純かつ効果的なN-best再分類手法を提案する。 MMSモデルとWhisperモデルを用いたFLEURSの結果,それぞれ8.7%,6.1%の言語識別精度が向上し,これらのベンチマークでは単語誤り率が3.3%,2.0%低下した。

Multilingual Automatic Speech Recognition (ASR) models are typically evaluated in a setting where the ground-truth language of the speech utterance is known, however, this is often not the case for most practical settings. Automatic Spoken Language Identification (SLID) models are not perfect and misclassifications have a substantial impact on the final ASR accuracy. In this paper, we present a simple and effective N-best re-ranking approach to improve multilingual ASR accuracy for several prominent acoustic models by employing external features such as language models and text-based language identification models. Our results on FLEURS using the MMS and Whisper models show spoken language identification accuracy improvements of 8.7% and 6.1%, respectively and word error rates which are 3.3% and 2.0% lower on these benchmarks.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# Search3D:階層的なオープンボキャブラリー3Dセグメンテーション

Search3D: Hierarchical Open-Vocabulary 3D Segmentation ( http://arxiv.org/abs/2409.18431v1 )

ライセンス: Link先を確認
Ayca Takmaz, Alexandros Delitzas, Robert W. Sumner, Francis Engelmann, Johanna Wald, Federico Tombari, (参考訳) オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。 オープンな3Dインスタンスセグメンテーションのための既存の方法は、主にシーン内のオブジェクトレベルのインスタンスを特定することに焦点を当てています。 しかし、オブジェクトの部分やジェネリック属性によって記述された領域といったよりきめ細かいシーンエンティティを理解することに関して、それらは課題に直面します。 本稿では,階層的なオープンな3次元シーン表現を構築するアプローチであるSearch3Dを紹介する。 提案手法は,より柔軟なオープンボキャブラリ3Dサーチ設定にシフトすることで,オープンボキャブラリのインスタンスレベル3Dセグメンテーションの能力を拡張することを目的としている。 また,システマティックな評価を実現するため,MultiScanに基づくシーンスケールのオープン語彙3D部分セグメンテーションベンチマークや,ScanNet++上のオープン語彙細粒度アノテーションのセットも提供します。 提案手法は,3次元オブジェクトや素材のセグメンテーションにおいて高い性能を維持しつつ,シーンスケールのオープンな3次元部分セグメンテーションにおいて,ベースラインよりも優れていることを示す。

Open-vocabulary 3D segmentation enables the exploration of 3D spaces using free-form text descriptions. Existing methods for open-vocabulary 3D instance segmentation primarily focus on identifying object-level instances in a scene. However, they face challenges when it comes to understanding more fine-grained scene entities such as object parts, or regions described by generic attributes. In this work, we introduce Search3D, an approach that builds a hierarchical open-vocabulary 3D scene representation, enabling the search for entities at varying levels of granularity: fine-grained object parts, entire objects, or regions described by attributes like materials. Our method aims to expand the capabilities of open vocabulary instance-level 3D segmentation by shifting towards a more flexible open-vocabulary 3D search setting less anchored to explicit object-centric queries, compared to prior work. To ensure a systematic evaluation, we also contribute a scene-scale open-vocabulary 3D part segmentation benchmark based on MultiScan, along with a set of open-vocabulary fine-grained part annotations on ScanNet++. We verify the effectiveness of Search3D across several tasks, demonstrating that our approach outperforms baselines in scene-scale open-vocabulary 3D part segmentation, while maintaining strong performance in segmenting 3D objects and materials.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# Easy2Hard-Bench: LLM性能と一般化のための標準化された困難ラベル

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization ( http://arxiv.org/abs/2409.18433v1 )

ライセンス: Link先を確認
Mucong Ding, Chenghao Deng, Jocelyn Choo, Zichu Wu, Aakriti Agrawal, Avi Schwarzschild, Tianyi Zhou, Tom Goldstein, John Langford, Anima Anandkumar, Furong Huang, (参考訳) 言語モデル(LLM)では,タスクを簡単から難易度まで一般化することが不可欠だが,各問題に対する詳細な難易度アノテーションを持つデータセットは,いまだに空白である。 この制限に対処するために、我々はEasy2Hard-Benchを紹介します。これは、数学やプログラミングの問題、チェスパズル、推論問題など、さまざまな領域にまたがる6つのベンチマークデータセットの、一貫してフォーマットされたコレクションです。 これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。 課題を体系的に推定するために,本研究では,現実の人間による各問題に対する試みや,卓越したリーダーボード上でのLSMに関する豊富な実績データを収集する。 リッチなパフォーマンスデータを活用することで,項目応答理論 (IRT) や Glicko-2 モデルなどの確立された難易度ランキングシステムを適用し,問題に対する数値的難易度スコアを均一に割り当てる。 さらに、Easy2Hard-Benchのデータセットは、以前のコレクションと差別化されている。 現状の6つのLLMによる広範囲な実験を通じて,LLMの一般化における今後の研究をめざして,その性能と一般化能力について,様々な難易度にわたって包括的に分析する。 データセットはhttps://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Benchで公開されている。

While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank. Aiming to address this limitation, we present Easy2Hard-Bench, a consistently formatted collection of 6 benchmark datasets spanning various domains, such as mathematics and programming problems, chess puzzles, and reasoning questions. Each problem within these datasets is annotated with numerical difficulty scores. To systematically estimate problem difficulties, we collect abundant performance data on attempts to each problem by humans in the real world or LLMs on the prominent leaderboard. Leveraging the rich performance data, we apply well-established difficulty ranking systems, such as Item Response Theory (IRT) and Glicko-2 models, to uniformly assign numerical difficulty scores to problems. Moreover, datasets in Easy2Hard-Bench distinguish themselves from previous collections by a higher proportion of challenging problems. Through extensive experiments with six state-of-the-art LLMs, we provide a comprehensive analysis of their performance and generalization capabilities across varying levels of difficulty, with the aim of inspiring future research in LLM generalization. The datasets are available at https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# 材料処理システムにおける動的分散のためのマルチエージェント強化学習

Multi-agent Reinforcement Learning for Dynamic Dispatching in Material Handling Systems ( http://arxiv.org/abs/2409.18435v1 )

ライセンス: Link先を確認
Xian Yeow Lee, Haiyan Wang, Daisuke Katsumata, Takaharu Matsui, Chetan Gupta, (参考訳) 本稿では,動的ディスパッチ戦略を学習するためのマルチエージェント強化学習(MARL)手法を提案する。 提案手法をベンチマークするために,異なる場所における様々な活動,物理的制約,不確実性など,実際のシステムの複雑さを反映した物質処理環境を開発した。 学習中の探索を強化するため,既存の動的ディスパッチヒューリスティックの形でドメイン知識を統合する手法を提案する。 実験結果から,本手法は中央値スループットにおいて,ヒューリスティックスを最大7.4%向上させることができることがわかった。 さらに、異なる機能を持つ複数のエージェントを訓練する際に、異なるアーキテクチャがMARL性能に与える影響を分析する。 また,第1回MARLエージェントをヒューリスティックとして使用して,第2回MARLエージェントのトレーニングを行うことにより,MARLエージェントの性能をさらに向上できることを示す。 この研究は、MARLを適用して実世界のシステムに展開されるビジネス成果を改善するための効果的な動的ディスパッチ戦略を学習する可能性を実証する。

This paper proposes a multi-agent reinforcement learning (MARL) approach to learn dynamic dispatching strategies, which is crucial for optimizing throughput in material handling systems across diverse industries. To benchmark our method, we developed a material handling environment that reflects the complexities of an actual system, such as various activities at different locations, physical constraints, and inherent uncertainties. To enhance exploration during learning, we propose a method to integrate domain knowledge in the form of existing dynamic dispatching heuristics. Our experimental results show that our method can outperform heuristics by up to 7.4 percent in terms of median throughput. Additionally, we analyze the effect of different architectures on MARL performance when training multiple agents with different functions. We also demonstrate that the MARL agents performance can be further improved by using the first iteration of MARL agents as heuristics to train a second iteration of MARL agents. This work demonstrates the potential of applying MARL to learn effective dynamic dispatching strategies that may be deployed in real-world systems to improve business outcomes.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# 光ファイバの偏光エンタングルメントダイナミクス:動的デカップリングによる非マルコフレジームの減衰の軽減

Polarization-Entanglement Dynamics in Optical Fibers: Mitigating Decay in the Non-Markovian Regime with Dynamical Decoupling ( http://arxiv.org/abs/2409.18436v1 )

ライセンス: Link先を確認
Pratik J. Barge, Arshag Danageozian, Manish K. Gupta, Brian T. Kirby, Hwang Lee, (参考訳) 将来の分散量子システムとネットワークは、少なくとも部分的には、既存の繊維基盤を絡み合い分布に頼っている可能性が高いため、光ファイバの欠陥が絡み合いに与える影響を正確に理解することは、その動作に不可欠である。 本稿では,光ファイバーの屈折率の空間的変動に起因する絡み合いの減衰について検討する。 スピンボソンモデルを用いてこの絡み合いのダイナミクスを研究し、階層型運動方程式(HEOM)を用いて方程式の方程式を数値的に解く。 実際に関係するシステムパラメータの範囲内で、我々の開発したモデルはマルコフ的および非マルコフ的絡み合い減衰挙動を示す。 さらに, 観察された絡み合い崩壊に対処するため, 広帯域半波板を用いた光ファイバにおける動的疎結合の実現を提案する。 特に,カー・パーセル・マイボーム・ギルおよびユーリグの動的疎結合スキームの時間依存性ハミルトン多様体を数値モデルとし,光ファイバー長に沿って疎間隔の半波面であっても絡み合いの減少率を示す。 最後に、これらの2つのスキームの性能を複数のシステム構成で評価する。

Future distributed quantum systems and networks are likely to rely, at least in part, on the existing fiber infrastructure for entanglement distribution; hence, a precise understanding of the adverse effects of imperfections in optical fibers on entanglement is essential to their operation. Here, we consider maximally entangled polarization qubits and study the decay of the entanglement caused by spatial fluctuations in the refractive index of optical fibers. We study this entanglement dynamics using the spin-boson model and numerically solve our system of equations using the hierarchical equations of motion (HEOM) formalism. We show that within the range of practically relevant system parameters, our developed model exhibits both Markovian and non-Markovian entanglement decay behavior. Further, to counter the observed entanglement decay, we propose the implementation of dynamical decoupling in optical fibers using spaced half waveplates. In particular, we numerically model the time-dependent Hamiltonians of the Carr-Purcell-Meiboom-Gill and Uhrig dynamical decoupling schemes and show a reduced rate of entanglement decay even with sparsely spaced half waveplates along the length of optical fiber. Finally, we evaluate the performance of these two schemes in multiple system configurations.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# 自閉症重症度検出のための物理増幅タプル変圧器

Physics Augmented Tuple Transformer for Autism Severity Level Detection ( http://arxiv.org/abs/2409.18438v1 )

ライセンス: Link先を確認
Chinthaka Ranasingha, Harshala Gammulle, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, (参考訳) 自閉症スペクトラム障害(ASD)の早期診断は、ASDを持つ子供の健康と幸福を高めるための有効なステップである。 手動ASD診断テストは、労働集約的で複雑で、その結果を汚染する要因がいくつかあるため、ヒューマンエラーを起こしやすい。 本稿では, ASD重大度認識のための物理法則を利用した新しい枠組みを提案する。 提案した物理インフォームドニューラルネットワークアーキテクチャは、高次元の潜伏空間において骨格に基づく運動軌跡の一部を観察して抽出された被験者の挙動を符号化する。 2つのデコーダ、すなわち物理ベースと非物理学ベースのデコーダは、この潜伏埋め込みを使用し、将来の動きパターンを予測する。 物理分枝は、予測過程における骨格列に適用する物理の法則を利用し、非物理学に基づく分枝は、被検体の予測運動と実際の運動の差を最小化するために最適化される。 分類器は、同じ潜在空間埋め込みを利用して、ASDの重大さを認識する。 この二重生成目的は、ASD認識タスクを支援するために、対象の実際の行動と物理法則によって支配される子供の一般的な正常な行動とをネットワークに明示的に比較するよう強制する。 提案手法は,複数の ASD 診断ベンチマークにおける最先端性能を実現する。 タスクASD診断以外のフレームワークの有用性を説明するため,我々は,転倒予測タスクのために公開されているベンチマークを用いて第3の実験を行い,本モデルの優位性を実証した。

Early diagnosis of Autism Spectrum Disorder (ASD) is an effective and favorable step towards enhancing the health and well-being of children with ASD. Manual ASD diagnosis testing is labor-intensive, complex, and prone to human error due to several factors contaminating the results. This paper proposes a novel framework that exploits the laws of physics for ASD severity recognition. The proposed physics-informed neural network architecture encodes the behaviour of the subject extracted by observing a part of the skeleton-based motion trajectory in a higher dimensional latent space. Two decoders, namely physics-based and non-physics-based decoder, use this latent embedding and predict the future motion patterns. The physics branch leverages the laws of physics that apply to a skeleton sequence in the prediction process while the non-physics-based branch is optimised to minimise the difference between the predicted and actual motion of the subject. A classifier also leverages the same latent space embeddings to recognise the ASD severity. This dual generative objective explicitly forces the network to compare the actual behaviour of the subject with the general normal behaviour of children that are governed by the laws of physics, aiding the ASD recognition task. The proposed method attains state-of-the-art performance on multiple ASD diagnosis benchmarks. To illustrate the utility of the proposed framework beyond the task ASD diagnosis, we conduct a third experiment using a publicly available benchmark for the task of fall prediction and demonstrate the superiority of our model.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# ステートフリー強化学習

State-free Reinforcement Learning ( http://arxiv.org/abs/2409.18439v1 )

ライセンス: Link先を確認
Mingyu Chen, Aldo Pacchiano, Xuezhou Zhang, (参考訳) そこで,本研究では,環境と対話する前に,アルゴリズムが状態情報を持っていない場合の「textit{state-free RL}」問題について検討する。 具体的には、${S}^\Pi := \{ s|\max_{\pi\in \Pi}q^{P, \pi}(s)>0 \}$で設定された到達可能な状態を表す。 我々はこれを、超パラメータチューニングを必要としないRLアルゴリズムを設計することを目的として、textit{parameter-free RL}への具体的な第一歩と見なしている。

In this work, we study the \textit{state-free RL} problem, where the algorithm does not have the states information before interacting with the environment. Specifically, denote the reachable state set by ${S}^\Pi := \{ s|\max_{\pi\in \Pi}q^{P, \pi}(s)>0 \}$, we design an algorithm which requires no information on the state space $S$ while having a regret that is completely independent of ${S}$ and only depend on ${S}^\Pi$. We view this as a concrete first step towards \textit{parameter-free RL}, with the goal of designing RL algorithms that require no hyper-parameter tuning.
翻訳日:2024-11-06 06:21:38 公開日:2024-09-27
# 潜時拡散モデルにおけるグラディエントフリーデコーダインバージョン

Gradient-free Decoder Inversion in Latent Diffusion Models ( http://arxiv.org/abs/2409.18442v1 )

ライセンス: Link先を確認
Seongmin Hong, Suh Yoon Jeon, Kyeonghyun Lee, Ernest K. Ryu, Se Young Chun, (参考訳) 潜時拡散モデル(LDMs)では、遅延拡散過程は、ピクセル空間よりも次元が低い潜時空間で効率的に発生する。 デコーダは通常、潜在空間の表現をピクセル空間の表現に変換するために使われる。 デコーダは、正確な逆転としてエンコーダを持つと仮定されるが、デコーダの正確な逆転を必要とするアプリケーションが多いにもかかわらず、実際には、正確なエンコーダとデコーダのペアはほとんど存在しない。 LDMにおけるデコーダの逆転の以前の研究は、生成的対向ネットワークの逆転にインスパイアされた勾配勾配を用いた。 しかし、勾配に基づく手法では、より大きなGPUメモリとより大きな潜在空間に対するより長い計算時間を必要とする。 例えば、最近のビデオLDMは16フレーム以上を生成することができるが、24GBのメモリを持つGPUは4フレームに対して勾配ベースのデコーダインバージョンしか実行できない。 そこで本研究では,多種多様な潜在モデルに適用可能な,LDMに対する効率的な勾配のないデコーダインバージョンを提案する。 提案した逆変換の理論的収束性は、前進法だけでなく、最近のLCDで満たされるココエロシティを軽度に仮定した慣性クラスノセルスキーマン(KM)反復に対しても検討されている。 本稿では,Adamオプティマイザとラーニングレートスケジューリングを用いたグラデーションフリー手法により,従来の勾配法よりも計算時間とメモリ使用量を有意に削減し,ノイズ空間透かしなどのアプリケーションにおいて,同等の誤差レベルを達成しつつ,効率的な計算を可能にした。

In latent diffusion models (LDMs), denoising diffusion process efficiently takes place on latent space whose dimension is lower than that of pixel space. Decoder is typically used to transform the representation in latent space to that in pixel space. While a decoder is assumed to have an encoder as an accurate inverse, exact encoder-decoder pair rarely exists in practice even though applications often require precise inversion of decoder. Prior works for decoder inversion in LDMs employed gradient descent inspired by inversions of generative adversarial networks. However, gradient-based methods require larger GPU memory and longer computation time for larger latent space. For example, recent video LDMs can generate more than 16 frames, but GPUs with 24 GB memory can only perform gradient-based decoder inversion for 4 frames. Here, we propose an efficient gradient-free decoder inversion for LDMs, which can be applied to diverse latent models. Theoretical convergence property of our proposed inversion has been investigated not only for the forward step method, but also for the inertial Krasnoselskii-Mann (KM) iterations under mild assumption on cocoercivity that is satisfied by recent LDMs. Our proposed gradient-free method with Adam optimizer and learning rate scheduling significantly reduced computation time and memory usage over prior gradient-based methods and enabled efficient computation in applications such as noise-space watermarking while achieving comparable error levels.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# 自己注意と進化的強化学習を用いた費用対効果を考慮した動的クラウドワークフロースケジューリング

Cost-Aware Dynamic Cloud Workflow Scheduling using Self-Attention and Evolutionary Reinforcement Learning ( http://arxiv.org/abs/2409.18444v1 )

ライセンス: Link先を確認
Ya Shen, Gang Chen, Hui Ma, Mengjie Zhang, (参考訳) クラウドにおけるコスト対応の動的マルチワークフロースケジューリング(CDMWS)は一種のクラウドワークフロー管理の問題であり、仮想マシン(VM)インスタンスを割り当ててワークフロー内でタスクを実行することで、SLA(Service Level Agreement)に違反する罰則とVMレンタル料の両方を含む総コストを最小化することを目的としている。 ディープニューラルネットワークにより、強化学習(RL)法はCDMWS問題を解決するための効果的なスケジューリングポリシーを構築することができる。 RLの伝統的なポリシーネットワークは、基本的なフィードフォワードアーキテクチャを使用して、すべてのVMを同時に考慮せずにグローバル情報を学ぶことなく、VMインスタンスを割り当てる適性を個別に決定することが多い。 本稿では,すべてのVMからグローバルな情報をキャプチャするクラウドワークフロースケジューリング(SPN-CWS)のための,新たなセルフアテンションポリシーネットワークを提案する。 また,SPN-CWS を確実かつ効果的に学習するための進化戦略に基づく RL (ERL) システムを開発した。 トレーニングされたSPN-CWSは、すべての候補VMインスタンスを効果的に処理し、ワークフロータスクを実行するのに最も適したVMインスタンスを特定する。 総合的な実験により,本手法は複数のベンチマークCDMWS問題において,最先端のアルゴリズムよりも顕著に優れていることが示された。

The Cost-aware Dynamic Multi-Workflow Scheduling (CDMWS) in the cloud is a kind of cloud workflow management problem, which aims to assign virtual machine (VM) instances to execute tasks in workflows so as to minimize the total costs, including both the penalties for violating Service Level Agreement (SLA) and the VM rental fees. Powered by deep neural networks, Reinforcement Learning (RL) methods can construct effective scheduling policies for solving CDMWS problems. Traditional policy networks in RL often use basic feedforward architectures to separately determine the suitability of assigning any VM instances, without considering all VMs simultaneously to learn their global information. This paper proposes a novel self-attention policy network for cloud workflow scheduling (SPN-CWS) that captures global information from all VMs. We also develop an Evolution Strategy-based RL (ERL) system to train SPN-CWS reliably and effectively. The trained SPN-CWS can effectively process all candidate VM instances simultaneously to identify the most suitable VM instance to execute every workflow task. Comprehensive experiments show that our method can noticeably outperform several state-of-the-art algorithms on multiple benchmark CDMWS problems.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# 低リソース抽出QAにおける言語モデル一般化の探索

Exploring Language Model Generalization in Low-Resource Extractive QA ( http://arxiv.org/abs/2409.18446v1 )

ライセンス: Link先を確認
Saptarshi Sengupta, Wenpeng Yin, Preslav Nakov, Shreya Ghosh, Suhang Wang, (参考訳) 本稿では,ドメインドリフト下での大規模言語モデル (LLM) を用いた抽出質問回答 (EQA) について検討する。 この目的のために、我々は、パフォーマンスギャップを実証的に説明するための一連の実験を考案した。 我々の発見は以下のことを示唆している。 a) LLMは,長い回答スパンを回収する等の閉領域のデータセット要求に苦慮する ロ 特定のLLMは、性能が強いにもかかわらず、基本要件を満たす際の弱点を、前処理決定にリンクするドメイン固有の単語の感覚の区別として示している。 c) モデルパラメータのスケーリングは、ドメイン間の一般化に必ずしも有効ではない。 d) クローズドドメインデータセットは、オープンドメインのEQAデータセットと大きく異なり、現在のLLMはそれらを扱うのに苦労しています。 以上の結果から,既存のLSMの改善に向けた重要な方向性が指摘されている。

In this paper, we investigate Extractive Question Answering (EQA) with Large Language Models (LLMs) under domain drift, i.e., can LLMs generalize well to closed-domains that require specific knowledge such as medicine and law in a zero-shot fashion without additional in-domain training? To this end, we devise a series of experiments to empirically explain the performance gap. Our findings suggest that: a) LLMs struggle with dataset demands of closed-domains such as retrieving long answer-spans; b) Certain LLMs, despite showing strong overall performance, display weaknesses in meeting basic requirements as discriminating between domain-specific senses of words which we link to pre-processing decisions; c) Scaling model parameters is not always effective for cross-domain generalization; and d) Closed-domain datasets are quantitatively much different than open-domain EQA datasets and current LLMs struggle to deal with them. Our findings point out important directions for improving existing LLMs.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# 位相変調レーザー駆動一次元オプティメカルアレイにおけるバンド構造とクエンチダイナミクスの制御

Controlling the band structure and quench dynamics in one-dimensional optomechanical array driven by a phase modulated laser ( http://arxiv.org/abs/2409.18447v1 )

ライセンス: Link先を確認
Divya Mishra, Parvendra Kumar, (参考訳) 位相変調レーザーにより駆動される結合型光学キャビティのアレイを理論的に検討した。 位相変調により、ハイブリッド固有モードにおける光子とフォノンの相対重みの制御とスイッチングが可能であることを示す。 最後に、相がハイブリッドモードの個体群やクエンチダイナミクスにどのように影響するかを示す。

We theoretically investigated an array of coupled optomechanical cavities driven by a phase-modulated laser. We show that phase modulation enables the control of band structure and switching of the relative weights of photons and phonons in hybrid eigenmodes. Finally, we show how phase affects the population of hybrid modes and quench dynamics.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# 多時間勾配補正による階層型フェデレーション学習

Hierarchical Federated Learning with Multi-Timescale Gradient Correction ( http://arxiv.org/abs/2409.18448v1 )

ライセンス: Link先を確認
Wenzhi Fang, Dong-Jun Han, Evan Chen, Shiqiang Wang, Christopher G. Brinton, (参考訳) 従来のフェデレートラーニング(FL)は一般的に、クライアントが中央サーバーに直接接続される星のトポロジーに焦点を当てるが、現実の分散システムは階層的なアーキテクチャを示すことが多い。 階層FL (Hierarchical FL) はこのギャップを埋める有望なソリューションとして現れ、システムの複数レベルの集約ポイントを活用している。 しかし、HFLの既存のアルゴリズムは、マルチタイムスケールのモデルドリフト、すなわち階層的なデータヘテロジニティのレベルにわたって発生するモデルドリフトを扱う際の課題に直面している。 本稿では,この問題を解決するため,MTGC法を提案する。 私たちのキーとなる考え方は、異なる制御変数を導入することです。 i) グループ勾配に対するクライアント勾配を補正すること、すなわち、個々のデータセットに基づいたローカル更新によるクライアントモデルのドリフトを低減すること。 (2)大域勾配への群勾配を補正し、その群内のクライアントよりもFLによって引き起こされる群モデルのドリフトを低減する。 一般の非凸条件下でのMTGCの収束挙動を解析的に解析し,補正項間の結合に伴う課題を克服する。 我々は,この収束境界がデータ不均一性の範囲に無害であることを示し,提案アルゴリズムの多レベル非等化データに対する安定性を確認した。 様々なデータセットやモデルに関する広範な実験を通じて,多様なHFL設定におけるMTGCの有効性を検証した。 このプロジェクトのコードは \href{https://github.com/wenzhifang/MTGC}{https://github.com/wenzhifang/MTGC} で公開されている。

While traditional federated learning (FL) typically focuses on a star topology where clients are directly connected to a central server, real-world distributed systems often exhibit hierarchical architectures. Hierarchical FL (HFL) has emerged as a promising solution to bridge this gap, leveraging aggregation points at multiple levels of the system. However, existing algorithms for HFL encounter challenges in dealing with multi-timescale model drift, i.e., model drift occurring across hierarchical levels of data heterogeneity. In this paper, we propose a multi-timescale gradient correction (MTGC) methodology to resolve this issue. Our key idea is to introduce distinct control variables to (i) correct the client gradient towards the group gradient, i.e., to reduce client model drift caused by local updates based on individual datasets, and (ii) correct the group gradient towards the global gradient, i.e., to reduce group model drift caused by FL over clients within the group. We analytically characterize the convergence behavior of MTGC under general non-convex settings, overcoming challenges associated with couplings between correction terms. We show that our convergence bound is immune to the extent of data heterogeneity, confirming the stability of the proposed algorithm against multi-level non-i.i.d. data. Through extensive experiments on various datasets and models, we validate the effectiveness of MTGC in diverse HFL settings. The code for this project is available at \href{https://github.com/wenzhifang/MTGC}{https://github.com/wenzhifang/MTGC}.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# エンタープライズアプリケーションにおける多文書理解と要約のための長期大言語モデルの活用

Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications ( http://arxiv.org/abs/2409.18454v1 )

ライセンス: Link先を確認
Aditi Godbole, Jabin Geevarghese George, Smita Shandilya, (参考訳) 様々な分野にわたる非構造化データの急速な増加により、多文書理解と要約が重要な課題となっている。 伝統的なアプローチは、しばしば関連するコンテキストを捉えたり、論理的な一貫性を維持したり、長いドキュメントから重要な情報を抽出するのに失敗する。 本稿では,多文書要約におけるLong-context Large Language Models (LLMs) の利用について検討し,広範囲な接続を把握し,結束的な要約を提供し,様々な産業分野に適応し,エンタープライズアプリケーションやシステムとの統合を図っている。 本論では, 法的な応用, 人事, 金融, ソーシングなどの企業機能, 医療・ニュース分野におけるケーススタディによって支援された, 長期間のLLMを効果的に展開するための多文書要約のワークフローについて論じる。 これらのケーススタディは、効率と精度の両方において顕著な向上を示した。 データセットの多様性やモデルのスケーラビリティ、バイアス緩和や事実的正確性といった倫理的考慮といった技術的障害を慎重に分析する。 先進的な研究の道は、長文LLMの機能と応用を増進し、様々な分野やエンタープライズアプリケーションにまたがる情報処理を変革するための重要なツールとして確立することを示唆している。

The rapid increase in unstructured data across various fields has made multi-document comprehension and summarization a critical task. Traditional approaches often fail to capture relevant context, maintain logical consistency, and extract essential information from lengthy documents. This paper explores the use of Long-context Large Language Models (LLMs) for multi-document summarization, demonstrating their exceptional capacity to grasp extensive connections, provide cohesive summaries, and adapt to various industry domains and integration with enterprise applications/systems. The paper discusses the workflow of multi-document summarization for effectively deploying long-context LLMs, supported by case studies in legal applications, enterprise functions such as HR, finance, and sourcing, as well as in the medical and news domains. These case studies show notable enhancements in both efficiency and accuracy. Technical obstacles, such as dataset diversity, model scalability, and ethical considerations like bias mitigation and factual accuracy, are carefully analyzed. Prospective research avenues are suggested to augment the functionalities and applications of long-context LLMs, establishing them as pivotal tools for transforming information processing across diverse sectors and enterprise applications.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# グラフニューラルネットワークアンラーニングによるデジタルアセット開発の検討

Review of Digital Asset Development with Graph Neural Network Unlearning ( http://arxiv.org/abs/2409.18455v1 )

ライセンス: Link先を確認
Zara Lisbon, (参考訳) デジタル資産の急速な発展の中で、ロバストなデータプライバシと規制フレームワークへのコンプライアンスの義務が強まっている。 本稿では,デジタル資産管理におけるグラフニューラルネットワーク(GNN)の重要性を考察し,GNNアーキテクチャに特化して,革新的なアンラーニング技術を導入する。 我々は,非学習戦略を,グラフ構造を操作して特定のノードの影響を分離・除去するデータ駆動近似と,GNN自体の内部パラメータやアーキテクチャを変更するモデル駆動近似の2つの主要なクラスに分類する。 不正検出,リスク評価,トークン関係予測,分散ガバナンスなど,さまざまなユースケースにおける適用性に注目した。 本稿では,データアンラーニングの要件,特にリアルタイム金融アプリケーションにおいて,モデルパフォーマンスとデータアンラーニングのバランスをとる上での課題について論じる。 さらに,デジタルアセットエコシステムにおけるGNNの効率性と有効性を高めるために,両方のアンラーニング戦略の強みを組み合わせたハイブリッドアプローチを提案する。 本論文は、GNNアンラーニング技術を理解し実装するための包括的なフレームワークを提供することを目標とし、デジタルアセット領域における機械学習のセキュアかつコンプライアンスな展開の道を開くことを目的とする。

In the rapidly evolving landscape of digital assets, the imperative for robust data privacy and compliance with regulatory frameworks has intensified. This paper investigates the critical role of Graph Neural Networks (GNNs) in the management of digital assets and introduces innovative unlearning techniques specifically tailored to GNN architectures. We categorize unlearning strategies into two primary classes: data-driven approximation, which manipulates the graph structure to isolate and remove the influence of specific nodes, and model-driven approximation, which modifies the internal parameters and architecture of the GNN itself. By examining recent advancements in these unlearning methodologies, we highlight their applicability in various use cases, including fraud detection, risk assessment, token relationship prediction, and decentralized governance. We discuss the challenges inherent in balancing model performance with the requirements for data unlearning, particularly in the context of real-time financial applications. Furthermore, we propose a hybrid approach that combines the strengths of both unlearning strategies to enhance the efficiency and effectiveness of GNNs in digital asset ecosystems. Ultimately, this paper aims to provide a comprehensive framework for understanding and implementing GNN unlearning techniques, paving the way for secure and compliant deployment of machine learning in the digital asset domain.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# DynaWeightPnP:PnPにおける対応のない大域的リアルタイム3D-2Dソルバを目指して

DynaWeightPnP: Toward global real-time 3D-2D solver in PnP without correspondences ( http://arxiv.org/abs/2409.18457v1 )

ライセンス: Link先を確認
Jingwei Song, Maani Ghaffari, (参考訳) 本稿では,PnP(PnP)問題に対処し,対応のない3次元形状と2次元形状をリアルタイムにアライメントする最適なポーズを推定する。 様々な研究が3Dと2Dの形状の登録に焦点を合わせてきたが、リアルタイムと正確な性能の両立は依然として困難である。 本研究は、3D-2D形状登録タスクを特に対象とし、最近開発されたReproduction Kernel Hilbert Space (RKHS)を用いて「大小」問題に対処する。 RKHSに基づく定式化を効率的に解くために反復再重み付き最小二乗法を用いる。 さらに,我々の研究は,PnPの回転と翻訳の数値的あいまいさという,通信自由なPnPにおける特異かつ興味深い可観測性の問題を明らかにした。 そこで我々はDynaWeightPnPを提案し、動的重み付けサブプロブレムと、ポーズ推定とアライメント精度を向上させるために設計された代替探索アルゴリズムを導入した。 血管内画像ガイドインターベンション(EIGIs)における3D-2D vascular centerline registrationの典型的な例について実験を行った。 その結果,提案アルゴリズムは,現在のシングルコアCPUにおいて,60Hz/31Hz/31Hzの登録処理速度を,既存の手法に匹敵する競争精度で達成できることを示した。 これらの結果は、将来のEIGIのようなロボットナビゲーションタスクに対するDynaWeightPnPの適合性を裏付けるものである。

This paper addresses a special Perspective-n-Point (PnP) problem: estimating the optimal pose to align 3D and 2D shapes in real-time without correspondences, termed as correspondence-free PnP. While several studies have focused on 3D and 2D shape registration, achieving both real-time and accurate performance remains challenging. This study specifically targets the 3D-2D geometric shape registration tasks, applying the recently developed Reproducing Kernel Hilbert Space (RKHS) to address the "big-to-small" issue. An iterative reweighted least squares method is employed to solve the RKHS-based formulation efficiently. Moreover, our work identifies a unique and interesting observability issue in correspondence-free PnP: the numerical ambiguity between rotation and translation. To address this, we proposed DynaWeightPnP, introducing a dynamic weighting sub-problem and an alternative searching algorithm designed to enhance pose estimation and alignment accuracy. Experiments were conducted on a typical case, that is, a 3D-2D vascular centerline registration task within Endovascular Image-Guided Interventions (EIGIs). Results demonstrated that the proposed algorithm achieves registration processing rates of 60 Hz (without post-refinement) and 31 Hz (with post-refinement) on modern single-core CPUs, with competitive accuracy comparable to existing methods. These results underscore the suitability of DynaWeightPnP for future robot navigation tasks like EIGIs.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# バーチャルリアリティとディープラーニング技術による犯罪現場調査の強化

Enhancing Crime Scene Investigations through Virtual Reality and Deep Learning Techniques ( http://arxiv.org/abs/2409.18458v1 )

ライセンス: Link先を確認
Antonino Zappalà, Luca Guarnera, Vincenzo Rinaldi, Salvatore Livatino, Sebastiano Battiato, (参考訳) 犯罪現場の分析は、法医学的な調査において重要な活動である。 犯罪現場調査官や法科学専門家は、裁判所が期待する品質基準を文書化するための厳格な科学的報告書を作成するために、ベストプラクティス、標準的な手術手順、批判的思考に頼っている。 しかし, 犯罪現場調査は, 接触のない非破壊的な分析手法を用いても, 劣化, 汚染, 変化の影響を受けやすい環境において, 複雑かつ多面的な作業である。 この文脈では、遺跡の文書化と明らかな価値の痕跡の同定と分離は、依然として困難な試みである。 本稿では,バーチャルリアリティ(VR)における検査のための犯罪現場のフォトグラム的再構築を提案し,クライアントサーバアーキテクチャによるディープラーニング(DL)アルゴリズムによる完全自動物体認識に焦点を当てた。 トレーニング済みのFaster-RCNNモデルは、VR環境の専門家によって選択された、現場の関連オブジェクトを最もよく分類できる最良の方法として選ばれた。 これらの操作は犯罪現場の分析を大幅に改善し、加速させ、法医学の専門家が分析対象を詳細に分析するのに役立つ。 模擬犯罪現場における実験結果から,本手法は潜在的な証拠価値のある物体の発見と認識に有効であり,特に健康・安全リスク(火災,爆発,化学物質など)のタイムリーな分析が可能であり,かつ,現場の主観的偏見や汚染を最小限に抑えることができることが示された。

The analysis of a crime scene is a pivotal activity in forensic investigations. Crime Scene Investigators and forensic science practitioners rely on best practices, standard operating procedures, and critical thinking, to produce rigorous scientific reports to document the scenes of interest and meet the quality standards expected in the courts. However, crime scene examination is a complex and multifaceted task often performed in environments susceptible to deterioration, contamination, and alteration, despite the use of contact-free and non-destructive methods of analysis. In this context, the documentation of the sites, and the identification and isolation of traces of evidential value remain challenging endeavours. In this paper, we propose a photogrammetric reconstruction of the crime scene for inspection in virtual reality (VR) and focus on fully automatic object recognition with deep learning (DL) algorithms through a client-server architecture. A pre-trained Faster-RCNN model was chosen as the best method that can best categorize relevant objects at the scene, selected by experts in the VR environment. These operations can considerably improve and accelerate crime scene analysis and help the forensic expert in extracting measurements and analysing in detail the objects under analysis. Experimental results on a simulated crime scene have shown that the proposed method can be effective in finding and recognizing objects with potential evidentiary value, enabling timely analyses of crime scenes, particularly those with health and safety risks (e.g. fires, explosions, chemicals, etc.), while minimizing subjective bias and contamination of the scene.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# FoodMLLM-JP:日本語レシピ生成のためのマルチモーダル大言語モデルを活用する

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation ( http://arxiv.org/abs/2409.18459v1 )

ライセンス: Link先を確認
Yuki Imajuku, Yoko Yamakata, Kiyoharu Aizawa, (参考訳) レシピデータを用いた食品画像の理解に関する研究は、データの多様性と複雑さにより、長年にわたって注目されてきた。 また、食品は人々の生活と密接な関係があり、食事管理などの実践的な用途に欠かせない研究領域となっている。 MLLM(Multimodal Large Language Models)の最近の進歩は、その膨大な知識だけでなく、言語を自然に扱う能力においても顕著な能力を示している。 主に英語が使われているが、日本語を含む複数の言語もサポートできる。 このことから,食品画像理解タスクにおけるMLLMの性能向上が期待できる。 オープンMLLMのLLaVA-1.5とPhi-3 Visionを日本のレシピデータセット上で微調整し,その性能をGPT-4oと比較した。 次に,日本食文化を包括的に包括的に包括的に分析した5000点の評価試料を用いて,食材や調理手順を含む生成レシピの内容を評価した。 本評価は,レシピデータに基づいて学習したオープンモデルが,現在の最先端モデルであるGPT-4oを材料生成において上回っていることを示す。 GPT-4oのF1スコア0.481を超え,高い精度でF1スコア0.531を達成した。 さらに,本モデルでは,調理手順テキストの生成において,GPT-4oに匹敵する性能を示した。

Research on food image understanding using recipe data has been a long-standing focus due to the diversity and complexity of the data. Moreover, food is inextricably linked to people's lives, making it a vital research area for practical applications such as dietary management. Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities, not only in their vast knowledge but also in their ability to handle languages naturally. While English is predominantly used, they can also support multiple languages including Japanese. This suggests that MLLMs are expected to significantly improve performance in food image understanding tasks. We fine-tuned open MLLMs LLaVA-1.5 and Phi-3 Vision on a Japanese recipe dataset and benchmarked their performance against the closed model GPT-4o. We then evaluated the content of generated recipes, including ingredients and cooking procedures, using 5,000 evaluation samples that comprehensively cover Japanese food culture. Our evaluation demonstrates that the open models trained on recipe data outperform GPT-4o, the current state-of-the-art model, in ingredient generation. Our model achieved F1 score of 0.531, surpassing GPT-4o's F1 score of 0.481, indicating a higher level of accuracy. Furthermore, our model exhibited comparable performance to GPT-4o in generating cooking procedure text.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# 光キャビティにおける分子エキシトン-ポラリトンダイナミクスの半古典的トレンシ化-ウィグナー近似理論

Semiclassical Truncated-Wigner-Approximation Theory of Molecular Exciton-Polariton Dynamics in Optical Cavities ( http://arxiv.org/abs/2409.18460v1 )

ライセンス: Link先を確認
Nguyen Thanh Phuc, (参考訳) 分子励起ポラリトン(英: molecular exiton polariton)は、分子電子励起と光学キャビティモードとの強い結合から生じるハイブリッド状態であり、分子系の光物理的および光化学的特性を制御するための有望なアプローチである。 本研究では, タンニン化ウィグナー近似(TWA)を用いた分子励起子-ポラリトンダイナミクスの半古典的理論を開発し, 強い光物質結合下での分子電子励起状態の集団的挙動について検討する。 分子振動偏光子力学のTWA理論(J. Chem. Theory Comput. 2024, 20, 3019-3027)を、基底と励起分子状態の間の量子コヒーレンスを半古典的に扱うことによって拡張する。 まず、TWA理論を2レベル(スピン-1/2)系としてモデル化した単純化された分子系に適用し、ビブロニックカップリングを省略する。 単スピン作用素へのTWAの適用から導かれる半古典的な結果は、十分に多数の分子を持つ系における完全な量子力学シミュレーションと良好な一致を示している。 最後に、TWA理論は分子のビブロニックカップリングを組み込むように拡張され、分子励起間の量子コヒーレンスを強い光-物質カップリングの下で保存する動的ポラロンデカップリング効果が明らかにされる。

Molecular exciton polaritons are hybrid states resulting from the strong coupling of molecular electronic excitations with an optical cavity mode, presenting a promising approach for controlling photophysical and photochemical properties in molecular systems. In this study, we develop a semiclassical theory for molecular exciton-polariton dynamics using the truncated Wigner approximation (TWA) to explore the collective behavior of molecular electronic excited states under strong light-matter coupling. Our approach expands the previously developed TWA theory for molecular vibration-polariton dynamics (J. Chem. Theory Comput. 2024, 20, 3019--3027) by incorporating semiclassical treatment of quantum coherence between ground and excited molecular states. We initially apply the TWA theory to a simplified system of molecules modeled as two-level (spin-1/2) systems, omitting vibronic coupling. The semiclassical results derived from applying the TWA to single-spin operators demonstrate excellent agreement with full quantum dynamic simulations in systems with a sufficiently large number of molecules. Lastly, the TWA theory is extended to incorporate molecular vibronic coupling, revealing the dynamic polaron decoupling effect, where quantum coherence between molecular excitations is preserved under strong light-matter coupling.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# タスク算術的知識統合による多様なデバイス不均一なフェデレーション学習に向けて

Towards Diverse Device Heterogeneous Federated Learning via Task Arithmetic Knowledge Integration ( http://arxiv.org/abs/2409.18461v1 )

ライセンス: Link先を確認
Mahdi Morafah, Vyacheslav Kungurtsev, Hojin Chang, Chen Chen, Bill Lin, (参考訳) フェデレートラーニング(Federated Learning)は、ユーザのデータプライバシを保護しながら、コラボレーション機械学習のための有望なパラダイムとして登場した。 その可能性にもかかわらず、標準FLは、小さなIoTデバイスから大規模なワークステーションまで、モデルとデータセットサイズに大きく異なる、多様な異種デバイスのプロトタイプをサポートしていない。 この制限は、既存の知識蒸留技術によって部分的に対処されるだけであり、様々な能力を持つデバイスプロトタイプの幅広い範囲で、知識を効果的に伝達することができないことが多い。 この失敗は主に、2つの問題に起因している: より能力の低いデバイスからより有能なデバイスからの情報ロジットを希釈すること、全デバイスにわたる蒸留ターゲットとして単一の統合ロジットを使用することで、個々の学習能力とそれぞれのユニークな貢献を無視することである。 これらの課題に対処するために,各デバイスプロトタイプのアンサンブルからの知識伝達を個別のタスクとして扱う,KDベースの新しいフレームワークであるTAKFLを紹介する。 TAKFLはまた、ノイズや教師なしのアンサンブル蒸留プロセスに関連する問題を緩和するために、KDベースの自己規則化技術も取り入れている。 個別に蒸留した知識を統合するために,適応的タスク算術知識統合プロセスを導入し,各学生モデルが最適性能のために知識統合をカスタマイズできるようにする。 さらに,異種デバイス間での知識伝達におけるタスク算術の有効性を理論的に検証した。 CVタスクとNLPタスクの総合的な評価は,TAKFLが様々なデータセットや設定でSOTAを達成し,既存のKD手法よりも大幅に優れていることを示す。 コードはhttps://github.com/MMorafah/TAKFLで公開されている。

Federated Learning has emerged as a promising paradigm for collaborative machine learning, while preserving user data privacy. Despite its potential, standard FL lacks support for diverse heterogeneous device prototypes, which vary significantly in model and dataset sizes -- from small IoT devices to large workstations. This limitation is only partially addressed by existing knowledge distillation techniques, which often fail to transfer knowledge effectively across a broad spectrum of device prototypes with varied capabilities. This failure primarily stems from two issues: the dilution of informative logits from more capable devices by those from less capable ones, and the use of a single integrated logits as the distillation target across all devices, which neglects their individual learning capacities and and the unique contributions of each. To address these challenges, we introduce TAKFL, a novel KD-based framework that treats the knowledge transfer from each device prototype's ensemble as a separate task, independently distilling each to preserve its unique contributions and avoid dilution. TAKFL also incorporates a KD-based self-regularization technique to mitigate the issues related to the noisy and unsupervised ensemble distillation process. To integrate the separately distilled knowledge, we introduce an adaptive task arithmetic knowledge integration process, allowing each student model to customize the knowledge integration for optimal performance. Additionally, we present theoretical results demonstrating the effectiveness of task arithmetic in transferring knowledge across heterogeneous devices with varying capacities. Comprehensive evaluations of our method across both CV and NLP tasks demonstrate that TAKFL achieves SOTA results in a variety of datasets and settings, significantly outperforming existing KD-based methods. Code is released at https://github.com/MMorafah/TAKFL
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# 多モード脳活動翻訳のための潜在表現学習

Latent Representation Learning for Multimodal Brain Activity Translation ( http://arxiv.org/abs/2409.18462v1 )

ライセンス: Link先を確認
Arman Afrasiyabi, Dhananjay Bhaskar, Erica L. Busch, Laurent Caplette, Rahul Singh, Guillaume Lajoie, Nicholas B. Turk-Browne, Smita Krishnaswamy, (参考訳) 神経科学は様々な神経画像技術を用いており、それぞれが時間分解能の高い脳波などの電気生理学的記録から、空間的精度が向上したfMRIのような血行動態まで、脳活動に対する明確な洞察を与えている。 しかし、これらの異種データソースを統合することは依然として課題であり、脳機能の包括的な理解を制限している。 本稿では,空間的および時間的解像度のギャップをモダリティ全体に橋渡しし,モダリティ固有のバイアスのない統一潜在空間を学習するSAMBA(Spatiotemporal Alignment of Multimodal Brain Activity)フレームワークを提案する。 SAMBAは、電気生理学的記録のスペクトルフィルタリングのための新しいアテンションベースのウェーブレット分解、機能的脳ユニット間の機能的接続をモデル化するためのグラフアテンションネットワーク、脳信号の時間的自己相関を捉えるための繰り返しレイヤを導入している。 SAMBAの学習は、翻訳の他に、脳情報処理の豊かな表現も学べることが示されている。 我々は、SAMBAの隠れた層で学習した脳活動の外部刺激を分類し、神経科学研究や臨床研究における幅広い下流の応用の道を開く。

Neuroscience employs diverse neuroimaging techniques, each offering distinct insights into brain activity, from electrophysiological recordings such as EEG, which have high temporal resolution, to hemodynamic modalities such as fMRI, which have increased spatial precision. However, integrating these heterogeneous data sources remains a challenge, which limits a comprehensive understanding of brain function. We present the Spatiotemporal Alignment of Multimodal Brain Activity (SAMBA) framework, which bridges the spatial and temporal resolution gaps across modalities by learning a unified latent space free of modality-specific biases. SAMBA introduces a novel attention-based wavelet decomposition for spectral filtering of electrophysiological recordings, graph attention networks to model functional connectivity between functional brain units, and recurrent layers to capture temporal autocorrelations in brain signal. We show that the training of SAMBA, aside from achieving translation, also learns a rich representation of brain information processing. We showcase this classify external stimuli driving brain activity from the representation learned in hidden layers of SAMBA, paving the way for broad downstream applications in neuroscience research and clinical contexts.
翻訳日:2024-11-06 06:11:53 公開日:2024-09-27
# 高次元粒子物理学におけるベイズサンプリングアルゴリズムの比較と宇宙論への応用

A comparison of Bayesian sampling algorithms for high-dimensional particle physics and cosmology applications ( http://arxiv.org/abs/2409.18464v1 )

ライセンス: Link先を確認
Joshua Albert, Csaba Balazs, Andrew Fowlie, Will Handley, Nicholas Hunt-Smith, Roberto Ruiz de Austri, Martin White, (参考訳) 何十年もの間、ベイズ推論技術は素粒子物理学、宇宙論、天体物理学の理論に応用され、自由パラメータの確率密度関数が得られてきた。 本研究では,多種多様なマルコフ・チェイン・モンテカルロ(MCMC)とネストサンプリング技術を用いて,粒子天体物理学の文献で最も頻繁に見られる関数に類似した関数に対する相対的有効性を検証し,比較した。 我々の最初の一連のテストは、例えば、高度に多モードの後方や、曲がりくねった退化を伴う後部といった、特定の課題を実証する一連の高次元解析的テスト関数を探索する。 次に、Planck実験による宇宙マイクロ波背景データを用いた$\Lambda$CDMモデルの大域的適合性と、多種多様なコライダーと天体物理学データを用いた最小超対称性標準モデルの大域的適合性について検討する。 ネストサンプリング手法を用いて最も容易に解けると広く考えられているいくつかの例は、実際、現代のMCMCアルゴリズムによりより効率的に解けるが、実装の詳細は重要である。 さらに、粒子天体物理学や宇宙論の実践者にも有用な洞察を提供する。

For several decades now, Bayesian inference techniques have been applied to theories of particle physics, cosmology and astrophysics to obtain the probability density functions of their free parameters. In this study, we review and compare a wide range of Markov Chain Monte Carlo (MCMC) and nested sampling techniques to determine their relative efficacy on functions that resemble those encountered most frequently in the particle astrophysics literature. Our first series of tests explores a series of high-dimensional analytic test functions that exemplify particular challenges, for example highly multimodal posteriors or posteriors with curving degeneracies. We then investigate two real physics examples, the first being a global fit of the $\Lambda$CDM model using cosmic microwave background data from the Planck experiment, and the second being a global fit of the Minimal Supersymmetric Standard Model using a wide variety of collider and astrophysics data. We show that several examples widely thought to be most easily solved using nested sampling approaches can in fact be more efficiently solved using modern MCMC algorithms, but the details of the implementation matter. Furthermore, we also provide a series of useful insights for practitioners of particle astrophysics and cosmology.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# SmartReco: 細粒度クロスDApp分析による読み取り専用リテンシの検出

SmartReco: Detecting Read-Only Reentrancy via Fine-Grained Cross-DApp Analysis ( http://arxiv.org/abs/2409.18468v1 )

ライセンス: Link先を確認
Jingwen Zhang, Zibin Zheng, Yuhong Nan, Mingxi Ye, Kaiwen Ning, Yu Zhang, Weizhe Zhang, (参考訳) 分散アプリケーション(DApps)の人気は高まっているが、敵が利益のために悪用できる様々な脆弱性に悩まされている。 このような脆弱性の中で、Read-Only Reentrancy(RORと呼ばれる)は、DApp間の複雑な相互作用から生じる、新たなタイプの脆弱性である。 過去3年間で、RORのアタックインシデントは、すでにDAppエコシステムに約3000万USDの損失をもたらしている。 スマートコントラクトにおける既存の脆弱性検出技術は、複数のDApp間の複雑なインタラクションの追跡と分析が欠如しているため、読み取りオンリーのリテンシック攻撃をほとんど検出できない。 本稿では,スマートコントラクト上での静的および動的解析(ファジング)の新たな組み合わせにより,DAppsにおける読み取りオンリーの脆弱性を検出する新しいフレームワークであるSmartRecoを提案する。 SmartRecoは、重結合のクロスコントラクトインタラクションから、異なるDApp間のバウンダリを特定します。 2) SmartRecoは、RORにつながる可能性のある関心点(すなわちエントリ関数)を特定するために、きめ細かい静的解析を行う。 (3) SmartRecoは、オンチェーントランザクションデータを使用し、異なるDApp間でマルチファンクションファジング(すなわち、エントリ関数と犠牲者関数)を行い、RORの存在を検証する。 45のORを持つ手動ラベル付きデータセットの評価では、SmartRecoの精度は88.63%、リコール率は86.36%である。 さらにSmartRecoは、123の人気のDAppsから43の新しいORを正常に検出する。 RORの影響を受けた総資産は約52万USドルに達する。

Despite the increasing popularity of Decentralized Applications (DApps), they are suffering from various vulnerabilities that can be exploited by adversaries for profits. Among such vulnerabilities, Read-Only Reentrancy (called ROR in this paper), is an emerging type of vulnerability that arises from the complex interactions between DApps. In the recent three years, attack incidents of ROR have already caused around 30M USD losses to the DApp ecosystem. Existing techniques for vulnerability detection in smart contracts can hardly detect Read-Only Reentrancy attacks, due to the lack of tracking and analyzing the complex interactions between multiple DApps. In this paper, we propose SmartReco, a new framework for detecting Read-Only Reentrancy vulnerability in DApps through a novel combination of static and dynamic analysis (i.e., fuzzing) over smart contracts. The key design behind SmartReco is threefold: (1) SmartReco identifies the boundary between different DApps from the heavy-coupled cross-contract interactions. (2) SmartReco performs fine-grained static analysis to locate points of interest (i.e., entry functions) that may lead to ROR. (3) SmartReco utilizes the on-chain transaction data and performs multi-function fuzzing (i.e., the entry function and victim function) across different DApps to verify the existence of ROR. Our evaluation of a manual-labeled dataset with 45 RORs shows that SmartReco achieves a precision of 88.63% and a recall of 86.36%. In addition, SmartReco successfully detects 43 new RORs from 123 popular DApps. The total assets affected by such RORs reach around 520,000 USD.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# 知識共有による感性属性のないフェアネス

Fairness without Sensitive Attributes via Knowledge Sharing ( http://arxiv.org/abs/2409.18470v1 )

ライセンス: Link先を確認
Hongliang Ni, Lei Han, Tong Chen, Shazia Sadiq, Gianluca Demartini, (参考訳) これまでもモデルフェアネスの改善が検討されてきたが、既存の手法では、ダウンストリームタスクにおけるモデルフェアネスを改善するために、明示的な属性値の調整に必ず依存している。 しかし、データプライバシに関する公的な懸念が高まるにつれて、センシティブな人口統計情報がアクセス不能になる傾向が観察されている。 本稿では,信頼度に基づく階層型分類器構造"Reckoner"を提案する。 まず、データセットにバイアス付きラベルやその他の隠れバイアスが含まれている場合、分類器は予測信頼度を高くして、サブセット内の異なる人口集団間のバイアスギャップを著しく増加させることを示す。 これらの知見に触発されて、高信頼データサブセットで初期化されたモデルのバージョンが、低信頼データサブセットで初期化されたモデルのバージョンから学習し、バイアスのある予測を回避できるデュアルモデルシステムを開発した。 我々の実験結果から、ReckonerはCompASデータセットとNew Adultデータセットにおいて、精度と公正度の両方を考慮して、常に最先端のベースラインを上回ります。

While model fairness improvement has been explored previously, existing methods invariably rely on adjusting explicit sensitive attribute values in order to improve model fairness in downstream tasks. However, we observe a trend in which sensitive demographic information becomes inaccessible as public concerns around data privacy grow. In this paper, we propose a confidence-based hierarchical classifier structure called "Reckoner" for reliable fair model learning under the assumption of missing sensitive attributes. We first present results showing that if the dataset contains biased labels or other hidden biases, classifiers significantly increase the bias gap across different demographic groups in the subset with higher prediction confidence. Inspired by these findings, we devised a dual-model system in which a version of the model initialised with a high-confidence data subset learns from a version of the model initialised with a low-confidence data subset, enabling it to avoid biased predictions. Our experimental results show that Reckoner consistently outperforms state-of-the-art baselines in COMPAS dataset and New Adult dataset, considering both accuracy and fairness metrics.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# ハイゼンベルクの不確実性原理による攻撃ベクトルの拡大による量子系の隠れた脆弱性の解明

Unveiling Hidden Vulnerabilities in Quantum Systems by Expanding Attack Vectors through Heisenberg's Uncertainty Principle ( http://arxiv.org/abs/2409.18471v1 )

ライセンス: Link先を確認
Jose R. Rosas-Bustos, Jesse Van Griensven The, Roydon Frayser, (参考訳) この研究は、ループホールのような従来の実装欠陥を超えて広がる量子鍵分布(QKD)プロトコルの新たな脆弱性を明らかにする。 これらの新たな脆弱性は、ベル不等式 (BIs) と隠れ変数理論 (HVTs) の間の複雑な相互作用から生じ、さらにハイゼンベルク不確実性原理 (HUP) によってさらに悪化した。 理論解析、シミュレーション、量子実験の組み合わせにより、今日の量子暗号のコア仮定に挑戦する重要なセキュリティの弱点を明らかにする。 これらの脆弱性は既知の抜け穴とは異なるが、従来のサイバー攻撃と並んで考えると、QKDと量子完全性システムの堅牢性に重大な脅威をもたらす。 これらの結果は、将来の量子暗号および量子完全性プロトコルの堅牢性を保証するために、現在の量子セキュリティフレームワークを再考する新たな視点を提供する。

This study uncovers novel vulnerabilities within Quantum Key Distribution (QKD) protocols that extend beyond traditional implementation flaws, such as loopholes. These newly identified vulnerabilities arise from the complex interaction between Bell Inequalities (BIs) and Hidden Variable Theories (HVTs), further exacerbated by the Heisenberg Uncertainty Principle (HUP). Through a combination of theoretical analysis, simulations, and quantum experiments, we reveal critical security weaknesses that challenge the core assumptions of today's quantum cryptography. While these vulnerabilities differ from known loopholes, when considered alongside them and traditional cyberattacks, they present a significant threat to the robustness of QKD and quantum integrity systems. These results provide a new perspective to rethink current quantum security frameworks to ensure the robustness of future quantum cryptographic and quantum integrity protocols.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# URIEL+: 言語学的・多言語的知識ベースにおける言語包摂性とユーザビリティの強化

URIEL+: Enhancing Linguistic Inclusion and Usability in a Typological and Multilingual Knowledge Base ( http://arxiv.org/abs/2409.18472v1 )

ライセンス: Link先を確認
Aditya Khan, Mason Shipton, David Anugraha, Kaiyao Duan, Phuong H. Hoang, Eric Khiu, A. Seza Doğruöz, En-Shiun Annie Lee, (参考訳) URIELは、7970言語のための地理的、系統的、およびタイプ的ベクトル表現を提供する知識ベースである。 lang2vecツールを介してアクセス可能な4005言語のベクトル間の距離測定が含まれている。 URIELはしばしば引用されているが、言語的包摂性や全体的なユーザビリティの点で制限されている。 これらの課題に取り組むために、これらの制限に対処するURIELとlang2vecの拡張バージョンであるURIEL+を紹介します。 URIEL+は2898言語の特徴カバレッジの拡大に加えて、ユーザのニーズに合った堅牢でカスタマイズ可能な距離計算によって、ユーザエクスペリエンスを改善している。 これらのアップグレードは下流のタスクの競争性能も提供し、言語的距離の研究とよく一致した距離を提供する。

URIEL is a knowledge base offering geographical, phylogenetic, and typological vector representations for 7970 languages. It includes distance measures between these vectors for 4005 languages, which are accessible via the lang2vec tool. Despite being frequently cited, URIEL is limited in terms of linguistic inclusion and overall usability. To tackle these challenges, we introduce URIEL+, an enhanced version of URIEL and lang2vec addressing these limitations. In addition to expanding typological feature coverage for 2898 languages, URIEL+ improves user experience with robust, customizable distance calculations to better suit the needs of the users. These upgrades also offer competitive performance on downstream tasks and provide distances that better align with linguistic distance studies.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# 生成AI時代のデータ分析

Data Analysis in the Era of Generative AI ( http://arxiv.org/abs/2409.18475v1 )

ライセンス: Link先を確認
Jeevana Priya Inala, Chenglong Wang, Steven Drucker, Gonzalo Ramos, Victor Dibia, Nathalie Riche, Dave Brown, Dan Marshall, Jianfeng Gao, (参考訳) 本稿では,AIを活用したデータ分析ツールの可能性について考察する。 我々は,大規模言語やマルチモーダルモデルの出現が,高レベルのユーザ意図を実行可能なコードやチャート,洞察に変換することによって,データ分析ワークフローのさまざまなステージを強化する新たな機会を提供するかを検討する。 次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。 最後に、モデル能力の向上、評価とベンチマーク、エンドユーザのニーズの理解など、これらのAIベースのシステムの開発を妨げる研究課題について論じる。

This paper explores the potential of AI-powered tools to reshape data analysis, focusing on design considerations and challenges. We explore how the emergence of large language and multimodal models offers new opportunities to enhance various stages of data analysis workflow by translating high-level user intentions into executable code, charts, and insights. We then examine human-centered design principles that facilitate intuitive interactions, build user trust, and streamline the AI-assisted analysis workflow across multiple apps. Finally, we discuss the research challenges that impede the development of these AI-based systems such as enhancing model capabilities, evaluating and benchmarking, and understanding end-user needs.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# 物理次元拡散インシシデントモデルによる水中画像の強調

Underwater Image Enhancement with Physical-based Denoising Diffusion Implicit Models ( http://arxiv.org/abs/2409.18476v1 )

ライセンス: Link先を確認
Nguyen Gia Bach, Chanh Minh Tran, Eiji Kamioka, Phan Xuan Tan, (参考訳) 水中の視覚は自律型水中車両(AUV)にとって不可欠であり、資源に制約されたAUV上での劣化した水中画像のリアルタイム化は、光吸収や散乱などの要因や、そのような要因を解決するのに十分なモデル複雑化のために重要な課題である。 従来の画像強調技術は、様々な水中条件への適応性を欠いているが、学習ベースの手法、特に畳み込みニューラルネットワーク(CNN)と生成的敵ネットワーク(GAN)を使用するものは、より堅牢なソリューションを提供するが、不適切な強化、不安定なトレーニング、モード崩壊といった制限に直面している。 拡散確率モデル(DDPM)は画像から画像へのタスクにおいて最先端のアプローチとして登場したが、近年のUW-DDPMソリューションを用いて望まれる水中画像強調(UIE)を実現するには、計算量を要する。 これらの課題に対処するために、新しい物理ベースおよび拡散ベースのUIEアプローチであるUW-DiffPhysを紹介する。 UW-DiffPhysは、光計算物理ベースのUIEネットワークコンポーネントとデノイングU-Netを組み合わせて、既存のUW-DDPMフレームワークにおける計算集約的な分散変換U-Netを置き換える。 さらに,非マルコフサンプリングによる推論プロセスの高速化にDDIM(Denoising Diffusion Implicit Model)を用いる。 実験結果から,UW-DiffPhysはPSNR,SSIM,UCIQEなどの重要な指標の競合性能と,水中画像品質UIQM測定値の全体的な改善により,UW-DDPMと比較して計算複雑性と推論時間を大幅に短縮した。 実装コードは以下のリポジトリで見ることができる。

Underwater vision is crucial for autonomous underwater vehicles (AUVs), and enhancing degraded underwater images in real-time on a resource-constrained AUV is a key challenge due to factors like light absorption and scattering, or the sufficient model computational complexity to resolve such factors. Traditional image enhancement techniques lack adaptability to varying underwater conditions, while learning-based methods, particularly those using convolutional neural networks (CNNs) and generative adversarial networks (GANs), offer more robust solutions but face limitations such as inadequate enhancement, unstable training, or mode collapse. Denoising diffusion probabilistic models (DDPMs) have emerged as a state-of-the-art approach in image-to-image tasks but require intensive computational complexity to achieve the desired underwater image enhancement (UIE) using the recent UW-DDPM solution. To address these challenges, this paper introduces UW-DiffPhys, a novel physical-based and diffusion-based UIE approach. UW-DiffPhys combines light-computation physical-based UIE network components with a denoising U-Net to replace the computationally intensive distribution transformation U-Net in the existing UW-DDPM framework, reducing complexity while maintaining performance. Additionally, the Denoising Diffusion Implicit Model (DDIM) is employed to accelerate the inference process through non-Markovian sampling. Experimental results demonstrate that UW-DiffPhys achieved a substantial reduction in computational complexity and inference time compared to UW-DDPM, with competitive performance in key metrics such as PSNR, SSIM, UCIQE, and an improvement in the overall underwater image quality UIQM metric. The implementation code can be found at the following repository: https://github.com/bachzz/UW-DiffPhys
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# Temporal2Seq: 時間的ビデオ理解タスクのための統一フレームワーク

Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks ( http://arxiv.org/abs/2409.18478v1 )

ライセンス: Link先を確認
Min Yang, Zichen Zhang, Limin Wang, (参考訳) 映像理解の発達に伴い、時間的行動検出(TAD)、時間的行動セグメンテーション(TAS)、一般的な事象境界検出(GEBD)など、クリップレベルの時間的ビデオ分析のためのタスクが急増している。 タスク固有のビデオ理解モデルは、各タスクで際立ったパフォーマンスを示しているが、複数のタスクを同時に処理できる統一されたフレームワークは、次世代AIにとって有望な方向である。 そこで本稿では,これらの時間的映像理解タスクの出力を離散トークンの列として定式化するために,Temporal2Seqと呼ばれる単一統一フレームワークを提案する。 この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。 マルチタスク学習(MTL)ベンチマークがなければ,TAD,TAS,GABDタスクからデータセットを借りて,包括的な協調学習データセットをコンパイルする。 我々はTemporal2Seqジェネラリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。 また,タスクの異なる新しいデータセットに対するジェネラリストモデルの一般化性能についても検討した。

With the development of video understanding, there is a proliferation of tasks for clip-level temporal video analysis, including temporal action detection (TAD), temporal action segmentation (TAS), and generic event boundary detection (GEBD). While task-specific video understanding models have exhibited outstanding performance in each task, there remains a dearth of a unified framework capable of simultaneously addressing multiple tasks, which is a promising direction for the next generation of AI. To this end, in this paper, we propose a single unified framework, coined as Temporal2Seq, to formulate the output of these temporal video understanding tasks as a sequence of discrete tokens. With this unified token representation, Temporal2Seq can train a generalist model within a single architecture on different video understanding tasks. In the absence of multi-task learning (MTL) benchmarks, we compile a comprehensive co-training dataset by borrowing the datasets from TAD, TAS, and GEBD tasks. We evaluate our Temporal2Seq generalist model on the corresponding test sets of three tasks, demonstrating that Temporal2Seq can produce reasonable results on various tasks and achieve advantages compared with single-task training on this framework. We also investigate the generalization performance of our generalist model on new datasets from different tasks, which yields superior performance to the specific model.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# 自己エンコーダに基づく2成分Bose-Hubbardモデルにおける量子相転移の学習

Autoencoder-based learning of Quantum phase transitions in the two-component Bose-Hubbard model ( http://arxiv.org/abs/2409.18480v1 )

ライセンス: Link先を確認
Iftekher S. Chowdhury, Binay Prakash Akhouri, Shah Haque, Eric Howard, (参考訳) 本稿では,2成分ボース・ハバードモデルにおける量子位相遷移の検出と解析に,オートエンコーダと機械学習を用いた手法について検討する。 オートエンコーダなどの深層学習モデルを活用し,遅延空間表現,再構成誤差解析,クラスタ距離計算を用いて位相境界と臨界点の同定を行う。 本研究は,PCA や t-SNE などの次元低減技術を用いて,潜在空間の可視化を行った。 この結果は、量子相転移のダイナミクスを記述するオートエンコーダの可能性を示している。

This paper investigates the use of autoencoders and machine learning methods for detecting and analyzing quantum phase transitions in the Two-Component Bose-Hubbard Model. By leveraging deep learning models such as autoencoders, we investigate latent space representations, reconstruction error analysis, and cluster distance calculations to identify phase boundaries and critical points. The study is supplemented by dimensionality reduction techniques such as PCA and t-SNE for latent space visualization. The results demonstrate the potential of autoencoders to describe the dynamics of quantum phase transitions.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# In-the-Wildコンテキストを考慮した人間の活動認識のための深層不均質なハイパーグラフ学習

Deep Heterogeneous Contrastive Hyper-Graph Learning for In-the-Wild Context-Aware Human Activity Recognition ( http://arxiv.org/abs/2409.18481v1 )

ライセンス: Link先を確認
Wen Ge, Guanyi Mou, Emmanuel O. Agu, Kyumin Lee, (参考訳) HAR(Human Activity Recognition)は、アクティビティが共起し、同じアクティビティに対応するセンサー信号が異なるコンテキスト(例えば、異なるデバイス配置)で異なる可能性があるため、困難な多ラベル分類問題である。 本稿では、異種コンテキスト認識HAR(CA-HAR)ハイパーグラフ特性をメッセージパッシングおよび近傍集約方式でキャプチャするDeep Heterogeneous Contrastive Hyper-Graph Learning (DHC-HGL)フレームワークを提案する。 以前の研究は、等質グラフや浅いノード-異質グラフのみを探索した。 DHC-HGLは異種CA-HARデータを革新的な方法で処理する 1)エッジヘテロジネ性およびエッジヘテロジネ性を扱うために設計された3種類のサブハイパーグラフをそれぞれ異なる独自のHyperGraph Convolution(HGC)層を通過して構築する。 2)ノードの不均一性を保証するために対照的な損失関数を採用する。 2つのCA-HARデータセットの厳密な評価では、DHC-HGLはマシューズ相関係数(MCC)では5.8%から16.7%、マクロF1では3.0%から8.4%で、最先端のベースラインを著しく上回った。 学習したCA-HARノードの埋め込みのUMAP可視化も、モデル説明可能性を高めるために提示される。

Human Activity Recognition (HAR) is a challenging, multi-label classification problem as activities may co-occur and sensor signals corresponding to the same activity may vary in different contexts (e.g., different device placements). This paper proposes a Deep Heterogeneous Contrastive Hyper-Graph Learning (DHC-HGL) framework that captures heterogenous Context-Aware HAR (CA-HAR) hypergraph properties in a message-passing and neighborhood-aggregation fashion. Prior work only explored homogeneous or shallow-node-heterogeneous graphs. DHC-HGL handles heterogeneous CA-HAR data by innovatively 1) Constructing three different types of sub-hypergraphs that are each passed through different custom HyperGraph Convolution (HGC) layers designed to handle edge-heterogeneity and 2) Adopting a contrastive loss function to ensure node-heterogeneity. In rigorous evaluation on two CA-HAR datasets, DHC-HGL significantly outperformed state-of-the-art baselines by 5.8% to 16.7% on Matthews Correlation Coefficient (MCC) and 3.0% to 8.4% on Macro F1 scores. UMAP visualizations of learned CA-HAR node embeddings are also presented to enhance model explainability.
翻訳日:2024-11-06 06:02:07 公開日:2024-09-27
# HSTFL:時空間予測のミスアライメントのための不均一なフェデレーション学習フレームワーク

HSTFL: A Heterogeneous Federated Learning Framework for Misaligned Spatiotemporal Forecasting ( http://arxiv.org/abs/2409.18482v1 )

ライセンス: Link先を確認
Shuowei Cai, Hao Liu, (参考訳) 時空間予測は、インテリジェントトランスポートやスマートエネルギー管理など、多様なスマートシティアプリケーションにとって必須のビルディングブロックとして現れている。 近年,地域別時系列データに知識を組み込むことにより,時空間予測の性能を著しく向上させることができることが判明した。 既存のアプローチは効果的な一方で、異なる当事者が所有するデータに関するプライバシーと商業上の関心事を見越して、中央集権的なデータ収集とエクスプロイト環境を前提としている。 本稿では,複数ソースのプライベートデータに直接アクセスすることなく,複数パーティの協調時空間予測について検討する。 しかし、この作業は困難である。 1)クロスドメインの特徴的不均一性と 2) 標準水平的, 垂直的フェデレーション学習が適用不可能な地理的不均一性。 この目的のために、複数のクライアントが、プライバシーを保ちながら、異なるドメインからの地理的に分散した時系列データを協調的に活用できるように、異種時空間フェデレーションラーニング(HSTFL)フレームワークを提案する。 具体的には,個人間の時空間的依存関係を局所的に保存し,不均一なデータに対する効果的な表現を生成するために,垂直的フェデレーション時空間的表現学習を考案する。 そこで我々は,多レベル知識融合方式を用いて,クロスクライアント時空間依存性を組み込む,クロスクライアント仮想ノードアライメントブロックを提案する。 大規模なプライバシー分析と実験的評価により、HSTFLは推論攻撃に効果的に抵抗するだけでなく、様々なベースラインに対して顕著な改善をもたらすことが示された。

Spatiotemporal forecasting has emerged as an indispensable building block of diverse smart city applications, such as intelligent transportation and smart energy management. Recent advancements have uncovered that the performance of spatiotemporal forecasting can be significantly improved by integrating knowledge in geo-distributed time series data from different domains, \eg enhancing real-estate appraisal with human mobility data; joint taxi and bike demand predictions. While effective, existing approaches assume a centralized data collection and exploitation environment, overlooking the privacy and commercial interest concerns associated with data owned by different parties. In this paper, we investigate multi-party collaborative spatiotemporal forecasting without direct access to multi-source private data. However, this task is challenging due to 1) cross-domain feature heterogeneity and 2) cross-client geographical heterogeneity, where standard horizontal or vertical federated learning is inapplicable. To this end, we propose a Heterogeneous SpatioTemporal Federated Learning (HSTFL) framework to enable multiple clients to collaboratively harness geo-distributed time series data from different domains while preserving privacy. Specifically, we first devise vertical federated spatiotemporal representation learning to locally preserve spatiotemporal dependencies among individual participants and generate effective representations for heterogeneous data. Then we propose a cross-client virtual node alignment block to incorporate cross-client spatiotemporal dependencies via a multi-level knowledge fusion scheme. Extensive privacy analysis and experimental evaluations demonstrate that HSTFL not only effectively resists inference attacks but also provides a significant improvement against various baselines.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# OpenAI o1の評価:AGIの可能性と課題

Evaluation of OpenAI o1: Opportunities and Challenges of AGI ( http://arxiv.org/abs/2409.18486v1 )

ライセンス: Link先を確認
Tianyang Zhong, Zhengliang Liu, Yi Pan, Yutong Zhang, Yifan Zhou, Shizhe Liang, Zihao Wu, Yanjun Lyu, Peng Shu, Xiaowei Yu, Chao Cao, Hanqi Jiang, Hanxu Chen, Yiwei Li, Junhao Chen, Huawen Hu, Yihen Liu, Huaqin Zhao, Shaochen Xu, Haixing Dai, Lin Zhao, Ruidong Zhang, Wei Zhao, Zhenyuan Yang, Jingyuan Chen, Peilong Wang, Wei Ruan, Hui Wang, Huan Zhao, Jing Zhang, Yiming Ren, Shihuan Qin, Tong Chen, Jiaxi Li, Arif Hassan Zidan, Afrar Jahin, Minheng Chen, Sichen Xia, Jason Holmes, Yan Zhuang, Jiaqi Wang, Bochen Xu, Weiran Xia, Jichao Yu, Kaibo Tang, Yaxuan Yang, Bolun Sun, Tao Yang, Guoyu Lu, Xianqiao Wang, Lilong Chai, He Li, Jin Lu, Lichao Sun, Xin Zhang, Bao Ge, Xintao Hu, Lian Zhang, Hua Zhou, Lu Zhang, Shu Zhang, Ninghao Liu, Bei Jiang, Linglong Kong, Zhen Xiang, Yudan Ren, Jun Liu, Xi Jiang, Yu Bao, Wei Zhang, Xiang Li, Gang Li, Wei Liu, Dinggang Shen, Andrea Sikora, Xiaoming Zhai, Dajiang Zhu, Tianming Liu, (参考訳) この総合的な研究は、コンピュータ科学、数学、自然科学、医学、言語学、社会科学など、様々な複雑な推論タスクにわたるOpenAIのo1-preview大言語モデルの性能を評価する。 厳格なテストを通じて、o1-previewは、コーディングの課題から科学的推論、言語処理から創造的な問題解決に至るまでの領域において、人間のレベルや優れたパフォーマンスを達成する、素晴らしい能力を示しました。 83.3%が複雑な競合プログラミング問題の解決に成功し、多くの専門家を追い越している。 -コヒーレントで正確な放射線学レポートを作成でき、他の評価モデルよりも優れている。 -高校レベルの数学的推論タスクにおける100%の精度で、ステップバイステップの詳細な解を提供する。 -医学などの一般分野や専門分野にまたがる高度な自然言語推論能力。 -チップ設計タスクにおける印象的なパフォーマンス、EDAスクリプト生成やバグ解析などの分野での特殊モデルよりも優れています。 -これらの専門分野における深い理解と推論を示す人類学・地質学の卓越した習熟度。 -量的投資におけるストロング能力。 O1には包括的な金融知識と統計モデリングスキルがある。 -感情分析や感情認識を含むソーシャルメディア分析における効果 このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクにおいて特に優れていた。 単純な問題や特定の高度に専門的な概念による課題の誤りなど、いくつかの制限が観測されたが、全体的な結果は人工知能への大きな進歩を示している。

This comprehensive study evaluates the performance of OpenAI's o1-preview large language model across a diverse array of complex reasoning tasks, spanning multiple domains, including computer science, mathematics, natural sciences, medicine, linguistics, and social sciences. Through rigorous testing, o1-preview demonstrated remarkable capabilities, often achieving human-level or superior performance in areas ranging from coding challenges to scientific reasoning and from language processing to creative problem-solving. Key findings include: -83.3% success rate in solving complex competitive programming problems, surpassing many human experts. -Superior ability in generating coherent and accurate radiology reports, outperforming other evaluated models. -100% accuracy in high school-level mathematical reasoning tasks, providing detailed step-by-step solutions. -Advanced natural language inference capabilities across general and specialized domains like medicine. -Impressive performance in chip design tasks, outperforming specialized models in areas such as EDA script generation and bug analysis. -Remarkable proficiency in anthropology and geology, demonstrating deep understanding and reasoning in these specialized fields. -Strong capabilities in quantitative investing. O1 has comprehensive financial knowledge and statistical modeling skills. -Effective performance in social media analysis, including sentiment analysis and emotion recognition. The model excelled particularly in tasks requiring intricate reasoning and knowledge integration across various fields. While some limitations were observed, including occasional errors on simpler problems and challenges with certain highly specialized concepts, the overall results indicate significant progress towards artificial general intelligence.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# 拡散モデルによる多変量時系列予測における脳誘発記憶の治療

Treating Brain-inspired Memories as Priors for Diffusion Model to Forecast Multivariate Time Series ( http://arxiv.org/abs/2409.18491v1 )

ライセンス: Link先を確認
Muyao Wang, Wenchao Chen, Zhibin Duan, Bo Chen, (参考訳) 多変量時系列の予測(MTS)は、様々なアプリケーション領域において重大な課題を伴う。 直近の課題の1つは、入力の有限長の時間パターンをモデル化することである。 これらの時間的パターンは、通常、異なるチャネルにまたがる周期的な出来事と突然の出来事を含む。 時間的パターンをよりよく捉えるために、人間の記憶機構からインスピレーションを得て、MSSのためのチャネル共有型脳誘発メモリモジュールを提案する。 具体的には、脳にインスパイアされた記憶は、セマンティックメモリとエピソードメモリを含んでおり、前者は周期的な出来事などの一般的なパターンを、後者は突然の出来事などの特別なパターンをキャプチャするために使用される。 一方、これらのパターンをよりよく活用するために、対応するリコールおよび更新機構を設計する。 さらに,前者としてメモリを利用する拡散モデルの能力を認め,脳にインスパイアされたメモリ拡張拡散モデルを提案する。 このイノベーティブなモデルでは、異なるチャネルの関連記憶を検索し、それらをMTS予測の異なる先行要素として活用する。 この組み込みは予測の精度と堅牢性を著しく向上させる。 8つのデータセットに対する実験結果は、異なるチャネルにわたる多様な時間パターンを捕捉し、活用する際のアプローチの優位性を一貫して評価する。

Forecasting Multivariate Time Series (MTS) involves significant challenges in various application domains. One immediate challenge is modeling temporal patterns with the finite length of the input. These temporal patterns usually involve periodic and sudden events that recur across different channels. To better capture temporal patterns, we get inspiration from humans' memory mechanisms and propose a channel-shared, brain-inspired memory module for MTS. Specifically, brain-inspired memory comprises semantic and episodic memory, where the former is used to capture general patterns, such as periodic events, and the latter is employed to capture special patterns, such as sudden events, respectively. Meanwhile, we design corresponding recall and update mechanisms to better utilize these patterns. Furthermore, acknowledging the capacity of diffusion models to leverage memory as a prior, we present a brain-inspired memory-augmented diffusion model. This innovative model retrieves relevant memories for different channels, utilizing them as distinct priors for MTS predictions. This incorporation significantly enhances the accuracy and robustness of predictions. Experimental results on eight datasets consistently validate the superiority of our approach in capturing and leveraging diverse recurrent temporal patterns across different channels.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# フェアネスを考慮した多目的進化学習

Fairness-aware Multiobjective Evolutionary Learning ( http://arxiv.org/abs/2409.18499v1 )

ライセンス: Link先を確認
Qingquan Zhang, Jialin Liu, Xin Yao, (参考訳) 多目的進化学習(MOEL)は、精度と異なる公正度測定を含む相反する目的の事前定義されたセットを考慮して、より公平な機械学習モデルを訓練する利点を実証している。 近年の研究では、モデルトレーニングを通してMOELの最適化目的として、公正度尺度の代表的なサブセットを構築することを提案する。 しかし、代表測度セットの決定はデータセット、事前の知識に依存し、かなりの計算コストを必要とする。 さらに、これらの代表的措置は、異なるモデルトレーニングプロセスによって異なるかもしれません。 本稿では,モデルトレーニングに先立って決定された静的な事前定義された集合を使用する代わりに,モデルトレーニング中にオンラインの代表的な測度を動的かつ適応的に決定することを提案する。 動的に決定された代表集合はMOELフレームワークの目的を最適化するために使用され、時間とともに変化する。 12のよく知られたベンチマークデータセットに対する大規模な実験結果から,提案するフレームワークは,精度の面で不公平を緩和するための最先端のアプローチと,25の公正度対策とを比較した。 その結果、トレーニング中に最適化目標を動的に設定することの重要性が示唆された。

Multiobjective evolutionary learning (MOEL) has demonstrated its advantages of training fairer machine learning models considering a predefined set of conflicting objectives, including accuracy and different fairness measures. Recent works propose to construct a representative subset of fairness measures as optimisation objectives of MOEL throughout model training. However, the determination of a representative measure set relies on dataset, prior knowledge and requires substantial computational costs. What's more, those representative measures may differ across different model training processes. Instead of using a static predefined set determined before model training, this paper proposes to dynamically and adaptively determine a representative measure set online during model training. The dynamically determined representative set is then used as optimising objectives of the MOEL framework and can vary with time. Extensive experimental results on 12 well-known benchmark datasets demonstrate that our proposed framework achieves outstanding performance compared to state-of-the-art approaches for mitigating unfairness in terms of accuracy as well as 25 fairness measures although only a few of them were dynamically selected and used as optimisation objectives. The results indicate the importance of setting optimisation objectives dynamically during training.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# GaNを用いた室温通信単一光子源を用いた大域量子鍵分布

Metropolitan quantum key distribution using a GaN-based room-temperature telecommunication single-photon source ( http://arxiv.org/abs/2409.18502v1 )

ライセンス: Link先を確認
Haoran Zhang, Xingjian Zhang, John Eng, Max Meunier, Yuzhe Yang, Alexander Ling, Jesus Zuniga-Perez, Weibo Gao, (参考訳) 単一光子源(SPS)は量子鍵分布(QKD)の性能を高める可能性を持っている。 SPSを用いたQKDシステムは、しばしば低温冷却を必要とするが、室温でSPSを動作させる最近のQKD試験は、通信波長で動作しないSPSのために長距離伝送を達成できなかった。 本研究では, 室温SPSを用いたQKDの遠隔通信波長での実証に成功した。 この研究で使用されるSPSは、サファイア基板上に成長した窒化ガリウム(GaN)薄膜がホストする点欠陥に基づいている。 我々は、BB84および参照フレームに依存しないQKDプロトコルを33kmのファイバスプール上で実行するために、時間ビンと位相符号化方式を用い、パルス当たり7.58\times 10^{-7}$のキーレートを実現した。 さらに,30kmのファイバ上に大都市圏のQKD実験を行い,パルス当たりのキーレートを6.06\times 10^{-8}$とした。 これらの結果は、商用QKDアプリケーションにおける将来的なSPSの利用の可能性を広げるものである。

Single-photon sources (SPS) hold the potential to enhance the performance of quantum key distribution (QKD). QKD systems using SPS often require cryogenic cooling, while recent QKD attempts using SPS operating at room-temperature have failed to achieve long-distance transmission due to the SPS not operating at telecommunication wavelength. In this work, we have successfully demonstrated QKD using a room-temperature SPS at telecommunication wavelength. The SPS used in this work is based on point defects hosted by gallium nitride (GaN) thin films grown on sapphire substrates. We employed a time-bin and phase encoding scheme to perform the BB84 and reference-frame-independent QKD protocols over a 33 km fiber spool, achieving a secure key rate of $7.58\times 10^{-7}$ per pulse. Moreover, we also implemented a metropolitan QKD experiment over a 30 km deployed fiber, achieving a secure key rate of $6.06\times 10^{-8}$ per pulse. These results broaden the prospects for future use of SPS in commercial QKD applications.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# Med-IC: 医用画像分類とセグメンテーションのための畳み込みによる単一層インボリューション

Med-IC: Fusing a Single Layer Involution with Convolutions for Enhanced Medical Image Classification and Segmentation ( http://arxiv.org/abs/2409.18506v1 )

ライセンス: Link先を確認
Md. Farhadul Islam, Sarah Zabeen, Meem Arafat Manab, Mohammad Rakibul Hasan Mahin, Joyanta Jyoti Mondal, Md. Tanzim Reza, Md Zahidul Hasan, Munima Haque, Farig Sadeque, Jannatun Noor, (参考訳) 大部分の医療画像、特に細胞に似た画像は、同様の特徴を持つ。 これらの画像は様々な形で発生し、しばしば臓器や細胞領域の異常を示す。 畳み込み操作は、画像の複数の空間領域にわたる視覚パターンを抽出する制限された能力を有する。 畳み込みの逆操作である畳み込み過程は、畳み込みに存在する空間情報の抽出の欠如を補完する。 本研究では、畳み込みニューラルネットワーク(CNN)アーキテクチャに先立って、単一の畳み込み層を適用して、比較的無視可能な量の重みパラメータを用いて、分類とセグメンテーション性能を著しく向上させる方法について検討する。 さらに、この研究は、インボリューションレイヤーの過剰使用が、特定のタイプの医療画像において不正確な予測をもたらす可能性を示唆している。 実験の結果によると、CNNベースのモデルに1つのインボリューション層を追加するという戦略は、これまでの作業よりも優れていた。

The majority of medical images, especially those that resemble cells, have similar characteristics. These images, which occur in a variety of shapes, often show abnormalities in the organ or cell region. The convolution operation possesses a restricted capability to extract visual patterns across several spatial regions of an image. The involution process, which is the inverse operation of convolution, complements this inherent lack of spatial information extraction present in convolutions. In this study, we investigate how applying a single layer of involution prior to a convolutional neural network (CNN) architecture can significantly improve classification and segmentation performance, with a comparatively negligible amount of weight parameters. The study additionally shows how excessive use of involution layers might result in inaccurate predictions in a particular type of medical image. According to our findings from experiments, the strategy of adding only a single involution layer before a CNN-based model outperforms most of the previous works.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# EmoPro: LM音声合成における感情表現のプロンプト選択戦略

EmoPro: A Prompt Selection Strategy for Emotional Expression in LM-based Speech Synthesis ( http://arxiv.org/abs/2409.18512v1 )

ライセンス: Link先を確認
Haoyu Wang, Chunyu Qiang, Tianrui Wang, Cheng Gong, Qiuyu Liu, Yu Jiang, Xiaobao Wang, Chenyang Wang, Chen Zhang, (参考訳) 広範囲なデータセットに基づいて訓練された音声合成モデルの最近の進歩は、顕著なゼロショット機能を示している。 これらのモデルは、素早い入力に基づいて生成された音声のコンテンツ、音色、感情を制御することができる。 これらの進歩にもかかわらず、プロンプトの選択は出力品質に大きな影響を及ぼすが、既存のほとんどの選択スキームは感情強度の制御に適切に対応していない。 そこで本研究では,感情制御可能な音声合成のための2段階のプロンプト選択戦略であるEmoProを提案する。 この戦略は、感情表現力、音声品質、テキスト・感情整合性、モデル生成性能の4つの視点から評価することで、表現力が高く高品質なプロンプトを選択することに焦点を当てている。 実験結果から,提案手法を用いて選択したプロンプトは,ベースラインを通した音声よりも感情的に表現され,有意な合成音声が得られることがわかった。 オーディオサンプルとコードはhttps://whyrrrrun.github.io/EmoPro/.comで入手できる。

Recent advancements in speech synthesis models, trained on extensive datasets, have demonstrated remarkable zero-shot capabilities. These models can control content, timbre, and emotion in generated speech based on prompt inputs. Despite these advancements, the choice of prompts significantly impacts the output quality, yet most existing selection schemes do not adequately address the control of emotional intensity. To address this question, this paper proposes a two-stage prompt selection strategy EmoPro, which is specifically designed for emotionally controllable speech synthesis. This strategy focuses on selecting highly expressive and high-quality prompts by evaluating them from four perspectives: emotional expression strength, speech quality, text-emotion consistency, and model generation performance. Experimental results show that prompts selected using the proposed method result in more emotionally expressive and engaging synthesized speech compared to those obtained through baseline. Audio samples and codes will be available at https://whyrrrrun.github.io/EmoPro/.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# 量子チャネルを用いたバス動的デカップリング

Bath Dynamical Decoupling with a Quantum Channel ( http://arxiv.org/abs/2409.18514v1 )

ライセンス: Link先を確認
Alexander Hahn, Kazuya Yuasa, Daniel Burgarth, (参考訳) バンバンバンの動的疎結合は、周囲の浴場や環境との相互作用により、オープン量子系が脱コヒーレンスから保護される。 標準的な形式では、これはハミルトニアン相互作用を平均化するユニタリ演算のサイクルでシステムを強く蹴り上げることで達成される。 本稿では,量子チャネルを用いた繰り返しキックに対する動的デカップリングの概念を一般化する。 この手順は、これらのCPTPキックを風呂に当てることによって物理的に動機づけられる。 使用した量子チャネル上で必要十分な条件を導出し,キックがエルゴディックである場合にのみ,浴槽の動的疎結合が有効であることを示す。 さらに、CPTPがモノパーティ量子系を起動する状況において、ハミルトニアンをキャンセルした量子ゼノダイナミクスを誘導する。 これはキックのエルゴディディティを必要とせず、デコヒーレンスのないサブシステムが欠如していることは必要かつ十分である。 標準ユニタリな動的疎結合は本質的に量子ゼノダイナミクスと同一であるが、CPTPのキックの場合、このことはもはや真実ではないことを示唆している。 この結果を導出するために、エルゴード量子チャネルのスペクトル特性を証明した。 提案手法は,最近の実験実験の強化と統一された数学的理解を確立し,環境騒音の自由度を生かした新しい動的疎結合スキームの基礎となる可能性がある。

Bang-bang dynamical decoupling protects an open quantum system from decoherence due to its interaction with the surrounding bath/environment. In its standard form, this is achieved by strongly kicking the system with cycles of unitary operations, which average out the interaction Hamiltonian. In this paper, we generalize the notion of dynamical decoupling to repeated kicks with a quantum channel. This procedure is physically motivated by applying these CPTP kicks to the bath. We derive necessary and sufficient conditions on the employed quantum channel and find that bath dynamical decoupling works if and only if the kick is ergodic. Furthermore, we study in which circumstances CPTP kicks on a mono-partite quantum system induce quantum Zeno dynamics with its Hamiltonian cancelled out. This does not require the ergodicity of the kicks, and the absence of decoherence-free subsystems is both necessary and sufficient. While the standard unitary dynamical decoupling is essentially the same as the quantum Zeno dynamics, our investigation implies that this is not true any more in the case of CPTP kicks. To derive our results, we prove some spectral properties of ergodic quantum channels, that might be of independent interest. Our approach establishes an enhanced and unified mathematical understanding of several recent experimental demonstrations and might form the basis of new dynamical decoupling schemes that harness environmental noise degrees of freedom.
翻訳日:2024-11-06 05:52:22 公開日:2024-09-27
# 数体相互作用系における創発的時間周期性の安定性

Stability of emergent time periodicity in a few-body interacting system ( http://arxiv.org/abs/2409.18516v1 )

ライセンス: Link先を確認
Steve Campbell, Jens Eisert, Giacomo Guarnieri, (参考訳) 散逸時間結晶(英: Dissipative Time Crystals)は、非自明な時間周期運動を示す多体オープン量子系である。 リプキン・メシュコフ・グリックモデルでは, 温度浴に局所的に接触する成分の1つである。 衝突モデルと適切な時間連続的記述の両方を用いて,浴槽が純粋に散逸するチャネルとして振る舞う場合にのみ,安定した時間結晶の挙動を示すことができることを示す。 システム内の微視的相互作用が果たす役割を評価し,全モデルにおいて温度の導入は,近隣の$XXZ$型相互作用に対して維持可能な安定な長時間周期性とは対照的に,散逸時間結晶性の融解につながることを確認した。

Dissipative time crystals are many-body open quantum systems that exhibit non-trivial time periodic motion at late times. We examine the onset and resilience of such emergent time periodicity in a few-body all-to-all interacting Lipkin-Meshkov-Glick model, where one of the constituents is locally in contact with a thermal bath. Employing both a collision model framework and a suitable time-continuous description, we show that stable time-crystalline behavior can only be exhibited when the bath acts as purely dissipative channel. We assess the role that the microscopic interactions within the system play, establishing that for the all-to-all model the introduction of temperature leads to a melting of the dissipative time crystallinity, in contrast to stable long-time periodicity which can be maintained for nearest neighbor $XXZ$ type interactions.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# 拡散変圧器加速のためのトークンキャッシング

Token Caching for Diffusion Transformer Acceleration ( http://arxiv.org/abs/2409.18523v1 )

ライセンス: Link先を確認
Jinming Lou, Wenyang Luo, Yufan Liu, Bing Li, Xinmiao Ding, Weiming Hu, Jiajiong Cao, Yuming Li, Chenguang Ma, (参考訳) 拡散変換器はその優れた性能のために拡散生成モデルに大きな関心を寄せている。 しかし、注意機構と多段階推論の2次計算複雑性から生じる高い計算コストは、大きなボトルネックとなる。 この課題に対処するために、トークンベースのマルチブロックアーキテクチャを利用した新しいトレーニング後の高速化手法であるTokenCacheを提案し、トークン間の冗長な計算を推論ステップ間で削減する。 TokenCacheは、拡散トランスフォーマーのコンテキストにおいて、特に3つの重要な質問に対処する。(1) トークンをプルーニングして冗長性を排除し、(2) ブロックを効率的なプルーニングの対象とし、(3) ステップキャッシュをスピードと品質のバランスをとる。 これらの課題に対応するため、TokenCacheは、重要なスコアをトークンに割り当てるCache Predictorを導入し、モデルパフォーマンスを損なうことなく選択的なプルーニングを可能にする。 さらに,2相ラウンドロビン(TPRR)スケジューリングポリシと合わせて,ネットワークの出力への影響を最小限に抑えたブロックに着目する適応ブロック選択手法を提案する。 TokenCacheは,拡散トランスフォーマーにおける生成品質と推論速度のトレードオフを効果的に実現している。 私たちのコードは公開されます。

Diffusion transformers have gained substantial interest in diffusion generative modeling due to their outstanding performance. However, their high computational cost, arising from the quadratic computational complexity of attention mechanisms and multi-step inference, presents a significant bottleneck. To address this challenge, we propose TokenCache, a novel post-training acceleration method that leverages the token-based multi-block architecture of transformers to reduce redundant computations among tokens across inference steps. TokenCache specifically addresses three critical questions in the context of diffusion transformers: (1) which tokens should be pruned to eliminate redundancy, (2) which blocks should be targeted for efficient pruning, and (3) at which time steps caching should be applied to balance speed and quality. In response to these challenges, TokenCache introduces a Cache Predictor that assigns importance scores to tokens, enabling selective pruning without compromising model performance. Furthermore, we propose an adaptive block selection strategy to focus on blocks with minimal impact on the network's output, along with a Two-Phase Round-Robin (TPRR) scheduling policy to optimize caching intervals throughout the denoising process. Experimental results across various models demonstrate that TokenCache achieves an effective trade-off between generation quality and inference speed for diffusion transformers. Our code will be publicly available.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# 複数の並列バッチ処理段階を有するハイブリッドフローショップスケジューリング問題に対する適応的知識ベース多目的進化アルゴリズム

Adaptive Knowledge-based Multi-Objective Evolutionary Algorithm for Hybrid Flow Shop Scheduling Problems with Multiple Parallel Batch Processing Stages ( http://arxiv.org/abs/2409.18524v1 )

ライセンス: Link先を確認
Feige Liu, Xin Li, Chao Lu, Wenying Gong, (参考訳) 並列バッチ処理マシンは半導体製造プロセスに広く応用されている。 しかし,従来の研究では,並列バッチ処理を加工プロセスにおける固定処理の段階と見なしていた。 本研究では,ユーザのニーズに応じて,任意の段階を並列バッチ処理段階として任意に設定できる問題モデルを一般化する。 本稿では,並列バッチ処理マシン(PBHFSP)を用いたハイブリッドフローショップスケジューリング問題について述べる。 さらに、アダプティブ知識に基づく多目的進化アルゴリズム(AMOEA/D)は、メースパンとトータルエネルギ消費(TEC)を同時に最適化するように設計されている。 まず、PBHFSPの知識に基づくヒューリスティックなルールを持つハイブリッド初期化戦略を提案し、有望な解を生成する。 第2に、PBHFSの臨界パスを見つける知識に基づいて、解離グラフモデルを確立した。 次に、AMOEA/Dの活用能力を高めるために、クリティカルパスに基づく近傍探索を提案する。 さらに、QラーニングとDecay Lawの学習経験に基づいて、検索時間を適応的に調整する。 その後、アルゴリズムの探索能力を高めるため、AMOEA/Dは重みベクトル更新戦略を備えた改良された人口更新戦略を設計した。 これらの戦略は、個体を重みベクトルで再マッチさせ、それによって個体群の多様性を維持する。 最後に,提案アルゴリズムを最先端のアルゴリズムと比較する。 実験の結果, AMOEA/D は PBHFSP の解法において比較アルゴリズムよりも優れていることがわかった。

Parallel batch processing machines have extensive applications in the semiconductor manufacturing process. However, the problem models in previous studies regard parallel batch processing as a fixed processing stage in the machining process. This study generalizes the problem model, in which users can arbitrarily set certain stages as parallel batch processing stages according to their needs. A Hybrid Flow Shop Scheduling Problem with Parallel Batch Processing Machines (PBHFSP) is solved in this paper. Furthermore, an Adaptive Knowledge-based Multi-Objective Evolutionary Algorithm (AMOEA/D) is designed to simultaneously optimize both makespan and Total Energy Consumption (TEC). Firstly, a hybrid initialization strategy with heuristic rules based on knowledge of PBHFSP is proposed to generate promising solutions. Secondly, the disjunctive graph model has been established based on the knowledge to find the critical-path of PBHFS. Then, a critical-path based neighborhood search is proposed to enhance the exploitation ability of AMOEA/D. Moreover, the search time is adaptively adjusted based on learning experience from Q-learning and Decay Law. Afterward, to enhance the exploration capability of the algorithm, AMOEA/D designs an improved population updating strategy with a weight vector updating strategy. These strategies rematch individuals with weight vectors, thereby maintaining the diversity of the population. Finally, the proposed algorithm is compared with state-of-the-art algorithms. The experimental results show that the AMOEA/D is superior to the comparison algorithms in solving the PBHFSP.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# トップランクのmHealth Fitnessアプリのセキュリティ分析:実証的研究

Security Analysis of Top-Ranked mHealth Fitness Apps: An Empirical Study ( http://arxiv.org/abs/2409.18528v1 )

ライセンス: Link先を確認
Albin Forsberg, Leonardo Horn Iwaya, (参考訳) モバイル健康アプリケーション(mHealth Apps)、特に健康とフィットネスのカテゴリーでは、利便性と可用性のために人気が高まっている。 しかし、この普及により、ユーザのデータのセキュリティに関する懸念が高まる。 本研究では,トップランクのAndroidヘルスおよびフィットネスアプリのセキュリティ脆弱性を調査した。 モバイルセキュリティフレームワーク(MobSF)やAndroidエミュレータなどのツールを用いて,静的および動的セキュリティ分析を行った。 サーバのセキュリティレベルもQualys SSLでチェックしたので、mHealthフィットネスアプリと通信するサーバのセキュリティ姿勢に関する洞察を得られるようになりました。 安全でないコーディング,ハードコードされた機密情報,過度に特権化されたパーミッション,設定ミス,サードパーティドメインとの過剰な通信など,多くの脆弱性が確認された。 例えば、いくつかのアプリは、データベースのURLを公開しながら、データベースのAPIキーを直接コードに格納する。 AESをECBモードで使用するなど,安全性の低い暗号化手法を6つのアプリに見出した。 2つのアプリがそれぞれ約230のドメインを警告して通信し、さらに100以上のドメインを持つ第3のアプリがプライバシリンクの脅威を悪化させた。 この調査は、トップランクのmHealthフィットネスアプリの継続的なセキュリティ評価の重要性を強調し、脅威の状況を理解し、アプリ開発者に通知する。

Mobile health applications (mHealth apps), particularly in the health and fitness category, have experienced an increase in popularity due to their convenience and availability. However, this widespread adoption raises concerns regarding the security of the user's data. In this study, we investigate the security vulnerabilities of ten top-ranked Android health and fitness apps, a set that accounts for 237 million downloads. We performed several static and dynamic security analyses using tools such as the Mobile Security Framework (MobSF) and Android emulators. We also checked the server's security levels with Qualys SSL, which allowed us to gain insights into the security posture of the servers communicating with the mHealth fitness apps. Our findings revealed many vulnerabilities, such as insecure coding, hardcoded sensitive information, over-privileged permissions, misconfiguration, and excessive communication with third-party domains. For instance, some apps store their database API key directly in the code while also exposing their database URL. We found insecure encryption methods in six apps, such as using AES with ECB mode. Two apps communicated with an alarming number of approximately 230 domains each, and a third app with over 100 domains, exacerbating privacy linkability threats. The study underscores the importance of continuous security assessments of top-ranked mHealth fitness apps to better understand the threat landscape and inform app developers.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# 変化する気候におけるAIによる天気予報のロバスト性

Robustness of AI-based weather forecasts in a changing climate ( http://arxiv.org/abs/2409.18529v1 )

ライセンス: Link先を確認
Thomas Rackow, Nikolay Koldunov, Christian Lessig, Irina Sandu, Mihai Alexe, Matthew Chantry, Mariana Clare, Jesper Dramsch, Florian Pappenberger, Xabier Pedruzo-Bagazgoitia, Steffen Tietsche, Thomas Jung, (参考訳) 気象予報のためのデータ駆動機械学習モデルは、過去1~2年で革新的な進歩を遂げた。 気象モデルと気候モデルとの強いつながりを考えると、機械学習モデルが気候変動への緩和と適応を知らせたり、より堅牢な不確実性推定のためにより大きなアンサンブルを生成することによって、気候科学に革命をもたらすかどうかという疑問が提起される。 ここでは、現在の気候における天気予報のために訓練された現在の最先端の機械学習モデルが、工業以前の2.9Kの温暖な気候に対応する様々な気候状態に熟練した予測をもたらすことを示す。 このことは、短い時間スケールで天気を形作るダイナミクスが、変化する気候において根本的に異なるものではないことを示唆している。 また、気候アプリケーションにとって重要な前提条件である機械学習モデルの、アウト・オブ・ディストリビューションの一般化能力を示す。 それにもかかわらず、2つのモデルでは、将来の温暖化の予報において、世界平均の寒冷バイアスが示されており、すなわち、彼らが訓練したより寒い現在の気候に向かって漂流している。 3つのモデルのうち2つのモデルが温暖化を示すプレインダストリアルケースに対して同様の結果が得られた。 本研究は,これらのバイアスに対する対策の可能性について論じ,その空間分布を解析し,海氷の欠如に関連する複雑な温暖化と冷却パターンと,トレーニングデータ中の陸面情報を明らかにする。 これらの制限にもかかわらず、我々の結果は、データ駆動機械学習モデルが、気候科学の強力なツールを提供し、従来の物理ベースのモデルを補完することで確立したアプローチを変革することを示唆している。

Data-driven machine learning models for weather forecasting have made transformational progress in the last 1-2 years, with state-of-the-art ones now outperforming the best physics-based models for a wide range of skill scores. Given the strong links between weather and climate modelling, this raises the question whether machine learning models could also revolutionize climate science, for example by informing mitigation and adaptation to climate change or to generate larger ensembles for more robust uncertainty estimates. Here, we show that current state-of-the-art machine learning models trained for weather forecasting in present-day climate produce skillful forecasts across different climate states corresponding to pre-industrial, present-day, and future 2.9K warmer climates. This indicates that the dynamics shaping the weather on short timescales may not differ fundamentally in a changing climate. It also demonstrates out-of-distribution generalization capabilities of the machine learning models that are a critical prerequisite for climate applications. Nonetheless, two of the models show a global-mean cold bias in the forecasts for the future warmer climate state, i.e. they drift towards the colder present-day climate they have been trained for. A similar result is obtained for the pre-industrial case where two out of three models show a warming. We discuss possible remedies for these biases and analyze their spatial distribution, revealing complex warming and cooling patterns that are partly related to missing ocean-sea ice and land surface information in the training data. Despite these current limitations, our results suggest that data-driven machine learning models will provide powerful tools for climate science and transform established approaches by complementing conventional physics-based models.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# Linux における C パッケージの静的解析

A Static Analysis of Popular C Packages in Linux ( http://arxiv.org/abs/2409.18530v1 )

ライセンス: Link先を確認
Jukka Ruohonen, Mubashrah Saddiqa, Krzysztof Sierszecki, (参考訳) 静的解析は、ソフトウェアセキュリティとソフトウェア品質全般を改善するための古典的なテクニックである。 最近では、GNUコンパイラコレクション(GCC)に新しい静的アナライザが実装されている。 本稿では,GCCのアナライザを用いて,人気のあるLinuxパッケージを実証的に検証する。 使用されるデータセットは、Cで書かれたかCコードを含むGentoo Linuxディストリビューションのパッケージに基づいている。 合計3538ドルのパッケージがカバーされている。 結果によると、初期化されていない変数とNULLポインタの参照遅延問題は、アナライザによると最も一般的な問題である。 古典的なメモリ管理の問題は比較的稀である。 警告は、パッケージ全体の長い尾の確率分布も追従する。いくつかのパッケージは、非常に警告がやすいが、パッケージの最大89%の警告は存在しない。 さらに、警告はアプリケーションドメインによって異なるわけではない。 これらの結果から,ソフトウェアの品質とセキュリティに関する大規模実証研究の領域に寄与する。 また、結果の実際的な影響についても論じる。

Static analysis is a classical technique for improving software security and software quality in general. Fairly recently, a new static analyzer was implemented in the GNU Compiler Collection (GCC). The present paper uses the GCC's analyzer to empirically examine popular Linux packages. The dataset used is based on those packages in the Gentoo Linux distribution that are either written in C or contain C code. In total, $3,538$ such packages are covered. According to the results, uninitialized variables and NULL pointer dereference issues are the most common problems according to the analyzer. Classical memory management issues are relatively rare. The warnings also follow a long-tailed probability distribution across the packages; a few packages are highly warning-prone, whereas no warnings are present for as much as 89% of the packages. Furthermore, the warnings do not vary across different application domains. With these results, the paper contributes to the domain of large-scale empirical research on software quality and security. In addition, a discussion is presented about practical implications of the results.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# 夜間UAV追跡のためのプロンプト駆動型時間領域適応

Prompt-Driven Temporal Domain Adaptation for Nighttime UAV Tracking ( http://arxiv.org/abs/2409.18533v1 )

ライセンス: Link先を確認
Changhong Fu, Yiheng Wang, Liangliang Yao, Guangze Zheng, Haobo Zuo, Jia Pan, (参考訳) 低照度シナリオ下での夜間UAV追跡は、ドメイン適応(DA)によって大きな進歩を遂げた。 しかし、従来のDAトレーニングに基づく研究は、UAVトラッカーの時間的文脈の相違を狭めるには不十分である。 本研究は、夜間UAV追跡(TDA)に挑戦するために、時間的コンテキストを完全に活用するためのプロンプト駆動の時間的ドメイン適応トレーニングフレームワークを提案する。 具体的には、時間的特徴生成器を識別器に対して訓練することにより、昼夜領域から夜間領域までの時間的文脈の分布を整列する。 時間一貫性判別器は、共有ドメイン固有の特徴を段階的に抽出し、時系列におけるコヒーレントドメイン識別結果を生成する。 さらに、高品質なトレーニングサンプルを得るために、無注釈の夜間ビデオ中の物体を正確に見つけるために、プロンプト駆動のオブジェクトマイナーが使用される。 さらに,長期夜間UAV追跡のための新しいベンチマークを構築した。 TDAフレームワークでトレーニングされたトラッカー(TDA-Track)の顕著な性能を示す。 夜間の実際のテストも実用性を示している。 コードとデモビデオはhttps://github.com/vision4robotics/TDA-Track.comで公開されている。

Nighttime UAV tracking under low-illuminated scenarios has achieved great progress by domain adaptation (DA). However, previous DA training-based works are deficient in narrowing the discrepancy of temporal contexts for UAV trackers. To address the issue, this work proposes a prompt-driven temporal domain adaptation training framework to fully utilize temporal contexts for challenging nighttime UAV tracking, i.e., TDA. Specifically, the proposed framework aligns the distribution of temporal contexts from daytime and nighttime domains by training the temporal feature generator against the discriminator. The temporal-consistent discriminator progressively extracts shared domain-specific features to generate coherent domain discrimination results in the time series. Additionally, to obtain high-quality training samples, a prompt-driven object miner is employed to precisely locate objects in unannotated nighttime videos. Moreover, a new benchmark for long-term nighttime UAV tracking is constructed. Exhaustive evaluations on both public and self-constructed nighttime benchmarks demonstrate the remarkable performance of the tracker trained in TDA framework, i.e., TDA-Track. Real-world tests at nighttime also show its practicality. The code and demo videos are available at https://github.com/vision4robotics/TDA-Track.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# $\mathbb F_{2^n}$ 上の離散対数問題の正規基底を用いたQUBO問題への変換

Transformation of the discrete logarithm problem over $\mathbb F_{2^n}$ to the QUBO problem using normal bases ( http://arxiv.org/abs/2409.18534v1 )

ライセンス: Link先を確認
Michał Wroński, Mateusz Leśniak, (参考訳) 量子計算は現代の暗号学の重要な分野である。 汎用量子コンピュータや量子アニールで利用可能な物理量子ビットの数によると、現代の量子アニールがより大きな問題を解くことができるのは偶然ではない。 本稿では,量子アニールを用いた二元体上の離散対数問題(DLP)の解法に着目する。 量子アニールを用いた素体上のDLPの解法はこれまで検討されてきたが、これまでは量子アニールを用いた二元体上でのDLPの解法は検討されていない。 そこで本稿では,このギャップを埋めることを目的としている。 二項体上の離散対数問題の多項式変換を、二項体$\mathbb{F}_{2^n}$に対して約3n^2$の論理変数を用いて、準非制約二項体最適化(QUBO)問題に適用する。 推定では、与えられたフィールドに最適なII型正規基底が存在すると仮定する。 そのようなQUBOインスタンスは量子アニールを用いて解くことができる。

Quantum computations are very important branch of modern cryptology. According to the number of working physical qubits available in general-purpose quantum computers and in quantum annealers, there is no coincidence, that nowadays quantum annealers allow to solve larger problems. In this paper we focus on solving discrete logarithm problem (DLP) over binary fields using quantum annealing. It is worth to note, that however solving DLP over prime fields using quantum annealing has been considered before, no author, until now, has considered DLP over binary fields using quantum annealing. Therefore, in this paper, we aim to bridge this gap. We present a polynomial transformation of the discrete logarithm problem over binary fields to the Quadratic Unconstrained Binary Optimization (QUBO) problem, using approximately $3n^2$ logical variables for the binary field $\mathbb{F}_{2^n}$. In our estimations, we assume the existence of an optimal normal base of II type in the given fields. Such a QUBO instance can then be solved using quantum annealing.
翻訳日:2024-11-06 05:42:34 公開日:2024-09-27
# 自己複製型メカニカルユニバーサルチューリングマシン

Self-Replicating Mechanical Universal Turing Machine ( http://arxiv.org/abs/2409.19037v1 )

ライセンス: Link先を確認
Ralph P. Lano, (参考訳) 本稿では、バイオインスパイアされたメカニズムを用いた自己複製有限状態機械(FSM)と自己複製チューリングマシン(TM)の実装について述べる。 本研究は, FSM と TM を明示的に構成することにより, 情報のソート, 複写, 読み出しが可能な自己複製構造を導入した以前の研究に基づいて, これらのメカニズムの計算能力を示す。 本研究では,近縁林のUTM(5,5)をエミュレートすることで,システムの普遍性を実証する。

This paper presents the implementation of a self-replicating finite-state machine (FSM) and a self-replicating Turing Machine (TM) using bio-inspired mechanisms. Building on previous work that introduced self-replicating structures capable of sorting, copying, and reading information, this study demonstrates the computational power of these mechanisms by explicitly constructing a functioning FSM and TM. This study demonstrates the universality of the system by emulating the UTM(5,5) of Neary and Woods.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# 意図認識型ポリシーグラフ:不透明なエージェントで何、どのように、なぜ答えるか

Intention-aware policy graphs: answering what, how, and why in opaque agents ( http://arxiv.org/abs/2409.19038v1 )

ライセンス: Link先を確認
Victor Gimenez-Abalos, Sergio Alvarez-Napagao, Adrian Tormos, Ulises Cortés, Javier Vázquez-Salceda, (参考訳) エージェントは、複雑な環境で相互作用し、創発的行動の可能性を高める、AIベースの特殊なソフトウェアである。 このような創発的な振る舞いを説明することは、信頼できるAIをデプロイする上で重要だが、多くのエージェント実装の複雑さと不透明さが、これを難しくしている。 本研究では,エージェントの振舞いを考慮し,任意の時点でエージェントが持つ意図に対して頑健な数値を計算するパイプラインとともに確率的グラフィカルモデルを提案する。 我々は、提供された説明の解釈可能性と信頼性を評価し、説明可能性に関する質問「今何をしたいのか」(e.g deliver soup)「どうするつもりなのか」(e.g.そのスキルと世界を考慮した計画の返却)、「なぜこの状態でこの行動を取るのか」(e.g.、それが自身の目標をどう進めるか、妨げるのか)などを可能にします。 このモデルは,エージェントの行動や世界状態の部分的な観察を行うことで構築可能であり,提案手法を設計や不合理なエージェントの振る舞いを指摘することによって,提案手法を拡大するための反復的ワークフローを提供する。

Agents are a special kind of AI-based software in that they interact in complex environments and have increased potential for emergent behaviour. Explaining such emergent behaviour is key to deploying trustworthy AI, but the increasing complexity and opaque nature of many agent implementations makes this hard. In this work, we propose a Probabilistic Graphical Model along with a pipeline for designing such model -- by which the behaviour of an agent can be deliberated about -- and for computing a robust numerical value for the intentions the agent has at any moment. We contribute measurements that evaluate the interpretability and reliability of explanations provided, and enables explainability questions such as `what do you want to do now?' (e.g. deliver soup) `how do you plan to do it?' (e.g. returning a plan that considers its skills and the world), and `why would you take this action at this state?' (e.g. explaining how that furthers or hinders its own goals). This model can be constructed by taking partial observations of the agent's actions and world states, and we provide an iterative workflow for increasing the proposed measurements through better design and/or pointing out irrational agent behaviour.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# ガウス文化遺産 総合的対象分割による文化遺産の3次元デジタル化

Gaussian Heritage: 3D Digitization of Cultural Heritage with Integrated Object Segmentation ( http://arxiv.org/abs/2409.19039v1 )

ライセンス: Link先を確認
Mahtab Dahaghin, Myrna Castillo, Kourosh Riahidehkordi, Matteo Toso, Alessio Del Bue, (参考訳) 物理的物体のデジタルレプリカの作成は、有形文化財の保存と普及に貴重な応用である。 しかし、既存の手法はしばしば遅く、高価であり、専門家の知識を必要とする。 本稿では,RGB画像(例えば美術館の写真)のみを用いてシーンの3次元レプリカを生成するパイプラインを提案し,興味のある項目ごとにモデル(例えば展示品)を抽出する。 我々は,新しいビュー合成とガウススプラッティングの進歩を活用して,効率的な3次元セグメンテーションを実現する。 このアプローチでは手動のアノテーションは不要で、標準的なスマートフォンを使って視覚的な入力をキャプチャできるため、手頃で簡単にデプロイできる。 本手法の概要とオブジェクト分割の精度のベースライン評価について述べる。 コードはhttps://mahtaabdn.github.io/gaussian_heritage.github.io/で公開されている。

The creation of digital replicas of physical objects has valuable applications for the preservation and dissemination of tangible cultural heritage. However, existing methods are often slow, expensive, and require expert knowledge. We propose a pipeline to generate a 3D replica of a scene using only RGB images (e.g. photos of a museum) and then extract a model for each item of interest (e.g. pieces in the exhibit). We do this by leveraging the advancements in novel view synthesis and Gaussian Splatting, modified to enable efficient 3D segmentation. This approach does not need manual annotation, and the visual inputs can be captured using a standard smartphone, making it both affordable and easy to deploy. We provide an overview of the method and baseline evaluation of the accuracy of object segmentation. The code is available at https://mahtaabdn.github.io/gaussian_heritage.github.io/.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# ポリノミアル因子による並列量子信号処理

Parallel Quantum Signal Processing Via Polynomial Factorization ( http://arxiv.org/abs/2409.19043v1 )

ライセンス: Link先を確認
John M. Martyn, Zane M. Rossi, Kevin Z. Cheng, Yuan Liu, Isaac L. Chuang, (参考訳) 量子信号処理(QSP)は、ユニタリで符号化された線形作用素の多項式変換を構成する手法である。 状態 $\rho$ の符号化に適用すると、QSP は多項式 $P(x)$ に対して $\text{tr}(P(\rho))$ という形の非線形関数の評価を可能にする。 しかし、QSPはシーケンシャルアルゴリズムである:次数-$d$多項式を実装するには、エンコーディングに$d$クエリを必要とする。 ここでは、並列量子信号処理を開発することにより、これらの特性推定アルゴリズムの深さを小さくする。 我々のアルゴリズムは$\text{tr} (P(\rho))$ over $k$の計算を並列化し、クエリの深さを$d/k$に減らし、QSPの時間空間トレードオフのファミリを可能にする。 これにより、分散量子コンピュータに適した特性推定アルゴリズムが実現され、係数$O( \text{poly}(d) 2^{O(k)} )$で測定数を増やすことで実現される。 この結果は、$P(x)$を$k$の次数$O(d/k)$の小さな多項式の積に分解し、それぞれQSPと並列に実装し、その後、$P(x)$を再構成するためにスワップテストで乗算することで達成される。 代数の基本定理に訴えることで達成可能な多項式のクラスを特徴づけ、エントロピー推定や分割関数評価を含む正準問題への応用を実証する。

Quantum signal processing (QSP) is a methodology for constructing polynomial transformations of a linear operator encoded in a unitary. Applied to an encoding of a state $\rho$, QSP enables the evaluation of nonlinear functions of the form $\text{tr}(P(\rho))$ for a polynomial $P(x)$, which encompasses relevant properties like entropies and fidelity. However, QSP is a sequential algorithm: implementing a degree-$d$ polynomial necessitates $d$ queries to the encoding, equating to a query depth $d$. Here, we reduce the depth of these property estimation algorithms by developing Parallel Quantum Signal Processing. Our algorithm parallelizes the computation of $\text{tr} (P(\rho))$ over $k$ systems and reduces the query depth to $d/k$, thus enabling a family of time-space tradeoffs for QSP. This furnishes a property estimation algorithm suitable for distributed quantum computers, and is realized at the expense of increasing the number of measurements by a factor $O( \text{poly}(d) 2^{O(k)} )$. We achieve this result by factorizing $P(x)$ into a product of $k$ smaller polynomials of degree $O(d/k)$, which are each implemented in parallel with QSP, and subsequently multiplied together with a swap test to reconstruct $P(x)$. We characterize the achievable class of polynomials by appealing to the fundamental theorem of algebra, and demonstrate application to canonical problems including entropy estimation and partition function evaluation.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# 推論改善に向けたスタックリングの帰納的バイアスについて

On the Inductive Bias of Stacking Towards Improving Reasoning ( http://arxiv.org/abs/2409.19044v1 )

ライセンス: Link先を確認
Nikunj Saunshi, Stefani Karp, Shankar Krishnan, Sobhan Miryoosefi, Sashank J. Reddi, Sanjiv Kumar, (参考訳) モデルのサイズが大きくなる中、段階的な積み重ね(Gong et al , 2019, Reddi et al , 2023)のような新しいトレーニング戦略が注目されている。 スタック化は、段階的にモデルの深さを徐々に増加させ、初期段階の小さなモデルからレイヤを使用して、次の段階を初期化する、効率的なトレーニングを可能にする。 トレーニングには効率的だが、そのような成長するアプローチによって引き起こされるモデルバイアスは、ほとんど探索されていない。 本研究では,この段階的積み重ねの基本的側面を,効率性を超えて検討する。 言語モデルの学習を最大40%高速化できるMIDASと呼ばれる段階的積み上げ法を提案する。 さらに、MIDASはトレーニング効率が良いだけでなく、ダウンストリームタスク、特に理解や数学の問題などの推論能力を必要とするタスクに対する帰納的バイアスも備えています。 この帰納バイアスをさらに分析するために、推論プリミティブ(推論のためのブロックを構築する単純な合成タスク)を構築します。 これにより、この推論に対する帰納的偏見の強い、より堅牢な証拠が得られる。 これらの学習効率と推論に対する帰納バイアスは,1B,2B,8Bパラメータ言語モデルで検証された。 最後に、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの関連を探究し、強力な支持実験分析を提供することによって推測する。

Given the increasing scale of model sizes, novel training strategies like gradual stacking [Gong et al., 2019, Reddi et al., 2023] have garnered interest. Stacking enables efficient training by gradually growing the depth of a model in stages and using layers from a smaller model in an earlier stage to initialize the next stage. Although efficient for training, the model biases induced by such growing approaches are largely unexplored. In this work, we examine this fundamental aspect of gradual stacking, going beyond its efficiency benefits. We propose a variant of gradual stacking called MIDAS that can speed up language model training by up to 40%. Furthermore we discover an intriguing phenomenon: MIDAS is not only training-efficient but surprisingly also has an inductive bias towards improving downstream tasks, especially tasks that require reasoning abilities like reading comprehension and math problems, despite having similar or slightly worse perplexity compared to baseline training. To further analyze this inductive bias, we construct reasoning primitives -- simple synthetic tasks that are building blocks for reasoning -- and find that a model pretrained with stacking is significantly better than standard pretraining on these primitives, with and without fine-tuning. This provides stronger and more robust evidence for this inductive bias towards reasoning. These findings of training efficiency and inductive bias towards reasoning are verified at 1B, 2B and 8B parameter language models. Finally, we conjecture the underlying reason for this inductive bias by exploring the connection of stacking to looped models and provide strong supporting empirical analysis.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# 2d CFTとKdV ETHにおけるサブシステムエントロピー

Subsystem entropy in 2d CFT and KdV ETH ( http://arxiv.org/abs/2409.19046v1 )

ライセンス: Link先を確認
Liangyu Chen, Anatoly Dymarsky, Jia Tian, Huajia Wang, (参考訳) 2次元CFTのサブシステムエントロピーについて,全系の有限分数を構成するサブシステムについて検討する。 熱力学の限界におけるサブシステムサイズと線形にスケールする広範な貢献に焦点を当てる。 熱状態(カノニカルアンサンブル)、マイクロカノニカルアンサンブル(マイクロカノニカルアンサンブル)、および一次状態におけるカオスCFTのサブシステムエントロピーを評価するために,いわゆる対角近似を用いた。 次に、大域的な CFT 状態が KdV 一般化 Gibbs アンサンブルあるいは KdV マイクロカノニカルアンサンブルであるとき、$c$ の先頭順序でのサブシステムエントロピーの解析式を求める。 初期の固有状態の研究により、AdS/CFTの固定領域状態と同様に、対応するサブシステムエンタングルメントスペクトルが平坦であることが示されている。 この挙動は、熱(マイクロカノニカル)状態のものと著しく矛盾しており、したがって、サブシステム固有状態熱化仮説(ETH)と明らかに矛盾している。 本研究では,この問題をKdV(マイクロ)カノニカルアンサンブルと比較することにより解決する。 この結果は、量子固有状態の局所的性質が保存されたKdV電荷の値によって支配される部分系ETHのKdV一般化バージョンと一致していることを示す。 本研究は,2次元CFTにおけるKdV一般化ETHの証拠を固め,還元密度行列の感度プローブとしてRenyiエントロピーを強調した。

We study subsystem entropy in 2d CFTs, for subsystems constituting a finite fraction of the full system. We focus on the extensive contribution, which scales linearly with the subsystem size in the thermodynamic limit. We employ the so-called diagonal approximation to evaluate subsystem entropy for the chaotic CFTs in thermal state (canonical ensemble), microcanonical ensemble, and in a primary state, matching previously known results. We then proceed to find analytic expressions for the subsystem entropy at leading order in $c$, when the global CFT state is the KdV generalized Gibbs ensemble or the KdV microcanonical ensemble. Previous studies of primary eigenstates have shown that, akin to fixed-area states in AdS/CFT, corresponding subsystem entanglement spectrum is flat. This behavior is seemingly in sharp contradiction with the one for the thermal (microcanonical) state, and thus in apparent contradiction with the subsystem Eigenstate Thermalization Hypothesis (ETH). In this work, we resolve this issue by comparing the primary state with the KdV (micro)canonical ensemble. We show that the results are consistent with the KdV-generalized version of the subsystem ETH, in which local properties of quantum eigenstates are governed by their values of conserved KdV charges. Our work solidifies evidence for the KdV-generalized ETH in 2d CFTs and emphasizes Renyi entropy as a sensitive probe of the reduced-density matrix.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# 図形設計完了のためのマルチモーダルマークアップ文書モデル

Multimodal Markup Document Models for Graphic Design Completion ( http://arxiv.org/abs/2409.19051v1 )

ライセンス: Link先を確認
Kotaro Kikuchi, Naoto Inoue, Mayu Otani, Edgar Simo-Serra, Kota Yamaguchi, (参考訳) 本稿では,マルチモーダル文書内のマークアップ言語と画像の両方を生成可能なマルチモーダルマークアップ文書モデル(MarkupDM)を提案する。 既存のビジョン・アンド・ランゲージのマルチモーダルモデルとは異なり、マークアップDMは、全体的な外観に寄与する部分的な画像を生成し、しばしば透明性とサイズの変化を伴い、マークアップ言語の構文と意味を理解し、グラフィックデザインの表現形式として基本的な役割を担っている。 これらの課題に対処するために,さまざまなサイズの画像を透過的にトークン化するための画像量子化器を設計し,マークアップ言語を処理するためのコード言語モデルを修正し,画像のモダリティを組み込む。 本稿では,3つの図形設計完了タスクにおいて,図形設計テンプレートに欠落した属性値,画像,テキストを生成する手法について,詳細な評価を行う。 その結果、グラフィックデザインタスクにおけるマークアップDMの有効性が裏付けられた。 また、その長所や短所についても詳しく論じ、今後のマルチモーダル文書生成研究への洞察を提供する。

This paper presents multimodal markup document models (MarkupDM) that can generate both markup language and images within interleaved multimodal documents. Unlike existing vision-and-language multimodal models, our MarkupDM tackles unique challenges critical to graphic design tasks: generating partial images that contribute to the overall appearance, often involving transparency and varying sizes, and understanding the syntax and semantics of markup languages, which play a fundamental role as a representational format of graphic designs. To address these challenges, we design an image quantizer to tokenize images of diverse sizes with transparency and modify a code language model to process markup languages and incorporate image modalities. We provide in-depth evaluations of our approach on three graphic design completion tasks: generating missing attribute values, images, and texts in graphic design templates. Results corroborate the effectiveness of our MarkupDM for graphic design tasks. We also discuss the strengths and weaknesses in detail, providing insights for future research on multimodal document generation.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# CLLMate:気象・気候予報のためのマルチモーダルLCM

CLLMate: A Multimodal LLM for Weather and Climate Events Forecasting ( http://arxiv.org/abs/2409.19058v1 )

ライセンス: Link先を確認
Haobo Li, Zhaowei Wang, Jiachen Wang, Alexis Kai Hon Lau, Huamin Qu, (参考訳) 気象や気候の予報は、環境リスクを軽減し、関連する損失を最小限に抑えるための適切な措置をとるために重要である。 環境予測に関する従来の研究は、オープンセットイベントを直接予測するのではなく、クローズドセットイベントに関連する数値気象変数の予測に重点を置いており、イベント予測の包括性を制限している。 気象ラスターデータとテキストイベントデータを利用して、潜在的な気象や気候イベントを予測する新しいタスクであるWCEF(Weather and Climate Event Forecasting)を提案する。 しかし、マルチモーダルデータの整合が困難であり、十分な教師付きデータセットが不足しているため、この作業は困難である。 そこで我々はまず,大言語モデル (LLM) を用いた過去の気象・気候イベントと過去の気象データを一致させる枠組みを提案する。 本研究では,LLMを用いた知識グラフを構築し,41万件以上の高度に環境に配慮したニュース記事のコーパスから気象・気候イベントに関する情報を抽出する。 その後、気象ラスタデータを用いてこれらの事象をマッピングし、WCEFタスクにおけるLLMチューニングの最大かつ最も斬新な教師付きデータセットを作成しました。 最後に,気象ラスタデータを用いた気象・気象予報のための多モードLCMであるCLLMate(LLM for climate)を導入した。 CLLMateの評価では,広範囲な実験を行った。 その結果,CLLMate はベースラインおよび他のマルチモーダル LLM を超越し,気象や気候の事象を気象データと整合させる LLM を活用する可能性を示し,WCEF 課題研究の将来を浮き彫りにしている。

Forecasting weather and climate events is crucial for making appropriate measures to mitigate environmental hazards and minimize associated losses. Previous research on environmental forecasting focuses on predicting numerical meteorological variables related to closed-set events rather than forecasting open-set events directly, which limits the comprehensiveness of event forecasting. We propose Weather and Climate Event Forecasting (WCEF), a new task that leverages meteorological raster data and textual event data to predict potential weather and climate events. However, due to difficulties in aligning multimodal data and the lack of sufficient supervised datasets, this task is challenging to accomplish. Therefore, we first propose a framework to align historical meteorological data with past weather and climate events using the large language model (LLM). In this framework, we construct a knowledge graph by using LLM to extract information about weather and climate events from a corpus of over 41k highly environment-focused news articles. Subsequently, we mapped these events with meteorological raster data, creating a supervised dataset, which is the largest and most novel for LLM tuning on the WCEF task. Finally, we introduced our aligned models, CLLMate (LLM for climate), a multimodal LLM to forecast weather and climate events using meteorological raster data. In evaluating CLLMate, we conducted extensive experiments. The results indicate that CLLMate surpasses both the baselines and other multimodal LLMs, showcasing the potential of utilizing LLM to align weather and climate events with meteorological data and highlighting the promising future for research on the WCEF task.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# CURATE: 異なるプライベートな因果グラフディスカバリのスケールアップ

CURATE: Scaling-up Differentially Private Causal Graph Discovery ( http://arxiv.org/abs/2409.19060v1 )

ライセンス: Link先を確認
Payel Bhattacharjee, Ravi Tandon, (参考訳) Causal Graph Discovery (CGD) は、データセットの特徴の共分散を表す基礎となる確率的グラフィカルモデルを推定するプロセスである。 CGD-アルゴリズムは、大きく2つのカテゴリに分類される。 一 制約に基づくアルゴリズム(条件独立(CI)試験による結果) (ii)スコアベースのアルゴリズム(出力は最適化スコア関数に依存する)。 監視データのセンシティブな特徴はプライバシーを侵害する傾向があるため、CGDにおけるユーザのプライバシを確保するために、差分プライバシー(DP)が採用されている。 この逐次変化推定プロセスに同じ量のノイズを加えると、アルゴリズムの予測性能に影響を及ぼす。 制約ベースのアルゴリズムの最初のCIテストとスコアベースのアルゴリズムの最適化プロセスの後のイテレーションが重要であるため、より正確でノイズが少ない必要がある。 このキーとなる観測に基づいて、適応的なプライバシー予算を持つDP-CGDフレームワークであるCURATE(CaUsal gRaph AdapTivE privacy)を提案する。 既存のDP-CGDアルゴリズムとは対照的に、CURATEは誤り確率(制約ベース)を最小化し、最適化問題(スコアベース)の繰り返しを最大化し、累積リークを境界に保ち、適応的なプライバシ予算を可能にする。 本フレームワークの有効性を検証するため,いくつかのデータセットを対象とした総合的な実験を行い,プライバシー保護の少ない既存のDP-CGDアルゴリズムと比較して,CURATEの方が有効性が高いことを示す。

Causal Graph Discovery (CGD) is the process of estimating the underlying probabilistic graphical model that represents joint distribution of features of a dataset. CGD-algorithms are broadly classified into two categories: (i) Constraint-based algorithms (outcome depends on conditional independence (CI) tests), (ii) Score-based algorithms (outcome depends on optimized score-function). Since, sensitive features of observational data is prone to privacy-leakage, Differential Privacy (DP) has been adopted to ensure user privacy in CGD. Adding same amount of noise in this sequential-natured estimation process affects the predictive performance of the algorithms. As initial CI tests in constraint-based algorithms and later iterations of the optimization process of score-based algorithms are crucial, they need to be more accurate, less noisy. Based on this key observation, we present CURATE (CaUsal gRaph AdapTivE privacy), a DP-CGD framework with adaptive privacy budgeting. In contrast to existing DP-CGD algorithms with uniform privacy budgeting across all iterations, CURATE allows adaptive privacy budgeting by minimizing error probability (for constraint-based), maximizing iterations of the optimization problem (for score-based) while keeping the cumulative leakage bounded. To validate our framework, we present a comprehensive set of experiments on several datasets and show that CURATE achieves higher utility compared to existing DP-CGD algorithms with less privacy-leakage.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# 偏光選択非線形共振器における光偏光状態の自発的対称性の破れ

Spontaneous Symmetry Breaking of an Optical Polarization State in a Polarization-Selective Nonlinear Resonator ( http://arxiv.org/abs/2409.19065v1 )

ライセンス: Link先を確認
K. S. Manannikov, E. I. Mironova, A. S. Poliakov, A. E. Ulanov, A. I. Lvovsky, (参考訳) 我々は、原子ルビジウム蒸気中の偏光自転を利用して、自発対称性の破れと偏光パターンの不安定性を観察する。 真空状態の垂直偏光をリングキャビティ内で共振しながら, 水平偏光で気相セルを励起する。 このモードの真空揺らぎは、自己回転と共振器によるフィードバックによる増幅の複合作用による累積利得を経験し、最終的には光学パラメトリック発振器に似たマクロスケールを得る。 これらの変動のランダム性は、出力における不安定でランダムなマクロ偏光パターンをもたらす。 本稿では,複数の空間モード間のIsingのような相互作用をシミュレートする機構を応用し,完全光コヒーレントIsingマシンの基盤として提案する。

We exploit polarization self-rotation in atomic rubidium vapor to observe spontaneous symmetry breaking and bistability of polarization patterns. We pump the vapor cell with horizontally polarized light while the vertical polarization, which is initially in the vacuum state, is resonated in a ring cavity. Vacuum fluctuations in this mode experience cumulative gain due to the compound action of amplification due to the self-rotation and feedback through the resonator, eventually acquiring a macroscopic magnitude akin to an optical parametric oscillator. The randomness of these fluctuations results in a bistable, random macroscopic polarization pattern at the output. We propose utilizing this mechanism to simulate Ising-like interaction between multiple spatial modes and as a basis for a fully optical coherent Ising machine.
翻訳日:2024-11-06 04:40:55 公開日:2024-09-27
# Meta-RTL:低リソースコモンセンス推論のための強化型メタトランスファー学習

Meta-RTL: Reinforcement-Based Meta-Transfer Learning for Low-Resource Commonsense Reasoning ( http://arxiv.org/abs/2409.19075v1 )

ライセンス: Link先を確認
Yu Fu, Jie He, Yifan Yang, Qun Liu, Deyi Xiong, (参考訳) メタ学習は、低リソースのターゲットタスクのパフォーマンスを改善するために、リッチリソースのタスクを利用するために広く使われてきた。 残念ながら、ほとんどの既存のメタ学習アプローチは異なるソースタスクを均等に扱い、ソースタスクの知識伝達におけるターゲットタスクとの関連性を無視している。 この問題を軽減するために,低リソースコモンセンス推論のための強化型マルチソースメタトランスファー学習フレームワーク(Meta-RTL)を提案する。 本稿では,メタトランスファー学習において,対象タスクに対する対応するタスクの貢献度を動的に推定する手法を提案する。 サンプル対象データに対するメタモデルの一般的な損失と、ソース固有の時間的メタモデルのタスク固有の損失との差を、強化学習モジュールのポリシーネットワークに報奨として供給する。 ポリシーネットワークはLSTM上に構築されており、メタ学習のイテレーションを通じて、ソースタスクの重み推定に対する長期的な依存関係をキャプチャする。 本稿では, BERT と ALBERT をメタモデルのバックボーンとして用いて, 提案した Meta-RTL の評価を行った。 実験結果から,Meta-RTLは強いベースラインと以前のタスク選択戦略を大幅に上回り,極低リソース設定の大幅な改善を実現していることがわかった。

Meta learning has been widely used to exploit rich-resource source tasks to improve the performance of low-resource target tasks. Unfortunately, most existing meta learning approaches treat different source tasks equally, ignoring the relatedness of source tasks to the target task in knowledge transfer. To mitigate this issue, we propose a reinforcement-based multi-source meta-transfer learning framework (Meta-RTL) for low-resource commonsense reasoning. In this framework, we present a reinforcement-based approach to dynamically estimating source task weights that measure the contribution of the corresponding tasks to the target task in the meta-transfer learning. The differences between the general loss of the meta model and task-specific losses of source-specific temporal meta models on sampled target data are fed into the policy network of the reinforcement learning module as rewards. The policy network is built upon LSTMs that capture long-term dependencies on source task weight estimation across meta learning iterations. We evaluate the proposed Meta-RTL using both BERT and ALBERT as the backbone of the meta model on three commonsense reasoning benchmark datasets. Experimental results demonstrate that Meta-RTL substantially outperforms strong baselines and previous task selection strategies and achieves larger improvements on extremely low-resource settings.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# 深層学習を用いた言語障害検出における患者データ保護のための差分プライバシー

Differential privacy for protecting patient data in speech disorder detection using deep learning ( http://arxiv.org/abs/2409.19078v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Mahshad Lotfinia, Paula Andrea Perez-Toro, Tomas Arias-Vergara, Juan Rafael Orozco-Arroyave, Maria Schuster, Andreas Maier, Seung Hee Yang, (参考訳) 言語病理学はコミュニケーション能力と生活の質に影響を及ぼす。 ディープラーニングベースのモデルは、これらの障害を診断する可能性を示しているが、機密データを使用することは、重要なプライバシー上の懸念を引き起こす。 ディファレンシャル・プライバシ(DP)は医療画像領域で研究されているが、その病理学的音声分析への応用は、同様に重要なプライバシの懸念にもかかわらず、ほとんど未解明のままである。 本研究は,DPが病的音声データに与える影響を,プライバシ,診断精度,公平性のトレードオフに着目した初めての研究である。 ドイツ語を話す2,839人の参加者による200時間の大規模な実世界のデータセットを用いて、プライバシー予算でDPをトレーニングした場合の最大精度は3.85%低下し、7.51となった。 本研究は,スペイン語を話すパーキンソン病患者の小さなデータセットに対するアプローチを検証し,大規模タスク固有のデータセットに対する注意深い事前トレーニングがDP制約下でモデルの精度を維持したり改善したりすることを示した。 また, 年齢差には注意を要するが, 適切なプライバシレベル(2<{\epsilon}<10)は有意な性別バイアスを生じないことが明らかとなった。 以上の結果から,DPは音声障害検出におけるプライバシーとユーティリティのバランスを効果的に保ちつつ,特にプライバシとフェアネスのトレードオフに関して,音声領域におけるユニークな課題を浮き彫りにすることができることが示唆された。 これは、DP方法論を洗練し、現実の展開において多様な患者グループにまたがる公平性に取り組むための、将来の研究の基盤を提供する。

Speech pathology has impacts on communication abilities and quality of life. While deep learning-based models have shown potential in diagnosing these disorders, the use of sensitive data raises critical privacy concerns. Although differential privacy (DP) has been explored in the medical imaging domain, its application in pathological speech analysis remains largely unexplored despite the equally critical privacy concerns. This study is the first to investigate DP's impact on pathological speech data, focusing on the trade-offs between privacy, diagnostic accuracy, and fairness. Using a large, real-world dataset of 200 hours of recordings from 2,839 German-speaking participants, we observed a maximum accuracy reduction of 3.85% when training with DP with a privacy budget, denoted by {\epsilon}, of 7.51. To generalize our findings, we validated our approach on a smaller dataset of Spanish-speaking Parkinson's disease patients, demonstrating that careful pretraining on large-scale task-specific datasets can maintain or even improve model accuracy under DP constraints. We also conducted a comprehensive fairness analysis, revealing that reasonable privacy levels (2<{\epsilon}<10) do not introduce significant gender bias, though age-related disparities may require further attention. Our results suggest that DP can effectively balance privacy and utility in speech disorder detection, but also highlight the unique challenges in the speech domain, particularly regarding the privacy-fairness trade-off. This provides a foundation for future work to refine DP methodologies and address fairness across diverse patient groups in real-world deployments.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# ラップトップ上の500万変数によるFDR制御スパース回帰問題の解法

Solving FDR-Controlled Sparse Regression Problems with Five Million Variables on a Laptop ( http://arxiv.org/abs/2409.19088v1 )

ライセンス: Link先を確認
Fabian Scheidt, Jasin Machkour, Michael Muma, (参考訳) 現在,多変量および高次元偽発見率 (FDR) を制御し,発見の再現性を確保するための変数選択法が緊急に求められている。 しかし、既存の手法では、最近提案されたT-Random Experiments (T-Rex)セレクタのみが、数百万の変数を持つ問題にスケールする(例えばゲノミクス研究)。 T-Rexセレクタは、コンピュータ生成ダミー変数を用いた早期終了ランダム実験に基づく新しい学習フレームワークである。 本研究では,T-Rexの新たな実装であるBig T-Rexを提案し,そのRAM使用量を大幅に削減し,FDR制御されたスパースレグレッション問題をラップトップ上で数百万の変数で解決できるようにする。 本研究では, ソリッドステートドライブ上に存在する行列と, 参照行列の置換に基づく2つのダミー生成戦略に, 高度なメモリマッピング手法を取り入れた。 我々の数値実験は、メモリ需要と計算時間を大幅に削減することを示した。 我々は、Big T-Rexがラップトップ上で500万変数のFDR制御のLasso型問題を30分で効率よく解決できることを示した。 我々の研究は、大規模な高次元データにおいて再現可能な発見を行うために、高性能クラスタにアクセスせずに研究者に力を与える。

Currently, there is an urgent demand for scalable multivariate and high-dimensional false discovery rate (FDR)-controlling variable selection methods to ensure the repro-ducibility of discoveries. However, among existing methods, only the recently proposed Terminating-Random Experiments (T-Rex) selector scales to problems with millions of variables, as encountered in, e.g., genomics research. The T-Rex selector is a new learning framework based on early terminated random experiments with computer-generated dummy variables. In this work, we propose the Big T-Rex, a new implementation of T-Rex that drastically reduces its Random Access Memory (RAM) consumption to enable solving FDR-controlled sparse regression problems with millions of variables on a laptop. We incorporate advanced memory-mapping techniques to work with matrices that reside on solid-state drive and two new dummy generation strategies based on permutations of a reference matrix. Our nu-merical experiments demonstrate a drastic reduction in memory demand and computation time. We showcase that the Big T-Rex can efficiently solve FDR-controlled Lasso-type problems with five million variables on a laptop in thirty minutes. Our work empowers researchers without access to high-performance clusters to make reproducible discoveries in large-scale high-dimensional data.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# 異なるプライバシを持つ専門家によるフェデレートオンライン予測 - 分離とリフレットのスピードアップ

Federated Online Prediction from Experts with Differential Privacy: Separations and Regret Speed-ups ( http://arxiv.org/abs/2409.19092v1 )

ライセンス: Link先を確認
Fengyu Gao, Ruiquan Huang, Jing Yang, (参考訳) 本研究では, 確率的敵と難解な敵の双方に対する専門家による, 個人個人によるオンライン予測の問題点について検討する。 明確な差分プライバシー(DP)保証付きで、時間的水平線上で並行して作業する$m$クライアントに対する平均的後悔を最小化することを目的としています。 対数通信コストを抑えつつ、純粋DPと近似DPの制約下でのシングルプレイヤーと比較して、サイクル毎の後悔のスピードアップを$\sqrt{m}$-foldで達成するFed-DP-OPE-Stochアルゴリズムを提案する。 難解な敵を伴って、クライアント間のコラボレーションが一般的な難解な敵との後悔のスピードアップに繋がらないことを示す非自明な下位境界を確立する。 次に、低損失の専門家が存在する不愉快な敵の設定の特別な事例について考察する。 我々は新しいアルゴリズムであるFed-SVTを設計し、純粋なDPとに近いDP制約の両方の下で、$m$foldの後悔のスピードアップを達成することを示す。 我々の下限は、Fed-SVTが対数因子にほぼ最適であることを示している。 提案アルゴリズムの有効性を示す実験を行った。 私たちの知る限りでは、フェデレーテッド・セッティングの専門家による個人個人のオンライン予測を調査するのはこれが初めてです。

We study the problems of differentially private federated online prediction from experts against both stochastic adversaries and oblivious adversaries. We aim to minimize the average regret on $m$ clients working in parallel over time horizon $T$ with explicit differential privacy (DP) guarantees. With stochastic adversaries, we propose a Fed-DP-OPE-Stoch algorithm that achieves $\sqrt{m}$-fold speed-up of the per-client regret compared to the single-player counterparts under both pure DP and approximate DP constraints, while maintaining logarithmic communication costs. With oblivious adversaries, we establish non-trivial lower bounds indicating that collaboration among clients does not lead to regret speed-up with general oblivious adversaries. We then consider a special case of the oblivious adversaries setting, where there exists a low-loss expert. We design a new algorithm Fed-SVT and show that it achieves an $m$-fold regret speed-up under both pure DP and approximate DP constraints over the single-player counterparts. Our lower bound indicates that Fed-SVT is nearly optimal up to logarithmic factors. Experiments demonstrate the effectiveness of our proposed algorithms. To the best of our knowledge, this is the first work examining the differentially private online prediction from experts in the federated setting.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# p-ラプラシアンによるグラフニューラルネットワークのロバスト性向上

Enhancing Robustness of Graph Neural Networks through p-Laplacian ( http://arxiv.org/abs/2409.19096v1 )

ライセンス: Link先を確認
Anuj Kumar Sirohi, Subhanu Halder, Kabir Kumar, Sandeep Kumar, (参考訳) 日々の生活におけるデータの増加に伴い、ビジネスと異なる利害関係者は、より良い予測のためにデータを分析する必要がある。 伝統的に、リレーショナルデータは様々な洞察の源となっているが、計算能力の増大と、エンティティ間の深い関係を理解する必要性により、新しいテクニックを設計する必要性が生まれている。 このグラフデータ分析は、複雑な関係のより現実的で柔軟なモデリングを明らかにする、データを理解するための特別なツールとなっている。 近年、グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析、レコメンデーションシステム、薬物発見など、様々な応用において大きな可能性を示している。 しかし、多くの敵攻撃は、訓練中(中毒攻撃)でもテスト中(回避攻撃)でもデータ上で起こり、GNNモデルから望ましい結果を悪用することができる。 したがって、そのような攻撃に対してGNNを堅牢にすることが不可欠である。 既存のロバストネス法は、攻撃の強度が増加すると、計算的に要求され、性能が良くない。 本稿では,重み付き p-Laplacian をベースとした計算効率のよいフレームワーク,すなわち pLapGNN を提案する。 実データセットの実証評価は,提案手法の有効性と有効性を確立する。

With the increase of data in day-to-day life, businesses and different stakeholders need to analyze the data for better predictions. Traditionally, relational data has been a source of various insights, but with the increase in computational power and the need to understand deeper relationships between entities, the need to design new techniques has arisen. For this graph data analysis has become an extraordinary tool for understanding the data, which reveals more realistic and flexible modelling of complex relationships. Recently, Graph Neural Networks (GNNs) have shown great promise in various applications, such as social network analysis, recommendation systems, drug discovery, and more. However, many adversarial attacks can happen over the data, whether during training (poisoning attack) or during testing (evasion attack), which can adversely manipulate the desired outcome from the GNN model. Therefore, it is crucial to make the GNNs robust to such attacks. The existing robustness methods are computationally demanding and perform poorly when the intensity of attack increases. This paper presents a computationally efficient framework, namely, pLapGNN, based on weighted p-Laplacian for making GNNs robust. Empirical evaluation on real datasets establishes the efficacy and efficiency of the proposed method.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# 産業プロセスモデリングにおけるLCMの実装:カテゴリー変数の対応

Implementing LLMs in industrial process modeling: Addressing Categorical Variables ( http://arxiv.org/abs/2409.19097v1 )

ライセンス: Link先を確認
Eleni D. Koronaki, Geremy Loachamin Suntaxi, Paris Papavasileiou, Dimitrios G. Giovanis, Martin Kathrein, Andreas G. Boudouvis, Stéphane P. A. Bordas, (参考訳) プロセスの重要な変数は、多くの場合、カテゴリー的、すなわち、入力のカテゴリ、または反応器の種類、または一連のステップを表す名前またはラベルである。 この研究では、Large Language Models (LLMs) を用いて、実際の意味を表す入力の埋め込みを導出する。 これは、分類変数を1と0のシーケンスに置き換えるためにバイナリまたは1ホットエンコーディングを使用する現在の標準的な慣習とは大きく異なる。 主成分分析 (PCA) のような線形あるいは一様多様体近似・射影 (UMAP) のような非線形の次元還元手法と組み合わせることで, 提案手法は低次元特徴空間であるtextit{ intendedful} へと導かれる。 数値入力と分類入力の両方を含む工具を切断する工業用コーティングプロセスの文脈において、意味のある埋め込みを得ることの重要性が示される。 提案手法は、分類変数の符号化における現在の最先端(SotA)と比較して顕著な改善となる特徴的重要性を実現する。

Important variables of processes are, in many occasions, categorical, i.e. names or labels representing, e.g. categories of inputs, or types of reactors or a sequence of steps. In this work, we use Large Language Models (LLMs) to derive embeddings of such inputs that represent their actual meaning, or reflect the ``distances" between categories, i.e. how similar or dissimilar they are. This is a marked difference from the current standard practice of using binary, or one-hot encoding to replace categorical variables with sequences of ones and zeros. Combined with dimensionality reduction techniques, either linear such as Principal Components Analysis (PCA), or nonlinear such as Uniform Manifold Approximation and Projection (UMAP), the proposed approach leads to a \textit{meaningful}, low-dimensional feature space. The significance of obtaining meaningful embeddings is illustrated in the context of an industrial coating process for cutting tools that includes both numerical and categorical inputs. The proposed approach enables feature importance which is a marked improvement compared to the current state-of-the-art (SotA) in the encoding of categorical variables.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# 時間のない熱力学

Thermodynamics without Time ( http://arxiv.org/abs/2409.19098v1 )

ライセンス: Link先を確認
Francesca Vidotto, (参考訳) 我々の基本理論、すなわち、量子論と一般相対性理論は時間反転の下で不変である。 熱力学の観点からシステムを扱う場合、すなわち、多くのサブシステムコンポーネント間の平均化によって、時間の矢印が出現する。 熱力学と量子論の関係は肥大化し、深く探求され、新しい研究の源となっている。 量子論と重力の関係は、量子重力の確立された理論をまだ持っていないが、深度解析と仮の新しい理論に火を付けたことは確かである。 一方、重力と熱力学の結びつきは研究が減り、ファズリングも増えた。 トリパルタイト系を考慮した共変熱平衡の概念の構築など、共変熱力学における結果の選択についてレビューする。 このような構造が、量子論や重力で何が起こるかと同様に、熱力学に対する関係性を必要とするかについて論じる。

Our fundamental theories, i.e., the quantum theory and general relativity, are invariant under time reversal. Only when we treat system from the point of view of thermodynamics, i.e., averaging between many subsystem components, an arrow of time emerges. The relation between thermodynamic and the quantum theory has been fertile, deeply explored and still a source of new investigations. The relation between the quantum theory and gravity, while it has not yet brought an established theory of quantum gravity, has certainly sparkled in depth analysis and tentative new theories. On the other hand, the connection between gravity and thermodynamics is less investigated and more puzzling. I review a selection of results in covariant thermodynamics, such as the construction of a covariant notion of thermal equilibrium by considering tripartite systems. I discuss how such construction requires a relational take on thermodynamics, similarly of what happens in the quantum theory and in gravity
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# オープンエコシステムにおける責任あるAI - リスクアセスメントと開示によるイノベーションの再構築

Responsible AI in Open Ecosystems: Reconciling Innovation with Risk Assessment and Disclosure ( http://arxiv.org/abs/2409.19104v1 )

ライセンス: Link先を確認
Mahasweta Chakraborti, Bert Joseph Prestoza, Nicholas Vincent, Seth Frey, (参考訳) AIの急速な拡大は、開発と実践の両方において倫理的配慮に重点が置かれている。 これは、個人や社会に対する潜在的なリスクを軽減するためのガバナンスフレームワークと同様に、ますます洗練されたモデル監査と報告要件の定式化につながった。 この批判的な判断において、我々は、重要なインフラをサポートし、広く利用されるOSSのような非公式な分野において、責任あるAIと透明性を促進するという実践的な課題をレビューする。 私たちは、モデルパフォーマンス評価がモデル制限やバイアス、その他のリスクの予測を通知したり、妨げたりする方法について焦点を当てています。 7903 Hugging Faceプロジェクトのコントロール分析では、リスクドキュメントが評価プラクティスと強く関連していることが分かりました。 しかし、プラットフォームで最も人気のある競争リーダーボードからの提出(N=789)は、ハイパフォーマーの間では説明責任が低かった。 我々の発見は、倫理的取り込みを動機づけつつ、オープンソースのイノベーションを維持するための介入やポリシーを設計するAI提供者や法学者に通知することができる。

The rapid scaling of AI has spurred a growing emphasis on ethical considerations in both development and practice. This has led to the formulation of increasingly sophisticated model auditing and reporting requirements, as well as governance frameworks to mitigate potential risks to individuals and society. At this critical juncture, we review the practical challenges of promoting responsible AI and transparency in informal sectors like OSS that support vital infrastructure and see widespread use. We focus on how model performance evaluation may inform or inhibit probing of model limitations, biases, and other risks. Our controlled analysis of 7903 Hugging Face projects found that risk documentation is strongly associated with evaluation practices. Yet, submissions (N=789) from the platform's most popular competitive leaderboard showed less accountability among high performers. Our findings can inform AI providers and legal scholars in designing interventions and policies that preserve open-source innovation while incentivizing ethical uptake.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# オープンソースソフトウェアプロジェクトにおけるソフトウェア開発の無駄の測定

Measuring Software Development Waste in Open-Source Software Projects ( http://arxiv.org/abs/2409.19107v1 )

ライセンス: Link先を確認
Dhiraj SM Varanasi, Divij D, Sai Anirudh Karre, Y Raghu Reddy, (参考訳) ソフトウェア開発のムダ(SDW)は、ソフトウェアを開発する顧客や組織に価値を与えないリソース消費活動として定義される。 SDWは、プロジェクトの規模と規模が大きくなるにつれて、ソフトウェアプロジェクトの全体的な効率性と生産性に影響を与える。 エンジニアリングリーダーは通常廃棄物を最小化するために努力するが、SDWを追跡し管理するための明確な手段が欠如していることが懸念されている。 このギャップに対処するため,我々は,静的フォーク,プロジェクト多様化指数,PRリジェクションレート,バックログインバージョン指数,機能フルフィルメントレートという5つの尺度を提案し,未使用のアーティファクトを潜在的に識別し,誤った機能/製品を構築し,SDWのバックログタイプを誤管理する。 このような対策を10のオープンソースプロジェクトに適用し、SDW管理に実際に適用するために観察結果を共有します。

Software Development Waste (SDW) is defined as any resource-consuming activity that does not add value to the client or the organization developing the software. SDW impacts the overall efficiency and productivity of a software project as the scale and size of the project grows. Although engineering leaders usually put in effort to minimize waste, the lack of definitive measures to track and manage SDW is a cause of concern. To address this gap, we propose five measures, namely Stale Forks, Project Diversification Index, PR Rejection Rate, Backlog Inversion Index, and Feature Fulfillment Rate to potentially identify unused artifacts, building the wrong feature/product, mismanagement of backlog types of SDW. We apply these measures on ten open-source projects and share our observations to apply them in practice for managing SDW.
翻訳日:2024-11-06 04:30:57 公開日:2024-09-27
# 高次事前訓練による距離認識位置符号化:理論と実践

Range-aware Positional Encoding via High-order Pretraining: Theory and Practice ( http://arxiv.org/abs/2409.19117v1 )

ライセンス: Link先を確認
Viet Anh Nguyen, Nhat Khang Ngo, Truong Son Hy, (参考訳) 大量のグラフデータに対する教師なし事前学習は、分子特性予測や材料科学のようなラベル付きデータが限定された現実世界の応用において重要である。 既存のアプローチは、特定のグラフドメインのための事前トレーニングモデルであり、ネットワーク内の固有の接続を無視している。 これにより、様々な教師付きタスクに知識を転送する能力が制限される。 本研究では,グラフの局所構造を保存しながら,グラフ全体のグローバルな情報を把握し,そのマルチ解像度構造情報をモデル化することに焦点を当てた,グラフの事前学習戦略を提案する。 我々は、高次置換同変オートエンコーダ(HOPE-WavePE)を事前学習することにより、ウェーブレット位置符号化(WavePE)を(Ngo et al , 2023)から拡張し、その多分解能ウェーブレット信号からノード接続性を再構築する。 既存の位置エンコーディングとは異なり,本手法は下流タスクの入力グラフサイズに敏感になるように設計されており,グラフ上のグローバル構造を効率的に捉えることができる。 提案手法はグラフ構造にのみ依存するため,ドメインに依存しず,さまざまな領域のデータセットに適応可能であるため,汎用グラフ構造エンコーダやグラフ基盤モデルを開発するための波動を織り込むことができる。 理論的には、そのようなアーキテクチャのパラメトリゼーションが存在し、任意の低い誤差まで出力隣接性を予測できることを実証する。 また、異なる領域のグラフレベルの予測タスクに対してHOPE-WavePEを評価し、他の手法と比較してその優位性を示す。

Unsupervised pre-training on vast amounts of graph data is critical in real-world applications wherein labeled data is limited, such as molecule properties prediction or materials science. Existing approaches pre-train models for specific graph domains, neglecting the inherent connections within networks. This limits their ability to transfer knowledge to various supervised tasks. In this work, we propose a novel pre-training strategy on graphs that focuses on modeling their multi-resolution structural information, allowing us to capture global information of the whole graph while preserving local structures around its nodes. We extend the work of Wave}let Positional Encoding (WavePE) from (Ngo et al., 2023) by pretraining a High-Order Permutation-Equivariant Autoencoder (HOPE-WavePE) to reconstruct node connectivities from their multi-resolution wavelet signals. Unlike existing positional encodings, our method is designed to become sensitivity to the input graph size in downstream tasks, which efficiently capture global structure on graphs. Since our approach relies solely on the graph structure, it is also domain-agnostic and adaptable to datasets from various domains, therefore paving the wave for developing general graph structure encoders and graph foundation models. We theoretically demonstrate that there exists a parametrization of such architecture that it can predict the output adjacency up to arbitrarily low error. We also evaluate HOPE-WavePE on graph-level prediction tasks of different areas and show its superiority compared to other methods.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# セキュアなマルチパーティ生成AI

Secure Multiparty Generative AI ( http://arxiv.org/abs/2409.19120v1 )

ライセンス: Link先を確認
Manil Shrestha, Yashodha Ravichandran, Edward Kim, (参考訳) 生成型AIツールの使用が急増するにつれ、これらのモデルや集中型モデルプロバイダに露出する機密情報の量が急増している。 例えば、Samsungの機密ソースコードは、ChatGPTへのテキストプロンプトがデータ漏洩に遭遇したため、データ漏洩に遭った。 LLM(Apple、Verizon、JPMorgan Chaseなど)の使用を制限する企業が増えている。 また、集中型生成モデルプロバイダの増加は、使用可能なものを制限、フィルタリング、整列、検閲している。 主要な画像生成プラットフォームであるMidjourneyとRunwayMLは、プロンプトフィルタリングによってシステムへのプロンプトを制限する。 特定の政治的人物は、イメージ生成や女性の医療、権利、中絶に関連する言葉に制限されている。 本研究では、サードパーティのAIプロバイダに機密データやモデルを公開しない、生成人工知能のためのセキュアでプライベートな方法論を提案する。 我々の研究は、現代の生成AIアルゴリズム、例えばトランスフォーマーのキービルディングブロックを修正し、分散ネットワークに秘密で検証可能なマルチパーティ計算を導入し、維持する。 1) ユーザの入力のプライバシー及びモデルの出力に対する難読化 2) モデル自体にプライバシを導入する。 さらに、シャーディングプロセスは、任意のノードの計算負担を低減し、複数の小さなノードにまたがる大規模な生成AIプロセスのリソースの分散を可能にする。 分散化された計算に1つの正直なノードが存在する限り、セキュリティは維持される。 また、計算におけるノードの過半数が成功した場合、推論プロセスが引き続き成功することを示す。 そこで本手法は,分散ネットワーク上でのセキュアかつ検証可能な計算を提供する。

As usage of generative AI tools skyrockets, the amount of sensitive information being exposed to these models and centralized model providers is alarming. For example, confidential source code from Samsung suffered a data leak as the text prompt to ChatGPT encountered data leakage. An increasing number of companies are restricting the use of LLMs (Apple, Verizon, JPMorgan Chase, etc.) due to data leakage or confidentiality issues. Also, an increasing number of centralized generative model providers are restricting, filtering, aligning, or censoring what can be used. Midjourney and RunwayML, two of the major image generation platforms, restrict the prompts to their system via prompt filtering. Certain political figures are restricted from image generation, as well as words associated with women's health care, rights, and abortion. In our research, we present a secure and private methodology for generative artificial intelligence that does not expose sensitive data or models to third-party AI providers. Our work modifies the key building block of modern generative AI algorithms, e.g. the transformer, and introduces confidential and verifiable multiparty computations in a decentralized network to maintain the 1) privacy of the user input and obfuscation to the output of the model, and 2) introduce privacy to the model itself. Additionally, the sharding process reduces the computational burden on any one node, enabling the distribution of resources of large generative AI processes across multiple, smaller nodes. We show that as long as there exists one honest node in the decentralized computation, security is maintained. We also show that the inference process will still succeed if only a majority of the nodes in the computation are successful. Thus, our method offers both secure and verifiable computation in a decentralized network.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# TRACES: 商品組み込みシステムのためのTEEベースのランタイム監査

TRACES: TEE-based Runtime Auditing for Commodity Embedded Systems ( http://arxiv.org/abs/2409.19125v1 )

ライセンス: Link先を確認
Adam Caulfield, Antonio Joia Neto, Norrathep Rattanavipanon, Ivan De Oliveira Nunes, (参考訳) Control Flow Attestation (CFA)は、リモートデバイスに対するコントロールフローハイジャック攻撃を検出する手段を提供する。 CFAは実行されたすべての分岐命令の宛先を含むトレース(CFLog)を生成する。 これにより、リモート検証器(Vrf)は、Prvによって値/アクションが正しく生成された/実行されたことを信頼する前に、潜在的に侵害されたプロバー(Prv)上の実行制御フローを検査することができる。 しかし、CFAはランタイムの妥協を検出するために使用できるが、実行証拠(CFLog)をVrfに最終的に配信することは保証できない。 代わりに、妥協されたPrvは、CFLogをVrfに送信することを拒否し、その分析がエクスプロイトの根本原因と適切な修復アクションを決定するのを阻止する。 本稿では,コモディティ組み込みシステムのためのTEEベースランタイム監査 TRACESを提案する。 TRACESはPrvが侵害された場合でも、定期的なランタイムレポートの信頼性を保証する。 これにより、安全なランタイム監査と、CFAにおけるエビデンスのベストプラクティス提供が可能になる。 TRACESはまた、特定のランタイム脆弱性が確実にパッチを当てられるように、妥協検出によってトリガーされる保証された修正フェーズもサポートする。 私たちの知る限りでは、TRACESはコモディティデバイス(例えば、カスタムハードウェアの変更を必要とせずに)でこの機能を提供する最初のシステムである。 そのためにTRACESは、ARM TrustZone-M Trusted Execution Environment (TEE)のサポートを活用している。 実用性を評価するため、コモディティARM Cortex-M33マイクロコントローラユニット上でTRACESの完全な機能(オープンソース)プロトタイプを実装し、評価する。

Control Flow Attestation (CFA) offers a means to detect control flow hijacking attacks on remote devices, enabling verification of their runtime trustworthiness. CFA generates a trace (CFLog) containing the destination of all branching instructions executed. This allows a remote Verifier (Vrf) to inspect the execution control flow on a potentially compromised Prover (Prv) before trusting that a value/action was correctly produced/performed by Prv. However, while CFA can be used to detect runtime compromises, it cannot guarantee the eventual delivery of the execution evidence (CFLog) to Vrf. In turn, a compromised Prv may refuse to send CFLog to Vrf, preventing its analysis to determine the exploit's root cause and appropriate remediation actions. In this work, we propose TRACES: TEE-based Runtime Auditing for Commodity Embedded Systems. TRACES guarantees reliable delivery of periodic runtime reports even when Prv is compromised. This enables secure runtime auditing in addition to best-effort delivery of evidence in CFA. TRACES also supports a guaranteed remediation phase, triggered upon compromise detection to ensure that identified runtime vulnerabilities can be reliably patched. To the best of our knowledge, TRACES is the first system to provide this functionality on commodity devices (i.e., without requiring custom hardware modifications). To that end, TRACES leverages support from the ARM TrustZone-M Trusted Execution Environment (TEE). To assess practicality, we implement and evaluate a fully functional (open-source) prototype of TRACES atop the commodity ARM Cortex-M33 micro-controller unit.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# fMRIとEEG融合のためのマルチモーダルクロスドメイン自己教師型事前訓練

Multi-modal Cross-domain Self-supervised Pre-training for fMRI and EEG Fusion ( http://arxiv.org/abs/2409.19130v1 )

ライセンス: Link先を確認
Xinxu Wei, Kanhao Zhao, Yong Jiao, Nancy B. Carlisle, Hua Xie, Gregory A. Fonzo, Yu Zhang, (参考訳) 機能的磁気共鳴画像(fMRI)や脳波(EEG)を含む神経イメージング技術は、様々な脳疾患における機能的異常の検出において有望であることを示している。 しかし、既存の研究はしばしば単一のドメインやモダリティに焦点を合わせ、fMRIと脳波の両方から複数のドメインが提供する貴重な補完情報を無視する。 この制限は、これらのモダリティから導かれる相乗的情報を効果的に活用する上での課題となる。 そこで本稿では,マルチモーダル・クロスドメイン・セルフ教師付き事前学習モデル(MCSP)を提案する。 我々のモデルは、ドメイン固有のデータ拡張と対照的な損失を実装することで、ドメイン間の差異をブリッジするクロスドメインの自己管理的損失を採用し、特徴の識別を高めます。 さらに、MCSPは、fMRIとEEGの相補的な情報を利用して、ドメイン内の知識蒸留を容易にし、クロスモーダルな特徴収束を最大化するために、クロスモーダルな自己監督的損失を導入する。 提案手法を用いて,大規模事前学習データセットと事前学習MCSPモデルを構築し,マルチモーダル・ニューロイメージングデータを完全に活用した。 総合的な実験を通じて、複数の分類タスクにおいて、モデルの性能と一般化性を示す。 本研究はfMRIと脳波の融合に大きく貢献し、特に精神障害研究の文脈において、既存の神経画像研究の景観を豊かにするクロスドメイン機能の統合を図っている。

Neuroimaging techniques including functional magnetic resonance imaging (fMRI) and electroencephalogram (EEG) have shown promise in detecting functional abnormalities in various brain disorders. However, existing studies often focus on a single domain or modality, neglecting the valuable complementary information offered by multiple domains from both fMRI and EEG, which is crucial for a comprehensive representation of disorder pathology. This limitation poses a challenge in effectively leveraging the synergistic information derived from these modalities. To address this, we propose a Multi-modal Cross-domain Self-supervised Pre-training Model (MCSP), a novel approach that leverages self-supervised learning to synergize multi-modal information across spatial, temporal, and spectral domains. Our model employs cross-domain self-supervised loss that bridges domain differences by implementing domain-specific data augmentation and contrastive loss, enhancing feature discrimination. Furthermore, MCSP introduces cross-modal self-supervised loss to capitalize on the complementary information of fMRI and EEG, facilitating knowledge distillation within domains and maximizing cross-modal feature convergence. We constructed a large-scale pre-training dataset and pretrained MCSP model by leveraging proposed self-supervised paradigms to fully harness multimodal neuroimaging data. Through comprehensive experiments, we have demonstrated the superior performance and generalizability of our model on multiple classification tasks. Our study contributes a significant advancement in the fusion of fMRI and EEG, marking a novel integration of cross-domain features, which enriches the existing landscape of neuroimaging research, particularly within the context of mental disorder studies.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# 視覚から音声へ:映像表現と生成のための統一モデル

From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation ( http://arxiv.org/abs/2409.19132v1 )

ライセンス: Link先を確認
Kun Su, Xiulong Liu, Eli Shlizerman, (参考訳) ビデオは視覚的データと聴覚的データの両方を含み、これら2つのモードが相互に補完する知覚的に豊かな体験を生み出す。 このように、ビデオはオーディオと視覚要素の相互作用を調査するための貴重なメディアである。 従来のオーディオ・視覚的モダリティの研究は、主にオーディオ・視覚的表現学習と、他方に条件付けられたモダリティの生成的モデリングに焦点を合わせ、これら2つのブランチ間の接続を切断した。 表現を学習し、モダリティを生成する統一フレームワークはまだ開発されていない。 本研究では,音声・視覚表現学習と視覚・音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。 VABの主なアプローチは、生のビデオフレームやオーディオデータを扱うのではなく、潜在空間内で表現学習と生成モデルを実行することである。 特に、VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。 次に、視覚条件付きマスク付きオーディオトークン予測の事前学習タスクを実行する。 このトレーニング戦略により、コンテキスト学習と同時ビデオ・オーディオ生成を行うことが可能になる。 事前学習フェーズの後、VABは反復復号方式を採用し、視覚的特徴に応じた音声トークンを迅速に生成する。 VABは統一モデルであるため、バックボーンは様々なオーディオ・ビジュアル・ダウンストリームタスクのために微調整できる。 実験では,映像から高品質な音声を合成する上でのVABの効率と,その意味的音声視覚特徴の獲得能力を示し,音声視覚検索と分類の競争力に繋がる結果を得た。

Video encompasses both visual and auditory data, creating a perceptually rich experience where these two modalities complement each other. As such, videos are a valuable type of media for the investigation of the interplay between audio and visual elements. Previous studies of audio-visual modalities primarily focused on either audio-visual representation learning or generative modeling of a modality conditioned on the other, creating a disconnect between these two branches. A unified framework that learns representation and generates modalities has not been developed yet. In this work, we introduce a novel framework called Vision to Audio and Beyond (VAB) to bridge the gap between audio-visual representation learning and vision-to-audio generation. The key approach of VAB is that rather than working with raw video frames and audio data, VAB performs representation learning and generative modeling within latent spaces. In particular, VAB uses a pre-trained audio tokenizer and an image encoder to obtain audio tokens and visual features, respectively. It then performs the pre-training task of visual-conditioned masked audio token prediction. This training strategy enables the model to engage in contextual learning and simultaneous video-to-audio generation. After the pre-training phase, VAB employs the iterative-decoding approach to rapidly generate audio tokens conditioned on visual features. Since VAB is a unified model, its backbone can be fine-tuned for various audio-visual downstream tasks. Our experiments showcase the efficiency of VAB in producing high-quality audio from video, and its capability to acquire semantic audio-visual features, leading to competitive results in audio-visual retrieval and classification.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# Confidential Prompting: クラウドLLMプロバイダからユーザプロンプトを保護する

Confidential Prompting: Protecting User Prompts from Cloud LLM Providers ( http://arxiv.org/abs/2409.19134v1 )

ライセンス: Link先を確認
In Gim, Caihua Li, Lin Zhong, (参考訳) 我々の研究は、クラウドベースの大規模言語モデル(LLM)サービスにおけるユーザ入力の確保と、出力の一貫性、モデルの機密性、計算効率の確保に取り組みます。 シークレット・マルチパーティ・デコーディング(SMD)を導入し、シークレット・コンピューティングを活用してユーザプロンプトを信頼できる実行環境、すなわちシークレット・仮想マシン(CVM)に閉じ込めると同時に、サービスプロバイダがトークンを効率的に生成できるようにする。 また,新しい暗号手法であるPrompt Obfuscation(PO)を導入し,SMDの復元攻撃に対する堅牢性を確保する。 提案手法は, 迅速な秘密保持とLCM機能効率の両立を実証する。 我々のソリューションは、臨床記録、財務データ、個人情報などの機密性の高いプロンプトを処理する、プライバシ保護クラウドLLMサービスを可能にする。

Our work tackles the challenge of securing user inputs in cloud-based large language model (LLM) services while ensuring output consistency, model confidentiality, and compute efficiency. We introduce Secure Multi-party Decoding (SMD), which leverages confidential computing to confine user prompts to a trusted execution environment, namely a confidential virtual machine (CVM), while allowing service providers to generate tokens efficiently. We also introduce a novel cryptographic method, Prompt Obfuscation (PO), to ensure robustness against reconstruction attacks on SMD. We demonstrate that our approach preserves both prompt confidentiality and LLM serving efficiency. Our solution can enable privacy-preserving cloud LLM services that handle sensitive prompts, such as clinical records, financial data, and personal information.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# 正確な関数近似のためのチェビシェフ特徴ニューラルネットワーク

Chebyshev Feature Neural Network for Accurate Function Approximation ( http://arxiv.org/abs/2409.19135v1 )

ライセンス: Link先を確認
Zhongshu Xu, Yuan Chen, Dongbin Xiu, (参考訳) 本稿では,関数を機械的精度まで近似できる新しいDeep Neural Network (DNN)アーキテクチャを提案する。 CFNN(Chebyshev Feature Neural Network)と呼ばれる新しい構造では、学習可能な周波数のChebyshev関数を第1の隠蔽層として使用し、次いで標準の完全に接続された隠蔽層を使用する。 チェビシェフ層の学習可能な周波数は、幅広い周波数をカバーする指数分布で初期化される。 マルチステージトレーニング戦略と組み合わせて、このCFNN構造がトレーニング中に機械の精度を達成できることを実証する。 提案手法の有効性と拡張性を示すため, 最大20ドルまでの数値例を包括的に提供した。

We present a new Deep Neural Network (DNN) architecture capable of approximating functions up to machine accuracy. Termed Chebyshev Feature Neural Network (CFNN), the new structure employs Chebyshev functions with learnable frequencies as the first hidden layer, followed by the standard fully connected hidden layers. The learnable frequencies of the Chebyshev layer are initialized with exponential distributions to cover a wide range of frequencies. Combined with a multi-stage training strategy, we demonstrate that this CFNN structure can achieve machine accuracy during training. A comprehensive set of numerical examples for dimensions up to $20$ are provided to demonstrate the effectiveness and scalability of the method.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# ヒト軌道データにおける異常の運動学的検出

Kinematic Detection of Anomalies in Human Trajectory Data ( http://arxiv.org/abs/2409.19136v1 )

ライセンス: Link先を確認
Lance Kennedy, Andreas Züfle, (参考訳) 歴史的に、人間の軌道データを理解し、モデル化し、採掘する研究の多くは、個人がどこに留まるかに焦点を当ててきた。 このように、既存の研究の焦点はユーザーがどこへ行くかにある。 一方,ユーザ間の移動の仕方に関する研究は,新たな研究機会として大きな可能性を秘めている。 運動学的特徴は、個人がどのように場所の間を移動し、個人の識別や異常検出などのタスクに使用できるかを記述する。 残念ながら、データの可用性と品質の課題は、キネマティックな軌道採掘を困難にしている。 本稿では,人間軌道のGeolifeデータセットを利用して,個人識別や異常検出にキネマティックな特徴を用いることの可能性を調査する。 人間は個人を識別する強力な信号として使用できる「キネマティックプロファイル」を持つことを示す。 個人識別と異常検出の2つのユースケースにおいて,標準的な分類法と異常検出アルゴリズムを併用した単純な運動学的特徴により,結果が有意に向上することが実験的に示された。

Historically, much of the research in understanding, modeling, and mining human trajectory data has focused on where an individual stays. Thus, the focus of existing research has been on where a user goes. On the other hand, the study of how a user moves between locations has great potential for new research opportunities. Kinematic features describe how an individual moves between locations and can be used for tasks such as identification of individuals or anomaly detection. Unfortunately, data availability and quality challenges make kinematic trajectory mining difficult. In this paper, we leverage the Geolife dataset of human trajectories to investigate the viability of using kinematic features to identify individuals and detect anomalies. We show that humans have an individual "kinematic profile" which can be used as a strong signal to identify individual humans. We experimentally show that, for the two use-cases of individual identification and anomaly detection, simple kinematic features fed to standard classification and anomaly detection algorithms significantly improve results.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# ニューロンのシークエンシング:ブラックボックスニューラルネットワークのスケーラブルなパラメータ再構成を目指して

Sequencing the Neurome: Towards Scalable Exact Parameter Reconstruction of Black-Box Neural Networks ( http://arxiv.org/abs/2409.19138v1 )

ライセンス: Link先を確認
Judah Goldfeder, Quinten Roets, Gabe Guo, John Wright, Hod Lipson, (参考訳) クエリアクセスのみでニューラルネットワークの正確なパラメータを推測することは、NP-Hardの問題であり、実践的なアルゴリズムはほとんど存在しない。 解決策は、セキュリティ、検証、解釈可能性、生物学的ネットワークの理解に大きな影響を及ぼすだろう。 主要な課題は、巨大なパラメータ空間とニューロン間の複雑な非線形関係である。 私たちは2つの洞察を使ってこれらの課題を解決します。 まず、ランダム初期化と1次最適化により、実際に使用されるネットワークのほとんどすべてが生成されることを観察し、実用的なパラメータ空間を劇的に減少させる帰納的バイアスを観測する。 第2に、最大情報化サンプルを生成し、非線形関係を効率的に解き放つ新しいクエリ生成アルゴリズムを提案する。 我々は,150万以上のパラメータを含む隠れネットワークの再構築を実演し,最大パラメータ差0.0001未満で,最大7層,最大7層,最大7層,最大7層,最大7層,最大7層を再現し,さまざまなアーキテクチャ,データセット,トレーニング手順における堅牢性とスケーラビリティを示す。

Inferring the exact parameters of a neural network with only query access is an NP-Hard problem, with few practical existing algorithms. Solutions would have major implications for security, verification, interpretability, and understanding biological networks. The key challenges are the massive parameter space, and complex non-linear relationships between neurons. We resolve these challenges using two insights. First, we observe that almost all networks used in practice are produced by random initialization and first order optimization, an inductive bias that drastically reduces the practical parameter space. Second, we present a novel query generation algorithm that produces maximally informative samples, letting us untangle the non-linear relationships efficiently. We demonstrate reconstruction of a hidden network containing over 1.5 million parameters, and of one 7 layers deep, the largest and deepest reconstructions to date, with max parameter difference less than 0.0001, and illustrate robustness and scalability across a variety of architectures, datasets, and training procedures.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# 制御可能な力学系モデリングのための物理インフォームドエコー状態ネットワーク

Physics-Informed Echo State Networks for Modeling Controllable Dynamical Systems ( http://arxiv.org/abs/2409.19140v1 )

ライセンス: Link先を確認
Eric Mochiutti Eric Aislan Antonelo Eduardo Camponogara, (参考訳) エコー状態ネットワーク(英語: Echo State Networks, ESN)は、通常、トレーニングの比較的容易な非線形力学系のモデリングに使用されるリカレントニューラルネットワークである。 ESNのトレーニングに物理法則を組み込むことで、外部入力のないカオス力学系をモデル化する物理インフォームドESN(Physical-Informed ESNs)が最初に提案された。 通常の微分方程式(ODE)がESNを規則化するのに役立つので、トレーニングに必要なデータが少なくなります。 本研究では、PI-ESNを外部入力で拡張し、制御可能な非線形力学系をモデル化する。 さらに, 残差項と物理インフォームド損失項の合計損失関数に対する寄与のバランスをとるために, 既存の自己適応的バランス損失法を用いる。 ODEによってモデル化された2つの非線形システム、Van der Pol発振器と4タンクシステム、および1つの微分代数(DAE)システム、電気水圧ポンプによる実験により、提案されたPI-ESNは従来のESNよりも優れており、特にデータ可用性が制限された場合において、PI-ESNはわずか数個のデータポイントでトレーニングされた外部入力でESNモデルを正規化でき、オーバーフィッティングを低減し、その一般化誤差を92%まで改善できることを示した。 さらに実験により,提案したPI-ESNはODE方程式のパラメトリック不確実性に対して頑健であり,PI-ESNを用いたモデル予測制御は,訓練データが少ない場合,通常のESNを用いたモデル予測よりも優れていることを示した。

Echo State Networks (ESNs) are recurrent neural networks usually employed for modeling nonlinear dynamic systems with relatively ease of training. By incorporating physical laws into the training of ESNs, Physics-Informed ESNs (PI-ESNs) were proposed initially to model chaotic dynamic systems without external inputs. They require less data for training since Ordinary Differential Equations (ODEs) of the considered system help to regularize the ESN. In this work, the PI-ESN is extended with external inputs to model controllable nonlinear dynamic systems. Additionally, an existing self-adaptive balancing loss method is employed to balance the contributions of the residual regression term and the physics-informed loss term in the total loss function. The experiments with two nonlinear systems modeled by ODEs, the Van der Pol oscillator and the four-tank system, and with one differential-algebraic (DAE) system, an electric submersible pump, revealed that the proposed PI-ESN outperforms the conventional ESN, especially in scenarios with limited data availability, showing that PI-ESNs can regularize an ESN model with external inputs previously trained on just a few datapoints, reducing its overfitting and improving its generalization error (up to 92% relative reduction in the test error). Further experiments demonstrated that the proposed PI-ESN is robust to parametric uncertainties in the ODE equations and that model predictive control using PI-ESN outperforms the one using plain ESN, particularly when training data is scarce.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# TTT4Rec:シークエンシャルレコメンデーションにおける迅速適応のためのテストタイムトレーニングアプローチ

TTT4Rec: A Test-Time Training Approach for Rapid Adaption in Sequential Recommendation ( http://arxiv.org/abs/2409.19142v1 )

ライセンス: Link先を確認
Zhaoqi Yang, Yanan Wang, Yong Ge, (参考訳) ユーザが対話する次の項目を予測するためのシーケンシャルレコメンデーションタスクは、通常、履歴データのみに基づいてトレーニングされたモデルに依存します。 しかし、現実のシナリオでは、ユーザの振る舞いは長い相互作用シーケンスで変動し、トレーニングデータはこのダイナミクスのモデル化に限られる可能性がある。 これを解決するために、TTT(Test-Time Training)は、推論中に自己教師付き学習を使用してモデルパラメータを動的に更新することで、新しいアプローチを提供する。 これにより、モデルが新たなユーザインタラクションにリアルタイムで適応することが可能になるため、より正確なレコメンデーションが可能になる。 本稿では,動的ユーザの振る舞いをよりよく捉えるために,TTTを統合したシーケンシャルレコメンデーションフレームワークであるTT4Recを提案する。 推論中にモデルパラメータを継続的に更新することにより、TTT4Recは特に、ユーザインタラクションシーケンスが長く、トレーニングデータが制限されている、あるいはユーザの振る舞いが極めて可変なシナリオで有効である。 我々は、TTT4Recを3つの広く使われているレコメンデーションデータセットで評価し、最先端のモデルと同等以上のパフォーマンスを達成できることを実証した。 コードはhttps://github.com/ZhaoqiZachYang/TTT4Rec.comで公開されている。

Sequential recommendation tasks, which aim to predict the next item a user will interact with, typically rely on models trained solely on historical data. However, in real-world scenarios, user behavior can fluctuate in the long interaction sequences, and training data may be limited to model this dynamics. To address this, Test-Time Training (TTT) offers a novel approach by using self-supervised learning during inference to dynamically update model parameters. This allows the model to adapt to new user interactions in real-time, leading to more accurate recommendations. In this paper, we propose TTT4Rec, a sequential recommendation framework that integrates TTT to better capture dynamic user behavior. By continuously updating model parameters during inference, TTT4Rec is particularly effective in scenarios where user interaction sequences are long, training data is limited, or user behavior is highly variable. We evaluate TTT4Rec on three widely-used recommendation datasets, demonstrating that it achieves performance on par with or exceeding state-of-the-art models. The codes are available at https://github.com/ZhaoqiZachYang/TTT4Rec.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# 音声駆動型顔アニメーションのための多言語コードクエリ学習

Diverse Code Query Learning for Speech-Driven Facial Animation ( http://arxiv.org/abs/2409.19143v1 )

ライセンス: Link先を確認
Chunzhi Gu, Shigeru Kuriyama, Katsuya Hotta, (参考訳) 音声駆動型顔アニメーションは、所定の音声信号に従って唇同期3D音声を合成することを目的としている。 このタスクの以前の方法は、主に決定論的なシステムで現実主義を追求することに焦点を当てていたが、顔の動きの確率的な性質を特徴付けることは、これまでほとんど研究されていない。 生成的モデリングアプローチは、サンプルを繰り返し描画することで、ワン・ツー・マンマッピングを容易に処理できるが、小規模データセット上での可視的な顔の動きの多彩なカバレッジを保証することは困難であり、探索は少ない。 本稿では,同じ音声信号に条件付けされた複数のサンプルを予測し,多様な顔アニメーション合成に対処するために,サンプルの多様性を明示的に促進する手法を提案する。 我々の中核的な洞察は、表現力のある顔の潜伏空間を多様化のための潜伏符号を理想的に識別できるように、多様性を動機づける損失で探索することである。 この目的のために,ベクトル量子化変分自動符号化機構を用いて事前学習した豊富な顔に基づいて,我々のモデルは,柔軟に復号化できる複数の確率的符号を,多種多様な音声合成可能な顔動作に時間的に問合せする。 さらに、生成中の異なる顔部位の制御を可能にするため、提案モデルは、異なる顔部位を連続的に予測し、最終的に完全な顔の動きを形成するよう構成する。 我々のパラダイムは、統一的な定式化において、多様かつ制御可能な顔アニメーション合成を実現する。 実験により,本手法は,特に試料の多様性に関して,定量的かつ定性的に,最先端性能が得られることを示した。

Speech-driven facial animation aims to synthesize lip-synchronized 3D talking faces following the given speech signal. Prior methods to this task mostly focus on pursuing realism with deterministic systems, yet characterizing the potentially stochastic nature of facial motions has been to date rarely studied. While generative modeling approaches can easily handle the one-to-many mapping by repeatedly drawing samples, ensuring a diverse mode coverage of plausible facial motions on small-scale datasets remains challenging and less explored. In this paper, we propose predicting multiple samples conditioned on the same audio signal and then explicitly encouraging sample diversity to address diverse facial animation synthesis. Our core insight is to guide our model to explore the expressive facial latent space with a diversity-promoting loss such that the desired latent codes for diversification can be ideally identified. To this end, building upon the rich facial prior learned with vector-quantized variational auto-encoding mechanism, our model temporally queries multiple stochastic codes which can be flexibly decoded into a diverse yet plausible set of speech-faithful facial motions. To further allow for control over different facial parts during generation, the proposed model is designed to predict different facial portions of interest in a sequential manner, and compose them to eventually form full-face motions. Our paradigm realizes both diverse and controllable facial animation synthesis in a unified formulation. We experimentally demonstrate that our method yields state-of-the-art performance both quantitatively and qualitatively, especially regarding sample diversity.
翻訳日:2024-11-06 04:21:02 公開日:2024-09-27
# ロバストな群集計数のためのバウンドタイニングネットワーク

Bound Tightening Network for Robust Crowd Counting ( http://arxiv.org/abs/2409.19146v1 )

ライセンス: Link先を確認
Qiming Wu, (参考訳) クラウドカウンティング(Crowd Counting)は、監視カメラから送られてくる混雑した画像やビデオ中の個人数を推定することを目的とした、基本的なトピックである。 最近の研究は、数え上げ精度の向上に重点を置いており、数え上げモデルの確固たる堅牢性を無視している。 本稿では,ロバスト・クラウド・カウンティングのためのバウンド・タイニング・ネットワーク(BTN)を提案する。 ベースモデル、スムーズな正規化モジュール、有界モジュールの3つの部分で構成される。 中心となる考え方は、ベースモデル(境界モジュールを認証する)を介して束縛された間隔を伝播し、層重み(滑らかな正規化モジュール)を利用してネットワーク学習を導くことである。 測定のための異なるベンチマークデータセットの実験では、BTNの有効性と効率が示されている。

Crowd Counting is a fundamental topic, aiming to estimate the number of individuals in the crowded images or videos fed from surveillance cameras. Recent works focus on improving counting accuracy, while ignoring the certified robustness of counting models. In this paper, we propose a novel Bound Tightening Network (BTN) for Robust Crowd Counting. It consists of three parts: base model, smooth regularization module and certify bound module. The core idea is to propagate the interval bound through the base model (certify bound module) and utilize the layer weights (smooth regularization module) to guide the network learning. Experiments on different benchmark datasets for counting demonstrate the effectiveness and efficiency of BTN.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# ロシア語と英語のウィキペディアにおける説得言語の違い

Uncovering Differences in Persuasive Language in Russian versus English Wikipedia ( http://arxiv.org/abs/2409.19148v1 )

ライセンス: Link先を確認
Bryan Li, Aleksey Panasyuk, Chris Callison-Burch, (参考訳) 英語とロシア語で書かれたウィキペディア記事間の説得力のある言語の違いが、それぞれの文化の異なる主題に対する視点を明らかにする方法について検討する。 我々は多言語テキスト中の説得的言語を識別する大規模言語モデル(LLM)システムを開発した。 主観的かつ困難である説得をLCMが直接検出する代わりに,様々な説得的側面を捉える高レベルな質問 (HLQ) を行うことを提案する。 重要なことに、これらのHLQはLLM自身によって作成されている。 LLMは大量のHLQを過剰に生成し、その後、元のタスクのために人間のラベルと整列した小さなセットにフィルタされる。 次に,2段階の個別抽出手法を用いて,大規模でバイリンガルなウィキペディア記事のデータセット(総計88万件)にアプローチを適用する。 論文1件あたりの説得の量を定量化し, ペア記事のいくつかの実験を通じて, 説得の相違について検討する。 特に、両言語で説得によって記事のランク付けを生成する。 ロシアのウィキペディアはウクライナの話題を、英語のウィキペディアは中東を取り上げている。 主題をもっと大きなトピックに分類すると、政治的に関連のある出来事は、他のものよりも説得力が高いことが分かる。 さらに、HLQは、英語またはロシア語のポーズにおいて、同様のパフォーマンスが得られることを実証する。 当社の方法論は,言語横断的,文化横断的な理解を大規模に実現し,コードやプロンプト,データを公開する。

We study how differences in persuasive language across Wikipedia articles, written in either English and Russian, can uncover each culture's distinct perspective on different subjects. We develop a large language model (LLM) powered system to identify instances of persuasive language in multilingual texts. Instead of directly prompting LLMs to detect persuasion, which is subjective and difficult, we propose to reframe the task to instead ask high-level questions (HLQs) which capture different persuasive aspects. Importantly, these HLQs are authored by LLMs themselves. LLMs over-generate a large set of HLQs, which are subsequently filtered to a small set aligned with human labels for the original task. We then apply our approach to a large-scale, bilingual dataset of Wikipedia articles (88K total), using a two-stage identify-then-extract prompting strategy to find instances of persuasion. We quantify the amount of persuasion per article, and explore the differences in persuasion through several experiments on the paired articles. Notably, we generate rankings of articles by persuasion in both languages. These rankings match our intuitions on the culturally-salient subjects; Russian Wikipedia highlights subjects on Ukraine, while English Wikipedia highlights the Middle East. Grouping subjects into larger topics, we find politically-related events contain more persuasion than others. We further demonstrate that HLQs obtain similar performance when posed in either English or Russian. Our methodology enables cross-lingual, cross-cultural understanding at scale, and we release our code, prompts, and data.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# テキスト・ツー・イメージモデルにおけるマルチモーダル・プラグマティック・ジェイルブレイク

Multimodal Pragmatic Jailbreak on Text-to-image Models ( http://arxiv.org/abs/2409.19149v1 )

ライセンス: Link先を確認
Tong Liu, Zhixin Lai, Gengyuan Zhang, Philip Torr, Vera Demberg, Volker Tresp, Jindong Gu, (参考訳) 拡散モデルは最近、画像の品質とテキストのプロンプトへの忠実度の観点から、顕著な進歩を遂げている。 同時に、このような生成モデルの安全性は、懸念の高まりの領域となっている。 この研究は、新しいタイプのjailbreakを導入し、T2Iモデルをトリガーして画像とテキストを視覚テキストで生成する。 本稿では,この現象を体系的に探求するために,現在の拡散ベーステキスト・ツー・イメージ(T2I)モデルを評価するデータセットを提案する。 2つのオープンソース商用モデルを含む9つの代表的なT2Iモデルをベンチマークする。 実験結果から、安全でないコンテンツを生成する傾向が明らかとなった。全てのテストされたモデルは、この種のジェイルブレイクに悩まされ、安全でない生成率は8\%から74\%である。 現実のシナリオでは、キーワードブロックリスト、カスタマイズされたプロンプトフィルタ、NSFWイメージフィルタなどの様々なフィルタが、これらのリスクを軽減するために一般的に使用される。 このようなフィルタの有効性をジェイルブレイクに対して評価したところ、現在の分類器は単一のモダリティ検出に有効であるが、ジェイルブレイクに対して機能しないことがわかった。 我々の研究は、よりセキュアで信頼性の高いT2Iモデルに向けたさらなる開発基盤を提供する。

Diffusion models have recently achieved remarkable advancements in terms of image quality and fidelity to textual prompts. Concurrently, the safety of such generative models has become an area of growing concern. This work introduces a novel type of jailbreak, which triggers T2I models to generate the image with visual text, where the image and the text, although considered to be safe in isolation, combine to form unsafe content. To systematically explore this phenomenon, we propose a dataset to evaluate the current diffusion-based text-to-image (T2I) models under such jailbreak. We benchmark nine representative T2I models, including two close-source commercial models. Experimental results reveal a concerning tendency to produce unsafe content: all tested models suffer from such type of jailbreak, with rates of unsafe generation ranging from 8\% to 74\%. In real-world scenarios, various filters such as keyword blocklists, customized prompt filters, and NSFW image filters, are commonly employed to mitigate these risks. We evaluate the effectiveness of such filters against our jailbreak and found that, while current classifiers may be effective for single modality detection, they fail to work against our jailbreak. Our work provides a foundation for further development towards more secure and reliable T2I models.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# 自己回帰型言語モデリングにおける決定木の力について

On the Power of Decision Trees in Auto-Regressive Language Modeling ( http://arxiv.org/abs/2409.19150v1 )

ライセンス: Link先を確認
Yulu Gan, Tomer Galanti, Tomaso Poggio, Eran Malach, (参考訳) もともと時系列データを扱うために提案されていた自動回帰決定木(ARDT)は、まだ言語モデリングのために研究されていない。 本稿では,この新たな文脈におけるARDTの理論的および実用的応用について述べる。 我々は、ARDTが「チェーン・オブ・シント」計算を利用することで、オートマタ、チューリングマシン、スパース回路などの複雑な関数を計算できることを理論的に実証する。 我々の分析は、ARDTのサイズ、深さ、計算効率の限界を提供し、その驚くべき計算能力を強調している。 経験的に、単純な言語生成タスクでARDTをトレーニングし、より小さなTransformerモデルと同等の一貫性と文法的に正しいテキストを生成することを学習できることを示します。 さらに、複雑な推論タスクを解決するために、変換器表現の上にARDTを使用できることを示す。 本研究では,ARDTのユニークな計算能力を明らかにし,言語モデル開発におけるアーキテクチャの多様性の拡大を目指す。

Originally proposed for handling time series data, Auto-regressive Decision Trees (ARDTs) have not yet been explored for language modeling. This paper delves into both the theoretical and practical applications of ARDTs in this new context. We theoretically demonstrate that ARDTs can compute complex functions, such as simulating automata, Turing machines, and sparse circuits, by leveraging "chain-of-thought" computations. Our analysis provides bounds on the size, depth, and computational efficiency of ARDTs, highlighting their surprising computational power. Empirically, we train ARDTs on simple language generation tasks, showing that they can learn to generate coherent and grammatically correct text on par with a smaller Transformer model. Additionally, we show that ARDTs can be used on top of transformer representations to solve complex reasoning tasks. This research reveals the unique computational abilities of ARDTs, aiming to broaden the architectural diversity in language model development.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# LLMは1冊の文法書から低リソースの言語を本当に翻訳できるか?

Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book? ( http://arxiv.org/abs/2409.19151v1 )

ライセンス: Link先を確認
Seth Aycock, David Stap, Di Wu, Christof Monz, Khalil Sima'an, (参考訳) XLR (Extremely Low-Resource) 言語は、NLPモデルをトレーニングするためのかなりのコーパスを欠き、辞書や文法書などの利用可能なすべてのリソースの使用を動機付けている。 1冊の本(Tanzer et al , 2024)からの機械翻訳は、1冊の文法書で長文のLLMを推奨し、未知のXLR言語であるイングリッシュ・カラマン語の翻訳を可能にした。 本書の文法的説明や,その並列例がXLR翻訳の学習に最も有効であるかどうかを考察し,ほぼすべての改善が並列例に起因していることを示す。 さらに、低リソース言語であるネパール語についても同様の結果が得られ、エンコーダとデコーダの翻訳モデルを簡単に微調整することで文法書でLLMに匹敵する性能が得られる。 次に,文法書が文法的判断とグロース予測という2つの言語的タスクをテストする上で,どのような文法的知識が役に立つかを検討する。 そこで我々は,XLR言語におけるタスク適合データの重要性を強調した。 長文LLMがXLR翻訳に文法的説明を効果的に活用できるという証拠は見つからないので、翻訳などの多言語XLRタスクのデータ収集は言語記述よりも並列データに最も重点を置いていると提案する。

Extremely low-resource (XLR) languages lack substantial corpora for training NLP models, motivating the use of all available resources such as dictionaries and grammar books. Machine Translation from One Book (Tanzer et al., 2024) suggests prompting long-context LLMs with one grammar book enables English-Kalamang translation, an unseen XLR language - a noteworthy case of linguistic knowledge helping an NLP task. We investigate whether the book's grammatical explanations or its parallel examples are most effective for learning XLR translation, finding almost all improvement stems from the parallel examples. Further, we find similar results for Nepali, a seen low-resource language, and achieve performance comparable to an LLM with a grammar book by simply fine-tuning an encoder-decoder translation model. We then investigate where grammar books help by testing two linguistic tasks, grammaticality judgment and gloss prediction, and we explore what kind of grammatical knowledge helps by introducing a typological feature prompt that achieves leading results on these more relevant tasks. We thus emphasise the importance of task-appropriate data for XLR languages: parallel examples for translation, and grammatical data for linguistic tasks. As we find no evidence that long-context LLMs can make effective use of grammatical explanations for XLR translation, we suggest data collection for multilingual XLR tasks such as translation is best focused on parallel data over linguistic description.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# MASt3R-SfM:非拘束構造に対する完全独立解法

MASt3R-SfM: a Fully-Integrated Solution for Unconstrained Structure-from-Motion ( http://arxiv.org/abs/2409.19152v1 )

ライセンス: Link先を確認
Bardienus Duisterhof, Lojze Zust, Philippe Weinzaepfel, Vincent Leroy, Yohann Cabon, Jerome Revaud, (参考訳) SfM(Structure-from-Motion)は、カメラのポーズとシーンの3次元幾何学を共同で再現するタスクで、数十年にわたる大きな進歩にもかかわらず、まだ多くのオープンな課題を抱えている。 SfMの従来のソリューションは、エラーを伝播する傾向があり、画像が十分に重複しなかったり、動きが少なかったりした場合に失敗する、最小限のソルバからなる複雑なパイプラインで構成されている。 最近の手法では、このパラダイムを再検討しようとしていますが、これらの中核的な問題を修正するには不足していることが実証的に示されています。 本稿では,局所的な3次元再構成と正確なマッチングを堅牢に生成できる3次元視覚基盤モデルを構築することを提案する。 グローバル座標系における局所的再構成を正確に調整するための低メモリ方式を提案する。 さらに、このような基礎モデルは、オーバーヘッドを伴わずに効率的な画像検索として機能し、全体的な複雑さを2次から線形に低減できることを示す。 全体として、私たちの新しいSfMパイプラインはシンプルで、スケーラブルで、高速で、本当に制約を受けていない。 複数のベンチマーク実験により,本手法は各種設定,特に小規模・中規模設定における既存手法よりも優れた性能を示すことが示された。

Structure-from-Motion (SfM), a task aiming at jointly recovering camera poses and 3D geometry of a scene given a set of images, remains a hard problem with still many open challenges despite decades of significant progress. The traditional solution for SfM consists of a complex pipeline of minimal solvers which tends to propagate errors and fails when images do not sufficiently overlap, have too little motion, etc. Recent methods have attempted to revisit this paradigm, but we empirically show that they fall short of fixing these core issues. In this paper, we propose instead to build upon a recently released foundation model for 3D vision that can robustly produce local 3D reconstructions and accurate matches. We introduce a low-memory approach to accurately align these local reconstructions in a global coordinate system. We further show that such foundation models can serve as efficient image retrievers without any overhead, reducing the overall complexity from quadratic to linear. Overall, our novel SfM pipeline is simple, scalable, fast and truly unconstrained, i.e. it can handle any collection of images, ordered or not. Extensive experiments on multiple benchmarks show that our method provides steady performance across diverse settings, especially outperforming existing methods in small- and medium-scale settings.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# 任意列の校正確率予測

Calibrated Probabilistic Forecasts for Arbitrary Sequences ( http://arxiv.org/abs/2409.19157v1 )

ライセンス: Link先を確認
Charles Marx, Volodymyr Kuleshov, Stefano Ermon, (参考訳) 現実のデータストリームは、分布シフトやフィードバックループ、敵アクターによって予測不可能に変化する可能性がある。 データがどのように進化するかに関わらず、有効な不確実性推定を保証するための予測フレームワークを提案する。 ゲーム理論からブラックウェルアプローチ可能性の概念を活用することで、任意のコンパクト空間(例えば、分類または有界回帰)における結果に対する校正の不確かさを保証する予測フレームワークを導入する。 我々はこの枠組みを拡張し、予測性能を犠牲にすることなく正確な不確実性を保証する。 フレームワークの一般的な特殊ケースに最適化された汎用勾配アルゴリズムとアルゴリズムの両方を実装した。 実証的に、我々のアルゴリズムはエネルギーシステムのキャリブレーションと下流の意思決定を改善する。

Real-world data streams can change unpredictably due to distribution shifts, feedback loops and adversarial actors, which challenges the validity of forecasts. We present a forecasting framework ensuring valid uncertainty estimates regardless of how data evolves. Leveraging the concept of Blackwell approachability from game theory, we introduce a forecasting framework that guarantees calibrated uncertainties for outcomes in any compact space (e.g., classification or bounded regression). We extend this framework to recalibrate existing forecasters, guaranteeing accurate uncertainties without sacrificing predictive performance. We implement both general-purpose gradient-based algorithms and algorithms optimized for popular special cases of our framework. Empirically, our algorithms improve calibration and downstream decision-making for energy systems.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# bnRep:学術文献からのベイズ的ネットワークのリポジトリ

bnRep: A repository of Bayesian networks from the academic literature ( http://arxiv.org/abs/2409.19158v1 )

ライセンス: Link先を確認
Manuele Leonelli, (参考訳) ベイズネットワーク(BN)は不確実性のある複雑なシステムのモデリングに広く用いられているが、事前に構築されたBNのリポジトリは限られている。 本稿では、bnRepについて紹介する。bnRepは、文書化されたBNの集合を包括的に提供し、ベンチマーク、複製性、教育を容易にするオープンソースRパッケージである。 学術出版物の200以上のネットワークで、bnRepはbnlearnや他のRパッケージとシームレスに統合され、ネットワーク探索のためのインタラクティブなツールを提供する。

Bayesian networks (BNs) are widely used for modeling complex systems with uncertainty, yet repositories of pre-built BNs remain limited. This paper introduces bnRep, an open-source R package offering a comprehensive collection of documented BNs, facilitating benchmarking, replicability, and education. With over 200 networks from academic publications, bnRep integrates seamlessly with bnlearn and other R packages, providing users with interactive tools for network exploration.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# マルチモーダル深層学習モデルを用いた不定位甲状腺腫瘍の過剰治療の軽減

Reducing Overtreatment of Indeterminate Thyroid Nodules Using a Multimodal Deep Learning Model ( http://arxiv.org/abs/2409.19171v1 )

ライセンス: Link先を確認
Shreeram Athreya, Andrew Melehy, Sujit Silas Armstrong Suthahar, Vedrana Ivezić, Ashwath Radhachandran, Vivek Sant, Chace Moleta, Henry Zheng, Maitraya Patel, Rinat Masamed, Corey W. Arnold, William Speier, (参考訳) 目的: 分子試験 (MT) では, 甲状腺結節を良性, 悪性と分類し, 高感度で高い正の予測値 (PPV) を示した。 この制限に対処するために、米国内の画像に多重インスタンス学習(AMIL)を適用した。 方法:UCLA医療センターにて非定位甲状腺結節症例333例(良性259例,悪性74例)を振り返って検討した。 多モード深層学習 AMIL モデルを開発し, 結節を良性, 悪性, 悪性と分類し, 悪性度リスク層化を増強した。その結果: 最終AMIL モデルはMT感度 (0.946) に適合し, PPV (0.477 vs 0.448) は改善され, 高感度を維持しながら偽陽性は少なくなった。 結論: 本手法は, MTと比較して偽陽性を減少させると同時に, 同一の陽性症例を同定する能力を維持しつつ, 不確定結節症例の良性甲状腺切除を減少させる可能性が示唆された。

Objective: Molecular testing (MT) classifies cytologically indeterminate thyroid nodules as benign or malignant with high sensitivity but low positive predictive value (PPV), only using molecular profiles, ignoring ultrasound (US) imaging and biopsy. We address this limitation by applying attention multiple instance learning (AMIL) to US images. Methods: We retrospectively reviewed 333 patients with indeterminate thyroid nodules at UCLA medical center (259 benign, 74 malignant). A multi-modal deep learning AMIL model was developed, combining US images and MT to classify the nodules as benign or malignant and enhance the malignancy risk stratification of MT. Results: The final AMIL model matched MT sensitivity (0.946) while significantly improving PPV (0.477 vs 0.448 for MT alone), indicating fewer false positives while maintaining high sensitivity. Conclusion: Our approach reduces false positives compared to MT while maintaining the same ability to identify positive cases, potentially reducing unnecessary benign thyroid resections in patients with indeterminate nodules.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# HM3:不均一なマルチクラスモデルマージ

HM3: Heterogeneous Multi-Class Model Merging ( http://arxiv.org/abs/2409.19173v1 )

ライセンス: Link先を確認
Stefan Hackmann, (参考訳) 基礎言語モデルの展開には、テキストのフィルタリングや分類、ジェイルブレイクの試みの検出、バイアスや有害な出力、トピックの順守を保証するための補助ガードレールモデルが含まれる。 これらの追加モデルにより、モデル推論の複雑さとコストが増大する。 この問題に対処するために、これらのモデルを単一の多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。 異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。 LoRAのようなパラメータ効率のよい微調整技術とは異なり、推論中に広範なトレーニングを必要とし、複雑さを増す。 BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。 タスクベクトル密度の低下の影響を評価するために自己統合を導入し、よりパフォーマンスの悪いヘイトスピーチ分類器は自己統合の恩恵を受ける一方、ハイパフォーマンスな分類器はそうでないことを発見し、モデルチューニングにタスクベクトル還元を用いることに関する疑問を提起する。

Foundation language model deployments often include auxiliary guard-rail models to filter or classify text, detecting jailbreak attempts, biased or toxic output, or ensuring topic adherence. These additional models increase the complexity and cost of model inference, especially since many are also large language models. To address this issue, we explore training-free model merging techniques to consolidate these models into a single, multi-functional model. We propose Heterogeneous Multi-Class Model Merging (HM3) as a simple technique for merging multi-class classifiers with heterogeneous label spaces. Unlike parameter-efficient fine-tuning techniques like LoRA, which require extensive training and add complexity during inference, recent advancements allow models to be merged in a training-free manner. We report promising results for merging BERT-based guard models, some of which attain an average F1-score higher than the source models while reducing the inference time by up to 44%. We introduce self-merging to assess the impact of reduced task-vector density, finding that the more poorly performing hate speech classifier benefits from self-merging while higher-performing classifiers do not, which raises questions about using task vector reduction for model tuning.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# 注意図を用いた脳波におけるグローバル言語処理の特徴推定

Feature Estimation of Global Language Processing in EEG Using Attention Maps ( http://arxiv.org/abs/2409.19174v1 )

ライセンス: Link先を確認
Dai Shimizu, Ko Watanabe, Andreas Dengel, (参考訳) 脳波の特徴と認知タスクの相関を理解することは脳機能の解明に不可欠である。 脳活動は、会話や聴取作業中に同期する。 しかし、fMRIのような高空間分解能の手法よりも、脳波のような低空間分解能だが高時間分解能の手法でタスク依存脳活動特性を推定することは困難である。 本研究は,脳波の特徴推定に新たなアプローチを導入し,深層学習モデルの重みを利用してその関連を探索する。 視覚変換器とEEGNetから生成したアテンションマップは,従来の研究結果と一致した特徴を効果的に同定できることを実証する。 EEGNetは、被写体独立とリスニングタスクの分類に関する最も正確なモデルとして登場した。 ViTsを用いたMel-Spectrogramの適用により、時間および周波数関連脳波特性の分解能が向上する。 本研究により,脳波信号から特徴抽出を行うことができるため,注意マップから識別される特徴は入力データによって大きく異なることが明らかとなった。 特徴を推定することにより、既知の属性を強化し、新しい属性を予測し、早期疾患検出などの医療目的にEEGを活用する上で、新たな視点を提供する可能性がある。 これらの技術は認知神経科学に多大な貢献をする。

Understanding the correlation between EEG features and cognitive tasks is crucial for elucidating brain function. Brain activity synchronizes during speaking and listening tasks. However, it is challenging to estimate task-dependent brain activity characteristics with methods with low spatial resolution but high temporal resolution, such as EEG, rather than methods with high spatial resolution, like fMRI. This study introduces a novel approach to EEG feature estimation that utilizes the weights of deep learning models to explore this association. We demonstrate that attention maps generated from Vision Transformers and EEGNet effectively identify features that align with findings from prior studies. EEGNet emerged as the most accurate model regarding subject independence and the classification of Listening and Speaking tasks. The application of Mel-Spectrogram with ViTs enhances the resolution of temporal and frequency-related EEG characteristics. Our findings reveal that the characteristics discerned through attention maps vary significantly based on the input data, allowing for tailored feature extraction from EEG signals. By estimating features, our study reinforces known attributes and predicts new ones, potentially offering fresh perspectives in utilizing EEG for medical purposes, such as early disease detection. These techniques will make substantial contributions to cognitive neuroscience.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# FLINT:科学アンサンブル可視化のための学習型フロー推定と時間補間

FLINT: Learning-based Flow Estimation and Temporal Interpolation for Scientific Ensemble Visualization ( http://arxiv.org/abs/2409.19178v1 )

ライセンス: Link先を確認
Hamid Gadirov, Jos B. T. M. Roerdink, Steffen Frey, (参考訳) 本稿では,2次元以上の時間と3次元以上の科学的アンサンブルデータに対して,流れ場を推定する新たな深層学習手法であるFLINT(学習ベースフラウ推定と時間的インテリポレーション)を提案する。 FLINTは、(1) フローフィールドが一部のメンバー(例えば、空間の制約により省略された)で部分的に利用可能であること、または(2) フローフィールドが全く利用できないこと(例えば、実験中に取得できなかったこと)で、様々なシナリオを柔軟に処理することができる。 アーキテクチャの設計により、モジュラー損失関数を適用すれば、両方のケースに柔軟に対応することができ、それぞれのシナリオをフロー管理問題とフロー教師なし問題として効果的に扱うことができます。 我々の知る限り、FLINTは科学的なアンサンブルからフローを推定する最初のアプローチであり、元のフロー情報がない場合でも、各離散時間ステップに対して対応するフローフィールドを生成する。 さらに、FLINTはスカラーフィールド間で高品質な時間補間剤を生成する。 FLINTにはいくつかの神経ブロックがあり、それぞれに複数の畳み込み層と非畳み込み層がある。 シミュレーションと実験の両方から科学的アンサンブルを用いて,様々な利用シナリオのパフォーマンスと精度を示す。

We present FLINT (learning-based FLow estimation and temporal INTerpolation), a novel deep learning-based approach to estimate flow fields for 2D+time and 3D+time scientific ensemble data. FLINT can flexibly handle different types of scenarios with (1) a flow field being partially available for some members (e.g., omitted due to space constraints) or (2) no flow field being available at all (e.g., because it could not be acquired during an experiment). The design of our architecture allows to flexibly cater to both cases simply by adapting our modular loss functions, effectively treating the different scenarios as flow-supervised and flow-unsupervised problems, respectively (with respect to the presence or absence of ground-truth flow). To the best of our knowledge, FLINT is the first approach to perform flow estimation from scientific ensembles, generating a corresponding flow field for each discrete timestep, even in the absence of original flow information. Additionally, FLINT produces high-quality temporal interpolants between scalar fields. FLINT employs several neural blocks, each featuring several convolutional and deconvolutional layers. We demonstrate performance and accuracy for different usage scenarios with scientific ensembles from both simulations and experiments.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# 超画素セグメンテーションに関する包括的レビューと新しい分類法

A comprehensive review and new taxonomy on superpixel segmentation ( http://arxiv.org/abs/2409.19179v1 )

ライセンス: Link先を確認
I. B. Barcelos, F. de C. Belém, L. de M. João, Z. K. G. do Patrocínio Jr., A. X. Falcão, S. J. F. Guimarães, (参考訳) スーパーピクセルセグメンテーション(Superpixel segmentation)は、画像を、類似した接続されたピクセルからなる領域に分割する。 その方法は、作業量を削減し、冗長な情報を取り除き、意味のある特徴を持つ領域を保存することができるため、多くのコンピュータビジョンアプリケーションで広く使われている。 この分野の急速な進展により、文献は比較対象のより最近の研究に追いつかず、既存のすべての戦略に従って手法を分類する。 本研究は,画像特徴の処理ステップと処理レベルに応じて手法を分類するスーパーピクセルセグメンテーションの新しい分類法を包括的に検討することによって,このギャップを埋めるものである。 我々は,最近の文献を分類に従って再検討し,接続性,コンパクト性,デライン化,スーパーピクセル数,色均一性,堅牢性,実行時間,安定性,視覚的品質の9つの基準に基づき,20の戦略を評価する。 本実験は画素クラスタリングにおける各アプローチの傾向を示し,個々のトレードオフについて議論する。 最後に、スーパーピクセル評価のための新しいベンチマークをhttps://github.com/IMScience-PPGINF-PucMinas/superpixel-benchmarkで公開しています。

Superpixel segmentation consists of partitioning images into regions composed of similar and connected pixels. Its methods have been widely used in many computer vision applications since it allows for reducing the workload, removing redundant information, and preserving regions with meaningful features. Due to the rapid progress in this area, the literature fails to catch up on more recent works among the compared ones and to categorize the methods according to all existing strategies. This work fills this gap by presenting a comprehensive review with new taxonomy for superpixel segmentation, in which methods are classified according to their processing steps and processing levels of image features. We revisit the recent and popular literature according to our taxonomy and evaluate 20 strategies based on nine criteria: connectivity, compactness, delineation, control over the number of superpixels, color homogeneity, robustness, running time, stability, and visual quality. Our experiments show the trends of each approach in pixel clustering and discuss individual trade-offs. Finally, we provide a new benchmark for superpixel assessment, available at https://github.com/IMScience-PPGINF-PucMinas/superpixel-benchmark.
翻訳日:2024-11-06 04:11:01 公開日:2024-09-27
# 機械学習による機械画像圧縮

Learning-Based Image Compression for Machines ( http://arxiv.org/abs/2409.19184v1 )

ライセンス: Link先を確認
Kartik Gupta, Kimberley Faria, Vikas Mehta, (参考訳) 画像の学習に基づく圧縮技術は従来の手法よりも優れているが、機械学習パイプラインでは広く採用されていない。 これは主に、標準化の欠如と、そのようなタスクに必要な健全な機能の維持の欠如によるものである。 近年、画像の圧縮は後部座席に置かれており、その上に機械学習に基づく分析を行う際の画像の有用性に焦点が移っている。 そのため、画像からこのような特徴を取り入れた圧縮パイプラインの需要はかつてないほど高まっている。 レポートで概説された手法は、下流タスクを組み込むための学習ベースの画像圧縮技術に関する最近の研究に基づいている。 本稿では,プレトレーニング圧縮符号化パイプラインの様々な部分を微調整し,拡張する様々な手法を提案する。

While learning based compression techniques for images have outperformed traditional methods, they have not been widely adopted in machine learning pipelines. This is largely due to lack of standardization and lack of retention of salient features needed for such tasks. Decompression of images have taken a back seat in recent years while the focus has shifted to an image's utility in performing machine learning based analysis on top of them. Thus the demand for compression pipelines that incorporate such features from images has become ever present. The methods outlined in the report build on the recent work done on learning based image compression techniques to incorporate downstream tasks in them. We propose various methods of finetuning and enhancing different parts of pretrained compression encoding pipeline and present the results of our investigation regarding the performance of vision tasks using compression based pipelines.
翻訳日:2024-11-06 04:01:11 公開日:2024-09-27
# Mask Inpainting Model を用いた膝MRI画像からの半監督的骨髄病変検出

Semi-Supervised Bone Marrow Lesion Detection from Knee MRI Segmentation Using Mask Inpainting Models ( http://arxiv.org/abs/2409.19185v1 )

ライセンス: Link先を確認
Shihua Qin, Ming Zhang, Juan Shan, Taehoon Shin, Jonghye Woo, Fangxu Xing, (参考訳) 骨髄病変(BML)は膝関節症(OA)の重要な指標である。 膝磁気共鳴画像(MRI)では,小さめの不規則な構造として現れることが多いため,MRIでBMLを効果的に検出することがOA診断や治療に不可欠である。 本稿では,高分解能膝関節MRIにおけるBMLの同定のためのマスク塗装モデルを用いた半教師付き局所異常検出法を提案する。 この手法は, 関節症データベースのサブセットから, 様々な解像度でMRIを用いて評価した。 IoU(Intersection over Union)と画素レベルの感度,特異度,精度は,多分解能知識蒸留法(最先端のグローバル異常検出法)に対して有利であった。 特に高解像度画像ではセグメンテーション性能が向上し、DiceスコアとIoUスコアを448x448解像度で2倍以上の性能向上を実現した。 また,BML領域のサイズが大きくなるにつれて,DiceとIoUのスコアが向上し,識別可能な境界の比率が減少することを示した。 識別されたBMLマスクは、セグメンテーションや分類といった下流タスクのマーカーとして機能する。 提案手法は,BML検出の改善の可能性を示し,画像ベースOA研究のさらなる発展の基礎を築いた。

Bone marrow lesions (BMLs) are critical indicators of knee osteoarthritis (OA). Since they often appear as small, irregular structures with indistinguishable edges in knee magnetic resonance images (MRIs), effective detection of BMLs in MRI is vital for OA diagnosis and treatment. This paper proposes a semi-supervised local anomaly detection method using mask inpainting models for identification of BMLs in high-resolution knee MRI, effectively integrating a 3D femur bone segmentation model, a large mask inpainting model, and a series of post-processing techniques. The method was evaluated using MRIs at various resolutions from a subset of the public Osteoarthritis Initiative database. Dice score, Intersection over Union (IoU), and pixel-level sensitivity, specificity, and accuracy showed an advantage over the multiresolution knowledge distillation method-a state-of-the-art global anomaly detection method. Especially, segmentation performance is enhanced on higher-resolution images, achieving an over two times performance increase on the Dice score and the IoU score at a 448x448 resolution level. We also demonstrate that with increasing size of the BML region, both the Dice and IoU scores improve as the proportion of distinguishable boundary decreases. The identified BML masks can serve as markers for downstream tasks such as segmentation and classification. The proposed method has shown a potential in improving BML detection, laying a foundation for further advances in imaging-based OA research.
翻訳日:2024-11-06 04:01:11 公開日:2024-09-27
# Jaynes-Cummings格子の局所的断熱駆動

Local Counterdiabatic Driving for Jaynes-Cummings Lattices ( http://arxiv.org/abs/2409.19186v1 )

ライセンス: Link先を確認
A. Govindarajan, L. Tian, (参考訳) ジャイネス・カミングス (Jynes-Cummings, JC) 格子は量子二層系とキャビティを結合することで構築することができ、偏光子多体状態や多粒子絡みに対して広く研究されている。 この系における多体状態の生成のために断熱的進化が研究されているが、長い時間スケールへの依存は深刻なデコヒーレンスを引き起こす可能性がある。 本稿では,JC格子上での高速かつ高忠実な状態生成を実現するために,局所的反断熱駆動(CD)を利用したスキームを提案する。 この系に対する正確なCDハミルトニアンは、異なる場所と離れた場所でのキュービットとキャビティの間の非局所結合を含んでおり、これは実装に挑戦を引き起こす。 周期的境界条件と開境界条件の両方の下で固有状態の対称性を利用すると、正確なCDハミルトニアンと同じダイナミクスを生成する局所CDハミルトニアンが導出され、数値シミュレーションによりこの結果が裏付けられる。 また,本手法を用いて多部W状態を高忠実度で作成できることを示す。 超伝導量子デバイスによるこのスキームの実装とデコヒーレンスについても論じる。

Jaynes-Cummings (JC) lattices can be constructed by connecting quantum two-level systems with cavities and have been widely studied for polariton many-body states and multipartite entanglement. Although adiabatic evolution has been studied for the generation of many-body states in this system, its reliance on long timescales can lead to serious decoherence. Here we present a scheme that utilizes local counterdiabatic (CD) driving to provide fast and high-fidelity state preparation in JC lattices. The exact CD Hamiltonian for this system contains nonlocal couplings between qubits and cavities at different and distant sites, which causes a challenge in the implementation. Leveraging the symmetries of the eigenstates under both periodic and open boundary conditions, we derive a local CD Hamiltonian that generates the same dynamics as the exact CD Hamiltonian and our numerical simulations confirm this result. We also show that a multipartite W-state can be prepared with high fidelity using this method. The implementation and decoherence of this scheme with superconducting quantum devices are also discussed.
翻訳日:2024-11-06 04:01:11 公開日:2024-09-27
# 人工知能によるブロックチェーンによる金融デフォルト予測

Artificial intelligence-based blockchain-driven financial default prediction ( http://arxiv.org/abs/2410.00044v1 )

ライセンス: Link先を確認
Junjun Huang, (参考訳) テクノロジーの急速な発展に伴い、ブロックチェーンと人工知能テクノロジーはあらゆる人生で大きな役割を担っている。 金融セクターでは、ブロックチェーンは分散化とセキュリティの利点によって、従来のシステムにおけるデータストレージと管理における多くのセキュリティ問題を解決します。 そして人工知能は、強力なアルゴリズムモデリング能力を通じて、財務予測とリスク管理において大きな優位性を持っている。 ブロックチェーンと人工知能技術を使用した財務上のデフォルト予測は、非常に強力なアプリケーションです。 ブロックチェーン技術は、すべてのノードにおけるデータの信頼性と一貫性を保証すると同時に、ビッグデータの詳細な分析を通じて、マシンラーニングが高レベルのデフォルト予測モデルを構築する。 本研究は、信用リスク軽減と金融システムの安定化の観点から、金融機関に金融技術に関する新たな考え方を提供する。

With the rapid development of technology, blockchain and artificial intelligence technology are playing a huge role in all walks of life. In the financial sector, blockchain solves many security problems in data storage and management in traditional systems with its advantages of decentralization and security. And artificial intelligence has huge advantages in financial forecasting and risk management through its powerful algorithmic modeling capabilities. In financial default prediction using blockchain and artificial intelligence technology is a very powerful application. Blockchain technology guarantees the credibility of data and consistency on all nodes, and machine learning builds a high-level default prediction model through detailed analysis of big data. This study offers financial institutions new thoughts on financial technology in terms of credit risk mitigation and financial system stabilization.
翻訳日:2024-11-05 15:19:28 公開日:2024-09-27
# マルチモーダルエンコーダデコーダネットワークによる心の視線観察

Looking through the mind's eye via multimodal encoder-decoder networks ( http://arxiv.org/abs/2410.00047v1 )

ライセンス: Link先を確認
Arman Afrasiyabi, Erica Busch, Rahul Singh, Dhananjay Bhaskar, Laurent Caplette, Nicholas Turk-Browne, Smita Krishnaswamy, (参考訳) 本研究では,fMRIを用いた被験者の心像の復号化について検討する。 この復号化を実現するために、まず、被験者が視聴したビデオによって引き起こされる被写体のfMRI信号のマッピングを作成しました。 このマッピングは、高次元fMRIアクティベーション状態と視覚画像とを関連付ける。 次に,視覚的対象に直接言及しない感情ラベルを主眼として,テキストで被験者に促した。 次に、人の心の中にあったかもしれない視覚画像をデコードするために、ビデオ自体に与えられたテキストラベルに基づいて、対応するビデオfMRIと、これらのfMRI測定の潜在表現を一致させる。 このアライメントは、動画 fMRI の埋め込みとテキストプロップされた fMRI の埋め込みを重畳することにより、fMRI-to- Video マッピングをデコードするために使用することができる。 さらに,5つの被験者のデータからなる既存のfMRIデータセットを,我々のチームによって収集された3つの被験者の録音を含めることで拡張する。 我々は、この拡張データセットにおけるモデルの有効性を、マッピングを正確に作成するだけでなく、精神イメージを確実に復号化するためにも示す。

In this work, we explore the decoding of mental imagery from subjects using their fMRI measurements. In order to achieve this decoding, we first created a mapping between a subject's fMRI signals elicited by the videos the subjects watched. This mapping associates the high dimensional fMRI activation states with visual imagery. Next, we prompted the subjects textually, primarily with emotion labels which had no direct reference to visual objects. Then to decode visual imagery that may have been in a person's mind's eye, we align a latent representation of these fMRI measurements with a corresponding video-fMRI based on textual labels given to the videos themselves. This alignment has the effect of overlapping the video fMRI embedding with the text-prompted fMRI embedding, thus allowing us to use our fMRI-to-video mapping to decode. Additionally, we enhance an existing fMRI dataset, initially consisting of data from five subjects, by including recordings from three more subjects gathered by our team. We demonstrate the efficacy of our model on this augmented dataset both in accurately creating a mapping, as well as in plausibly decoding mental imagery.
翻訳日:2024-11-05 15:19:28 公開日:2024-09-27
# FlashMix: 特徴混合とコントラスト制約付き加速トレーニングによる高速マップフリーLiDARローカライゼーション

FlashMix: Fast Map-Free LiDAR Localization via Feature Mixing and Contrastive-Constrained Accelerated Training ( http://arxiv.org/abs/2410.00702v1 )

ライセンス: Link先を確認
Raktim Gautam Goswami, Naman Patel, Prashanth Krishnamurthy, Farshad Khorrami, (参考訳) 地図のないLiDARローカライゼーションシステムは、センサの位置と方向を生の点雲から直接予測することで、既知の環境内で正確にローカライズする。 しかし、彼らの長い訓練期間は、新しい環境への急速な適応を妨げる。 そこで本研究では,MLPミキサーで集約された局所点記述子を抽出し,センサのポーズを予測するために,凍結したシーンに依存しないバックボーンを用いたFlashMixを提案する。 局所ディスクリプタのバッファは、メートル法学習やコンバージェンスを改善するために集約されたディスクリプタの対照的な損失正規化と組み合わせて、桁違いの訓練を加速するために使用される。 我々は、様々なLiDARローカライゼーションベンチマーク上でFlashMixを評価し、様々な正規化とアグリゲータを調べ、実世界のシナリオにおける高速かつ正確なLiDARローカライゼーションの有効性を実証した。 コードはhttps://github.com/raktimgg/FlashMix.comで入手できる。

Map-free LiDAR localization systems accurately localize within known environments by predicting sensor position and orientation directly from raw point clouds, eliminating the need for large maps and descriptors. However, their long training times hinder rapid adaptation to new environments. To address this, we propose FlashMix, which uses a frozen, scene-agnostic backbone to extract local point descriptors, aggregated with an MLP mixer to predict sensor pose. A buffer of local descriptors is used to accelerate training by orders of magnitude, combined with metric learning or contrastive loss regularization of aggregated descriptors to improve performance and convergence. We evaluate FlashMix on various LiDAR localization benchmarks, examining different regularizations and aggregators, demonstrating its effectiveness for rapid and accurate LiDAR localization in real-world scenarios. The code is available at https://github.com/raktimgg/FlashMix.
翻訳日:2024-11-05 04:25:20 公開日:2024-09-27
# 医療用ノート作成のためのジェネラルAIフレームワーク

A GEN AI Framework for Medical Note Generation ( http://arxiv.org/abs/2410.01841v1 )

ライセンス: Link先を確認
Hui Yi Leong, Yi Fan Gao, Shuai Ji, Bora Kalaycioglu, Uktu Pamuksuz, (参考訳) 医療文書、特にElectronic Health Records(EHR)による管理負担の増加は、患者の直接治療に要する時間を著しく削減し、医師のバーンアウトに寄与する。 この問題に対処するため,医療会話からSOAP(Subjective, Objective, Assessment, Plan)ノートを作成するための高度な生成AIフレームワークであるMediNotesを提案する。 MediNotesはLarge Language Models(LLM)、Retrieval-Augmented Generation(RAG)、Automatic Speech Recognition(ASR)を統合し、テキスト入力と音声入力の両方をリアルタイムでキャプチャし、記録されたオーディオから処理し、構造化され、文脈的に正確な医療ノートを生成する。 このフレームワークには、リソース制約のある環境で効率的にモデル微調整を行うために、Quantized Low-Rank Adaptation (QLoRA) やパラメータ効率の良いファインチューニング (PEFT) といった高度な技術も組み込まれている。 さらに、MediNotesはクエリベースの検索システムを提供し、医療提供者や患者が関連する医療情報に迅速かつ正確にアクセスできるようにしている。 ACI-BENCHデータセットを用いた評価は、メディノートが自動化された医療文書の正確性、効率、使用性を大幅に改善し、医療専門家の管理負担を軽減し、臨床ワークフローの品質を向上する堅牢なソリューションを提供することを示している。

The increasing administrative burden of medical documentation, particularly through Electronic Health Records (EHR), significantly reduces the time available for direct patient care and contributes to physician burnout. To address this issue, we propose MediNotes, an advanced generative AI framework designed to automate the creation of SOAP (Subjective, Objective, Assessment, Plan) notes from medical conversations. MediNotes integrates Large Language Models (LLMs), Retrieval-Augmented Generation (RAG), and Automatic Speech Recognition (ASR) to capture and process both text and voice inputs in real time or from recorded audio, generating structured and contextually accurate medical notes. The framework also incorporates advanced techniques like Quantized Low-Rank Adaptation (QLoRA) and Parameter-Efficient Fine-Tuning (PEFT) for efficient model fine-tuning in resource-constrained environments. Additionally, MediNotes offers a query-based retrieval system, allowing healthcare providers and patients to access relevant medical information quickly and accurately. Evaluations using the ACI-BENCH dataset demonstrate that MediNotes significantly improves the accuracy, efficiency, and usability of automated medical documentation, offering a robust solution to reduce the administrative burden on healthcare professionals while improving the quality of clinical workflows.
翻訳日:2024-11-04 14:34:44 公開日:2024-09-27
# DANA: 整合性と正確性のためのドメイン認識型ニューロシンボリックエージェント

DANA: Domain-Aware Neurosymbolic Agents for Consistency and Accuracy ( http://arxiv.org/abs/2410.02823v1 )

ライセンス: Link先を確認
Vinh Luong, Sang Dinh, Shruti Raghavan, William Nguyen, Zooey Nguyen, Quynh Le, Hung Vo, Kentaro Maegaito, Loc Nguyen, Thao Nguyen, Anh Hai Ha, Christopher Nguyen, (参考訳) 大規模言語モデル(LLM)は目覚ましい能力を示しているが、その固有の確率論的性質は複雑な問題解決タスクにおいて矛盾と不正確性をもたらすことが多い。 本稿では,ドメイン固有の知識とニューロシンボリックアプローチを統合することで,これらの問題に対処するアーキテクチャであるDANAを紹介する。 私たちはまず、AutoGPT、LangChain ReAct、OpenAIのChatGPTといった現在のAIアーキテクチャを、ニューロシンボリックレンズを通じて分析し、確率的推論への依存が一貫性のない出力にどのように寄与するかを強調します。 これに応えて、DANAは自然言語とシンボリック形式の両方でドメインの専門知識を捉え、適用し、より決定論的で信頼性の高い問題解決行動を可能にする。 オープンソースの OpenSSA フレームワークで階層型タスクプラン (HTP) を用いて DANA の変種を実装した。 この実装はファイナンスベンチの財務分析ベンチマークで90%以上の精度を達成し、一貫性と正確性の両方で現在のLCMベースのシステムよりも大幅に優れています。 半導体などの物理産業におけるDANAの適用は、知識を取り入れるための柔軟なアーキテクチャがLLMの確率的限界を緩和するのに有効であり、信頼性と精度を必要とする複雑な実世界の問題に対処する可能性があることを示している。

Large Language Models (LLMs) have shown remarkable capabilities, but their inherent probabilistic nature often leads to inconsistency and inaccuracy in complex problem-solving tasks. This paper introduces DANA (Domain-Aware Neurosymbolic Agent), an architecture that addresses these issues by integrating domain-specific knowledge with neurosymbolic approaches. We begin by analyzing current AI architectures, including AutoGPT, LangChain ReAct and OpenAI's ChatGPT, through a neurosymbolic lens, highlighting how their reliance on probabilistic inference contributes to inconsistent outputs. In response, DANA captures and applies domain expertise in both natural-language and symbolic forms, enabling more deterministic and reliable problem-solving behaviors. We implement a variant of DANA using Hierarchical Task Plans (HTPs) in the open-source OpenSSA framework. This implementation achieves over 90\% accuracy on the FinanceBench financial-analysis benchmark, significantly outperforming current LLM-based systems in both consistency and accuracy. Application of DANA in physical industries such as semiconductor shows that its flexible architecture for incorporating knowledge is effective in mitigating the probabilistic limitations of LLMs and has potential in tackling complex, real-world problems that require reliability and precision.
翻訳日:2024-11-03 05:34:38 公開日:2024-09-27
# LCMDC:中国の大規模医療対話コーパス

LCMDC: Large-scale Chinese Medical Dialogue Corpora for Automatic Triage and Medical Consultation ( http://arxiv.org/abs/2410.03521v1 )

ライセンス: Link先を確認
Xinyuan Wang, Haozhou Li, Dingfang Zheng, Qinke Peng, (参考訳) 世界規模の新型コロナウイルス(COVID-19)パンデミックは、従来の医療システムに大きな欠陥を指摘し、オンライン医療サービス、特に医療トリアージやコンサルティングの進歩を加速させた。 しかし、既存の研究は2つの大きな課題に直面している。 まず、プライバシ上の懸念による、大規模で公開可能なドメイン固有の医療データセットの不足。現在のデータセットは小さく、少数の疾患に限定されており、事前訓練された言語モデル(PLM)に基づいたトリアージメソッドの有効性が制限されている。 第二に、既存の方法には医療知識がなく、患者医師相談における専門用語や表現の理解に苦慮している。 これらの障害を克服するために,439,630サンプルの粗粒度トリアージデータセット,199,600サンプルの細粒度診断データセット,472,418項目の医療相談データセットからなる大規模中国医学対話コーパス(LCMDC)を構築した。 さらに,BERTに基づく教師あり学習と即時学習を組み合わせたトリアージシステムと,強化学習を用いたGPTベースの医療相談モデルを提案する。 ドメイン知識の獲得を促進するため,自己構築型バックグラウンドコーパスを用いてPLMを事前学習した。 LCMDC実験の結果,提案方式の有効性が示された。

The global COVID-19 pandemic underscored major deficiencies in traditional healthcare systems, hastening the advancement of online medical services, especially in medical triage and consultation. However, existing studies face two main challenges. First, the scarcity of large-scale, publicly available, domain-specific medical datasets due to privacy concerns, with current datasets being small and limited to a few diseases, limiting the effectiveness of triage methods based on Pre-trained Language Models (PLMs). Second, existing methods lack medical knowledge and struggle to accurately understand professional terms and expressions in patient-doctor consultations. To overcome these obstacles, we construct the Large-scale Chinese Medical Dialogue Corpora (LCMDC), comprising a Coarse-grained Triage dataset with 439,630 samples, a Fine-grained Diagnosis dataset with 199,600 samples, and a Medical Consultation dataset with 472,418 items, thereby addressing the data shortage in this field. Moreover, we further propose a novel triage system that combines BERT-based supervised learning with prompt learning, as well as a GPT-based medical consultation model using reinforcement learning. To enhance domain knowledge acquisition, we pre-trained PLMs using our self-constructed background corpus. Experimental results on the LCMDC demonstrate the efficacy of our proposed systems.
翻訳日:2024-11-02 21:50:00 公開日:2024-09-27
# ChatGPTによるオープンAIのロマンス、Cyborgのローバー対応か?

Open AI-Romance with ChatGPT, Ready for Your Cyborg Lover? ( http://arxiv.org/abs/2410.03710v1 )

ライセンス: Link先を確認
Qin Xie, (参考訳) 2024年3月下旬から、中国の大学生が、人気のソーシャルメディアプラットフォームであるRed上で、AI RomanceとChatGPTを共有。 この現象は中国の若者、特に女性の間で象徴的な姿を生んだ。 この研究は、AIロマンスと中国の女子学生のエンゲージメントをどのように形成し、AIロマンスが中国の女子大学生のジェンダーパワー関係の再構築にどう影響するかを理解するために、ケーススタディとデジタルエスノグラフィー手法を用いている。 主な発見は3つある。 まず、Open AI Romanceは実行可能で、相互に形成され、フレキシブルなジェンダーパワーダイナミクスと潜在的な新しい構成を生成する。 第2に、サイボーグ愛好者のアイデンティティは流動的で共有され、技術とソーシャルプラットフォームのために部分的にプライベートである。 第3に、ChatGPTのDANモードのRedでの台頭は、シミュレーションされた「男性」アプリを「女性」プラットフォームに導入し、政策ガイドラインと社会規範の限界を押し上げ、プラットフォームをさらに「弱体化」させる。 この研究は、テクノロジーと社会的行動の交わりについてより深く理解し、中国の若者におけるジェンダーダイナミクスの進化におけるAIとソーシャルメディアの役割を強調している。 デジタルインタラクションのパフォーマンス特性と、テクノロジが従来のジェンダーパワー構造を再定義する可能性に光を当てている。

Since late March 2024, a Chinese college student has shared her AI Romance with ChatGPT on Red, a popular Chinese social media platform, attracting millions of followers and sparking numerous imitations. This phenomenon has created an iconic figure among Chinese youth, particularly females. This study employs a case study and digital ethnography approach seeking to understand how technology (social media, generative AI) shapes Chinese female students' engagement with AI Romance and how AI Romance impacts the reshaping of gender power relations of Chinese female college students. There are three main findings. First, Open AI Romance is performative, mutually shaping, and creates flexible gender power dynamics and potential new configurations. Second, the cyborg lover identity is fluid, shared, and partially private due to technology and social platforms. Third, the rise of ChatGPT's DAN mode on Red introduces a simulated "male" app into a "female" platform, pushing the limits of policy guidelines, and social norms, making the platform even "wilder." This research provides a deeper understanding of the intersection between technology and social behavior, highlighting the role of AI and social media in evolving gender dynamics among Chinese youth. It sheds light on the performative nature of digital interactions and the potential for technology to redefine traditional gender power structures.
翻訳日:2024-11-02 20:38:12 公開日:2024-09-27
# コントローラによって監視される同時多人数量子テレポーテーション

Simultaneous Multiparty Quantum Teleportation Supervised by a Controller ( http://arxiv.org/abs/2410.03711v1 )

ライセンス: Link先を確認
Nikhita Singh, Ravi S. Singh, (参考訳) 量子ネットワークは、多人数通信と量子情報の計算技術である。 本稿では、後に量子チャネルとして利用される17量子ビットを含む対称と反対称のベル対のクラスター状態を作成するために、アダマールと制御ノットゲートからなる量子回路を設計する。 この17量子ビットの量子チャネルは、4人の送信者(アリス、ボブ、チャーリー、デイヴィッド)が任意の未知の2ビット状態(Fancy1、Fancy2、Fancy3、Fancy4)を各4つの受信機(Fancy3、Fancy4)にコントローラ・エルの監督下で送信する同時マルチパーティ(準指向性)量子テレポーテーションプロトコルを構築するために使用される。 このプロトコルを成功させた後、量子(古典)リソース消費、送信量子ビット、演算複雑性、効率に基づく現代のプロトコルと比較した。 プロトコルの本質的な効率は21.65%でした。

Quantum network harbours a technology of multiparty transmission and computation of quantum information. We here design a quantum circuit comprising of Hadamard and controlled-Not gates for preparation of a cluster state of symmetric and antisymmetric Bell pairs involving seventeen qubits which is later on utilized as a quantum channel. This seventeen qubits quantum channel is employed to strategize a simultaneous multiparty (quattro directional) quantum teleportation protocol in which four senders (Alice, Bob, Charlie and David) transmit their arbitrary unknown two-qubit states to respective four receivers (Fancy1, Fancy2, Fancy3 and Fancy4) under the supervision of a controller Elle. After successful accomplishment of the protocol, we assess and compare our scheme with contemporary protocols based on quantum (classical) resource consumption, transmitted qubits, operation complexity and efficiency. We found that intrinsic efficiency of our protocol pegs at 21.65 percent.
翻訳日:2024-11-02 20:38:12 公開日:2024-09-27
# 導波路内の単一キラル量子ビット励起1光および2光フォック状態パルスからの動的スペクトル

Dynamical spectra from one and two-photon Fock state pulses exciting a single chiral qubit in a waveguide ( http://arxiv.org/abs/2410.03715v1 )

ライセンス: Link先を確認
Sofia Arranz Regidor, Andreas Knorr, Stephen Hughes, (参考訳) カイラル2レベル系を用いた導波管QEDにおける数光子フォック状態からの動的発光について検討した。 まず,1光子励起と2光子励起の双方に対して,エミッタ集団を計算し,弱い励起近似の分解を説明する。 本研究では,1光子パルスが入力パルスと同一の伝送長周期スペクトルを生成することを示す。 しかし、動態スペクトルとスペクトル強度は、豊富な集団効果を示す。 また、1光子励起と2光子励起の差を示し、後者は非線形飽和効果の明確なシグネチャを示す。 解析的および数値的精度の高い行列積状態解を示す。

We study the dynamical light emission from few-photon Fock states in waveguide-QED with a chiral two-level system. We first investigate the time dynamics of the system by calculating the emitter population and illustrate the breakdown of the weak excitation approximation, for both 1-photon and 2-photon excitation. We show how a 1-photon pulse yields a transmitted long-time spectrum that is identical to the input pulse, despite significant population effects. However, the dynamical spectra and spectral intensity show rich population effects. We also show the differences between 1-photon and 2-photon excitation, where the latter shows clear signatures of nonlinear saturation effects. Analytical and numerically exact matrix product state solutions are shown.
翻訳日:2024-11-02 20:38:12 公開日:2024-09-27
# 導波路内の単一量子ビットと強く相互作用する数光子フォック状態パルスの理論とシミュレーション:正確な人口動態と時間依存スペクトル

Theory and simulations of few-photon Fock state pulses strongly interacting with a single qubit in a waveguide: exact population dynamics and time-dependent spectra ( http://arxiv.org/abs/2410.03716v1 )

ライセンス: Link先を確認
Sofia Arranz Regidor, Andreas Knorr, Stephen Hughes, (参考訳) 導波路内の2レベルシステム(TLS)と相互作用する数光子フォック状態パルスの詳細な量子理論とシミュレーションを示す。 長方形のパルス形状については、導波管-QED系に対する正確な時間散乱理論を示し、1光子および2光子パルスのTLS集団に対する解析式をキラルおよび対称エミッタの両方に対して導出する。 また、1光子励起の定常(長時間)および時間依存性スペクトルを導出し、TLS集団効果に接続する際の基本レベルの違いを示す。 また,任意の量子パルスに対してより一般的な光子相関関数を計算できる行列積状態(MPS)シミュレーションも提案する。 さらに, パルス長の関数としての集団特性, 非線形特性, 動的挙動について検討し, 放射減衰時間と比較して, パルスに対するTLSの影響が比較的長いことを明らかにする。 これらの詳細な理論的結果は、我々の関連するレターの結果(Arranz Regidor et al , un published, 2024)を拡張し、補完する。

We present a detailed quantum theory and simulations of a few-photon Fock state pulse interacting with a two-level system (TLS) in a waveguide. For a rectangular pulse shape, we present an exact temporal scattering theory for the waveguide-QED system to derive analytical expressions for the TLS population, for 1-photon and 2-photon pulses, for both chiral and symmetric emitters. We also derive the stationary (long time) and time-dependent spectra for 1 photon excitation, and show how these differ at a fundamental level when connecting to TLS population effects. Numerically, we also present matrix product state (MPS) simulations, which allow us to compute more general photon correlation functions for arbitrary quantum pulses, and we use this approach to also show results for Gaussian quantum pulses, and to confirm the accuracy of our analytical results. In addition, we show how significant population TLS effects also occur for pulses relatively long compared to the radiative decay time (showing that a weak excitation approximation cannot be made), and investigate the population signatures, nonlinear features and dynamical behavior as a function of pulse length. These detailed theoretical results extend and complement our related Letter results [Arranz Regidor et al., unpublished, 2024].
翻訳日:2024-11-02 20:28:28 公開日:2024-09-27
# 表面アライメント仮説の再考

Revisiting the Superficial Alignment Hypothesis ( http://arxiv.org/abs/2410.03717v1 )

ライセンス: Link先を確認
Mohit Raghavendra, Vaskar Nath, Sean Hendryx, (参考訳) 表向きのアライメント仮説(英語版)は、言語モデルの能力と知識のほとんどすべてが事前トレーニング中に学習され、ポストトレーニングはモデルに正しいスタイルとフォーマットを与える、と仮定している。 我々は,これらの主張を再検討し,学習後のスケーリングの振る舞いを,微調整例の増加とともに実証的に研究し,客観的なタスク特化ベンチマークを用いて評価する。 複数サイズのLlama-3, Mistral, Llama-2モデルファミリーを用いた実験により, 学習前のスケーリング法則と同様に, 学習後のタスク性能は, ファインタニング例数に対するパワー則としてスケールすることを示した。 このパワーローの関係は、数学的推論、コーディング、命令追従、マルチホップ推論など、幅広い機能にまたがっている。 さらに、数学やマルチホップ推論のようなタスクでは、いくつかの例がスタイリスティックにモデルを整列させるだけで、ベンチマークのパフォーマンスが飽和しない。 モデル性能は、その推論能力と相関し、さらに多くの例で大幅に改善され、客観的なベンチマークを活用する総合的な評価プログラムの必要性に加えて、人間の嗜好への適応を測定することの必要性が説明される。 また,言語モデルが事前学習中に学習した知識に限ったものではないことも観察した。 適切なポストトレーニングによって、モデルが新しい知識を統合する能力は、マルチホップ質問応答のような下流タスクを大幅に改善する。 まとめると、これらの結果は表面配向仮説に新たな光を放ち、少なくとも過度に単純化されていることを示唆している。

The Superficial Alignment Hypothesis posits that almost all of a language model's abilities and knowledge are learned during pre-training, while post-training is about giving a model the right style and format. We re-examine these claims by empirically studying the scaling behavior of post-training with increasing finetuning examples and evaluating them using objective task-specific standardized benchmarks. Through experiments with the Llama-3, Mistral, and Llama-2 model families of multiple sizes, we observe that, similar to the pre-training scaling laws, post-training task performance scales as a power law against the number of finetuning examples. This power law relationship holds across a broad array of capabilities, including mathematical reasoning, coding, instruction following, and multihop-reasoning. In addition, for tasks like math and multihop reasoning, we observe that a handful of examples merely align the model stylistically but do not saturate performance on the benchmarks. Model performance is instead correlated with its reasoning ability and it improves significantly with more examples, illustrating the need for holistic evaluation programs leveraging objective benchmarks in addition to measurement of alignment to human preferences. We also observe that language models are not necessarily limited to using knowledge learned during pre-training. With appropriate post-training, a model's ability to integrate new knowledge greatly improves on downstream tasks like multihop question-answering. Taken together, these results shed new light on the Superficial Alignment Hypothesis, suggesting that it is, at best, an over-simplification.
翻訳日:2024-11-02 20:28:28 公開日:2024-09-27
# 地震NPP:ニューラルポイントプロセスによる地震予報のためのベンチマークデータセット

EarthquakeNPP: Benchmark Datasets for Earthquake Forecasting with Neural Point Processes ( http://arxiv.org/abs/2410.08226v1 )

ライセンス: Link先を確認
Samuel Stockman, Daniel Lawson, Maximilian Werner, (参考訳) 流行型アフターショック・シークエンス(ETAS)モデルのような古典的な点過程モデルは、地震の発生時刻や発生場所を数十年にわたって予測するために広く利用されている。 近年の進歩は、従来のモデルよりも柔軟性と改善を約束するニューラルポイントプロセス(NPP)に繋がった。 しかし, NPPsのベンチマークデータセットは, 地域からの重要な地震シーケンスが欠如しており, トレーニングと試験データを不適切に分割しているため, 地震学コミュニティの最新の課題にはならない。 さらに, 地震予報ベンチマークでは, 一般の地震予報モデルとの比較は行われていない。 これらのギャップに対処するため,地震NPPは地震データに対するNPPのテストを容易にするベンチマークデータセットの集合であり,ETASモデルの信頼性のある実装を伴っている。 データセットは1971年から2021年までのカリフォルニアの小規模から大規模なターゲット領域をカバーし、データセット生成のための異なる方法論を含んでいる。 ベンチマーク実験では,3つの時空間NPPをETASと比較し,空間的,時間的ログ的いずれにおいてもETASよりも優れた性能は得られなかった。 これらの結果から,現在の NPP 実装は実際的な地震予報には適していないことが示唆された。 しかし, 地震NPPは, 地震予測可能性の向上を目標として, 地震学と機械学習コミュニティの連携のためのプラットフォームとして機能する。

Classical point process models, such as the epidemic-type aftershock sequence (ETAS) model, have been widely used for forecasting the event times and locations of earthquakes for decades. Recent advances have led to Neural Point Processes (NPPs), which promise greater flexibility and improvements over classical models. However, the currently-used benchmark dataset for NPPs does not represent an up-to-date challenge in the seismological community since it lacks a key earthquake sequence from the region and improperly splits training and testing data. Furthermore, initial earthquake forecast benchmarking lacks a comparison to state-of-the-art earthquake forecasting models typically used by the seismological community. To address these gaps, we introduce EarthquakeNPP: a collection of benchmark datasets to facilitate testing of NPPs on earthquake data, accompanied by a credible implementation of the ETAS model. The datasets cover a range of small to large target regions within California, dating from 1971 to 2021, and include different methodologies for dataset generation. In a benchmarking experiment, we compare three spatio-temporal NPPs against ETAS and find that none outperform ETAS in either spatial or temporal log-likelihood. These results indicate that current NPP implementations are not yet suitable for practical earthquake forecasting. However, EarthquakeNPP will serve as a platform for collaboration between the seismology and machine learning communities with the goal of improving earthquake predictability.
翻訳日:2024-10-31 04:36:03 公開日:2024-09-27
# 2つのオンライン量子状態再構成アルゴリズムの収束率の比較検討

A Comparative Study on the Convergence Rate of Two Online Quantum State Reconstruction Algorithms ( http://arxiv.org/abs/2410.09056v1 )

ライセンス: Link先を確認
Shuang Cong, Weiyi Qin, (参考訳) 本稿では,連続弱測定におけるガウス測定ノイズを用いたオンライン量子状態再構成のための2つのアルゴリズムの収束率について検討し,その1つは,乗算器(OPG-ADMM)アルゴリズムのオンライン近位勾配に基づく交互方向法であり,もう1つはKF-QSEアルゴリズムである。 OPG-ADMMアルゴリズムでは、時間T追跡過程における最適化関数の損失関数と制約条件を定義することにより、2つの損失関数の収束率定理を求め、証明する。 そして、OPG-ADMMアルゴリズムによる密度行列の正規化距離の収束順序は、定理の結論から導かれる。 KF-QSEアルゴリズムでは、最適化関数の損失関数を定義した後、損失関数の収束順序の定理を検討する。 そして、定理の結論から、KF-QSEアルゴリズムの正規化距離の収束順序を導出する。 最後に, 数値シミュレーション実験において, 密度行列の正規化距離を指標とし, 4ビット量子系のオンライン再構成に2つのアルゴリズムを用いる。 アルゴリズム収束率の導出性能を,結果の比較と解析により検証した。

In this paper, the convergence rates of two algorithms for the online quantum states reconstruction with Gaussian measurement noise in continuous weak measurement are studied, one is the online proximal gradient-based alternating direction method of multipliers (OPG-ADMM) algorithm, and another is Kalman fitering-based quantum state estimation (KF-QSE) algorithm. For the OPG-ADMM algorithm, by defining the loss function of the optimization function and the constraint condition in the times T tracking process, the convergence rate theorem of the two loss functions is obtained and proved. Then, the convergence order of the normalized distance of the density matrix under the OPG-ADMM algorithm is derived from the conclusion of the theorem. For the KF-QSE algorithm, after defining the loss function of the optimization function, the theorem of the convergence order of the loss function is investigated. Then, the convergence order of the normalized distance of the KF-QSE algorithm is deduced from the conclusion of the theorem. Finally, in the numerical simulation experiments, we use the normalized distance of density matrix as the indicator and use two algorithms for online reconstruction of the 4-bit quantum system. The derived performance of algorithm convergence rates are verified by the comparison and analysis of the results.
翻訳日:2024-10-30 16:58:09 公開日:2024-09-27
# アントコロニー最適化におけるネットワーク構造の影響

The Impact of Network Structure on Ant Colony Optimization ( http://arxiv.org/abs/2410.09059v1 )

ライセンス: Link先を確認
Taiyo Shimizu, Shintaro Mori, (参考訳) Ant Colony Optimization (ACO) は、フェロモンを介する情報伝達によって最適化問題の解決に使用される群知能手法である。 アリはその後蒸発するフェロモンを順次分泌するので、伝達される情報は主に、最近のアリによって分泌されるフェロモンを含む。 本稿では,情報伝達プロセスにネットワーク構造を導入し,その最適化性能への影響について検討する。 ネットワーク構造は、in-degree $r$ と asymmetric $\omega$ のパラメータを持つ非対称BAモデルによって特徴づけられる。 モデルでは、$\omega=1$でスケールフリーなネットワーク、$\omega=0$でランダムなネットワーク、$\omega=-1$で拡張された格子を記述する。 平均フィールドイジングモデルの基底状態探索を,パラメータ$\alpha$で定量化したフェロモンに対する応答を伴って,アリに対する線形決定関数を用いて解決することを目的とする。 $\omega>-1$ の場合、オプションのフェロモンレートは確率系の安定な固定点に収束する。 臨界しきい値 $\alpha_c$ の下には安定な固定点が 1 つあり、その上$\alpha_c$ は 2 つある。 特に$\omega \to -1$の場合、安定な固定点への駆動力と雑音の強さは最大に達し、イジング模型の基底状態を見つける確率を著しく高める。

Ant Colony Optimization (ACO) is a swarm intelligence methodology utilized for solving optimization problems through information transmission mediated by pheromones. As ants sequentially secrete pheromones that subsequently evaporate, the information conveyed predominantly comprises pheromones secreted by recent ants. This paper introduces a network structure into the information transmission process and examines its impact on optimization performance. The network structure is characterized by an asymmetric BA model with parameters for in-degree $r$ and asymmetry $\omega$. At $\omega=1$, the model describes a scale-free network; at $\omega=0$, a random network; and at $\omega=-1$, an extended lattice. We aim to solve the ground state search of the mean-field Ising model, employing a linear decision function for the ants with their response to pheromones quantified by the parameter $\alpha$. For $\omega>-1$, the pheromone rates for options converge to stable fixed points of the stochastic system. Below the critical threshold $\alpha_c$, there is one stable fixed point, while above $\alpha_c$, there are two. Notably, as $\omega \to -1$, both the driving force toward stable fixed points and the strength of the noise reach their maximum, significantly enhancing the probability of finding the ground state of the Ising model.
翻訳日:2024-10-30 16:58:09 公開日:2024-09-27
# タイムミクサーを用いたグローバル金融市場のボラティリティ予測

Volatility Forecasting in Global Financial Markets Using TimeMixer ( http://arxiv.org/abs/2410.09062v1 )

ライセンス: Link先を確認
Alex Li, (参考訳) 株価、インデックスETF、外国為替、仮想通貨などの金融市場のボラティリティの予測は、これらの時系列に固有の複雑さと非線形ダイナミクスのため、依然として困難な課題である。 本研究では,世界の金融資産のボラティリティを予測するために,最先端の時系列予測モデルであるTimeMixerを適用した。 TimeMixerは、異なるスケールにわたるデータを分析することで、短期パターンと長期パターンの両方を効果的にキャプチャするマルチスケールミキシングアプローチを使用している。 私の経験的結果によると、TimeMixerは短期的なボラティリティ予測では極めてよく機能するが、その精度は長期的な予測、特に高ボラティリティ市場において低下する。 これらの知見は、短期的ボラティリティの把握におけるTimeMixerの強みを浮き彫りにしており、正確な短期予測が重要である金融リスク管理の実践的応用に極めて適している。 しかし、長期予測におけるモデルの限界は、さらなる改善のための潜在的な領域を指し示している。

Predicting volatility in financial markets, including stocks, index ETFs, foreign exchange, and cryptocurrencies, remains a challenging task due to the inherent complexity and non-linear dynamics of these time series. In this study, I apply TimeMixer, a state-of-the-art time series forecasting model, to predict the volatility of global financial assets. TimeMixer utilizes a multiscale-mixing approach that effectively captures both short-term and long-term temporal patterns by analyzing data across different scales. My empirical results reveal that while TimeMixer performs exceptionally well in short-term volatility forecasting, its accuracy diminishes for longer-term predictions, particularly in highly volatile markets. These findings highlight TimeMixer's strength in capturing short-term volatility, making it highly suitable for practical applications in financial risk management, where precise short-term forecasts are critical. However, the model's limitations in long-term forecasting point to potential areas for further refinement.
翻訳日:2024-10-30 16:58:09 公開日:2024-09-27
# マルチモービル患者のケアパスにおけるイベントグラフ構築ツールCEKG

The CEKG: A Tool for Constructing Event Graphs in the Care Pathways of Multi-Morbid Patients ( http://arxiv.org/abs/2410.10827v1 )

ライセンス: Link先を確認
Milad Naeimaei Aali, Felix Mannhardt, Pieter Jelle Toussaint, (参考訳) 医療プロセスにおける課題の1つとして、特に多発性疾患を同時に患う多病者の患者は、患者の障害をプロセスイベントに結びつけず、イベントのアクティビティをグローバルに受け入れられた用語にリンクしない。 この課題に対処することで、臨床プロセスに新たな実体がもたらされる。 一方、プロセスは解釈可能であり、異なる医療システム間で分析可能である。 本稿では,多施設患者のケアパスを自動的に構築し,イベントログ,診断データ,ICD-10,SNOMED-CT,マッピング機能を用いてこれらの課題を満たすCEKGというツールを提案する。

One of the challenges in healthcare processes, especially those related to multi-morbid patients who suffer from multiple disorders simultaneously, is not connecting the disorders in patients to process events and not linking events' activities to globally accepted terminology. Addressing this challenge introduces a new entity to the clinical process. On the other hand, it facilitates that the process is interpretable and analyzable across different healthcare systems. This paper aims to introduce a tool named CEKG that uses event logs, diagnosis data, ICD-10, SNOMED-CT, and mapping functions to satisfy these challenges by constructing event graphs for multi-morbid patients' care pathways automatically.
翻訳日:2024-10-29 19:24:58 公開日:2024-09-27
# 下流地球観測における大型マスクオートエンコーダの事前学習はどの程度有効か?

How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? ( http://arxiv.org/abs/2409.18536v1 )

ライセンス: Link先を確認
Jose Sosa, Mohamed Aloulou, Danila Rukhovich, Rim Sleimi, Boonyarit Changaival, Anis Kacem, Djamila Aouada, (参考訳) 自己教師付き事前学習は、特にラベル付きデータが不足している場合、多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。 地球観測(EO)の文脈では、ファンデーションモデルと様々なビジョントランスフォーマー(ViT)ベースのアプローチが下流タスクへの変換学習に成功している。 しかし、どの条件下で事前訓練されたモデルがスクラッチからトレーニングするよりも大きな利点をもたらすのかは定かではない。 本研究では,VT ベースの Masked Autoencoders (MAE) の下流EO タスクに対する事前学習の有効性について検討し,再構築,セグメンテーション,分類に焦点を当てた。 基礎モデル (Prithvi) と SatMAE (SatMAE) の2つのモデルについて検討する。 再構成とセグメント化に基づく下流タスクにおけるPrithviの評価を行い、SatMAEでは下流タスクの分類においてその性能を評価する。 本研究は, 微調整作業がトレーニング前作業, eg 再構成と密接に類似している場合に, 事前訓練が特に有益であることが示唆された。 対照的に、セグメンテーションや分類などのタスクでは、特定のハイパーパラメータ調整によるスクラッチからのトレーニングは、等しく、より効果的であることが判明した。

Self-supervised pre-training has proven highly effective for many computer vision tasks, particularly when labelled data are scarce. In the context of Earth Observation (EO), foundation models and various other Vision Transformer (ViT)-based approaches have been successfully applied for transfer learning to downstream tasks. However, it remains unclear under which conditions pre-trained models offer significant advantages over training from scratch. In this study, we investigate the effectiveness of pre-training ViT-based Masked Autoencoders (MAE) for downstream EO tasks, focusing on reconstruction, segmentation, and classification. We consider two large ViT-based MAE pre-trained models: a foundation model (Prithvi) and SatMAE. We evaluate Prithvi on reconstruction and segmentation-based downstream tasks, and for SatMAE we assess its performance on a classification downstream task. Our findings suggest that pre-training is particularly beneficial when the fine-tuning task closely resembles the pre-training task, e.g. reconstruction. In contrast, for tasks such as segmentation or classification, training from scratch with specific hyperparameter adjustments proved to be equally or more effective.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# ゴール指向型対話エージェントの複雑なタスクに関する調査

A Survey on Complex Tasks for Goal-Directed Interactive Agents ( http://arxiv.org/abs/2409.18538v1 )

ライセンス: Link先を確認
Mareike Hartmann, Alexander Koller, (参考訳) ゴール指向の対話エージェントは、環境との対話を通じて自律的にタスクを完了し、日々の生活の様々な領域で人間を助けることができる。 大規模言語モデル(LLM)の最近の進歩により、そのようなエージェントを評価するための新しい、より困難なタスクが急増した。 これらのタスク間でパフォーマンスを適切にコンテキスト化するためには、エージェントにもたらすさまざまな課題を理解することが不可欠である。 この目的のために、この調査では、目標指向の対話エージェントを評価するための関連するタスクや環境をコンパイルし、現在の障害を理解するための次元に沿ってそれらを構造化する。 関連リソースの最新のコンパイルは、プロジェクトのWebサイト(https://coli-saar.github.io/interactive-agents)で確認できます。

Goal-directed interactive agents, which autonomously complete tasks through interactions with their environment, can assist humans in various domains of their daily lives. Recent advances in large language models (LLMs) led to a surge of new, more and more challenging tasks to evaluate such agents. To properly contextualize performance across these tasks, it is imperative to understand the different challenges they pose to agents. To this end, this survey compiles relevant tasks and environments for evaluating goal-directed interactive agents, structuring them along dimensions relevant for understanding current obstacles. An up-to-date compilation of relevant resources can be found on our project website: https://coli-saar.github.io/interactive-agents.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# Align$^2$LLaVA:マルチモーダル・インストラクション・キュレーションのためのケースド人間と大言語モデル優先アライメント

Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation ( http://arxiv.org/abs/2409.18541v1 )

ライセンス: Link先を確認
Hongzhe Huang, Zhewen Yu, Jiang Liu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li, Hao Jiang, Haoyuan Li, Yueting Zhuang, (参考訳) LLaVAシリーズモデルのようなMLLM(Multi-modal Large Language Models)の最近の進歩は、大規模な機械による命令追従データチューニングによって駆動される。 しかし、このような自動命令収集パイプラインは、必然的にデータ品質に大きな変動をもたらす。 本稿では、この機械生成マルチモーダル命令の膨大なコーパスをコンパクトかつ高品質な形式に圧縮するために、人間とLLMの選好アライメントという2つのユニークな視点から導かれた新しい命令キュレーションアルゴリズムを提案する。 一 人間の嗜好調整のために、機械生成マルチモーダル・インストラクション・データセットを収集し、主観的・客観的な基準の包括的セットを構築し、データ品質評価を人的専門家から批判的に導く。 これにより、アノテートされたデータセットに基づいて報酬モデルを訓練し、命令アライメントに関する微妙な人間の理解を内部化する。 2) 報奨モデルにより選択された指示を考慮に入れたLLM選好アライメントにおいては,MLLMで使用される内部LLMを利用して内部LLM自体の書字スタイルを整列させ,LLMに整列した指示を改善することを提案する。 大規模な実験により、合成マルチモーダル命令を最大90%圧縮することで、モデル性能を維持または改善できることが実証された。 興味深いことに、トレーニングサンプルの総サイズを158kから14k(9$\times$ smaller)に積極的に削減することで、我々のモデルはMLLMベンチマークで比較したフルサイズのデータセットを一貫して上回ります。 私たちのプロジェクトはhttps://github.com/DCDmllm/Align2LLaVA.comで利用可能です。

Recent advances in Multi-modal Large Language Models (MLLMs), such as LLaVA-series models, are driven by massive machine-generated instruction-following data tuning. Such automatic instruction collection pipelines, however, inadvertently introduce significant variability in data quality. This paper introduces a novel instruction curation algorithm, derived from two unique perspectives, human and LLM preference alignment, to compress this vast corpus of machine-generated multimodal instructions to a compact and high-quality form: (i) For human preference alignment, we have collected a machine-generated multimodal instruction dataset and established a comprehensive set of both subjective and objective criteria to guide the data quality assessment critically from human experts. By doing so, a reward model was trained on the annotated dataset to internalize the nuanced human understanding of instruction alignment. (ii) For LLM preference alignment, given the instruction selected by the reward model, we propose leveraging the inner LLM used in MLLM to align the writing style of visual instructions with that of the inner LLM itself, resulting in LLM-aligned instruction improvement. Extensive experiments demonstrate that we can maintain or even improve model performance by compressing synthetic multimodal instructions by up to 90%. Impressively, by aggressively reducing the total training sample size from 158k to 14k (9$\times$ smaller), our model consistently outperforms its full-size dataset counterpart across various MLLM benchmarks. Our project is available at https://github.com/DCDmllm/Align2LLaVA.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# MIMII-Gen:異常音検出システムのシミュレーション評価のための生成モデルアプローチ

MIMII-Gen: Generative Modeling Approach for Simulated Evaluation of Anomalous Sound Detection System ( http://arxiv.org/abs/2409.18542v1 )

ライセンス: Link先を確認
Harsh Purohit, Tomoya Nishida, Kota Dohi, Takashi Endo, Yohei Kawaguchi, (参考訳) 不十分な記録と異常の不足は、機械音に対するロバストな異常検出システムの開発と検証において重要な課題となる。 これらの制約に対処するため,エンコーダ・デコーダ・フレームワークを組み込んだ潜伏拡散モデルを用いて,機械音の多様な異常を生成する手法を提案する。 提案手法では,Flan-T5モデルを用いて音声ファイルメタデータから派生したキャプションを符号化し,慎重に設計されたU-Netアーキテクチャによる条件生成を実現する。 このアプローチは,EnCodec潜在空間内で音声信号を生成する際のモデルに役立つ。 Fr'echet Audio Distance(FAD)スコアやその他の測定値を用いて、生成した音の質を客観的に評価し、実際の異常条件によく似た信頼性の高い機械音を生成する際に、既存のモデルを超えていることを示す。 その結果, 得られたデータを用いた異常検出システムの評価では, 曲線(AUC)の下の面積は, 原値と4.8倍の差がみられ, 得られたデータの有効性が検証された。 これらの結果は,異常検出システムの評価とロバスト性を高めるためのアプローチの可能性を示すものである。 オーディオサンプルは \url{https://hpworkhub.github.io/MIMII-Gen.github.io/} で見ることができる。

Insufficient recordings and the scarcity of anomalies present significant challenges in developing and validating robust anomaly detection systems for machine sounds. To address these limitations, we propose a novel approach for generating diverse anomalies in machine sound using a latent diffusion-based model that integrates an encoder-decoder framework. Our method utilizes the Flan-T5 model to encode captions derived from audio file metadata, enabling conditional generation through a carefully designed U-Net architecture. This approach aids our model in generating audio signals within the EnCodec latent space, ensuring high contextual relevance and quality. We objectively evaluated the quality of our generated sounds using the Fr\'echet Audio Distance (FAD) score and other metrics, demonstrating that our approach surpasses existing models in generating reliable machine audio that closely resembles actual abnormal conditions. The evaluation of the anomaly detection system using our generated data revealed a strong correlation, with the area under the curve (AUC) score differing by 4.8\% from the original, validating the effectiveness of our generated data. These results demonstrate the potential of our approach to enhance the evaluation and robustness of anomaly detection systems across varied and previously unseen conditions. Audio samples can be found at \url{https://hpworkhub.github.io/MIMII-Gen.github.io/}.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# ドメイン適応セマンティックセマンティックセマンティックセグメンテーションにおける意味的曖昧さの低減 : 確率論的原型画素コントラスト

Reducing Semantic Ambiguity In Domain Adaptive Semantic Segmentation Via Probabilistic Prototypical Pixel Contrast ( http://arxiv.org/abs/2409.18543v1 )

ライセンス: Link先を確認
Xiaoke Hao, Shiyu Liu, Chuanbo Feng, Ye Zhu, (参考訳) ドメイン適応は、ソースとターゲットドメイン間のドメインシフトに起因するターゲットドメインのモデル劣化を低減することを目的としています。 認知学習と自己学習パラダイムを組み合わせることで、パフォーマンス向上が達成されているが、決定論的埋め込みの展開時に、スケール、照明、重複に起因する曖昧なシナリオに悩まされている。 これらの問題に対処するために,多変量ガウス分布を介して各画素埋め込みを確率としてモデル化し,それらの不確実性を完全に活用し,最終的にモデルの表現品質を向上する普遍的適応フレームワークPPPCを提案する。 さらに、確率推定後確率推定からプロトタイプを導出し、決定境界をあいまいな点から遠ざけるのに役立つ。 さらに,分布間の類似性を効率的に計算し,サンプリングや再パラメータ化の必要性を排除し,計算オーバーヘッドを大幅に削減する手法を提案する。 さらに、画像レベルで不明瞭な作物を動的に選別し、コントラスト学習に関わる境界点の数を増やすことにより、各カテゴリの正確な分布の確立に寄与する。 広汎な実験により、PPPCは画素レベルでのあいまいさに対処するだけでなく、識別的表現をもたらすだけでなく、合成から現実、日中両方の適応タスクにおいて顕著な改善を達成できることが示された。 それまでの最先端技術(SOTA)を +5.2% mIoU で上回り、最も困難な昼夜適応シナリオであり、他の目に見えないデータセットに対してより強力な一般化を示す。 コードとモデルはhttps://github.com/DarlingInTheSV/Probabilistic-Prototypeal-Pixel-Contrastで公開されている。

Domain adaptation aims to reduce the model degradation on the target domain caused by the domain shift between the source and target domains. Although encouraging performance has been achieved by combining cognitive learning with the self-training paradigm, they suffer from ambiguous scenarios caused by scale, illumination, or overlapping when deploying deterministic embedding. To address these issues, we propose probabilistic proto-typical pixel contrast (PPPC), a universal adaptation framework that models each pixel embedding as a probability via multivariate Gaussian distribution to fully exploit the uncertainty within them, eventually improving the representation quality of the model. In addition, we derive prototypes from probability estimation posterior probability estimation which helps to push the decision boundary away from the ambiguity points. Moreover, we employ an efficient method to compute similarity between distributions, eliminating the need for sampling and reparameterization, thereby significantly reducing computational overhead. Further, we dynamically select the ambiguous crops at the image level to enlarge the number of boundary points involved in contrastive learning, which benefits the establishment of precise distributions for each category. Extensive experimentation demonstrates that PPPC not only helps to address ambiguity at the pixel level, yielding discriminative representations but also achieves significant improvements in both synthetic-to-real and day-to-night adaptation tasks. It surpasses the previous state-of-the-art (SOTA) by +5.2% mIoU in the most challenging daytime-to-nighttime adaptation scenario, exhibiting stronger generalization on other unseen datasets. The code and models are available at https://github.com/DarlingInTheSV/Probabilistic-Prototypical-Pixel-Contrast.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# Wasserstein Distance-Weighted Adversarial Network for Cross-Domain Credit Risk Assessment

Wasserstein Distance-Weighted Adversarial Network for Cross-Domain Credit Risk Assessment ( http://arxiv.org/abs/2409.18544v1 )

ライセンス: Link先を確認
Mohan Jiang, Jiating Lin, Hongju Ouyang, Jingming Pan, Siyuan Han, Bingyao Liu, (参考訳) 本稿では、金融機関の信用リスク評価を強化するために、敵対的ドメイン適応(ADA)の適用について検討する。 コールドスタート問題、過去のローンデータが不足している問題、リスクの高いトランザクションが不足しているデータ不均衡問題という2つの重要な課題に対処する。 本稿では、WD-WADA(Wasserstein Distance Weighted Adversarial Domain Adaptation Network)を改良し、WD-WADA(Wasserstein Distance Weighted Adversarial Domain Adaptation Network)を提案する。 提案手法は,データ不均衡に対処する革新的な重み付け戦略を含み,クラス分布と予測の難易度の両方に適応する。 本稿は,WD-WADAがコールドスタート問題を緩和するだけでなく,ドメイン間リスク評価の改善につながることを実証する。 実世界の信用データセットに関する大規模な実験は、従来の手法と比較して、クロスドメイン学習、分類精度、モデルの安定性において優れたパフォーマンスを示す。

This paper delves into the application of adversarial domain adaptation (ADA) for enhancing credit risk assessment in financial institutions. It addresses two critical challenges: the cold start problem, where historical lending data is scarce, and the data imbalance issue, where high-risk transactions are underrepresented. The paper introduces an improved ADA framework, the Wasserstein Distance Weighted Adversarial Domain Adaptation Network (WD-WADA), which leverages the Wasserstein distance to align source and target domains effectively. The proposed method includes an innovative weighted strategy to tackle data imbalance, adjusting for both the class distribution and the difficulty level of predictions. The paper demonstrates that WD-WADA not only mitigates the cold start problem but also provides a more accurate measure of domain differences, leading to improved cross-domain credit risk assessment. Extensive experiments on real-world credit datasets validate the model's effectiveness, showcasing superior performance in cross-domain learning, classification accuracy, and model stability compared to traditional methods.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 人の信念と判断を予測できる認識型ヒューマン・アウェア・タスクプランナー

An Epistemic Human-Aware Task Planner which Anticipates Human Beliefs and Decisions ( http://arxiv.org/abs/2409.18545v1 )

ライセンス: Link先を確認
Shashank Shekhar, Anthony Favier, Rachid Alami, (参考訳) 我々は,人間とロボット間の間欠的な共有実行経験と,特に制御不能な人間の性質のために,人間とロボット間の重要な信念の相違を伴うシナリオに適したヒューマン・アウェア・タスク・プランニング・フレームワークを,大幅に拡張した。 我々の目的は、制御不能な人間の行動を説明するロボットポリシーを構築することであり、実行が共有されていない場合、例えば、人間が共有環境から一時的に欠席してサブタスクを完了した場合、ロボットによって達成される可能性の予測を可能にする。 しかし、この予測は、ロボットの推定モデルにアクセスできる人間の観点からも考えられている。 そこで本研究では,視点による状況評価を含む知識推論を統合した,AND-OR探索に基づく新しい計画枠組みと問題解決手法を提案する。 提案手法は,エージェントがタスク実行経験をいつ(かつそうでなければ)共有するかを正確に把握しながら,潜在的進歩の拡大と縮小を動的にモデル化し,管理する。 プランナーは、その状況を体系的に評価し、人間にとって不可能と考える理由のある世界を無視する。 全体として、我々の新しい解法は、潜在的な行動経路に沿って人間とロボットの異なる信念を推定し、ロボットがコミュニケーションのための適切な瞬間、すなわち、情報提供や質問への応答を選択する計画の合成を可能にし、実行経験が共有されるまでオンティックアクションを宣言する。 2つの領域における予備実験は、新しいものと適応されたものとで、フレームワークの有効性を実証している。

We present a substantial extension of our Human-Aware Task Planning framework, tailored for scenarios with intermittent shared execution experiences and significant belief divergence between humans and robots, particularly due to the uncontrollable nature of humans. Our objective is to build a robot policy that accounts for uncontrollable human behaviors, thus enabling the anticipation of possible advancements achieved by the robot when the execution is not shared, e.g. when humans are briefly absent from the shared environment to complete a subtask. But, this anticipation is considered from the perspective of humans who have access to an estimated model for the robot. To this end, we propose a novel planning framework and build a solver based on AND-OR search, which integrates knowledge reasoning, including situation assessment by perspective taking. Our approach dynamically models and manages the expansion and contraction of potential advances while precisely keeping track of when (and when not) agents share the task execution experience. The planner systematically assesses the situation and ignores worlds that it has reason to think are impossible for humans. Overall, our new solver can estimate the distinct beliefs of the human and the robot along potential courses of action, enabling the synthesis of plans where the robot selects the right moment for communication, i.e. informing, or replying to an inquiry, or defers ontic actions until the execution experiences can be shared. Preliminary experiments in two domains, one novel and one adapted, demonstrate the effectiveness of the framework.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 大規模言語モデルに基づくパブリックオピニオンイベントのヒートレベル予測に関する研究

Research on Predicting Public Opinion Event Heat Levels Based on Large Language Models ( http://arxiv.org/abs/2409.18548v1 )

ライセンス: Link先を確認
Yi Ren, Tianyi Zhang, Weibin Li, DuoMu Zhou, Chenhao Qin, FangCheng Dong, (参考訳) 近年,大規模言語モデルの急速な発展に伴い,GPT-4oのようなサーボモデルは,様々な言語タスクにおいて人的性能を上回る異常な能力を示した。 その結果、多くの研究者が世論分析の分野でその可能性を探り始めた。 本研究では,世論イベントの熱レベル予測のための大規模言語モデルに基づく新しい手法を提案する。 まず、2022年7月から2023年12月までに収集された62,836の中国のホットイベントデータを前処理し分類した。 次に、各イベントのオンライン拡散熱指数に基づいて、MiniBatchKMeansアルゴリズムを使用して、イベントを自動的にクラスタ化し、4つの熱レベル(低い熱から非常に高い熱まで)に分類しました。 次に、各熱レベルからランダムに250のイベントを選択し、1000のイベントを合計し、評価データセットを構築しました。 評価過程において, 各種大規模言語モデルを用いて, 事象熱レベル予測の精度を2つのシナリオで評価した。 その結果、GPT-4oとDeepseekV2は、それぞれ41.4%と41.5%の予測精度を達成した。 全体的な予測精度は比較的低いが、低熱(レベル1)イベントの場合、これら2つのモデルの予測精度はそれぞれ73.6%と70.4%に達したことに注意する必要がある。 さらに、予測精度はレベル1からレベル4への下降傾向を示し、実際のデータセット内の熱レベルの不均一な分布と相関する。 これは、より堅牢なデータセットにより、大きな言語モデルに基づく公開世論イベントの熱レベル予測が、将来大きな研究可能性を持つことを示唆している。

In recent years, with the rapid development of large language models, serval models such as GPT-4o have demonstrated extraordinary capabilities, surpassing human performance in various language tasks. As a result, many researchers have begun exploring their potential applications in the field of public opinion analysis. This study proposes a novel large-language-models-based method for public opinion event heat level prediction. First, we preprocessed and classified 62,836 Chinese hot event data collected between July 2022 and December 2023. Then, based on each event's online dissemination heat index, we used the MiniBatchKMeans algorithm to automatically cluster the events and categorize them into four heat levels (ranging from low heat to very high heat). Next, we randomly selected 250 events from each heat level, totalling 1,000 events, to build the evaluation dataset. During the evaluation process, we employed various large language models to assess their accuracy in predicting event heat levels in two scenarios: without reference cases and with similar case references. The results showed that GPT-4o and DeepseekV2 performed the best in the latter case, achieving prediction accuracies of 41.4% and 41.5%, respectively. Although the overall prediction accuracy remains relatively low, it is worth noting that for low-heat (Level 1) events, the prediction accuracies of these two models reached 73.6% and 70.4%, respectively. Additionally, the prediction accuracy showed a downward trend from Level 1 to Level 4, which correlates with the uneven distribution of data across the heat levels in the actual dataset. This suggests that with the more robust dataset, public opinion event heat level prediction based on large language models will have significant research potential for the future.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 混合信号加速器におけるDNNの推論精度向上のための高効率ノイズ低減

Efficient Noise Mitigation for Enhancing Inference Accuracy in DNNs on Mixed-Signal Accelerators ( http://arxiv.org/abs/2409.18553v1 )

ライセンス: Link先を確認
Seyedarmin Azizi, Mohammad Erfan Sadeghi, Mehdi Kamal, Massoud Pedram, (参考訳) 本稿では,アナログニューラルネットワークの精度に及ぼすプロセス誘起および老化関連成分の影響を緩和し,ニューラルネットワークの堅牢性を高める枠組みを提案する。 我々は,これらの変動を,アクティベーションの精度に影響を与えるノイズとしてモデル化し,事前学習モデルの選択層間を挿入する遮音ブロックを導入する。 雑音レベルに対するモデルのロバスト性を大幅に向上させることを実証した。 これらのブロックの追加に伴うオーバーヘッドを最小限に抑えるために,これらのブロックに対する最適な挿入点を特定する探索アルゴリズムを提案する。 さらに,混合信号加速器に組み込むことのできるデノナイジングブロックを効率的に実行するための特殊なアーキテクチャを提案する。 我々は、ImageNetとCIFAR-10データセットに基づいて訓練されたディープニューラルネットワーク(DNN)モデルを用いて、アプローチの有効性を評価する。 その結果、平均して2.03%のパラメータカウントのオーバーヘッドを受け入れることで、変動による精度の低下が31.7%から1.15%に減少することがわかった。

In this paper, we propose a framework to enhance the robustness of the neural models by mitigating the effects of process-induced and aging-related variations of analog computing components on the accuracy of the analog neural networks. We model these variations as the noise affecting the precision of the activations and introduce a denoising block inserted between selected layers of a pre-trained model. We demonstrate that training the denoising block significantly increases the model's robustness against various noise levels. To minimize the overhead associated with adding these blocks, we present an exploration algorithm to identify optimal insertion points for the denoising blocks. Additionally, we propose a specialized architecture to efficiently execute the denoising blocks, which can be integrated into mixed-signal accelerators. We evaluate the effectiveness of our approach using Deep Neural Network (DNN) models trained on the ImageNet and CIFAR-10 datasets. The results show that on average, by accepting 2.03% parameter count overhead, the accuracy drop due to the variations reduces from 31.7% to 1.15%.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# CodeSCAN:ScreenCast Analysis for Video Programming Tutorials

CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials ( http://arxiv.org/abs/2409.18556v1 )

ライセンス: Link先を確認
Alexander Naumann, Felix Hertlein, Jacqueline Höllig, Lucas Cazzonelli, Steffen Thoma, (参考訳) コーディングスクリーンキャストという形でチュートリアルをプログラミングすることは、初心者と経験豊富な開発者の両方に役立ち、プログラミング教育において重要な役割を果たす。 しかし,これらのチュートリアルの動画形式は,動画検索の難しさから課題となっている。 スクリーンキャスト解析のための大規模で多様なデータセットが存在しないことに対処するため,CodeSCANデータセットを紹介した。 開発中にVisual Studio Code環境から12,000のスクリーンショットをキャプチャし、24のプログラミング言語、25のフォント、90以上の異なるテーマを特徴とする。 さらに,統合開発環境(IDE)要素検出,カラー・ブラック・アンド・ホワイト変換,光学文字認識(OCR)の性能を評価するために,詳細な定量的・質的な評価を行った。 当社のコントリビューションによって、スクリーンキャスト分析のコーディングに関するさらなる研究が促進されることを願っています。

Programming tutorials in the form of coding screencasts play a crucial role in programming education, serving both novices and experienced developers. However, the video format of these tutorials presents a challenge due to the difficulty of searching for and within videos. Addressing the absence of large-scale and diverse datasets for screencast analysis, we introduce the CodeSCAN dataset. It comprises 12,000 screenshots captured from the Visual Studio Code environment during development, featuring 24 programming languages, 25 fonts, and over 90 distinct themes, in addition to diverse layout changes and realistic user interactions. Moreover, we conduct detailed quantitative and qualitative evaluations to benchmark the performance of Integrated Development Environment (IDE) element detection, color-to-black-and-white conversion, and Optical Character Recognition (OCR). We hope that our contributions facilitate more research in coding screencast analysis, and we make the source code for creating the dataset and the benchmark publicly available on this website.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 確率的想像時間進化作用素による対流拡散方程式の量子アルゴリズム

A quantum algorithm for advection-diffusion equation by a probabilistic imaginary-time evolution operator ( http://arxiv.org/abs/2409.18559v1 )

ライセンス: Link先を確認
Xinchi Huang, Hirofumi Nishi, Taichi Kosugi, Yoshifumi Kawada, Yu-ichiro Matsushita, (参考訳) 本稿では,線形対流拡散方程式を,既存の近似PITEを改良した新しい近似確率的想像時間進化(PITE)演算子を用いて解く量子アルゴリズムを提案する。 まず,提案した近似PITE演算子の有効性を,誤差の理論的評価により正当化する。 次に, 弁別拡散方程式から得られるハミルトニアンの想像的時間進化を実現するための明示的量子回路を構築し, 離散化されたハミルトニアン行列のサイズに関する対数的ゲートの複雑さについて述べる。 ゲート型量子エミュレータを用いた1D/2D例の数値シミュレーションも,本アルゴリズムをサポートするために提案する。 最後に,我々のアルゴリズムを対流拡散方程式の連成系に拡張し,提案したアルゴリズムを先行研究の他のアルゴリズムと比較する。 我々のアルゴリズムはHarrow-Hassidim-Lloyd (HHL) アルゴリズムと同等なゲート複雑性を持つが、それよりはるかに少ないアクビットを必要とする。 さらに,本アルゴリズムは,有限差分法(FDM)に基づく特定のHHLアルゴリズムと変分量子アルゴリズム(VQA)より優れている。

In this paper, we propose a quantum algorithm for solving the linear advection-diffusion equation by employing a new approximate probabilistic imaginary-time evolution (PITE) operator which improves the existing approximate PITE. First, the effectiveness of the proposed approximate PITE operator is justified by the theoretical evaluation of the error. Next, we construct the explicit quantum circuit for realizing the imaginary-time evolution of the Hamiltonian coming from the advection-diffusion equation, whose gate complexity is logarithmic regarding the size of the discretized Hamiltonian matrix. Numerical simulations using gate-based quantum emulator for 1D/2D examples are also provided to support our algorithm. Finally, we extend our algorithm to the coupled system of advection-diffusion equations, and we also compare our proposed algorithm to some other algorithms in the previous works. We find that our algorithm gives comparable result to the Harrow-Hassidim-Lloyd (HHL) algorithm with similar gate complexity, while we need much less ancillary qubits. Besides, our algorithm outperforms a specific HHL algorithm and a variational quantum algorithm (VQA) based on the finite difference method (FDM).
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# AL-GTD:ゲズターゲット検出のための深層能動学習

AL-GTD: Deep Active Learning for Gaze Target Detection ( http://arxiv.org/abs/2409.18561v1 )

ライセンス: Link先を確認
Francesco Tonini, Nicola Dall'Asen, Lorenzo Vaquero, Cigdem Beyan, Elisa Ricci, (参考訳) 視線目標検出は、人が見ている画像の位置を決定することを目的としている。 既存の研究は正確な視線熱マップを後退させることでこの分野に大きな進歩を遂げてきたが、これらの成果は大規模なラベル付きデータセットへのアクセスに大きく依存しており、かなりの人的労働力を必要としている。 本稿では,視線目標検出のためのラベル付きトレーニングデータのサイズに依存しないようにすることを目的とする。 そこで本研究では,AL-GTDを提案する。AL-GTDは,教師付きと自己監督型の損失を,新たなサンプル取得機能に統合し,アクティブラーニング(AL)を実現する革新的な手法である。 さらに、擬似ラベルを使用して、トレーニングフェーズ中の分散シフトを緩和する。 AL-GTDはトレーニングデータの40-50%しか利用していないため、トレーニングデータセット全体を必要とするSOTA(State-of-the-art)目標検出器とは対照的である。 重要なことに、AL-GTDはトレーニングデータの10~20%を迅速に達成し、最も情報に富んだサンプルを取得できる買収機能の有効性を示した。 タスクにいくつかのALメソッドを適用することで、総合的な実験分析を行う。 AL-GTDはALのライバルより優れており、低データ体制で訓練された場合のSOTA目標検出器よりも優れた性能を示す。 コードはhttps://github.com/francescotonini/al-gtd.comで入手できる。

Gaze target detection aims at determining the image location where a person is looking. While existing studies have made significant progress in this area by regressing accurate gaze heatmaps, these achievements have largely relied on access to extensive labeled datasets, which demands substantial human labor. In this paper, our goal is to reduce the reliance on the size of labeled training data for gaze target detection. To achieve this, we propose AL-GTD, an innovative approach that integrates supervised and self-supervised losses within a novel sample acquisition function to perform active learning (AL). Additionally, it utilizes pseudo-labeling to mitigate distribution shifts during the training phase. AL-GTD achieves the best of all AUC results by utilizing only 40-50% of the training data, in contrast to state-of-the-art (SOTA) gaze target detectors requiring the entire training dataset to achieve the same performance. Importantly, AL-GTD quickly reaches satisfactory performance with 10-20% of the training data, showing the effectiveness of our acquisition function, which is able to acquire the most informative samples. We provide a comprehensive experimental analysis by adapting several AL methods for the task. AL-GTD outperforms AL competitors, simultaneously exhibiting superior performance compared to SOTA gaze target detectors when all are trained within a low-data regime. Code is available at https://github.com/francescotonini/al-gtd.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 統一蒸留を用いたニューラルネットワークにおける知識伝達の調和化

Harmonizing knowledge Transfer in Neural Network with Unified Distillation ( http://arxiv.org/abs/2409.18565v1 )

ライセンス: Link先を確認
Yaomin Huang, Zaomin Yan, Chaomin Shen, Faming Fang, Guixu Zhang, (参考訳) 知識蒸留(KD)は、アーキテクチャを変えることなく、厄介なネットワーク(教師)から軽量なネットワーク(学生)に知識を伝達する能力で知られており、注目を集めている。 KDメソッドには2つの主要なカテゴリがある。機能ベース、中間層の機能に焦点を当て、最終層のロジットをターゲットにしたロジットベースである。 本稿では,統一KDフレームワークにおける多様な知識源を活用することによって,新たな視点を紹介する。 具体的には、中間層の特徴を包括的表現に集約し、異なる段階と規模から意味情報を効果的に収集する。 次に,この表現から分布パラメータを推定する。 これらのステップは、中間層からの知識を対応する分配形式に変換し、ネットワークの異なる段階における統一分布制約による知識蒸留を可能にし、知識伝達の包括性と一貫性を確保する。 提案手法の有効性を検証するために, 多数の実験を行った。

Knowledge distillation (KD), known for its ability to transfer knowledge from a cumbersome network (teacher) to a lightweight one (student) without altering the architecture, has been garnering increasing attention. Two primary categories emerge within KD methods: feature-based, focusing on intermediate layers' features, and logits-based, targeting the final layer's logits. This paper introduces a novel perspective by leveraging diverse knowledge sources within a unified KD framework. Specifically, we aggregate features from intermediate layers into a comprehensive representation, effectively gathering semantic information from different stages and scales. Subsequently, we predict the distribution parameters from this representation. These steps transform knowledge from the intermediate layers into corresponding distributive forms, thereby allowing for knowledge distillation through a unified distribution constraint at different stages of the network, ensuring the comprehensiveness and coherence of knowledge transfer. Numerous experiments were conducted to validate the effectiveness of the proposed method.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# マルチアクセラレータSOCの訓練時間におけるDNN推論の最適化

Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time ( http://arxiv.org/abs/2409.18566v1 )

ライセンス: Link先を確認
Matteo Risso, Alessio Burrello, Daniele Jahier Pagliari, (参考訳) エッジでの低レイテンシと最小消費電力でDeep Neural Networks (DNN) を実行するための需要は、アクセラレータのような複数の専用コンピューティングユニット(CU)を組み込んだ高度な異種システムオンチップ(SoC)の開発につながった。 利用可能なセットから特定のCUにDNN計算をオフロードすると、サポート対象の操作(例えば、標準対深みの畳み込み)やデータ表現(例えば、より積極的に量子化する)の違いにより、精度対効率のトレードオフが発生する。 困難だが未解決の問題は、DNNをこれらのマルチCUシステムにマッピングして、正確性を考慮して並列化の可能性の最大化方法である。 この問題を解決するため、トレーニング期間中にDNNの細粒度マッピングを効率的に行うハードウェア認識ツールであるODiMOを提案する。 ODiMOは、ニューラルネットワークの個々の層を戦略的に分割し、複数の利用可能なCU上でそれらを並列に実行する。 我々は、CIFAR-10、CIFAR-100、ImageNetの2つのオープンソース異種SoC、すなわちDIANAとDarksideを対象に、我々のアプローチを検証した。 我々は、エネルギーや遅延空間の精度において、パレート最適ネットワークの豊富なコレクションを得る。 ODiMOはDarkside SoC上で実行されるDNNの遅延を,手動ヒューリスティックマッピングと比較して最大8倍の精度で低減することを示す。 同じSoCでエネルギーを標的とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、最小の精度低下(0.3%)を達成した。

The demand for executing Deep Neural Networks (DNNs) with low latency and minimal power consumption at the edge has led to the development of advanced heterogeneous Systems-on-Chips (SoCs) that incorporate multiple specialized computing units (CUs), such as accelerators. Offloading DNN computations to a specific CU from the available set often exposes accuracy vs efficiency trade-offs, due to differences in their supported operations (e.g., standard vs. depthwise convolution) or data representations (e.g., more/less aggressively quantized). A challenging yet unresolved issue is how to map a DNN onto these multi-CU systems to maximally exploit the parallelization possibilities while taking accuracy into account. To address this problem, we present ODiMO, a hardware-aware tool that efficiently explores fine-grain mapping of DNNs among various on-chip CUs, during the training phase. ODiMO strategically splits individual layers of the neural network and executes them in parallel on the multiple available CUs, aiming to balance the total inference energy consumption or latency with the resulting accuracy, impacted by the unique features of the different hardware units. We test our approach on CIFAR-10, CIFAR-100, and ImageNet, targeting two open-source heterogeneous SoCs, i.e., DIANA and Darkside. We obtain a rich collection of Pareto-optimal networks in the accuracy vs. energy or latency space. We show that ODiMO reduces the latency of a DNN executed on the Darkside SoC by up to 8x at iso-accuracy, compared to manual heuristic mappings. When targeting energy, on the same SoC, ODiMO produced up to 50.8x more efficient mappings, with minimal accuracy drop (< 0.3%).
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 広告駆動Webアプリケーションにおけるアクセシビリティ問題

Accessibility Issues in Ad-Driven Web Applications ( http://arxiv.org/abs/2409.18590v1 )

ライセンス: Link先を確認
Abdul Haddi Amjad, Muhammad Danish, Bless Jah, Muhammad Ali Gulzar, (参考訳) ウェブサイトのアクセシビリティは包括性と規制の遵守に不可欠である。 サードパーティーの広告(ads)は無料ウェブサービスにとって重要な収入源であるが、アクセシビリティーの課題も導入している。 WebサイトをリースするDoubleClickのような広告サービス技術は、デベロッパが広告コンテンツアクセシビリティをコントロールできなくなる。 アクセス性の高いウェブサイトでも、サードパーティーの広告はウェブコンテンツアクセシビリティガイドライン(WCAG)の遵守を損なう可能性がある。 我々は、ウェブサイト上の広告のアクセシビリティを理解するために、約100Kの広告要素を含む430Kのウェブサイト要素について、初めて大規模な調査を行った。 我々は、アクセス不可能な広告の頻度と、ウェブサイトのアクセシビリティに対する全体的な影響を理解することを目指している。 調査の結果,Webサイトの67%が広告によるアクセシビリティ違反を経験しており,Focus VisibleやOn Inputなどの一般的な違反が報告されている。 Taboola、DoubleClick、RevContentなどの人気のある広告サービス技術は、しばしばWCAG標準に準拠していない広告を提供する。 たとえ広告がWCAGに準拠しているとしても、その27%は、情報を誤って表現する広告画像の代替テキストを持ち、ユーザーを欺く可能性がある。 これらの誤解を招く広告のサンプルを手動で検査した結果、ユーザの識別可能なデータは、ホバリングや押し込みといったインタラクションを通じて、ウェブサイトの94%で収集されていることがわかった。 障害のあるユーザは、Webサイトコンテンツにアクセスするためにホバリングイベントを必要とするスクリーンリーダーのようなツールを使うことが多いので、Webサイト広告をナビゲートするためにプライバシーを侵害するしかない。 我々は,これらの違反の根本原因をさらに解明し,WCAGに準拠した広告統合を実現するために,Webサイト開発者と広告提供技術の両方に設計ガイドラインを提供する。

Website accessibility is essential for inclusiveness and regulatory compliance. Although third-party advertisements (ads) are a vital revenue source for free web services, they introduce significant accessibility challenges. Leasing a website\'s space to ad-serving technologies like DoubleClick results in developers losing control over ad content accessibility. Even on highly accessible websites, third-party ads can undermine adherence to Web Content Accessibility Guidelines (WCAG). We conduct the first large-scale investigation of 430K website elements, including nearly 100K ad elements, to understand the accessibility of ads on websites. We seek to understand the prevalence of inaccessible ads and their overall impact on the accessibility of websites. Our findings show that 67% of websites experience increased accessibility violations due to ads, with common violations including Focus Visible and On Input. Popular ad-serving technologies like Taboola, DoubleClick, and RevContent often serve ads that fail to comply with WCAG standards. Even when ads are WCAG compliant, 27% of them have alternative text in ad images that misrepresents information, potentially deceiving users. Manual inspection of a sample of these misleading ads revealed that user-identifiable data is collected on 94% of websites through interactions, such as hovering or pressing enter. Since users with disabilities often rely on tools like screen readers that require hover events to access website content, they have no choice but to compromise their privacy in order to navigate website ads. Based on our findings, we further dissect the root cause of these violations and provide design guidelines to both website developers and ad-serving technologies to achieve WCAG-compliant ad integration.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# パイプラインアーキテクチャを用いた目標指向顧客サービスチャットボットの機械学習モデルに関する実験的研究

Experimental Evaluation of Machine Learning Models for Goal-oriented Customer Service Chatbot with Pipeline Architecture ( http://arxiv.org/abs/2409.18568v1 )

ライセンス: Link先を確認
Nurul Ain Nabilah Mohd Isa, Siti Nuraishah Agos Jawaddi, Azlan Ismail, (参考訳) マシンラーニング(ML)をカスタマサービスチャットボットに統合することで、ユーザクエリを理解して応答する能力が向上し、最終的にサービスパフォーマンスが向上する。 しかし、一部のユーザーには人工的に見え、顧客エクスペリエンスに影響を与える可能性がある。 したがって、各パイプラインコンポーネントに対するMLモデルの綿密な評価は、性能の最適化には不可欠であるが、機能の違いは不公平な比較につながる可能性がある。 本稿では,自然言語理解(NLU),対話管理(DM),自然言語生成(NLG)の3つの主要コンポーネントに着目し,目標指向の顧客サービスチャットボットとパイプラインアーキテクチャを併用した実験的な評価手法を提案する。 本手法は,最適MLモデルを決定するための個人評価を強調する。 具体的には,NLU(BERT,LSTM),DM(DQN,DDQN),NLG(GPT-2,DialoGPT)のハイパーパラメータの最適化と候補モデルの評価に重点を置いている。 その結果,NLU成分に対してBERTは意図検出に優れ,LSTMはスロット充填に優れていた。 DMコンポーネントでは、DDQNモデルの方がターン数が少なく、報酬も高く、成功率も高く、DQNよりも優れていた。 NLGでは、大きな言語モデル GPT-2 が BLEU, METEOR, ROUGE の指標で DialoGPT を上回った。 これらの発見は、顧客サービスチャットボットの開発と最適化に関する将来の研究のためのベンチマークを提供することを目的としており、モデルパフォーマンスと最適なハイパーパラメータに関する貴重な洞察を提供する。

Integrating machine learning (ML) into customer service chatbots enhances their ability to understand and respond to user queries, ultimately improving service performance. However, they may appear artificial to some users and affecting customer experience. Hence, meticulous evaluation of ML models for each pipeline component is crucial for optimizing performance, though differences in functionalities can lead to unfair comparisons. In this paper, we present a tailored experimental evaluation approach for goal-oriented customer service chatbots with pipeline architecture, focusing on three key components: Natural Language Understanding (NLU), dialogue management (DM), and Natural Language Generation (NLG). Our methodology emphasizes individual assessment to determine optimal ML models. Specifically, we focus on optimizing hyperparameters and evaluating candidate models for NLU (utilizing BERT and LSTM), DM (employing DQN and DDQN), and NLG (leveraging GPT-2 and DialoGPT). The results show that for the NLU component, BERT excelled in intent detection whereas LSTM was superior for slot filling. For the DM component, the DDQN model outperformed DQN by achieving fewer turns, higher rewards, as well as greater success rates. For NLG, the large language model GPT-2 surpassed DialoGPT in BLEU, METEOR, and ROUGE metrics. These findings aim to provide a benchmark for future research in developing and optimizing customer service chatbots, offering valuable insights into model performance and optimal hyperparameters.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 人物再識別事前訓練に関連するクロスビデオアイデンティティ

Cross-video Identity Correlating for Person Re-identification Pre-training ( http://arxiv.org/abs/2409.18569v1 )

ライセンス: Link先を確認
Jialong Zuo, Ying Nie, Hanyu Zhou, Huaxin Zhang, Haoyu Wang, Tianyu Guo, Nong Sang, Changxin Gao, (参考訳) 近年の研究では、インターネットビデオから抽出した大規模人物画像の事前学習が、人物の再識別のためのより良い表現の学習に有効な方法であることが証明されている。 しかし、これらの研究は、主にインスタンスレベルまたはシングルビデオトラックレットレベルでの事前学習に限られている。 彼らは、同一人物の画像における同一人物の同一性の違いを無視しており、これは人物の再識別に重要な焦点をあてている。 この問題に対処するため,我々はCION(Cross-video Identity-cOrrelating Pre-TraiNing)フレームワークを提案する。 CIONは、アイデンティティ間の一貫性とアイデンティティ間の識別の両方を包括的に考慮したノイズの概念を定義し、それをプログレッシブなマルチレベル認知問題としてモデル化することで、ビデオ間画像からのアイデンティティ相関を求める。 さらに、個人画像内のアイデンティティ不変性をマイニングすることにより、より大規模な事前学習を実現するために、アイデンティティ誘導型自己蒸留損失を提案する。 我々は、効率と性能の観点から、CIONの優位性を検証するための広範な実験を行っている。 CIONはトレーニングサンプルを減らして、大幅なパフォーマンス向上を実現している。 例えば、以前の最先端〜\cite{ISR}と比較して、同じResNet50-IBNを持つCIONは8\%のトレーニングサンプルしか利用せず、Market1501とMSMT17で93.3\%と74.3\%のmAPを達成する。 最後に、CIONが優れたモデル非依存能力を示すことにより、この分野での多様な研究や応用のニーズを満たすためにReIDZooという名前のモデル動物園を寄贈する。 一連のCION事前訓練されたモデルと、分散構造とパラメータを持ち、GhostNet、ConvNext、RepViT、FastViTなどを含む10の異なる構造を持つ32モデルが含まれている。 コードとモデルはhttps://github.com/Zplusdragon/CION_ReIDZoo.comで公開される。

Recent researches have proven that pre-training on large-scale person images extracted from internet videos is an effective way in learning better representations for person re-identification. However, these researches are mostly confined to pre-training at the instance-level or single-video tracklet-level. They ignore the identity-invariance in images of the same person across different videos, which is a key focus in person re-identification. To address this issue, we propose a Cross-video Identity-cOrrelating pre-traiNing (CION) framework. Defining a noise concept that comprehensively considers both intra-identity consistency and inter-identity discrimination, CION seeks the identity correlation from cross-video images by modeling it as a progressive multi-level denoising problem. Furthermore, an identity-guided self-distillation loss is proposed to implement better large-scale pre-training by mining the identity-invariance within person images. We conduct extensive experiments to verify the superiority of our CION in terms of efficiency and performance. CION achieves significantly leading performance with even fewer training samples. For example, compared with the previous state-of-the-art~\cite{ISR}, CION with the same ResNet50-IBN achieves higher mAP of 93.3\% and 74.3\% on Market1501 and MSMT17, while only utilizing 8\% training samples. Finally, with CION demonstrating superior model-agnostic ability, we contribute a model zoo named ReIDZoo to meet diverse research and application needs in this field. It contains a series of CION pre-trained models with spanning structures and parameters, totaling 32 models with 10 different structures, including GhostNet, ConvNext, RepViT, FastViT and so on. The code and models will be made publicly available at https://github.com/Zplusdragon/CION_ReIDZoo.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 混合状態における非安定化剤の忠実検出のためのマジックモノトン

A magic monotone for faithful detection of non-stabilizerness in mixed states ( http://arxiv.org/abs/2409.18570v1 )

ライセンス: Link先を確認
Krzysztof Warmuz, Ernest Dokudowiec, Chandrashekar Radhakrishnan, Tim Byrnes, (参考訳) 任意の量子状態において、非安定化剤の量(または略してマジック)を定量化するモノトーンを導入する。 モノトーンは、純粋な状態と混合状態の両方に対する魔法の存在を検出するために必要な十分な基準を与える。 モノトーンは、パウリ弦の期待値の空間における安定化ポリトープの境界を決定することに基づいている。 境界は超平面の不等式(英語版)によって記述され、そのうちのどれかに違反すると魔法の必要十分条件が与えられる。 モノトーンは、最大の違反を持つ超平面を発見し、ミンコフスキー汎函数の一種である。 同様の方法に基づいた証人も紹介する。 この手法は、最適化されるパラメータの小さな数と離散的な性質のため、マジックの堅牢性のような既存の忠実混合状態単調よりも計算的に効率的である。

We introduce a monotone to quantify the amount of non-stabilizerness (or magic for short), in an arbitrary quantum state. The monotone gives a necessary and sufficient criterion for detecting the presence of magic for both pure and mixed states. The monotone is based on determining the boundaries of the stabilizer polytope in the space of Pauli string expectation values. The boundaries can be described by a set of hyperplane inequations, where violation of any one of these gives a necessary and sufficient condition for magic. The monotone is constructed by finding the hyperplane with the maximum violation and is a type of Minkowski functional. We also introduce a witness based on similar methods. The approach is more computationally efficient than existing faithful mixed state monotones such as robustness of magic due to the smaller number and discrete nature of the parameters to be optimized.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 人口被害予後のための資源配分へのアクティブラーニングアプローチに向けて

Towards an active-learning approach to resource allocation for population-based damage prognosis ( http://arxiv.org/abs/2409.18572v1 )

ライセンス: Link先を確認
George Tsialiamanis, Keith Worden, Nikolaos Dervilis, Aidan J Hughes, (参考訳) 損傷予後は、構造的健康モニタリング(SHM)の最も難しい課題の1つである。 損傷予後の一般的な問題に対処するため,本研究では人口ベースSHM(PBSHM)アプローチが採用されている。 このアプローチでは,過去の構造からのデータを活用して,現在劣化している構造に関するより正確な推測を行う情報共有問題として,予後問題を考察する。 特定の人口に対しては、監視を行うのに利用可能な資源に制限がある可能性があるため、現在の研究は、損傷確率の精度を最大化するために、劣化する構造物の集団内でそのような資源を割り当てる問題を研究している。 現在の枠組みの課題は、主に損傷進化現象からの部分的なデータを考えると、損傷進化のレベルにおける外れ値の推測に関係している。 現在のアプローチでは、損傷の進化が広範囲に観察される構造の初期集団を考慮に入れている。 その後,2つの監視システム,低可用性と高不確実性(低不確実性)と高不確実性(高不確実性)の2つが利用可能であると考えられる。 本研究の課題は、人口全体にわたって機械学習モデルの予測能力を高めるために、高忠実度システムが割り当てられるべき構造を特定するために、アクティブラーニングアプローチに従うことである。

Damage prognosis is, arguably, one of the most difficult tasks of structural health monitoring (SHM). To address common problems of damage prognosis, a population-based SHM (PBSHM) approach is adopted in the current work. In this approach the prognosis problem is considered as an information-sharing problem where data from past structures are exploited to make more accurate inferences regarding currently-degrading structures. For a given population, there may exist restrictions on the resources available to conduct monitoring; thus, the current work studies the problem of allocating such resources within a population of degrading structures with a view to maximising the damage-prognosis accuracy. The challenges of the current framework are mainly associated with the inference of outliers on the level of damage evolution, given partial data from the damage-evolution phenomenon. The current approach considers an initial population of structures for which damage evolution is extensively observed. Subsequently, a second population of structures with evolving damage is considered for which two monitoring systems are available, a low-availability and high-fidelity (low-uncertainty) one, and a widely-available and low-fidelity (high-uncertainty) one. The task of the current work is to follow an active-learning approach to identify the structures to which the high-fidelity system should be assigned in order to enhance the predictive capabilities of the machine-learning model throughout the population.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 強化学習による気候適応:コペンハーゲンにおける洪水・交通実験

Climate Adaptation with Reinforcement Learning: Experiments with Flooding and Transportation in Copenhagen ( http://arxiv.org/abs/2409.18574v1 )

ライセンス: Link先を確認
Miguel Costa, Morten W. Petersen, Arthur Vandervoort, Martin Drews, Karyn Morrissey, Francisco C. Pereira, (参考訳) 気候変動により、都市洪水に寄与する極端な降雨の頻度と強度が、多くの場所で増加すると予想されている。 これらの洪水は交通インフラを損傷させ、モビリティを阻害し、都市がリスクの増大に適応する必要性を浮き彫りにする。 強化学習(Reinforcement Learning, RL)は、適切な適応戦略を明らかにする強力なツールとして機能し、適切な適応戦略を効果的に展開する方法と場所を決定する。 本研究では,水害の直接的および間接的影響の低減を目的として,RLを活用して対策実施の最も効果的なタイミングと場所を特定する。 当社の枠組みは,将来の降雨や洪水の気候変動予測を統合し,都市全体の自動車化旅行をモデル化し,インフラと移動性に対する直接的および間接的な影響を定量化する。 予備的な結果は,我々のRLに基づくアプローチは,特定の都市部における介入を優先し,その実施に最適な時期を特定することにより,意思決定を著しく向上させることができることを示唆している。

Due to climate change the frequency and intensity of extreme rainfall events, which contribute to urban flooding, are expected to increase in many places. These floods can damage transport infrastructure and disrupt mobility, highlighting the need for cities to adapt to escalating risks. Reinforcement learning (RL) serves as a powerful tool for uncovering optimal adaptation strategies, determining how and where to deploy adaptation measures effectively, even under significant uncertainty. In this study, we leverage RL to identify the most effective timing and locations for implementing measures, aiming to reduce both direct and indirect impacts of flooding. Our framework integrates climate change projections of future rainfall events and floods, models city-wide motorized trips, and quantifies direct and indirect impacts on infrastructure and mobility. Preliminary results suggest that our RL-based approach can significantly enhance decision-making by prioritizing interventions in specific urban areas and identifying the optimal periods for their implementation.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# ドメインシフト下でのフェデレートされたプロトタイプ学習手法

An Enhanced Federated Prototype Learning Method under Domain Shift ( http://arxiv.org/abs/2409.18578v1 )

ライセンス: Link先を確認
Liang Kuang, Kuangpu Guo, Jian Liang, Jianguo Zhang, (参考訳) Federated Learning (FL)は、プライベートデータを共有することなく、協調的な機械学習トレーニングを可能にする。 フェデレーション学習モデルの性能に影響を及ぼす重要な要因の1つは、異なるクライアント間でのデータの均一性である。 最近の論文では、分散対応のデュアルレベルプロトタイプクラスタリングを導入し、クラス内類似度を高め、クラス間類似度を低減する新しい$\alpha$-sparsityプロトタイプロスを用いる。 特徴が特定のクラスタ内に収束することを保証するため、FedPLCCと略されるFederated Prototype Learning with Convergent Clustersという改良されたアルゴリズムを導入する。 クラス間距離を増やすために、各プロトタイプをクラスタのサイズで重み付けします。 クラス内距離を小さくするために、より広い距離のプロトタイプが異なる領域から来る可能性があることを考慮し、損失関数計算のためのプロトタイプの一定割合だけを選択する。 Digit-5、Office-10、DomainNetデータセットの評価は、我々の手法が既存のアプローチよりも優れていることを示している。

Federated Learning (FL) allows collaborative machine learning training without sharing private data. Numerous studies have shown that one significant factor affecting the performance of federated learning models is the heterogeneity of data across different clients, especially when the data is sampled from various domains. A recent paper introduces variance-aware dual-level prototype clustering and uses a novel $\alpha$-sparsity prototype loss, which increases intra-class similarity and reduces inter-class similarity. To ensure that the features converge within specific clusters, we introduce an improved algorithm, Federated Prototype Learning with Convergent Clusters, abbreviated as FedPLCC. To increase inter-class distances, we weight each prototype with the size of the cluster it represents. To reduce intra-class distances, considering that prototypes with larger distances might come from different domains, we select only a certain proportion of prototypes for the loss function calculation. Evaluations on the Digit-5, Office-10, and DomainNet datasets show that our method performs better than existing approaches.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 因果推論エンジンとしての深部自己回帰モデル

Using Deep Autoregressive Models as Causal Inference Engines ( http://arxiv.org/abs/2409.18581v1 )

ライセンス: Link先を確認
Daniel Jiwoong Im, Kevin Zhang, Nakul Verma, Kyunghyun Cho, (参考訳) 既存の因果推論(CI)モデルは、主に低次元の共同設立者とシングルトンアクションを扱うことに限られている。 本稿では,現代アプリケーションに共通する複雑な共同創設者とシーケンシャルアクションを処理可能な自己回帰型(AR)CIフレームワークを提案する。 このことは、基礎となる因果線図からトークンの列に変換することによって達成される。 このアプローチは、任意のDAGから生成されたデータによるトレーニングを可能にするだけでなく、既存のCI機能を拡張して、.em single}モデルを使用していくつかの統計量の推定を可能にする。 介入確率を直接予測し、推論を簡素化し、結果予測精度を向上することができる。 我々は,CIに適応したARモデルは,迷路をナビゲートしたり,チェスのエンドゲームを行ったり,あるキーワードが紙の受容率に与える影響を評価するなど,様々な複雑な応用において効率的かつ効果的であることが実証された。

Existing causal inference (CI) models are limited to primarily handling low-dimensional confounders and singleton actions. We propose an autoregressive (AR) CI framework capable of handling complex confounders and sequential actions common in modern applications. We accomplish this by {\em sequencification}, transforming data from an underlying causal diagram into a sequence of tokens. This approach not only enables training with data generated from any DAG but also extends existing CI capabilities to accommodate estimating several statistical quantities using a {\em single} model. We can directly predict interventional probabilities, simplifying inference and enhancing outcome prediction accuracy. We demonstrate that an AR model adapted for CI is efficient and effective in various complex applications such as navigating mazes, playing chess endgames, and evaluating the impact of certain keywords on paper acceptance rates.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 結合ベイズ最適化のための最適化ゲームとタンパク質設計への応用

Optimistic Games for Combinatorial Bayesian Optimization with Application to Protein Design ( http://arxiv.org/abs/2409.18582v1 )

ライセンス: Link先を確認
Melis Ilayda Bal, Pier Giuseppe Sessa, Mojmir Mutny, Andreas Krause, (参考訳) ベイズ最適化(BO)は、シーケンシャルな相互作用を通じてブラックボックスから高価な関数を評価するための強力なフレームワークである。 しかし、いくつかの重要な問題(例えば、創薬、回路設計、神経アーキテクチャ探索など)では、そのような関数は大きな$\textit{combinatorial and unstructured}$ space上で定義される。 これにより、既存のBOアルゴリズムは、これらの領域に対する獲得関数の難解な最大化のために実現不可能となる。 この問題に対処するために、組合せBOに対する新しいゲーム理論アプローチである$\textbf{GameOpt}$を提案する。 $\textbf{GameOpt}$は、異なる最適化変数間の協調ゲームを確立し、上位信頼境界取得関数のゲーム $\textit{equilibria}$を選択する。 これらは安定な構成であり、連続領域における局所最適値の$-$アナログを逸脱させるような変数は存在しない。 重要なことに、これは組合せ領域の複雑さを個々の決定集合に効率的に分解することができ、$\textbf{GameOpt}$を大きな組合せ空間に拡張することができる。 我々は、$\textbf{GameOpt}$を挑戦的な$\textit{oprotein design}$問題に適用し、実世界の4つのタンパク質データセットでその性能を検証する。 それぞれのタンパク質は最大で20^{X}$の設定を取ることができ、そこでは$X$はタンパク質の長さであり、標準的なBOメソッドは実現不可能である。 代わりに、我々のアプローチは情報的タンパク質構成を反復的に選択し、他のベースラインと比較して非常に活発なタンパク質変異を発見します。

Bayesian optimization (BO) is a powerful framework to optimize black-box expensive-to-evaluate functions via sequential interactions. In several important problems (e.g. drug discovery, circuit design, neural architecture search, etc.), though, such functions are defined over large $\textit{combinatorial and unstructured}$ spaces. This makes existing BO algorithms not feasible due to the intractable maximization of the acquisition function over these domains. To address this issue, we propose $\textbf{GameOpt}$, a novel game-theoretical approach to combinatorial BO. $\textbf{GameOpt}$ establishes a cooperative game between the different optimization variables, and selects points that are game $\textit{equilibria}$ of an upper confidence bound acquisition function. These are stable configurations from which no variable has an incentive to deviate$-$ analog to local optima in continuous domains. Crucially, this allows us to efficiently break down the complexity of the combinatorial domain into individual decision sets, making $\textbf{GameOpt}$ scalable to large combinatorial spaces. We demonstrate the application of $\textbf{GameOpt}$ to the challenging $\textit{protein design}$ problem and validate its performance on four real-world protein datasets. Each protein can take up to $20^{X}$ possible configurations, where $X$ is the length of a protein, making standard BO methods infeasible. Instead, our approach iteratively selects informative protein configurations and very quickly discovers highly active protein variants compared to other baselines.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# スイートスポットを打つ! Span-Level Ensemble for Large Language Models

Hit the Sweet Spot! Span-Level Ensemble for Large Language Models ( http://arxiv.org/abs/2409.18583v1 )

ライセンス: Link先を確認
Yangyifan Xu, Jianghao Chen, Junhong Wu, Jiajun Zhang, (参考訳) 様々なLSMを組み立てて、補完的なポテンシャルを解き放ち、個々の強みを活用することは非常に貴重である。 これまでの研究では、サンプルレベルとトークンレベルのアンサンブルという、2つの主要なパラダイムに重点を置いていた。 サンプルレベルのアンサンブル法は、完全に生成された出力を選択またはブレンドし、生成プロセス中に出力の動的修正と強化を妨げる。 一方、トークンレベルのアンサンブル法は、各生成ステップにおける微細なアンサンブルによるリアルタイムな補正を可能にする。 しかし、個々のトークンによって運ばれる情報は極めて限られており、各ステップで最適以下の決定が下される。 これらの問題に対処するために,リアルタイム調整の必要性と正確なアンサンブル決定に必要な情報とを効果的にバランスさせるスパンレベルアンサンブル手法であるSweetSpanを提案する。 まず、各候補モデルを独立して共有プレフィックスに基づいて候補スパンを生成する。 第二に、難易度スコアを計算して、候補モデル間の相互評価を容易にし、不誠実なスコアを抽出してロバストなスパン選択を実現する。 そこで本研究では,より現実的なシナリオにおけるモデルアンサンブルの性能を評価するため,アンサンブル手法を包括的に評価するために,標準設定(ベストパフォーマンスモデル)に加えて,新たな難易度設定(顕著な性能ギャップを持つアンサンブルモデル)を提案する。 各種言語生成タスクにおける標準設定と難易度設定の両方の実験結果から,従来のアンサンブル手法と比較して,アプローチの有効性,堅牢性,汎用性を示した。

Ensembling various LLMs to unlock their complementary potential and leverage their individual strengths is highly valuable. Previous studies typically focus on two main paradigms: sample-level and token-level ensembles. Sample-level ensemble methods either select or blend fully generated outputs, which hinders dynamic correction and enhancement of outputs during the generation process. On the other hand, token-level ensemble methods enable real-time correction through fine-grained ensemble at each generation step. However, the information carried by an individual token is quite limited, leading to suboptimal decisions at each step. To address these issues, we propose SweetSpan, a span-level ensemble method that effectively balances the need for real-time adjustments and the information required for accurate ensemble decisions. Our approach involves two key steps: First, we have each candidate model independently generate candidate spans based on the shared prefix. Second, we calculate perplexity scores to facilitate mutual evaluation among the candidate models and achieve robust span selection by filtering out unfaithful scores. To comprehensively evaluate ensemble methods, we propose a new challenging setting (ensemble models with significant performance gaps) in addition to the standard setting (ensemble the best-performing models) to assess the performance of model ensembles in more realistic scenarios. Experimental results in both standard and challenging settings across various language generation tasks demonstrate the effectiveness, robustness, and versatility of our approach compared with previous ensemble methods.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# Koopman Operator-based Lane Change Model におけるTrncated Singular Value Decomposition の解析

Analysis of Truncated Singular Value Decomposition for Koopman Operator-Based Lane Change Model ( http://arxiv.org/abs/2409.18586v1 )

ライセンス: Link先を確認
Chinnawut Nantabut, (参考訳) 複雑な動的システムの理解とモデリングは、特に自動運転の文脈において、車の性能と安全性を高めるために不可欠である。 近年, 強い非線形系の挙動を線形表現に変換する手法として, 拡張動的モード分解 (EDMD) と呼ばれる, クープマン演算子や近似器などの一般的な手法が出現している。 これにより、従来のリニアコントローラと統合できる。 これを実現するために、Singular Value Decomposition (SVD) と呼ばれる、特に切り詰められたSVDを用いて、広範囲なデータセットからクープマン演算子を効率的に近似する。 本研究は,車線変化行動モデルを表現するために,EDMDで使用される異なる基底関数と切り離されたSVDのランクを評価し,計算効率と情報損失のバランスをとることを目的とした。 しかし, この結果から, 乱れたSVDの手法が必ずしも計算訓練時間を大幅に短縮するとは限らないことが示唆された。

Understanding and modeling complex dynamic systems is crucial for enhancing vehicle performance and safety, especially in the context of autonomous driving. Recently, popular methods such as Koopman operators and their approximators, known as Extended Dynamic Mode Decomposition (EDMD), have emerged for their effectiveness in transforming strongly nonlinear system behavior into linear representations. This allows them to be integrated with conventional linear controllers. To achieve this, Singular Value Decomposition (SVD), specifically truncated SVD, is employed to approximate Koopman operators from extensive datasets efficiently. This study evaluates different basis functions used in EDMD and ranks for truncated SVD for representing lane change behavior models, aiming to balance computational efficiency with information loss. The findings, however, suggest that the technique of truncated SVD does not necessarily achieve substantial reductions in computational training time and results in significant information loss.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 新しい海岸:(近くの)沿岸洪水の浸水予測のためのデータセットとベンチマーク

Off to new Shores: A Dataset & Benchmark for (near-)coastal Flood Inundation Forecasting ( http://arxiv.org/abs/2409.18591v1 )

ライセンス: Link先を確認
Brandon Victor, Mathilde Letard, Peter Naylor, Karim Douch, Nicolas Longépé, Zhen He, Patrick Ebel, (参考訳) 洪水は最も一般的で破壊的な自然災害の1つであり、その破壊的な結果によって社会と経済に大きなコストがかかる。 近年の気象予知と宇宙からの洪水のマッピングは、極端な出来事を予測し、その後に破滅的な影響を確実に検出する可能性を示した。 しかし、これらの取り組みは互いに結びつくことは滅多になく、洪水範囲の直接予測を可能にするデータセットやベンチマークが欠如している。 この問題を解決するために,洪水範囲のタイムリーな予測を可能にする新しいデータセットをキュレートする。 さらに,洪水浸水図の予測のための2つのベンチマークトラックに構成された最先端手法の代表的な評価を行う。 one (複数形 ones) ii)沿岸地域に焦点を当てた。 さらに、私たちのデータセットとベンチマークは、洪水予測を評価するための包括的なプラットフォームを提供し、この重要な課題に対する将来の解決策を可能にします。 データ、コード、モデルはCC0ライセンスの下でhttps://github.com/Multihuntr/GFFで共有される。

Floods are among the most common and devastating natural hazards, imposing immense costs on our society and economy due to their disastrous consequences. Recent progress in weather prediction and spaceborne flood mapping demonstrated the feasibility of anticipating extreme events and reliably detecting their catastrophic effects afterwards. However, these efforts are rarely linked to one another and there is a critical lack of datasets and benchmarks to enable the direct forecasting of flood extent. To resolve this issue, we curate a novel dataset enabling a timely prediction of flood extent. Furthermore, we provide a representative evaluation of state-of-the-art methods, structured into two benchmark tracks for forecasting flood inundation maps i) in general and ii) focused on coastal regions. Altogether, our dataset and benchmark provide a comprehensive platform for evaluating flood forecasts, enabling future solutions for this critical challenge. Data, code & models are shared at https://github.com/Multihuntr/GFF under a CC0 license.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# One to the Power of Many: Augmentations for Invariance to Multi-LiDAR Perception from Single-Sensor Datasets

From One to the Power of Many: Augmentations for Invariance to Multi-LiDAR Perception from Single-Sensor Datasets ( http://arxiv.org/abs/2409.18592v1 )

ライセンス: Link先を確認
Marc Uecker, J. Marius Zöllner, (参考訳) 近年、ディープニューラルネットワークを利用した自動運転車のLiDAR認識手法は、nuScenesやSemanticKITTIのような古典的なベンチマークで性能が急上昇している。 しかし、そのような単一センサーで訓練されたモデルを現代のマルチセンサー車両に展開する際には、依然として性能に大きなギャップがある。 本研究では,これらの性能ギャップの原因となる不変性の欠如について検討し,アプリケーション固有のデータ拡張という形での初期解を提案する。 提案手法により,LiDARセンサ装置間の一般化が向上することを示す実験的な証拠を提示し,これらの拡張がLiDARセンサ装置のシミュレーションにおけるモデルの不変性に与える影響について検討する。

Recently, LiDAR perception methods for autonomous vehicles, powered by deep neural networks have experienced steep growth in performance on classic benchmarks, such as nuScenes and SemanticKITTI. However, there are still large gaps in performance when deploying models trained on such single-sensor setups to modern multi-sensor vehicles. In this work, we investigate if a lack of invariance may be responsible for these performance gaps, and propose some initial solutions in the form of application-specific data augmentations, which can facilitate better transfer to multi-sensor LiDAR setups. We provide experimental evidence that our proposed augmentations improve generalization across LiDAR sensor setups, and investigate how these augmentations affect the models' invariance properties on simulations of different LiDAR sensor setups.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 人間のフィードバックを伴わない抽象的要約におけるモデルに基づく選好最適化

Model-based Preference Optimization in Abstractive Summarization without Human Feedback ( http://arxiv.org/abs/2409.18618v1 )

ライセンス: Link先を確認
Jaepill Choi, Kyubyung Chae, Jiwoo Song, Yohan Jo, Taesup Kim, (参考訳) 抽象要約では、ソース文書に含まれる大量の情報から簡潔で正確な要約を作成するという課題が生じる。 したがって、Large Language Models (LLMs) は、流動的なテキストを生成することができるが、元のソースにないコンテンツを幻覚させることによって不正確を導入することが多い。 この問題を最大化するための教師付き微調整手法は、この問題に寄与するが、要約の忠実さを一貫して強化するわけではない。 直接選好最適化(DPO)のような嗜好に基づく最適化手法は、人間の選好に合わせたモデルをさらに洗練することができる。 しかし、これらの手法は依然として費用のかかる人間のフィードバックに大きく依存している。 本研究では,モデルベース推論最適化(MPO)と呼ばれる新しいアプローチを導入し,人間のフィードバックを伴わずに要約能力を向上させる。 モデル固有の要約機能を利用することで、異なる復号戦略を用いてモデルによって完全に生成される選好データセットを作成する。 標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。

In abstractive summarization, the challenge of producing concise and accurate summaries arises from the vast amount of information contained in the source document. Consequently, although Large Language Models (LLMs) can generate fluent text, they often introduce inaccuracies by hallucinating content not found in the original source. While supervised fine-tuning methods that maximize likelihood contribute to this issue, they do not consistently enhance the faithfulness of the summaries. Preference-based optimization methods, such as Direct Preference Optimization (DPO), can further refine the model to align with human preferences. However, these methods still heavily depend on costly human feedback. In this work, we introduce a novel and straightforward approach called Model-based Preference Optimization (MPO) to fine-tune LLMs for improved summarization abilities without any human feedback. By leveraging the model's inherent summarization capabilities, we create a preference dataset that is fully generated by the model using different decoding strategies. Our experiments on standard summarization datasets and various metrics demonstrate that our proposed MPO significantly enhances the quality of generated summaries without relying on human feedback.
翻訳日:2024-10-01 21:55:30 公開日:2024-09-27
# 『Oh LLM, I'mking Thee, please Give me a Decision Tree: Zero-Shot Decision Tree Injection and Embeddding with Large Language Models』

"Oh LLM, I'm Asking Thee, Please Give Me a Decision Tree": Zero-Shot Decision Tree Induction and Embedding with Large Language Models ( http://arxiv.org/abs/2409.18594v1 )

ライセンス: Link先を確認
Ricardo Knauer, Mario Koddenbrock, Raphael Wallsberger, Nicholas M. Brisson, Georg N. Duda, Deborah Falla, David W. Evans, Erik Rodner, (参考訳) 大規模言語モデル(LLM)は、データ制限時に予測モデリングに事前知識を活用する強力な手段を提供する。 本研究では、LLMが圧縮された世界知識を用いて、本質的に解釈可能な機械学習モデル、すなわち決定木を学習データなしで生成する方法を実証する。 これらのゼロショット決定木は、いくつかの小さなテーブル状データセット上のデータ駆動木を超えることができ、これらの木から派生した埋め込みは、平均してデータ駆動木ベースの埋め込みと同等に機能する。 したがって、私たちの知識駆動決定木誘導と埋め込みアプローチは、低データ体制におけるデータ駆動機械学習手法の強力なベースラインとして役立ちます。

Large language models (LLMs) provide powerful means to leverage prior knowledge for predictive modeling when data is limited. In this work, we demonstrate how LLMs can use their compressed world knowledge to generate intrinsically interpretable machine learning models, i.e., decision trees, without any training data. We find that these zero-shot decision trees can surpass data-driven trees on some small-sized tabular datasets and that embeddings derived from these trees perform on par with data-driven tree-based embeddings on average. Our knowledge-driven decision tree induction and embedding approaches therefore serve as strong new baselines for data-driven machine learning methods in the low-data regime.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# ASAG2024: 短解グラフのベンチマークを併用したベンチマーク

ASAG2024: A Combined Benchmark for Short Answer Grading ( http://arxiv.org/abs/2409.18596v1 )

ライセンス: Link先を確認
Gérôme Meyer, Philip Breuer, Jonathan Fürst, (参考訳) オープンエンドの質問は、クローズドエンドの質問よりも徹底的な理解をテストし、しばしば望ましい評価方法である。 しかし、オープンエンドの質問は、格付けが面倒で個人的な偏見を被る。 そのため、自動化によってグレーティングプロセスを高速化する努力が続けられている。 短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。 SAGの手法と能力の増大にもかかわらず、様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。 したがって、その一般化性の観点から、現在の自動階調法の性能を評価することは困難である。 本稿では,自動階調システムの比較を容易にするために,ASAG2024とASAG2024を併用したベンチマークを提案する。 一般的な7つのショートアンサーグレーディングデータセットを共通構造とグレーディングスケールで組み合わせる。 我々のベンチマークでは、最近のSAG手法の評価を行い、LSMベースのアプローチが新たなハイスコアに達する一方で、人間のパフォーマンスには程遠いことを明らかにした。 これにより、将来の人間機械SAGシステム研究への道が開ける。

Open-ended questions test a more thorough understanding than closed-ended questions and are often a preferred assessment method. However, open-ended questions are tedious to grade and subject to personal bias. Therefore, there have been efforts to speed up the grading process through automation. Short Answer Grading (SAG) systems aim to automatically score students' answers. Despite growth in SAG methods and capabilities, there exists no comprehensive short-answer grading benchmark across different subjects, grading scales, and distributions. Thus, it is hard to assess the capabilities of current automated grading methods in terms of their generalizability. In this preliminary work, we introduce the combined ASAG2024 benchmark to facilitate the comparison of automated grading systems. Combining seven commonly used short-answer grading datasets in a common structure and grading scale. For our benchmark, we evaluate a set of recent SAG methods, revealing that while LLM-based approaches reach new high scores, they still are far from reaching human performance. This opens up avenues for future research on human-machine SAG systems.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 時間的特徴表現と次元縮小のための強化学習フレームワークTemporalPaD

TemporalPaD: a reinforcement-learning framework for temporal feature representation and dimension reduction ( http://arxiv.org/abs/2409.18597v1 )

ライセンス: Link先を確認
Xuechen Mu, Zhenyu Huang, Kewei Li, Haotian Zhang, Xiuli Wang, Yusi Fan, Kai Zhang, Fengfeng Zhou, (参考訳) 近年,特徴表現の進歩と次元縮小は,予測モデルの有効性を高める上で重要な役割を担っている。 この研究は、時間パターンデータセット用に設計された新しいエンドツーエンドのディープラーニングフレームワークであるTemporalPaDを紹介する。 TemporalPaDは、強化学習(RL)とニューラルネットワークを統合して、同時的な特徴表現と特徴減少を実現する。 フレームワークは、ポリシーモジュール、表現モジュール、およびActor-Critic (AC)フレームワークに基づいて構成された分類モジュールの3つの協調モジュールで構成されている。 ポリシーモジュールはRLを通じて次元の縮小を担い、アクターとして機能し、特徴抽出のための表現モジュールと分類モジュールは総括して批評家として機能する。 29のUCIデータセットを使用して、TemporalPaDを総合的に評価した。 また、TemporalPaDは時系列データ用に特別に設計されているので、エンハンサーカテゴリとエンハンサー強度を含む実世界のDNA分類問題に適用する。 その結果、TemporalPaDは、構造化データとシーケンスデータセットの両方に適用可能な、特徴量削減を実現するための効率的かつ効果的なフレームワークであることが示されている。 提案されたTemporalPaDのソースコードは、この記事やhttp://www.healthinformaticslab.org/supp/.comで無償公開されている。

Recent advancements in feature representation and dimension reduction have highlighted their crucial role in enhancing the efficacy of predictive modeling. This work introduces TemporalPaD, a novel end-to-end deep learning framework designed for temporal pattern datasets. TemporalPaD integrates reinforcement learning (RL) with neural networks to achieve concurrent feature representation and feature reduction. The framework consists of three cooperative modules: a Policy Module, a Representation Module, and a Classification Module, structured based on the Actor-Critic (AC) framework. The Policy Module, responsible for dimensionality reduction through RL, functions as the actor, while the Representation Module for feature extraction and the Classification Module collectively serve as the critic. We comprehensively evaluate TemporalPaD using 29 UCI datasets, a well-known benchmark for validating feature reduction algorithms, through 10 independent tests and 10-fold cross-validation. Additionally, given that TemporalPaD is specifically designed for time series data, we apply it to a real-world DNA classification problem involving enhancer category and enhancer strength. The results demonstrate that TemporalPaD is an efficient and effective framework for achieving feature reduction, applicable to both structured data and sequence datasets. The source code of the proposed TemporalPaD is freely available as supplementary material to this article and at http://www.healthinformaticslab.org/supp/.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 二次非拘束バイナリ最適化(QUBO)問題に対するプライバシー保護量子アニーリング

Privacy-Preserving Quantum Annealing for Quadratic Unconstrained Binary Optimization (QUBO) Problems ( http://arxiv.org/abs/2409.18601v1 )

ライセンス: Link先を確認
Moyang Xie, Yuan Zhang, Sheng Zhong, Qun Li, (参考訳) 量子アンネラは、広範囲のアプリケーションを持つ準非制約バイナリ最適化(QUBO)問題を解決するための有望なアプローチを提供する。 しかし、ユーザがQUBO問題をサードパーティの量子アニール器に送信すると、その問題自体がユーザのプライベート情報を量子アニールサービスプロバイダに開示する可能性がある。 このリスクを軽減するため、プライバシ保護のためのQUBOフレームワークを導入し、新しい解決策を提案する。 提案手法では,QUBO問題のモデル行列を$Q$で難読化するために,桁分割と行列置換の組み合わせを用いて,行列要素を効果的に隠蔽する。 また, 難解なQUBO問題の解法に基づいて, 元の問題の解を高精度に再構築することができる。 理論的解析と実証実験により,提案手法の有効性と有効性を確認し,量子アニールサービスにおけるユーザプライバシ保護の可能性を示した。

Quantum annealers offer a promising approach to solve Quadratic Unconstrained Binary Optimization (QUBO) problems, which have a wide range of applications. However, when a user submits its QUBO problem to a third-party quantum annealer, the problem itself may disclose the user's private information to the quantum annealing service provider. To mitigate this risk, we introduce a privacy-preserving QUBO framework and propose a novel solution method. Our approach employs a combination of digit-wise splitting and matrix permutation to obfuscate the QUBO problem's model matrix $Q$, effectively concealing the matrix elements. In addition, based on the solution to the obfuscated version of the QUBO problem, we can reconstruct the solution to the original problem with high accuracy. Theoretical analysis and empirical tests confirm the efficacy and efficiency of our proposed technique, demonstrating its potential for preserving user privacy in quantum annealing services.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# LLMは多人数ハンガーオーバーに苦しむか? : 会話における相手認識と応答選択に対する診断的アプローチ

Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in Conversations ( http://arxiv.org/abs/2409.18602v1 )

ライセンス: Link先を確認
Nicolò Penzo, Maryam Sajedinia, Bruno Lepri, Sara Tonelli, Marco Guerini, (参考訳) 多人数会話(MPC)を分類するシステムの性能を評価することは,会話の言語的特徴と構造的特徴の相互関係から困難である。 従来の評価手法は、相互作用グラフ上の異なる構造的複雑さのレベルにおけるモデル行動のばらつきをしばしば見落としている。 本研究では,会話の特定の構造的属性間でのモデル性能を調査するための方法論的パイプラインを提案する。 概念実証として、モデルの弱点を診断するために、応答選択とアドレス認識タスクに焦点を当てる。 この目的のために、オンラインMPCの大規模かつオープンなコーパスから、一定数のユーザと優れた構造を持つ代表的診断サブデータセットを抽出する。 我々はさらに、データの最小化、プライバシを保護するために元のユーザ名の使用を避けること、および、元のテキストメッセージを使用する代替案を提案する。 その結果、応答選択は会話のテキストの内容に依存しており、アドレス認識ではその構造的次元を捉える必要があることがわかった。 ゼロショット設定でLLMを用いることで、変化を促すための感度がタスクに依存しているかをさらに強調する。

Assessing the performance of systems to classify Multi-Party Conversations (MPC) is challenging due to the interconnection between linguistic and structural characteristics of conversations. Conventional evaluation methods often overlook variances in model behavior across different levels of structural complexity on interaction graphs. In this work, we propose a methodological pipeline to investigate model performance across specific structural attributes of conversations. As a proof of concept we focus on Response Selection and Addressee Recognition tasks, to diagnose model weaknesses. To this end, we extract representative diagnostic subdatasets with a fixed number of users and a good structural variety from a large and open corpus of online MPCs. We further frame our work in terms of data minimization, avoiding the use of original usernames to preserve privacy, and propose alternatives to using original text messages. Results show that response selection relies more on the textual content of conversations, while addressee recognition requires capturing their structural dimension. Using an LLM in a zero-shot setting, we further highlight how sensitivity to prompt variations is task-dependent.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 異なるプライベート非パラメトリックコプラ:プライバシー保証下での非パラメトリックコプラを用いた合成データの生成

Differentially Private Non Parametric Copulas: Generating synthetic data with non parametric copulas under privacy guarantees ( http://arxiv.org/abs/2409.18611v1 )

ライセンス: Link先を確認
Pablo A. Osorio-Marulanda, John Esteban Castro Ramirez, Mikel Hernández Jiménez, Nicolas Moreno Reyes, Gorka Epelde Unanue, (参考訳) 合成データモデルの作成は、さまざまな科学分野において大きな進歩を見せているが、この技術はユーザーにとって重要なプライバシー上の配慮をもたらす。 本研究は,非パラメトリックコプラに基づく合成データ生成モデルであるDPNPCの強化フーリエ摂動法により微分プライバシーを取り入れることに焦点を当てる。 モデルは、プライバシを保持しながら混合表データベース用の合成データを生成する。 DPNPCと他の3つのモデル(PrivBayes、DP-Copula、DP-Histogram)を比較し、プライバシ、ユーティリティ、実行時間を評価する。 DPNPCは、多変量依存のモデリング、小さな$\epsilon$値のプライバシの維持、トレーニング時間の短縮などにおいて、他よりも優れています。 しかしながら、制限には、異なるエンコーディングメソッドでモデルのパフォーマンスを評価し、追加のプライバシ攻撃を検討する必要がある。 今後の研究は、プライバシー保護のための合成データ生成を強化するために、これらの領域に対処すべきである。

Creation of synthetic data models has represented a significant advancement across diverse scientific fields, but this technology also brings important privacy considerations for users. This work focuses on enhancing a non-parametric copula-based synthetic data generation model, DPNPC, by incorporating Differential Privacy through an Enhanced Fourier Perturbation method. The model generates synthetic data for mixed tabular databases while preserving privacy. We compare DPNPC with three other models (PrivBayes, DP-Copula, and DP-Histogram) across three public datasets, evaluating privacy, utility, and execution time. DPNPC outperforms others in modeling multivariate dependencies, maintaining privacy for small $\epsilon$ values, and reducing training times. However, limitations include the need to assess the model's performance with different encoding methods and consider additional privacy attacks. Future research should address these areas to enhance privacy-preserving synthetic data generation.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 加速機械ビジョンのための準曲面生成大および任意のアナログ畳み込みカーネル

Metasurface-generated large and arbitrary analog convolution kernels for accelerated machine vision ( http://arxiv.org/abs/2409.18614v1 )

ライセンス: Link先を確認
Ruiqi Liang, Shuai Wang, Yiying Dong, Liu Li, Ying Kuang, Bohan Zhang, Yuanmu Yang, (参考訳) 人工知能の急速に発展する分野において、畳み込みニューラルネットワークは、機械ビジョンや診断といった複雑な課題に対処するために不可欠である。 近年、従来のデジタル畳み込み処理の処理速度と消費電力の課題に対処するために、ニューラルネットワークのデジタル畳み込み層を置き換えるために多くの光学部品が提案され、様々なマシンビジョンタスクが加速されている。 それでも、光畳み込みカーネルのアナログ特性は十分に解明されていない。 そこで我々は,光学メタサイトを畳み込み層として利用して任意の形状のアナログ畳み込みカーネルを生成するための空間周波数領域トレーニング法を開発した。 空間多重化を用いることで、正および負の重みを持つ多重並列畳み込みカーネルを不整合照明条件下で生成する。 我々は、MNISTデータセットで98.59%の分類精度を示し、Fashion-MNISTとCIFAR-10データセットで92.63%と68.67%の精度を示すシミュレーションを行った。 この研究は、特にエッジデバイスにおいて、機械ビジョンタスクを加速するための有望な道を提供するアナログ光学コンボリューションのユニークな利点を浮き彫りにしている。

In the rapidly evolving field of artificial intelligence, convolutional neural networks are essential for tackling complex challenges such as machine vision and medical diagnosis. Recently, to address the challenges in processing speed and power consumption of conventional digital convolution operations, many optical components have been suggested to replace the digital convolution layer in the neural network, accelerating various machine vision tasks. Nonetheless, the analog nature of the optical convolution kernel has not been fully explored. Here, we develop a spatial frequency domain training method to create arbitrarily shaped analog convolution kernels using an optical metasurface as the convolution layer, with its receptive field largely surpassing digital convolution kernels. By employing spatial multiplexing, the multiple parallel convolution kernels with both positive and negative weights are generated under the incoherent illumination condition. We experimentally demonstrate a 98.59% classification accuracy on the MNIST dataset, with simulations showing 92.63% and 68.67% accuracy on the Fashion-MNIST and CIFAR-10 datasets with additional digital layers. This work underscores the unique advantage of analog optical convolution, offering a promising avenue to accelerate machine vision tasks, especially in edge devices.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 教師なし認知

Unsupervised Cognition ( http://arxiv.org/abs/2409.18624v1 )

ライセンス: Link先を確認
Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart, Eduard Alarcon, (参考訳) 教師なし学習法は認知モデルにソフトインスピレーションを与える。 今日まで、最も成功した教師なし学習手法は、数学的空間におけるクラスタリングサンプルを中心に展開されている。 本稿では,新しい認知モデルに触発された意思決定のための,最先端のプリミティブに基づく教師なし学習手法を提案する。 この表現中心のアプローチは、入力空間を入力に依存しない方法で分散階層構造として構成的にモデル化する。 本研究では, 教師なし学習分類における現状と, がん型分類における現状とを比較した。 我々は、我々の提案が過去の最先端よりもいかに優れているかを示す。 また、比較アルゴリズム(教師付き学習アルゴリズムでさえも)より優れるだけでなく、より認知的な行動を示す提案の認知的特性も評価する。

Unsupervised learning methods have a soft inspiration in cognition models. To this day, the most successful unsupervised learning methods revolve around clustering samples in a mathematical space. In this paper we propose a state-of-the-art primitive-based unsupervised learning approach for decision-making inspired by novel cognition models. This representation-centric approach models the input space constructively as a distributed hierarchical structure in an input-agnostic way. We compared our approach with current state-of-the-art in unsupervised learning classification, and with current state-of-the-art in cancer type classification. We show how our proposal outperforms previous state-of-the-art. We also evaluate some cognition-like properties of our proposal where it not only outperforms the compared algorithms (even supervised learning ones), but it also shows a different, more cognition-like, behaviour.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 探索アルゴリズムによるスペクトルグラフ理論の難解化

Refutation of Spectral Graph Theory Conjectures with Search Algorithms) ( http://arxiv.org/abs/2409.18626v1 )

ライセンス: Link先を確認
Milo Roucairol, Tristan Cazenave, (参考訳) 我々はスペクトルグラフ理論予想の自動解法に興味を持っている。 既存の研究の多くは、サイズが制限されたグラフの網羅的な生成や、深い強化学習によってこの問題に対処している。 被曝生成は生成されたグラフのサイズによって制限され、深層強化学習は予想を否定するのに数時間または数日かかる。 本稿では,これらの欠点に対処する探索アルゴリズムを用いて,スペクトルグラフ理論の予想に対する潜在的に大きな反例を数秒で見つけることを提案する。 本研究では,Graffiti の予想に対して,幅広い探索アルゴリズムを適用した。 すでにGraffitiの予想に反論している13のうち、我々のアルゴリズムは12秒で反論できる。 また、これまで開いていたGraffiti から予想 197 を否定する。

We are interested in the automatic refutation of spectral graph theory conjectures. Most existing works address this problem either with the exhaustive generation of graphs with a limited size or with deep reinforcement learning. Exhaustive generation is limited by the size of the generated graphs and deep reinforcement learning takes hours or days to refute a conjecture. We propose to use search algorithms to address these shortcomings to find potentially large counter-examples to spectral graph theory conjectures in seconds. We apply a wide range of search algorithms to a selection of conjectures from Graffiti. Out of 13 already refuted conjectures from Graffiti, our algorithms are able to refute 12 in seconds. We also refute conjecture 197 from Graffiti which was open until now.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 放射線治療ワークフローにおけるてんかん不確実性評価の統合に向けて

Towards Integrating Epistemic Uncertainty Estimation into the Radiotherapy Workflow ( http://arxiv.org/abs/2409.18628v1 )

ライセンス: Link先を確認
Marvin Tom Teichmann, Manasi Datar, Lisa Kratzke, Fernando Vega, Florin C. Ghesu, (参考訳) 放射線治療計画における目標構造と臓器リスク(OAR)の整合性の精度は、治療効果と患者の安全を確保するために不可欠である。 近年の深層学習(DL)の進歩はOARコンチューリング性能を著しく向上させたが、これらのモデルの信頼性は、特にアウト・オブ・ディストリビューション(OOD)シナリオの存在下では、臨床環境において懸念されている。 本研究は,OARコンチューリングワークフロー内での疫学的不確実性評価の統合について検討し,特にコンパイルされたデータを用いて臨床的に関連のあるシナリオにおけるOOD検出を可能にする。 さらに,不確実性推定の方法論的枠組みを強化するため,OOD検出のための高度な統計手法を提案する。 我々の経験的評価は、モデル予測が信頼性が低く、専門家のレビューを必要とするインスタンスを特定するのに、疫学的な不確実性評価が有効であることを示している。 特に,OOD検出のAUC-ROCは0.95で,インプラント症例の感度は0.92である。 本研究は、不確実性評価のための根拠真理の欠如や限られた経験的評価など、現在の研究環境における大きなギャップに対処する。 さらに、Siemens Healthineers の会社である Varian の OAR セグメンテーションのためにFDA が承認し広く使用されている臨床ソリューションにおいて、疫学的不確実性推定の臨床的に関連性のある応用を提供し、その実用的利点を強調している。

The precision of contouring target structures and organs-at-risk (OAR) in radiotherapy planning is crucial for ensuring treatment efficacy and patient safety. Recent advancements in deep learning (DL) have significantly improved OAR contouring performance, yet the reliability of these models, especially in the presence of out-of-distribution (OOD) scenarios, remains a concern in clinical settings. This application study explores the integration of epistemic uncertainty estimation within the OAR contouring workflow to enable OOD detection in clinically relevant scenarios, using specifically compiled data. Furthermore, we introduce an advanced statistical method for OOD detection to enhance the methodological framework of uncertainty estimation. Our empirical evaluation demonstrates that epistemic uncertainty estimation is effective in identifying instances where model predictions are unreliable and may require an expert review. Notably, our approach achieves an AUC-ROC of 0.95 for OOD detection, with a specificity of 0.95 and a sensitivity of 0.92 for implant cases, underscoring its efficacy. This study addresses significant gaps in the current research landscape, such as the lack of ground truth for uncertainty estimation and limited empirical evaluations. Additionally, it provides a clinically relevant application of epistemic uncertainty estimation in an FDA-approved and widely used clinical solution for OAR segmentation from Varian, a Siemens Healthineers company, highlighting its practical benefits.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# エントロピー、集中、学習:統計力学プライマー

Entropy, concentration, and learning: a statistical mechanics primer ( http://arxiv.org/abs/2409.18630v1 )

ライセンス: Link先を確認
Akshay Balsubramani, (参考訳) 損失最小化によって訓練された人工知能モデルは、情報理論や統計物理学といった分野の原理に基づいて大きな成功を収めた。 この研究は、AIと機械学習の基盤となる第一原理のサンプル集中行動から始まる統計力学のレンズを通して、これらの確立された接続を探索する。 モデリングのための統計力学の開発は、指数族や統計学、物理学、情報理論の主要な役割を浮き彫りにしている。

Artificial intelligence models trained through loss minimization have demonstrated significant success, grounded in principles from fields like information theory and statistical physics. This work explores these established connections through the lens of statistical mechanics, starting from first-principles sample concentration behaviors that underpin AI and machine learning. Our development of statistical mechanics for modeling highlights the key role of exponential families, and quantities of statistics, physics, and information theory.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# ドローン計画のための量子アルゴリズム

Quantum Algorithms for Drone Mission Planning ( http://arxiv.org/abs/2409.18631v1 )

ライセンス: Link先を確認
Ethan Davies, Pranav Kalidindi, (参考訳) ミッションプランニングはしばしば、制約を受ける許容パラメータ内のミッション目標のセットを達成するために、ISR(Intelligence, Surveillance and Reconnaissance)資産の使用を最適化する。 ここでのミッションは、複数のUAVが複数のターゲットを訪れ、センサーを使用して各ターゲットに関連するデータをキャプチャすることである。 このような解を見つけることはNP-Hard問題であり、古典的なコンピュータでは効率的に解けないことが多い。 さらに、ミッション中に新しい制約や目的が生まれ、短時間で新しいソリューションが計算される必要がある。 これを実現するために、現在の古典的手法に対してスピードアップを提供する可能性のある、短期量子アルゴリズムについて検討する。 本研究では,これらの問題をMILP(Mixed Integer Linear Program)として定式化し,擬似非制約バイナリ最適化(QUBO)に変換する方法を示す。 提供される定式化は万能であり、明快な量子ビットスケーリングで多くの異なる制約に適応することができる。 商用量子アニーラーを用いたQUBO定式化の解法について検討し、その解法を現在のエッジ古典解法と比較する。 また、量子近似最適化アルゴリズム(QAOA)を用いてQUBOを解く結果を分析し、その結果について議論する。 最後に,この問題を変分量子固有解法(VQE)形式にエンコードする効率的な方法を提案する。

Mission planning often involves optimising the use of ISR (Intelligence, Surveillance and Reconnaissance) assets in order to achieve a set of mission objectives within allowed parameters subject to constraints. The missions of interest here, involve routing multiple UAVs visiting multiple targets, utilising sensors to capture data relating to each target. Finding such solutions is often an NP-Hard problem and cannot be solved efficiently on classical computers. Furthermore, during the mission new constraints and objectives may arise, requiring a new solution to be computed within a short time period. To achieve this we investigate near term quantum algorithms that have the potential to offer speed-ups against current classical methods. We demonstrate how a large family of these problems can be formulated as a Mixed Integer Linear Program (MILP) and then converted to a Quadratic Unconstrained Binary Optimisation (QUBO). The formulation provided is versatile and can be adapted for many different constraints with clear qubit scaling provided. We discuss the results of solving the QUBO formulation using commercial quantum annealers and compare the solutions to current edge classical solvers. We also analyse the results from solving the QUBO using Quantum Approximate Optimisation Algorithms (QAOA) and discuss their results. Finally, we also provide efficient methods to encode to the problem into the Variational Quantum Eigensolver (VQE) formalism, where we have tailored the ansatz to the problem making efficient use of the qubits available.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 階層的アーチタイプを生成するための多様性の低減

Reducing Diversity to Generate Hierarchical Archetypes ( http://arxiv.org/abs/2409.18633v1 )

ライセンス: Link先を確認
Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart, Eduard Alarcon, (参考訳) 人工知能分野は、抽象の階層を自動的に構築するフレームワーク、方法論、あるいはアルゴリズムという、基本的な構築要素の開発にはほとんど対処しない。 これは知的行動を構築する上で重要な要件であり、最近の神経科学研究が明らかに明らかにしている。 本稿では,構成的アーキタイプの階層を自動的に生成するプリミティブ・ベース・フレームワークについて,抽象化の階層を生成する方法の理論として提示する。 私たちは、非常に特異な特徴を持つプリミティブの存在を前提としており、その上でフレームワークを開発しています。 数学的定義と証明により,本フレームワークの有効性を実証する。 最後に、フレームワークの潜在的な用途と期待される結果について、いくつかの洞察を与えます。

The Artificial Intelligence field seldom address the development of a fundamental building piece: a framework, methodology or algorithm to automatically build hierarchies of abstractions. This is a key requirement in order to build intelligent behaviour, as recent neuroscience studies clearly expose. In this paper we present a primitive-based framework to automatically generate hierarchies of constructive archetypes, as a theory of how to generate hierarchies of abstractions. We assume the existence of a primitive with very specific characteristics, and we develop our framework over it. We prove the effectiveness of our framework through mathematical definitions and proofs. Finally, we give a few insights about potential uses of our framework and the expected results.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# HiCuLR: 法的文書の修辞的役割ラベル付けのための階層的カリキュラム学習

HiCuLR: Hierarchical Curriculum Learning for Rhetorical Role Labeling of Legal Documents ( http://arxiv.org/abs/2409.18647v1 )

ライセンス: Link先を確認
T. Y. S. S. Santosh, Apolline Isaia, Shiyu Hong, Matthias Grabmair, (参考訳) 法文書の修辞的役割ラベル付け(RRL)は、要約、セマンティックケースサーチ、引数マイニングなど、さまざまな下流タスクにおいて重要である。 既存のアプローチは、法律文書の談話形式や修辞的役割に固有の様々な難易度を見落としていることが多い。 本研究では,RRLの階層的カリキュラム学習フレームワークであるHiCuLRを提案する。 外側層にレトリック・ロール・レベル・カリキュラム(RC)、内側層にドキュメント・レベル・カリキュラム(DC)の2つのカリキュラムをネストする。 DCは文書の難易度に基づいて分類し、標準の談話構造から逸脱するようなメトリクスを利用して、モデルをわかりやすい方法で公開する。 RCはモデルを徐々に強化し、修辞学的な役割の粗粒度の違いを識別する。 4つのRRLデータセットに対する実験は、HiCuLRの有効性を示し、DCとRCの相補的な性質を強調した。

Rhetorical Role Labeling (RRL) of legal documents is pivotal for various downstream tasks such as summarization, semantic case search and argument mining. Existing approaches often overlook the varying difficulty levels inherent in legal document discourse styles and rhetorical roles. In this work, we propose HiCuLR, a hierarchical curriculum learning framework for RRL. It nests two curricula: Rhetorical Role-level Curriculum (RC) on the outer layer and Document-level Curriculum (DC) on the inner layer. DC categorizes documents based on their difficulty, utilizing metrics like deviation from a standard discourse structure and exposes the model to them in an easy-to-difficult fashion. RC progressively strengthens the model to discern coarse-to-fine-grained distinctions between rhetorical roles. Our experiments on four RRL datasets demonstrate the efficacy of HiCuLR, highlighting the complementary nature of DC and RC.
翻訳日:2024-10-01 19:54:56 公開日:2024-09-27
# 拡散モデルを用いた教師なし指紋提示検出

Unsupervised Fingerphoto Presentation Attack Detection With Diffusion Models ( http://arxiv.org/abs/2409.18636v1 )

ライセンス: Link先を確認
Hailin Li, Raghavendra Ramachandra, Mohamed Ragab, Soumik Mondal, Yong Kiam Tan, Khin Mi Mi Aung, (参考訳) スマートフォンベースの非接触指紋認証は、スマートフォンカメラ技術の急速な進歩により、従来のコンタクトベースの指紋生体認証システムに代わる信頼性の高い手段となっている。 その利便性にもかかわらず、指紋による指紋認証は、プレゼンテーション攻撃に対してより脆弱であり、近年、指紋提示検出(PAD)技術の開発に向けた研究の動機となっている。 しかし、以前のPADアプローチでは、ボナフィドとアタックの両方のサンプルのラベル付きトレーニングデータを必要とする教師付き学習手法が利用されていた。 これは2つの重要な問題に悩まされる可能性がある。 一 一般化:訓練データに見えない新規な提示攻撃装置(PAI)の検出、及び (ii)スケーラビリティ:異なるPAIを使用した攻撃サンプルの大規模なデータセットの収集。 これらの課題に対処するため,本研究では,最新のディープラーニングに基づく拡散モデルであるDenoising Diffusion Probabilistic Model (DDPM)に基づいて,ボナファイドサンプルのみをトレーニングした,教師なしの新たなアプローチを提案する。 提案手法は,DDPMの入力対と出力対の再構成類似性を算出し,提示攻撃(PA)を検出する。 提案手法の精度と一般化能力をテストするために,3つのPAIデータセットにまたがる広範囲な実験を行った。 その結果、DDPMに基づくPAD法は、他のベースラインの教師なし手法と比較して、いくつかのPAIクラスにおける検出誤り率を大幅に向上することがわかった。

Smartphone-based contactless fingerphoto authentication has become a reliable alternative to traditional contact-based fingerprint biometric systems owing to rapid advances in smartphone camera technology. Despite its convenience, fingerprint authentication through fingerphotos is more vulnerable to presentation attacks, which has motivated recent research efforts towards developing fingerphoto Presentation Attack Detection (PAD) techniques. However, prior PAD approaches utilized supervised learning methods that require labeled training data for both bona fide and attack samples. This can suffer from two key issues, namely (i) generalization:the detection of novel presentation attack instruments (PAIs) unseen in the training data, and (ii) scalability:the collection of a large dataset of attack samples using different PAIs. To address these challenges, we propose a novel unsupervised approach based on a state-of-the-art deep-learning-based diffusion model, the Denoising Diffusion Probabilistic Model (DDPM), which is trained solely on bona fide samples. The proposed approach detects Presentation Attacks (PA) by calculating the reconstruction similarity between the input and output pairs of the DDPM. We present extensive experiments across three PAI datasets to test the accuracy and generalization capability of our approach. The results show that the proposed DDPM-based PAD method achieves significantly better detection error rates on several PAI classes compared to other baseline unsupervised approaches.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# ネットワーク侵入検出のための最適ポーリングとハイパーパラメータチューニングによる畳み込みニューラルネットワーク

Enhanced Convolution Neural Network with Optimized Pooling and Hyperparameter Tuning for Network Intrusion Detection ( http://arxiv.org/abs/2409.18642v1 )

ライセンス: Link先を確認
Ayush Kumar Sharma, Sourav Patel, Supriya Bharat Wakchaure, Abirami S, (参考訳) ネットワーク侵入検知システム(NIDS)は、Denial of Service(DoS)、Probing、User-to-Root(U2R)、Remote-to-Local(R2L)攻撃など、悪意ある活動からコンピュータネットワークを保護するために不可欠である。 効果的なNIDSがなければ、ネットワークは重大なセキュリティ侵害やデータ損失に対して脆弱である。 機械学習技術は、脅威検出の自動化と精度の向上によってNIDSを強化するための有望なアプローチを提供する。 本研究では、NIDSのための拡張畳み込みニューラルネットワーク(EnCNN)を提案し、その性能をKDDCUP'99データセットを用いて評価する。 我々の方法論には、包括的なデータ前処理、探索データ分析(EDA)、特徴工学が含まれる。 我々はEnCNNと、ロジスティック回帰、決定木、サポートベクトルマシン(SVM)、ランダムフォレスト、AdaBoost、Votting Ensembleといったアンサンブル手法など、さまざまな機械学習アルゴリズムを比較した。 その結果,EnCNNは検出精度を大幅に向上し,最先端アプローチよりも10%向上した。 これは、リアルタイムネットワーク侵入検知におけるEnCNNの有効性を示し、セキュリティの脅威を特定し緩和し、ネットワーク全体のレジリエンスを高める堅牢なソリューションを提供する。

Network Intrusion Detection Systems (NIDS) are essential for protecting computer networks from malicious activities, including Denial of Service (DoS), Probing, User-to-Root (U2R), and Remote-to-Local (R2L) attacks. Without effective NIDS, networks are vulnerable to significant security breaches and data loss. Machine learning techniques provide a promising approach to enhance NIDS by automating threat detection and improving accuracy. In this research, we propose an Enhanced Convolutional Neural Network (EnCNN) for NIDS and evaluate its performance using the KDDCUP'99 dataset. Our methodology includes comprehensive data preprocessing, exploratory data analysis (EDA), and feature engineering. We compare EnCNN with various machine learning algorithms, including Logistic Regression, Decision Trees, Support Vector Machines (SVM), and ensemble methods like Random Forest, AdaBoost, and Voting Ensemble. The results show that EnCNN significantly improves detection accuracy, with a notable 10% increase over state-of-art approaches. This demonstrates the effectiveness of EnCNN in real-time network intrusion detection, offering a robust solution for identifying and mitigating security threats, and enhancing overall network resilience.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 欧州人権裁判所の判例予測の先例を組み込んだもの

Incorporating Precedents for Legal Judgement Prediction on European Court of Human Rights Cases ( http://arxiv.org/abs/2409.18644v1 )

ライセンス: Link先を確認
T. Y. S. S. Santosh, Mohamed Hesham Elganayni, Stanisław Sójka, Matthias Grabmair, (参考訳) 情報的意思決定に先例(優先事例)を活用する「星座決定」の法学原理に着想を得て,LJPモデルにそれらを組み込む方法を探る。 先行検索を容易にするため,事例間の記事の重複率に基づいて,詳細な関連信号で検索者を訓練する。 ケース近接に基づくラベル補間による推論の直接的取り込みと,スタッククロスアテンションモデルを用いた事前融合モジュールによるトレーニングの2つの手法について検討する。 我々は,レトリバーモデルとLJPモデルの協調トレーニングを用いて,それらの間の潜時空間のばらつきに対処する。 本研究は,レトリバーとLJPモデルの共同トレーニングと併用したトレーニングにおける前例の統合が,前例のないモデルや,推論時にのみ組み込まれた前例よりも優れており,特にスパサー記事に有利であることを示すものである。

Inspired by the legal doctrine of stare decisis, which leverages precedents (prior cases) for informed decision-making, we explore methods to integrate them into LJP models. To facilitate precedent retrieval, we train a retriever with a fine-grained relevance signal based on the overlap ratio of alleged articles between cases. We investigate two strategies to integrate precedents: direct incorporation at inference via label interpolation based on case proximity and during training via a precedent fusion module using a stacked-cross attention model. We employ joint training of the retriever and LJP models to address latent space divergence between them. Our experiments on LJP tasks from the ECHR jurisdiction reveal that integrating precedents during training coupled with joint training of the retriever and LJP model, outperforms models without precedents or with precedents incorporated only at inference, particularly benefiting sparser articles.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 選択予測の工芸 : 信頼性の高い事例アウトカム分類を目指して -欧州人権裁判所における実証的研究-

The Craft of Selective Prediction: Towards Reliable Case Outcome Classification -- An Empirical Study on European Court of Human Rights Cases ( http://arxiv.org/abs/2409.18645v1 )

ライセンス: Link先を確認
T. Y. S. S. Santosh, Irtiza Chowdhury, Shanshan Xu, Matthias Grabmair, (参考訳) ケースアウトカム分類(COC)のような法的NLPにおける高い意思決定タスクでは、モデルの予測信頼度を定量化することが重要である。 信頼度推定は、特にモデルの確実性が低い場合や、ミスの結果が重要な場合など、人間がより情報的な決定を下すことを可能にする。 しかしながら、既存のCOC作業の多くは、モデルの信頼性よりも高いタスクパフォーマンスを優先している。 本稿では, 事前学習コーパス, 信頼度推定器, 微調整損失などの設計選択が, 選択予測の枠組みにおけるCOCモデルの信頼性にどのように影響するかを実験的に検討する。 欧州人権裁判所(ECtHR)の事例に焦点をあてたマルチラベルCOCタスクの実験では,キャリブレーションを改善するために,多種多様なドメイン固有の事前学習コーパスの重要性を強調した。 さらに,大規模なモデルでは過信感を示す傾向があり,モンテカルロのドロップアウト法では信頼性の高い信頼度推定が得られ,信頼性の高い誤差正規化は過信を効果的に緩和することを示した。 我々の知る限り、法的NLPにおける選択的予測の体系的な調査はこれが初めてである。 本研究は,法域におけるモデルの信頼性向上と信頼性向上に向けたさらなる研究の必要性を浮き彫りにするものである。

In high-stakes decision-making tasks within legal NLP, such as Case Outcome Classification (COC), quantifying a model's predictive confidence is crucial. Confidence estimation enables humans to make more informed decisions, particularly when the model's certainty is low, or where the consequences of a mistake are significant. However, most existing COC works prioritize high task performance over model reliability. This paper conducts an empirical investigation into how various design choices including pre-training corpus, confidence estimator and fine-tuning loss affect the reliability of COC models within the framework of selective prediction. Our experiments on the multi-label COC task, focusing on European Court of Human Rights (ECtHR) cases, highlight the importance of a diverse yet domain-specific pre-training corpus for better calibration. Additionally, we demonstrate that larger models tend to exhibit overconfidence, Monte Carlo dropout methods produce reliable confidence estimates, and confident error regularization effectively mitigates overconfidence. To our knowledge, this is the first systematic exploration of selective prediction in legal NLP. Our findings underscore the need for further research on enhancing confidence measurement and improving the trustworthiness of models in the legal domain.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 独立系高温原子からの光子の干渉

Interference of photons from independent hot atoms ( http://arxiv.org/abs/2409.18651v1 )

ライセンス: Link先を確認
Jaromír Mika, Stuti Joshi, Robin Kaiser, Lukáš Slodička, (参考訳) 原子蒸気中の温かい原子の独立したアンサンブルから散乱した光子の干渉を実証する。 2つの反対原子速度群のカオス光子統計を持つ光子が同じ検出モードに寄与するように、ドップラー拡散原子アンサンブルから前方および後方方向に弾性的に散乱する光の有限時間コヒーレンスを用いる。 大きな熱移動による散乱光のランダム位相変動は、検出された光子レートにおける干渉の直接観測性を妨げるが、反伝搬レーザビームからの散乱から収集された光子間の安定した周波数差は、原子共鳴による励起レーザの変形による周期と、光子一致率の強い周期変調を与える。 提案された干渉法は、ドップラーフリー原子および分子分光法における直接的応用を約束する。

We demonstrate the interference of photons scattered from independent ensembles of warm atoms in atomic vapor. It employs finite temporal coherence of light scattered elastically in the forward and backward directions from Doppler-broadened atomic ensembles, such that photons with chaotic photon statistics from two opposite atomic velocity groups contribute to the same detection mode. While the random phase fluctuations of the scattered light caused by a large thermal motion prevent direct observability of the interference in the detected photon rate, the stable frequency difference between photons collected from scattering off counter-propagating laser beams provides strong periodic modulation of the photon coincidence rate with the period given by the detuning of the excitation laser from the atomic resonance. Presented interferometry promises direct applications in Doppler-free atomic and molecular spectroscopy.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# SAM2がビデオカモフラージュされたオブジェクトセグメンテーションと出会う: 総合的な評価と適応

When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation ( http://arxiv.org/abs/2409.18653v1 )

ライセンス: Link先を確認
Yuli Zhou, Guolei Sun, Yawei Li, Luca Benini, Ender Konukoglu, (参考訳) 本研究では,ビデオキャモフラージュオブジェクトセグメンテーション(VCOS)におけるSegment Anything Model 2(SAM2)の適用と性能について検討する。 VCOSは、似たような色やテクスチャ、照明条件の悪さなどにより、ビデオの周囲にシームレスにブレンドされたオブジェクトを検出する。 通常の場面と比較すると、カモフラージュされた物体はより検出が難しい。 ビデオファウンデーションモデルであるSAM2は、様々なタスクに可能性を示している。 しかし、動的カモフラージュシナリオにおけるその有効性は未解明のままである。 本研究はVCOSにおけるSAM2の能力に関する総合的研究である。 まず、異なるモデルとプロンプト(クリック、ボックス、マスク)を用いて、キャモフラージュしたビデオデータセット上でSAM2のパフォーマンスを評価する。 第2に、SAM2と既存のマルチモーダル大言語モデル(MLLM)とVCOSメソッドの統合について検討する。 第3に、SAM2をビデオカモフラージュデータセットに微調整することで、特に適応します。 包括的実験により、SAM2はビデオ中のカモフラージュされた物体を検出する優れたゼロショット能力を有することが示された。 また、VCOSのSAM2パラメータを具体的に調整することで、この能力をさらに改善できることも示している。 コードはhttps://github.com/zhoustan/SAM2-VCOSで入手できる。

This study investigates the application and performance of the Segment Anything Model 2 (SAM2) in the challenging task of video camouflaged object segmentation (VCOS). VCOS involves detecting objects that blend seamlessly in the surroundings for videos, due to similar colors and textures, poor light conditions, etc. Compared to the objects in normal scenes, camouflaged objects are much more difficult to detect. SAM2, a video foundation model, has shown potential in various tasks. But its effectiveness in dynamic camouflaged scenarios remains under-explored. This study presents a comprehensive study on SAM2's ability in VCOS. First, we assess SAM2's performance on camouflaged video datasets using different models and prompts (click, box, and mask). Second, we explore the integration of SAM2 with existing multimodal large language models (MLLMs) and VCOS methods. Third, we specifically adapt SAM2 by fine-tuning it on the video camouflaged dataset. Our comprehensive experiments demonstrate that SAM2 has excellent zero-shot ability of detecting camouflaged objects in videos. We also show that this ability could be further improved by specifically adjusting SAM2's parameters for VCOS. The code will be available at https://github.com/zhoustan/SAM2-VCOS
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 暗黒部分空間と量子軌道の不変測度

Dark Subspaces and Invariant Measures of Quantum Trajectories ( http://arxiv.org/abs/2409.18655v1 )

ライセンス: Link先を確認
Tristan Benoist, Clément Pellegrini, Anna Szczepanek, (参考訳) 量子軌道 (quantum trajectories) は、間接的な測定の対象となる量子系の進化を記述するマルコフ過程である。 それらは、場所依存反復関数系や、従属および非同一分布ランダム行列の積の結果と見なすことができる。 本稿では、それらの不変測度を完全に分類する。 分類は2段階で行われる。 まず、(Maassen, K\"ummerer 2006) で定義されるダーク部分空間と呼ばれるある種の線型部分空間上でマルコフ過程を証明し、一意な不変測度を持つ。 第二に、暗い部分空間内の過程を研究する。 参照空間からダーク部分空間への最小の等距離族の概念を用いて、ユニタリ群の軌道によってインデックスされた一連の測度が量子軌道のエルゴード測度の集合であることを示す。

Quantum trajectories are Markov processes describing the evolution of a quantum system subject to indirect measurements. They can be viewed as place dependent iterated function systems or the result of products of dependent and non identically distributed random matrices. In this article, we establish a complete classification of their invariant measures. The classification is done in two steps. First, we prove a Markov process on some linear subspaces called dark subspaces, defined in (Maassen, K\"ummerer 2006), admits a unique invariant measure. Second, we study the process inside the dark subspaces. Using a notion of minimal family of isometries from a reference space to dark subspaces, we prove a set of measures indexed by orbits of a unitary group is the set of ergodic measures of quantum trajectories.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# SEART Data Hub: 大規模ソースコードマイニングとプレプロセスの合理化

SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing ( http://arxiv.org/abs/2409.18658v1 )

ライセンス: Link先を確認
Ozren Dabić, Rosalia Tufano, Gabriele Bavota, (参考訳) 大規模コードデータセットは、ソフトウェアエンジニアリング(SE)研究において、ますます中心的な役割を担っている。 これが結果です (i)SEにおける実証研究の標準を推進したマイニングソフトウェアリポジトリ(MSR)コミュニティの成功 (ii) ソフトウエアエンジニアリングにおける近年のディープラーニング(DL)の出現。 文献に使えるデータセットはいくつかあるが、研究者たちは、彼らが取り組んでいる研究/技術に関する特定の要件を満たすために、独自のデータセットを構築し、前処理する必要があることが多い。 これは時間と計算資源の点でかなりのコストがかかることを意味する。 この作業では、公開GitHubリポジトリから採掘されたコードを特徴とする大規模データセットを簡単に構築および前処理できるWebアプリケーションであるSEART Data Hubを紹介します。 単純なWebインターフェースを通じて、研究者はマイニング基準(例:100以上のコントリビュータと1000以上のコミットを持つリポジトリからのみコードを集める)と、実行したい特定の前処理ステップ(例:重複の削除、テストコード、構文エラーのあるインスタンス)を指定できる。 リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。 SEART Data Hubを紹介するビデオはhttps://youtu.be/lCgQaA7CYWA.comで公開されている。

Large-scale code datasets have acquired an increasingly central role in software engineering (SE) research. This is the result of (i) the success of the mining software repositories (MSR) community, that pushed the standards of empirical studies in SE; and (ii) the recent advent of deep learning (DL) in software engineering, with models trained and tested on large source code datasets. While there exist some ready-to-use datasets in the literature, researchers often need to build and pre-process their own dataset to meet specific requirements of the study/technique they are working on. This implies a substantial cost in terms of time and computational resources. In this work we present the SEART Data Hub, a web application that allows to easily build and pre-process large-scale datasets featuring code mined from public GitHub repositories. Through a simple web interface, researchers can specify a set of mining criteria (e.g., only collect code from repositories having more than 100 contributors and more than 1,000 commits) as well as specific pre-processing steps they want to perform (e.g., remove duplicates, test code, instances with syntax errors). After submitting the request, the user will receive an email with a download link for the required dataset within a few hours. A video showcasing the SEART Data Hub is available at https://youtu.be/lCgQaA7CYWA.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# AIフィードバックが学習,スキルギャップ,知的多様性に及ぼす影響

Effects of AI Feedback on Learning, the Skill Gap, and Intellectual Diversity ( http://arxiv.org/abs/2409.18660v1 )

ライセンス: Link先を確認
Christoph Riedl, Eric Bogert, (参考訳) 人間の意思決定者はAIのフィードバックから学ぶことができるのか? 大規模なオンラインチェスプラットフォームから52,000人の意思決定者に関するデータを用いて、AIの使用が関連する3つの長期的な結果(学習、スキルギャップ、意思決定戦略の多様性)にどのように影響するかを検討する。 まず、失敗よりも成功を経験した状況において、個人がAIフィードバックを求める可能性がはるかに高いことを示す。 成功に対するフィードバックは将来のパフォーマンスを低下させ、失敗に対するフィードバックは増加します。 第二に、高度な意思決定者はAIのフィードバックをより頻繁に求め、失敗後にAIのフィードバックを求める傾向が高く、低いスキルの個人よりもAIのフィードバックの恩恵を受けやすい。 その結果、ハイスキルとロースキルのスキルギャップを減らさずに、AIフィードバックへのアクセスが増加する。 最後に、42のプラットフォームアップデートを自然実験として活用して、AIフィードバックへのアクセスが、個人が同じ分野を専門とする傾向があるため、人口の知的多様性を低下させることを示す。 これらの結果は、AIフィードバックからの学習は自動ではなく、AIを正しく使用することがスキルそのものであることを示している。 さらに、個々のレベルのメリットにもかかわらず、AIフィードバックへのアクセスは、知的多様性の喪失やスキルギャップの増加など、人口レベルの大きなマイナス面を持つ可能性がある。

Can human decision-makers learn from AI feedback? Using data on 52,000 decision-makers from a large online chess platform, we investigate how their AI use affects three interrelated long-term outcomes: Learning, skill gap, and diversity of decision strategies. First, we show that individuals are far more likely to seek AI feedback in situations in which they experienced success rather than failure. This AI feedback seeking strategy turns out to be detrimental to learning: Feedback on successes decreases future performance, while feedback on failures increases it. Second, higher-skilled decision-makers seek AI feedback more often and are far more likely to seek AI feedback after a failure, and benefit more from AI feedback than lower-skilled individuals. As a result, access to AI feedback increases, rather than decreases, the skill gap between high- and low-skilled individuals. Finally, we leverage 42 major platform updates as natural experiments to show that access to AI feedback causes a decrease in intellectual diversity of the population as individuals tend to specialize in the same areas. Together, those results indicate that learning from AI feedback is not automatic and using AI correctly seems to be a skill itself. Furthermore, despite its individual-level benefits, access to AI feedback can have significant population-level downsides including loss of intellectual diversity and an increasing skill gap.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 銀の弾丸ではない: LLM強化プログラミングエラーメッセージは実践では有効ではない

Not the Silver Bullet: LLM-enhanced Programming Error Messages are Ineffective in Practice ( http://arxiv.org/abs/2409.18661v1 )

ライセンス: Link先を確認
Eddie Antonio Santos, Brett A. Becker, (参考訳) ChatGPTのような大規模言語モデル(LLM)の突然の出現は、コンピューティング教育コミュニティ全体に破壊的な影響を与えた。 LLMはCS1とCS2の問題に対する正しいコードを生成するのに優れており、プログラミングの仕方を学ぶ学生にとって友好的なアシスタントとしても機能する。 最近の研究は、LLMがコンパイラのエラーメッセージを説明し、解決する上で、間違いなく優れた結果を示すことを示している。 しかし,LLMが生成したエラーメッセージの説明は,人工的な条件下での専門家によってのみ評価されている。 この研究は、初心者プログラマがプログラミングエラーメッセージ(PEM)をより現実的なシナリオでどのように解決するかを理解することを目的としていた。 学生が6つのバグだらけのCプログラムの修正を任されるという,n$=106の参加者による調査を行った。 各プログラムの参加者は、ストックコンパイラエラーメッセージ、専門家の手書きエラーメッセージ、あるいはGPT-4で生成されたエラーメッセージ説明を使って、ランダムに問題を修正するように割り当てられた。 その結果,GPT-4が生成したエラーメッセージは,6つのタスクのうち1つに過ぎず,従来のコンパイラエラーメッセージよりも優れていたことがわかった。 手書きによる説明は、客観的および主観的尺度の両方において、LLMや従来のエラーメッセージよりも優れている。

The sudden emergence of large language models (LLMs) such as ChatGPT has had a disruptive impact throughout the computing education community. LLMs have been shown to excel at producing correct code to CS1 and CS2 problems, and can even act as friendly assistants to students learning how to code. Recent work shows that LLMs demonstrate unequivocally superior results in being able to explain and resolve compiler error messages -- for decades, one of the most frustrating parts of learning how to code. However, LLM-generated error message explanations have only been assessed by expert programmers in artificial conditions. This work sought to understand how novice programmers resolve programming error messages (PEMs) in a more realistic scenario. We ran a within-subjects study with $n$ = 106 participants in which students were tasked to fix six buggy C programs. For each program, participants were randomly assigned to fix the problem using either a stock compiler error message, an expert-handwritten error message, or an error message explanation generated by GPT-4. Despite promising evidence on synthetic benchmarks, we found that GPT-4 generated error messages outperformed conventional compiler error messages in only 1 of the 6 tasks, measured by students' time-to-fix each problem. Handwritten explanations still outperform LLM and conventional error messages, both on objective and subjective measures.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 連続学習はどこまでグリーンか? : 視覚基礎モデルの連続訓練におけるエネルギー消費の分析

How green is continual learning, really? Analyzing the energy consumption in continual training of vision foundation models ( http://arxiv.org/abs/2409.18664v1 )

ライセンス: Link先を確認
Tomaso Trinci, Simone Magistri, Roberto Verdecchia, Andrew D. Bagdanov, (参考訳) AIの採用が絶え間なく進んでいるため、環境への影響はもはや無視できない。 継続的な学習がグリーンAIにもたらす可能性にもかかわらず、環境の持続性は比較的低いままである。 本研究では,連続学習アルゴリズムのエネルギー効率を体系的に理解することを目的とする。 そこで我々は,近年の表現型,プロンプト型,即時型および模範型連続学習アルゴリズムのエネルギー消費と,トレーニング済みのViT-B/16ファンデーションモデルに継続的に適応するための2つの標準ベースライン(微調整とジョイントトレーニング)を比較検討した。 CIFAR-100、ImageNet-R、DomainNetの3つの標準データセットで実験を行った。 さらに,エネルギー・精度トレードオフの観点からアルゴリズムの効率を計測する新しい指標であるEnergy NetScoreを提案する。 インクリメンタル学習のステップの数とサイズを多種に分けて評価した結果、連続学習アルゴリズムの種類は、トレーニングと推論の両方において、エネルギー消費に大きく異なる影響があることが実証された。 連続学習の文献ではしばしば見過ごされがちだが, 推論段階で消費されるエネルギーは, 連続学習モデルの環境持続可能性を評価する上で重要であることがわかった。

With the ever-growing adoption of AI, its impact on the environment is no longer negligible. Despite the potential that continual learning could have towards Green AI, its environmental sustainability remains relatively uncharted. In this work we aim to gain a systematic understanding of the energy efficiency of continual learning algorithms. To that end, we conducted an extensive set of empirical experiments comparing the energy consumption of recent representation-, prompt-, and exemplar-based continual learning algorithms and two standard baseline (fine tuning and joint training) when used to continually adapt a pre-trained ViT-B/16 foundation model. We performed our experiments on three standard datasets: CIFAR-100, ImageNet-R, and DomainNet. Additionally, we propose a novel metric, the Energy NetScore, which we use measure the algorithm efficiency in terms of energy-accuracy trade-off. Through numerous evaluations varying the number and size of the incremental learning steps, our experiments demonstrate that different types of continual learning algorithms have very different impacts on energy consumption during both training and inference. Although often overlooked in the continual learning literature, we found that the energy consumed during the inference phase is crucial for evaluating the environmental sustainability of continual learning models.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# ダッシュボードカメラの正確な位置推定に先立つ爆発運動

Exploiting Motion Prior for Accurate Pose Estimation of Dashboard Cameras ( http://arxiv.org/abs/2409.18673v1 )

ライセンス: Link先を確認
Yipeng Lu, Yifan Zhao, Haiping Wang, Zhiwei Ruan, Yuan Liu, Zhen Dong, Bisheng Yang, (参考訳) ダッシュボードカメラ(ダッシュボードカメラ)は、毎日何百万ものドライビングビデオを録画し、ドライビングマップの生産やアップデートなど、さまざまなアプリケーションに有用なデータソースを提供する。 これらのダッシュカムデータを利用するための必要なステップは、カメラのポーズを推定することである。 しかし、ダッシュカムが捉えた低画質の画像は、動きのぼやけやダイナミックな物体を特徴とし、カメラのポーズを正確に推定する既存の画像マッチング手法に挑戦する。 本研究では,ダッシュカム画像の正確なポーズ推定手法を提案する。 通常、ダッシュカメラによってキャプチャされた画像シーケンスは、前方の動きや横方向の旋回など、先行して顕著な動きを示す。 この観測に基づいて、カメラの動きを事前に学習することを目的としたポーズ回帰モジュールを考案し、その後、これらを対応とポーズ推定の両方に組み込む。 実験の結果,実際のダシュカムデータセットでは,AUC5におけるポーズ推定の基準値よりも22%よい結果が得られた。

Dashboard cameras (dashcams) record millions of driving videos daily, offering a valuable potential data source for various applications, including driving map production and updates. A necessary step for utilizing these dashcam data involves the estimation of camera poses. However, the low-quality images captured by dashcams, characterized by motion blurs and dynamic objects, pose challenges for existing image-matching methods in accurately estimating camera poses. In this study, we propose a precise pose estimation method for dashcam images, leveraging the inherent camera motion prior. Typically, image sequences captured by dash cameras exhibit pronounced motion prior, such as forward movement or lateral turns, which serve as essential cues for correspondence estimation. Building upon this observation, we devise a pose regression module aimed at learning camera motion prior, subsequently integrating these prior into both correspondences and pose estimation processes. The experiment shows that, in real dashcams dataset, our method is 22% better than the baseline for pose estimation in AUC5\textdegree, and it can estimate poses for 19% more images with less reprojection error in Structure from Motion (SfM).
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 解釈可能なプライバシー分類のための画像誘導トピックモデリング

Image-guided topic modeling for interpretable privacy classification ( http://arxiv.org/abs/2409.18674v1 )

ライセンス: Link先を確認
Alina Elena Baia, Andrea Cavallaro, (参考訳) 人間の理解可能な言葉で画像に含まれるプライベート情報の予測と説明は、複雑で文脈的な作業である。 このタスクは、大きな言語モデルであっても難しい。 プライバシ決定の理解を容易にするために,自然言語コンテンツ記述子を用いた画像プライバシの予測を提案する。 これらのコンテンツ記述子は、人々がイメージコンテンツをどう知覚するかを反映したプライバシースコアと関連付けられている。 我々は新しい画像誘導トピックモデリング(ITM)アプローチで記述子を生成する。 ITMは、マルチモーダルアライメントを通じて、視覚情報と視覚言語モデルからの画像テキスト記述の両方を活用する。 ITMの生成した記述子を使ってプライバシ予測子Priv$\times$ITMを学び、その決定は設計によって解釈できる。 我々のPriv$\times$ITM分類器は、参照解釈可能なメソッドの精度を5パーセント上回り、現在の非解釈可能な最先端モデルと互換性がある。

Predicting and explaining the private information contained in an image in human-understandable terms is a complex and contextual task. This task is challenging even for large language models. To facilitate the understanding of privacy decisions, we propose to predict image privacy based on a set of natural language content descriptors. These content descriptors are associated with privacy scores that reflect how people perceive image content. We generate descriptors with our novel Image-guided Topic Modeling (ITM) approach. ITM leverages, via multimodality alignment, both vision information and image textual descriptions from a vision language model. We use the ITM-generated descriptors to learn a privacy predictor, Priv$\times$ITM, whose decisions are interpretable by design. Our Priv$\times$ITM classifier outperforms the reference interpretable method by 5 percentage points in accuracy and performs comparably to the current non-interpretable state-of-the-art model.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# 時系列予測のためのタイムスタンプのパワーを再考する:グローバルローカルフュージョンの視点から

Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective ( http://arxiv.org/abs/2409.18696v1 )

ライセンス: Link先を確認
Chengsen Wang, Qi Qi, Jingyu Wang, Haifeng Sun, Zirui Zhuang, Jinming Wu, Jianxin Liao, (参考訳) 時系列予測は、金融、交通、エネルギー、医療、気候など様々な産業で重要な役割を果たしてきた。 季節情報が豊富にあるため、タイムスタンプは予測技術に堅牢なグローバルガイダンスを提供する可能性を秘めている。 しかし、既存の研究は主に局所的な観察に焦点を当てており、タイムスタンプは未使用のままオプションの補足として扱われるだけである。 現実世界から収集されたデータが汚染されると、グローバルな情報がないことが、これらのアルゴリズムの堅牢な予測能力を損なう。 これらの問題に対処するため,我々はGLAFFという新しいフレームワークを提案する。 このフレームワーク内では、タイムスタンプはグローバルな依存関係をキャプチャするために個別にモデル化される。 GLAFFはプラグインとして機能し、グローバルおよびローカル情報の重み付けを適応的に調整し、バックボーンを予測する時系列とのシームレスなコラボレーションを可能にする。 9つの実世界のデータセットで実施された大規模な実験により、GLAFFは、広く使われている主流予測モデルの平均性能を12.5%向上させ、従来の最先端の手法を5.5%上回ることを示した。

Time series forecasting has played a pivotal role across various industries, including finance, transportation, energy, healthcare, and climate. Due to the abundant seasonal information they contain, timestamps possess the potential to offer robust global guidance for forecasting techniques. However, existing works primarily focus on local observations, with timestamps being treated merely as an optional supplement that remains underutilized. When data gathered from the real world is polluted, the absence of global information will damage the robust prediction capability of these algorithms. To address these problems, we propose a novel framework named GLAFF. Within this framework, the timestamps are modeled individually to capture the global dependencies. Working as a plugin, GLAFF adaptively adjusts the combined weights for global and local information, enabling seamless collaboration with any time series forecasting backbone. Extensive experiments conducted on nine real-world datasets demonstrate that GLAFF significantly enhances the average performance of widely used mainstream forecasting models by 12.5%, surpassing the previous state-of-the-art method by 5.5%.
翻訳日:2024-10-01 18:11:57 公開日:2024-09-27
# オープンエンド学習エージェントの普遍的・解釈可能な世界モデルに向けて

Toward Universal and Interpretable World Models for Open-ended Learning Agents ( http://arxiv.org/abs/2409.18676v1 )

ライセンス: Link先を確認
Lancelot Da Costa, (参考訳) オープンエンド学習エージェントをサポートするジェネリック,コンポジション,解釈可能な生成世界モデルについて紹介する。 これは、幅広い確率過程を近似できるベイズネットワークのスパースクラスであり、エージェントは解釈可能かつ計算にスケーラブルな方法で世界モデルを学ぶことができる。 ベイズ構造学習と本質的な動機付け(モデルに基づく)計画を統合するこのアプローチにより、エージェントは積極的に世界モデルを開発し、洗練することができ、オープンエンドラーニングとより堅牢で適応的な行動につながる可能性がある。

We introduce a generic, compositional and interpretable class of generative world models that supports open-ended learning agents. This is a sparse class of Bayesian networks capable of approximating a broad range of stochastic processes, which provide agents with the ability to learn world models in a manner that may be both interpretable and computationally scalable. This approach integrating Bayesian structure learning and intrinsically motivated (model-based) planning enables agents to actively develop and refine their world models, which may lead to open-ended learning and more robust, adaptive behavior.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# 音声通話における質問生成のための共同学習Retriever-Generatorフレームワーク

Co-Trained Retriever-Generator Framework for Question Generation in Earnings Calls ( http://arxiv.org/abs/2409.18677v1 )

ライセンス: Link先を確認
Yining Juan, Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen, (参考訳) 学術会議から企業決算報告まで、さまざまな専門的環境において、聴衆の質問を予想する能力は最重要課題である。 聴衆の背景、興味、主題の知識を手動で評価する伝統的な手法は、特に大きなグループや不均一なグループに直面した場合、しばしば不足し、不正確さと非効率さをもたらす。 NLPはテキストベースの質問生成に力を入れてきたが、その主な焦点は学術的な設定であり、専門分野、特に収支会議の複雑な課題は守られていない。 このギャップに対処するため、当社の論文は、収支コールのコンテキストに特化して設計されたマルチクエスト世代(MQG)タスクの先駆者です。 当社の手法は、収支報告書の総括収集と、潜在的な質問を分類するための新しいアノテーション技術を含む。 さらに,関連情報を抽出するための検索戦略についても紹介する。 アナリストが提示する可能性のある潜在的な質問のスペクトルを生成するための中核的な目的として、私たちはこれらを直接、収支報告の内容から導き出します。 経験的評価は、我々のアプローチのエッジを強調し、生成した質問の正確性、一貫性、難易度に顕著な卓越性を明らかにした。

In diverse professional environments, ranging from academic conferences to corporate earnings calls, the ability to anticipate audience questions stands paramount. Traditional methods, which rely on manual assessment of an audience's background, interests, and subject knowledge, often fall short - particularly when facing large or heterogeneous groups, leading to imprecision and inefficiency. While NLP has made strides in text-based question generation, its primary focus remains on academic settings, leaving the intricate challenges of professional domains, especially earnings call conferences, underserved. Addressing this gap, our paper pioneers the multi-question generation (MQG) task specifically designed for earnings call contexts. Our methodology involves an exhaustive collection of earnings call transcripts and a novel annotation technique to classify potential questions. Furthermore, we introduce a retriever-enhanced strategy to extract relevant information. With a core aim of generating a spectrum of potential questions that analysts might pose, we derive these directly from earnings call content. Empirical evaluations underscore our approach's edge, revealing notable excellence in the accuracy, consistency, and perplexity of the questions generated.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# パースペクティブ・テイキングによる質問に対する回答のリハーサル

Rehearsing Answers to Probable Questions with Perspective-Taking ( http://arxiv.org/abs/2409.18678v1 )

ライセンス: Link先を確認
Yung-Yu Shih, Ziwei Xu, Hiroya Takamura, Yun-Nung Chen, Chung-Chi Chen, (参考訳) 質問応答(QA)は,NLP分野における長年の焦点であり,読解理解と常識QAに主眼を置いている。 しかし, プロの口頭プレゼンテーションにおける質問に対する回答作成のシナリオは, 未検討のままである。 本稿では,企業経営者と専門アナリストの実際のQA会話の書き起こしを活用することで,この重要かつ見落とされがちな話題について検討する。 本稿では,3つの因果知識グラフ(KG)と3つの大言語モデル(LLM)を用いて,提案課題について検討する。 この研究は、専門的なQAシナリオにおけるLLMの適用に関する基礎的な洞察を提供し、因果的なKGの重要性と、効果的な応答を生み出すための視点を取ることの重要性を強調している。

Question answering (QA) has been a long-standing focus in the NLP field, predominantly addressing reading comprehension and common sense QA. However, scenarios involving the preparation of answers to probable questions during professional oral presentations remain underexplored. In this paper, we pioneer the examination of this crucial yet overlooked topic by utilizing real-world QA conversation transcripts between company managers and professional analysts. We explore the proposed task using three causal knowledge graphs (KGs) and three large language models (LLMs). This work provides foundational insights into the application of LLMs in professional QA scenarios, highlighting the importance of causal KGs and perspective-taking in generating effective responses.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# モデル編集に「なぜ」が悪影響を及ぼすのか

"Why" Has the Least Side Effect on Model Editing ( http://arxiv.org/abs/2409.18679v1 )

ライセンス: Link先を確認
Tsung-Hsuan Pan, Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen, (参考訳) 大規模な言語モデル(LLM)をゼロからトレーニングすることは、特に世界の知識が継続的に進化するにつれて、高価な取り組みである。 LLMの妥当性と精度を維持するために,モデル編集が重要な研究領域として登場した。 これらの方法は有望であるが、意図しない副作用を生じることもある。 その根底にある要因や原因は未解明のままである。 本稿では,モデル編集質問の分類による重要な因子探索型について検討する。 本研究は,知識編集における実験設計のための新たな知見を提供するため,様々な質問タイプにおいて,性能劣化の程度が著しく異なることを明らかにした。 さらに、より小さなモデルからの洞察がより大きなモデルに外挿できるかどうかについても検討する。 以上の結果から,より小さなモデルからの洞察が必ずしも大きなモデルに当てはまるとは限らないことが示唆された。 さらに,バッチサイズが副作用に与える影響についても検討し,バッチサイズの増加が性能低下を軽減できることを示した。

Training large language models (LLMs) from scratch is an expensive endeavor, particularly as world knowledge continually evolves. To maintain relevance and accuracy of LLMs, model editing has emerged as a pivotal research area. While these methods hold promise, they can also produce unintended side effects. Their underlying factors and causes remain largely unexplored. This paper delves into a critical factor-question type-by categorizing model editing questions. Our findings reveal that the extent of performance degradation varies significantly across different question types, providing new insights for experimental design in knowledge editing. Furthermore, we investigate whether insights from smaller models can be extrapolated to larger models. Our results indicate discrepancies in findings between models of different sizes, suggesting that insights from smaller models may not necessarily apply to larger models. Additionally, we examine the impact of batch size on side effects, discovering that increasing the batch size can mitigate performance drops.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# シングルオーディオを超えて:オーディオ大言語モデルにおけるマルチオーディオ処理の改善

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models ( http://arxiv.org/abs/2409.18680v1 )

ライセンス: Link先を確認
Yiming Chen, Xianghu Yue, Xiaoxue Gao, Chen Zhang, Luis Fernando D'Haro, Robby T. Tan, Haizhou Li, (参考訳) 近年,複数のオーディオ-LLM (ALLMs) が単一の統一モデルを用いて,複数のオーディオタスクを同時に処理するために研究されている。 ALLMの既存の評価は主に単一オーディオタスクに焦点を当てているが、現実のアプリケーションは複数のオーディオストリームを同時に処理することが多い。 このギャップを埋めるために、音声と音声の両方のシナリオを含む11のマルチオーディオタスクから20のデータセットからなる、最初のマルチオーディオ評価(MAE)ベンチマークを提案する。 MAEに関する総合的な実験では、既存のALLMは個々のオーディオ入力における一次オーディオ要素の解釈に強力でありながら、マルチオーディオシナリオを扱うのに苦労していることが示されている。 この目的のために,提案した合成データに対する識別学習を用いて,複数の類似音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。 その結果,提案したMALLMはすべてのベースラインを上回り,人間のアノテーションを必要とせずに合成データを用いて高いデータ効率を実現することができた。 提案されたMALLMは、マルチオーディオ処理時代へのALLMの扉を開き、機械における人間の聴覚能力の複製に近づきつつある。

Various audio-LLMs (ALLMs) have been explored recently for tackling different audio tasks simultaneously using a single, unified model. While existing evaluations of ALLMs primarily focus on single-audio tasks, real-world applications often involve processing multiple audio streams simultaneously. To bridge this gap, we propose the first multi-audio evaluation (MAE) benchmark that consists of 20 datasets from 11 multi-audio tasks encompassing both speech and sound scenarios. Comprehensive experiments on MAE demonstrate that the existing ALLMs, while being powerful in comprehending primary audio elements in individual audio inputs, struggling to handle multi-audio scenarios. To this end, we propose a novel multi-audio-LLM (MALLM) to capture audio context among multiple similar audios using discriminative learning on our proposed synthetic data. The results demonstrate that the proposed MALLM outperforms all baselines and achieves high data efficiency using synthetic data without requiring human annotations. The proposed MALLM opens the door for ALLMs towards multi-audio processing era and brings us closer to replicating human auditory capabilities in machines.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# 2層畳み込みニューラルネットワークにおけるSimCLR事前学習の有効性の理解

Understanding the Benefits of SimCLR Pre-Training in Two-Layer Convolutional Neural Networks ( http://arxiv.org/abs/2409.18685v1 )

ライセンス: Link先を確認
Han Zhang, Yuan Cao, (参考訳) SimCLRは視覚タスクのための最も一般的なコントラスト学習手法の1つである。 モデルに肯定的なイメージと否定的なイメージのペアを区別するように教えることで、大量のラベルのないデータに基づいて、ディープニューラルネットワークを事前訓練する。 SimCLRは、ディープニューラルネットワークを事前訓練して効率的な表現を学習し、将来の教師付き微調整の性能を向上させることができると信じられている。 その効果にもかかわらず、SimCLRの基盤となるメカニズムに関する理論的理解はまだ限られている。 本稿では,SimCLR方式のケーススタディを理論的に紹介する。 具体的には、おもちゃの画像データモデルを学ぶために、2層畳み込みニューラルネットワーク(CNN)を訓練することを検討する。 ラベル付きデータ数に対する一定の条件下では、教師付き微調整とSimCLR事前学習がほぼ最適なテスト損失をもたらすことを示す。 特に、SimCLR事前トレーニングのラベルの複雑さは、教師付きデータを直接トレーニングするよりもはるかに少ない。 我々の分析は、ラベルの少ない学習におけるSimCLRの利点に光を当てています。

SimCLR is one of the most popular contrastive learning methods for vision tasks. It pre-trains deep neural networks based on a large amount of unlabeled data by teaching the model to distinguish between positive and negative pairs of augmented images. It is believed that SimCLR can pre-train a deep neural network to learn efficient representations that can lead to a better performance of future supervised fine-tuning. Despite its effectiveness, our theoretical understanding of the underlying mechanisms of SimCLR is still limited. In this paper, we theoretically introduce a case study of the SimCLR method. Specifically, we consider training a two-layer convolutional neural network (CNN) to learn a toy image data model. We show that, under certain conditions on the number of labeled data, SimCLR pre-training combined with supervised fine-tuning achieves almost optimal test loss. Notably, the label complexity for SimCLR pre-training is far less demanding compared to direct training on supervised data. Our analysis sheds light on the benefits of SimCLR in learning with fewer labels.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# 検出とセグメンテーションによる低ショットカウントのための新しい統一アーキテクチャ

A Novel Unified Architecture for Low-Shot Counting by Detection and Segmentation ( http://arxiv.org/abs/2409.18686v1 )

ライセンス: Link先を確認
Jer Pelhan, Alan Lukežič, Vitjan Zavrtanik, Matej Kristan, (参考訳) ローショットオブジェクトカウンタは、注釈付き例題をほとんどあるいは全く使用せずに画像内のオブジェクト数を推定する。 オブジェクトはそれらをプロトタイプとマッチングすることでローカライズされ、これは教師なしのイメージワイドオブジェクトの外観アグリゲーションによって構築される。 潜在的に多様なオブジェクトの出現のため、既存のアプローチはしばしば過一般化と偽陽性の検出につながる。 さらに、最良性能の手法は、各オブジェクト中心における単位ガウスを予測する代理損失によるオブジェクトのローカライゼーションを訓練する。 この損失はアノテーションエラーやハイパーパラメータに敏感であり、検出タスクを直接最適化しないため、最適値以下になる。 本稿では,オブジェクト検出,セグメンテーション,カウント推定を統一アーキテクチャで実現する,新しいローショットカウンタであるGeCoを紹介する。 GeCoは、新しい高密度オブジェクトクエリの定式化を通じて、オブジェクトの外観にまたがるプロトタイプを強力に一般化する。 さらに,検出タスクを直接最適化し,標準サロゲート損失の問題を回避し,新たなカウント損失を提案する。 GeCoは、全カウントMAEにおいて$\sim$25\%の差で主要な数ショット検出ベースのカウンタを上回り、優れた検出精度を達成し、すべてのローショットカウント設定に対して、新たなソリッド・オブ・ザ・アーティヴな結果を設定する。

Low-shot object counters estimate the number of objects in an image using few or no annotated exemplars. Objects are localized by matching them to prototypes, which are constructed by unsupervised image-wide object appearance aggregation. Due to potentially diverse object appearances, the existing approaches often lead to overgeneralization and false positive detections. Furthermore, the best-performing methods train object localization by a surrogate loss, that predicts a unit Gaussian at each object center. This loss is sensitive to annotation error, hyperparameters and does not directly optimize the detection task, leading to suboptimal counts. We introduce GeCo, a novel low-shot counter that achieves accurate object detection, segmentation, and count estimation in a unified architecture. GeCo robustly generalizes the prototypes across objects appearances through a novel dense object query formulation. In addition, a novel counting loss is proposed, that directly optimizes the detection task and avoids the issues of the standard surrogate loss. GeCo surpasses the leading few-shot detection-based counters by $\sim$25\% in the total count MAE, achieves superior detection accuracy and sets a new solid state-of-the-art result across all low-shot counting setups.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# 実用的量子メモリのためのフォールトトレラントな信念伝播

Fault-Tolerant Belief Propagation for Practical Quantum Memory ( http://arxiv.org/abs/2409.18689v1 )

ライセンス: Link先を確認
Kao-Yueh Kuo, Ching-Yi Lai, (参考訳) 物理量子ビットはノイズの影響を受けやすいため、信頼性の高い量子メモリに対するフォールトトレラントなアプローチはスケーラブルな量子コンピューティングに不可欠である。 量子誤り訂正(QEC)は、記憶寿命を延ばすために連続的に行う必要がある。 QECでは、エラーシンドロームは数個の量子ゲートの実行時間内で急速に生成され、デコーダがこのエラーデータを同じ速度で処理する必要がある。 典型的なQECサイクルは、複数の症候群測定ラウンドを伴い、コードサイズと測定ラウンド数に応じて潜在的なエラー位置が急速にスケールする。 しかしながら、一般的な量子低密度パリティチェック符号にはそのようなデコーダは存在しない。 本稿では,複数ラウンドのシンドローム抽出と混合アルファベット誤差変数を用いた時空間タナーグラフを用いたFTBPデコーダを提案する。 FTBPを向上させるために,縮退効果と短周期を緩和する確率的誤差統合手法を提案する。 さらに、ウィンドウ境界を越えて長いエラーイベントをキャプチャし、デコードをリアルタイムで調整する適応型スライディングウインドウプロシージャを提案する。 本シミュレーションでは, トリック回転, トリック色, ツイストXZXトリックコードを含むトポロジカルコード群に対して, 0.4%-0.87%のエラー閾値と強いエラーフロア性能を示す。

A fault-tolerant approach to reliable quantum memory is essential for scalable quantum computing, as physical qubits are susceptible to noise. Quantum error correction (QEC) must be continuously performed to prolong the memory lifetime. In QEC, error syndromes are generated rapidly, often within the execution time of a few quantum gates, requiring decoders to process this error data with equal speed. A typical QEC cycle involves multiple rounds of syndrome measurements, causing potential error locations to scale rapidly with the code size and the number of measurement rounds. However, no such decoders currently exist for general quantum low-density parity-check codes. In this paper, we propose a fault-tolerant belief propagation (FTBP) decoder that utilizes a space-time Tanner graph across multiple rounds of syndrome extraction with mixed-alphabet error variables. To enhance FTBP, we introduce a technique of probabilistic error consolidation to mitigate degeneracy effects and short cycles. Additionally, we propose an adaptive sliding window procedure that captures long error events across window boundaries and adjusts the decoding in real time. Our simulations demonstrate high error thresholds of 0.4%-0.87% and strong error-floor performance for topological code families, including rotated toric, toric color, and twisted XZZX toric codes.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# MG-Net:回路深度認識によるQAOAのカスタマイズを学ぶ

MG-Net: Learn to Customize QAOA with Circuit Depth Awareness ( http://arxiv.org/abs/2409.18692v1 )

ライセンス: Link先を確認
Yang Qian, Xinbiao Wang, Yuxuan Du, Yong Luo, Dacheng Tao, (参考訳) 量子近似最適化アルゴリズム(QAOA)とその変種は組合せ最適化問題に対処する大きな可能性を示している。 しかし、それらの実用的実現はジレンマに直面する: 満足な性能に必要な回路深度は問題固有であり、しばしば現在の量子デバイスの最大容量を超える。 このジレンマに対処するために、まずQAOAの収束挙動を分析し、このジレンマの起源を明らかにし、使用済みミキサーハミルトニアンと手前の特定の問題、許容可能な最大回路深さとの間の複雑な関係を解明する。 そこで我々は,Mixer Generator Network (MG-Net)を紹介した。これは,異なるタスクや回路深度に合わせた最適ミキサー・ハミルトニアンを動的に定式化するための統合ディープラーニングフレームワークである。 イジングモデルと最大64量子ビットの重み付きMax-Cutインスタンスを包含したシステマティックシミュレーションでは,近似比と効率の両面でMG-Netの優れた性能を強調した。

Quantum Approximate Optimization Algorithm (QAOA) and its variants exhibit immense potential in tackling combinatorial optimization challenges. However, their practical realization confronts a dilemma: the requisite circuit depth for satisfactory performance is problem-specific and often exceeds the maximum capability of current quantum devices. To address this dilemma, here we first analyze the convergence behavior of QAOA, uncovering the origins of this dilemma and elucidating the intricate relationship between the employed mixer Hamiltonian, the specific problem at hand, and the permissible maximum circuit depth. Harnessing this understanding, we introduce the Mixer Generator Network (MG-Net), a unified deep learning framework adept at dynamically formulating optimal mixer Hamiltonians tailored to distinct tasks and circuit depths. Systematic simulations, encompassing Ising models and weighted Max-Cut instances with up to 64 qubits, substantiate our theoretical findings, highlighting MG-Net's superior performance in terms of both approximation ratio and efficiency.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# パターン補完から学ぶ:自己教師型制御可能生成

Learning from Pattern Completion: Self-supervised Controllable Generation ( http://arxiv.org/abs/2409.18694v1 )

ライセンス: Link先を確認
Zhiqiang Chen, Guofan Fan, Jinying Gao, Lei Ma, Bo Lei, Tiejun Huang, Shan Yu, (参考訳) 人間の脳は、スケッチや落書きと現実世界の視覚オブジェクトを関連付けるなど、同じまたは類似した視覚シーンの異なる視覚特性を自然に関連付ける能力を持っている。 対照的に、人工知能の分野では、コントロールネットのような制御可能な生成方法は、深度マップやセマンティックセグメンテーションマップ、ポーズといった注釈付きトレーニングデータセットに大きく依存しており、メソッドのスケーラビリティを制限している。 脳の結合力、特に大脳皮質のモジュラー化と海馬のパターンの完成に寄与する神経機構に触発された本研究では、自己制御制御可能生成(SCG)フレームワークを提案する。 まず,モジュール間独立性とモジュール間相関をモジュール間オートエンコーダネットワークで促進する等変制約を導入し,機能的特殊化を実現する。 その後、これらの特殊なモジュールに基づいて、制御可能な生成訓練に自己教師付きパターン補完アプローチを採用する。 実験結果から,色,明るさ,エッジ検出などの機能的特殊化を効果的に実現し,配向選択性,色アンタゴニティ,中心周囲受容野などの脳様特徴を呈することがわかった。 自己指導による学習を通じて、SCGに自然に連想生成能力が出現し、絵画、スケッチ、古代の落書きにおける連想生成などの様々なタスクに優れた一般化能力を示す。 従来の代表的手法であるコントロールネットと比較して,提案手法はより難易度の高い高雑音シナリオにおいて優れたロバスト性を示すだけでなく,自己管理的な手法により,より有望なスケーラビリティの可能性を秘めている。

The human brain exhibits a strong ability to spontaneously associate different visual attributes of the same or similar visual scene, such as associating sketches and graffiti with real-world visual objects, usually without supervising information. In contrast, in the field of artificial intelligence, controllable generation methods like ControlNet heavily rely on annotated training datasets such as depth maps, semantic segmentation maps, and poses, which limits the method's scalability. Inspired by the neural mechanisms that may contribute to the brain's associative power, specifically the cortical modularization and hippocampal pattern completion, here we propose a self-supervised controllable generation (SCG) framework. Firstly, we introduce an equivariant constraint to promote inter-module independence and intra-module correlation in a modular autoencoder network, thereby achieving functional specialization. Subsequently, based on these specialized modules, we employ a self-supervised pattern completion approach for controllable generation training. Experimental results demonstrate that the proposed modular autoencoder effectively achieves functional specialization, including the modular processing of color, brightness, and edge detection, and exhibits brain-like features including orientation selectivity, color antagonism, and center-surround receptive fields. Through self-supervised training, associative generation capabilities spontaneously emerge in SCG, demonstrating excellent generalization ability to various tasks such as associative generation on painting, sketches, and ancient graffiti. Compared to the previous representative method ControlNet, our proposed approach not only demonstrates superior robustness in more challenging high-noise scenarios but also possesses more promising scalability potential due to its self-supervised manner.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# KALE-LM:知識と論理の強化された大規模モデルによる科学のためのAIの力を解き放つ

KALE-LM: Unleash The Power Of AI For Science Via Knowledge And Logic Enhanced Large Model ( http://arxiv.org/abs/2409.18695v1 )

ライセンス: Link先を確認
Weichen Dai, Yezeng Chen, Zijie Dai, Zhijie Huang, Yubo Liu, Yixuan Pan, Baiyang Song, Chengli Zhong, Xinhe Li, Zeyu Wang, Zhuoying Feng, Yi Zhou, (参考訳) 人工知能はその大きな可能性を徐々に示しており、科学研究を進めるためにAIをどのように活用できるかに注目が集まっている。 本稿では,AIが科学的調査をいかに支援し,それに対応する技術的アプローチを探求できるかを考察する。 Llama3-KALE-LM-Chem-8Bは化学分野のタスクにおいて優れた性能を発揮したモデルである。 私たちの仕事は強力な出発点として機能し、よりインテリジェントなAIを実現し、人間の科学と技術の進歩を促進し、社会的発展を促進することを願っています。

Artificial intelligence is gradually demonstrating its immense potential, and increasing attention is being given to how AI can be harnessed to advance scientific research. In this vision paper, we present our perspectives on how AI can better assist scientific inquiry and explore corresponding technical approach. We have proposed and open-sourced a large model of our KALE-LM model series, Llama3-KALE-LM-Chem-8B, which has achieved outstanding performance in tasks related to the field of chemistry. We hope that our work serves as a strong starting point, helping to realize more intelligent AI and promoting the advancement of human science and technology, as well as societal development.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# 3DPX : 3次元口腔構造再構築によるパノラマX線解析

3DPX: Single Panoramic X-ray Analysis Guided by 3D Oral Structure Reconstruction ( http://arxiv.org/abs/2409.18701v1 )

ライセンス: Link先を確認
Xiaoshuang Li, Zimo Huang, Mingyuan Meng, Eduardo Delamare, Dagan Feng, Lei Bi, Bin Sheng, Lingyong Jiang, Bo Li, Jinman Kim, (参考訳) パノラマX線(パノラマX線、英: Panoramic X-ray、PX)は、歯学の実践において、広範囲の可用性と低コストのため一般的なモダリティである。 しかし、3次元構造の2次元投影として、PXは解剖学的情報損失に悩まされ、PX診断は3次元画像モダリティと比較して制限される。 PX画像解析に使用する2次元PXから欠落した3次元解剖情報を合成する2D-to-3D再構成法が検討されている。 しかし、このような3D合成復元の活用には課題がある。 まず,2次元画像から3次元深度を推定することは,精度の低い課題である。 第2の課題は、合成画像から発生する誤差を最小限に抑えながら、2D-3Dのシナジーを最大化することを目的として、3D合成画像と2D PXの合同分析である。 本研究では,2次元から3次元の再構成で導かれる3DPX-PX画像解析手法を提案する。 3DPX は (i)2次元から3次元への再構成を改善する新しいプログレッシブ・リコンストラクション・ネットワーク (II)3次元誘導型2次元PX分類とセグメンテーションタスクのためのコントラスト誘導双方向多目的アライメントモジュール。 再構成ネットワークは、複数のピラミッドレベルで中間再構成に課される知識で段階的に3D画像を再構成し、意味理解を改善するために多層パーセプトロンを組み込んだ。 下流ネットワークは、再構成された画像を特徴アライメントによるPX解析のための3次元解剖学的ガイダンスとして活用し、双方向の特徴投影による2D-3D相乗効果を高め、対照的なガイダンスによる潜在的なエラーの影響を減少させる。 464研究を含む2つの口腔データセットの大規模な実験により、3DPXは2D-to-3D再構成、PX分類、病変分割など様々なタスクにおいて最先端の手法より優れていることが示された。

Panoramic X-ray (PX) is a prevalent modality in dentistry practice owing to its wide availability and low cost. However, as a 2D projection of a 3D structure, PX suffers from anatomical information loss and PX diagnosis is limited compared to that with 3D imaging modalities. 2D-to-3D reconstruction methods have been explored for the ability to synthesize the absent 3D anatomical information from 2D PX for use in PX image analysis. However, there are challenges in leveraging such 3D synthesized reconstructions. First, inferring 3D depth from 2D images remains a challenging task with limited accuracy. The second challenge is the joint analysis of 2D PX with its 3D synthesized counterpart, with the aim to maximize the 2D-3D synergy while minimizing the errors arising from the synthesized image. In this study, we propose a new method termed 3DPX - PX image analysis guided by 2D-to-3D reconstruction, to overcome these challenges. 3DPX consists of (i) a novel progressive reconstruction network to improve 2D-to-3D reconstruction and, (ii) a contrastive-guided bidirectional multimodality alignment module for 3D-guided 2D PX classification and segmentation tasks. The reconstruction network progressively reconstructs 3D images with knowledge imposed on the intermediate reconstructions at multiple pyramid levels and incorporates Multilayer Perceptrons to improve semantic understanding. The downstream networks leverage the reconstructed images as 3D anatomical guidance to the PX analysis through feature alignment, which increases the 2D-3D synergy with bidirectional feature projection and decease the impact of potential errors with contrastive guidance. Extensive experiments on two oral datasets involving 464 studies demonstrate that 3DPX outperforms the state-of-the-art methods in various tasks including 2D-to-3D reconstruction, PX classification and lesion segmentation.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# モデル駆動セマンティック通信のためのセマンティックモデルコンポーネントの実装

Semantic Model Component Implementation for Model-driven Semantic Communications ( http://arxiv.org/abs/2409.18704v1 )

ライセンス: Link先を確認
Haotai Liang, Mengran Shi, Chen Dong, Xiaodong Xu, Long Liu, Hao Chen, (参考訳) モデル駆動セマンティックコミュニケーションの重要な特徴は、モデルの伝播である。 セマンティックモデルコンポーネント(SMC)は、知的モデルを物理的チャネルで送信し、インテリジェンスがネットワークを流れるように設計されている。 本稿では、共通モデルパラメータと個別モデルパラメータを持つニューラルネットワークの特性に基づいて、クロスソースドメインとクロスタスクセマンティックコンポーネントモデルを設計する。 基本モデルがエッジノードにデプロイされていることを考慮すれば、エッジノードはエッジノードに意味コンポーネントモデルのみを送信することで、エッジノードが異なるソースと異なるタスクを処理できるようにエッジノードを更新する。 また, チャネルノイズがモデルの性能に与える影響についても検討し, モデルの耐雑音性を改善するため, インジェクションノイズと正規化法を提案する。 実験により、SMCはより小さなモデルパラメータを使用して、性能を維持し、ノイズ耐性を改善しながら、クロスソース、クロスタスク機能を実現する。 最後に, 実運用におけるモデルコンポーネントの実現可能性を検証するために, 部品移動に基づく無人車両追跡プロトタイプを実装した。

The key feature of model-driven semantic communication is the propagation of the model. The semantic model component (SMC) is designed to drive the intelligent model to transmit in the physical channel, allowing the intelligence to flow through the networks. According to the characteristics of neural networks with common and individual model parameters, this paper designs the cross-source-domain and cross-task semantic component model. Considering that the basic model is deployed on the edge node, the large server node updates the edge node by transmitting only the semantic component model to the edge node so that the edge node can handle different sources and different tasks. In addition, this paper also discusses how channel noise affects the performance of the model and proposes methods of injection noise and regularization to improve the noise resistance of the model. Experiments show that SMCs use smaller model parameters to achieve cross-source, cross-task functionality while maintaining performance and improving the model's tolerance to noise. Finally, a component transfer-based unmanned vehicle tracking prototype was implemented to verify the feasibility of model components in practical applications.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# 音声ブースティング:TWSイヤホンの低レイテンシライブ音声強調

Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds ( http://arxiv.org/abs/2409.18705v1 )

ライセンス: Link先を確認
Hanbin Bae, Pavel Andreev, Azat Saginbaev, Nicholas Babaev, Won-Jun Lee, Hosang Sung, Hoon-Young Cho, (参考訳) 本稿では,デバイス上での真の無線ステレオ(TWS)イヤホンに適した音声強調ソリューションを提案する。 このソリューションは、ノイズキャンセリング(ANC)を有効にして、ノイズの多い環境での会話をサポートするように設計されている。 この文脈における音声強調モデルの主な課題は、デバイス上での使用を制限する計算複雑性と、ライブ会話を保存するために3ミリ秒未満でなければならないレイテンシである。 これらの課題に対処するため、ネットワークアーキテクチャとドメイン、損失関数の設計、プルーニング法、ハードウェア固有の最適化など、いくつかの重要な設計要素を評価した。 その結果、ベースラインモデルと比較して音声強調品質が大幅に向上し、同時に計算複雑性とアルゴリズム遅延を低減した。

This paper introduces a speech enhancement solution tailored for true wireless stereo (TWS) earbuds on-device usage. The solution was specifically designed to support conversations in noisy environments, with active noise cancellation (ANC) activated. The primary challenges for speech enhancement models in this context arise from computational complexity that limits on-device usage and latency that must be less than 3 ms to preserve a live conversation. To address these issues, we evaluated several crucial design elements, including the network architecture and domain, design of loss functions, pruning method, and hardware-specific optimization. Consequently, we demonstrated substantial improvements in speech enhancement quality compared with that in baseline models, while simultaneously reducing the computational complexity and algorithmic latency.
翻訳日:2024-10-01 16:10:18 公開日:2024-09-27
# 光異性化における振動構造の役割の量子資源理論による解析

Quantum resource-theoretical analysis of the role of vibrational structure in photoisomerization ( http://arxiv.org/abs/2409.18710v1 )

ライセンス: Link先を確認
Siddharth Tiwary, Giovanni Spaventa, Susana F. Huelga, Martin B. Plenio, (参考訳) ナノスケールの熱力学系、例えば単一の分子は高度に構造化された振動環境と相互作用し、通常は精密な微視的な記述を欠く非平衡物理過程を経る。 光異性化は、量子資源理論の観点から単一分子超高速光化学過程を研究するためのプラットフォームとして登場した例である。 しかし、その効率の上限は、資源-理論的処理の数学を管理可能にする重要な単純化の下でのみ得られている。 ここでは、全振動構造を維持しながら、光異性体の以前のモデルを一般化し、熱異性化の効率に関する解析的境界を得る。 このような振動構造が最適光異性化量子収率に与える影響を、振動座標がそれ自身のダイナミクスを持たない場合と振動ダイナミクスを考慮した場合の両方で定量化する。 この研究は、量子資源理論の抽象言語とナノスケールプロセスのオープンシステムの定式化の間のギャップを埋める方法の例である。

Thermodynamical systems at the nanoscale, such as single molecules interacting with highly structured vibrational environments, typically undergo non-equilibrium physical processes that lack precise microscopic descriptions. Photoisomerization is such an example which has emerged as a platform on which to study single-molecule ultrafast photochemical processes from a quantum resource theoretic perspective. However, upper bounds on its efficiency have only been obtained under significant simplifications that make the mathematics of the resource-theoretical treatment manageable. Here we generalize previous models for the photoisomers, while retaining the full vibrational structure, and still get analytical bounds on the efficiency of hotoisomerization. We quantify the impact of such vibrational structure on the optimal photoisomerization quantum yield both when the vibrational coordinate has no dynamics of its own and when we take into account the vibrational dynamics. This work serves as an example of how to bridge the gap between the abstract language of quantum resource theories and the open system formulation of nanoscale processes.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 非小細胞肺癌分類のためのマルチモーダル医用画像融合法

Multi-modal Medical Image Fusion For Non-Small Cell Lung Cancer Classification ( http://arxiv.org/abs/2409.18715v1 )

ライセンス: Link先を確認
Salma Hassan, Hamad Al Hammadi, Ibrahim Mohammed, Muhammad Haris Khan, (参考訳) 非小細胞肺癌(NSCLC)の早期発見と核種分類は、世界中のがん死亡の主な原因であり、重要かつ複雑な問題である。 本稿では, 融合医療画像(CT, PET)と臨床健康記録, ゲノムデータとを合成する, マルチモーダルデータの革新的な統合について紹介する。 このユニークな融合手法は、高度な画像特徴抽出のために高度な機械学習モデル、特にMedClipとBEiTを活用し、計算オンコロジーの新しい標準を設定している。 NSCLCの検出と分類精度の大幅な向上により,本研究は既存のアプローチを超越している。 結果は、精度、精度、リコール、F1スコアなど、主要なパフォーマンス指標にまたがる顕著な改善を示している。 具体的には、主要なマルチモーダル分類器モデルでは94.04%の精度が記録されている。 われわれは,NSCLC診断に転換し,早期発見と治療計画の効率化を図り,最終的には肺癌治療において患者に優れた結果をもたらす可能性があると考えている。

The early detection and nuanced subtype classification of non-small cell lung cancer (NSCLC), a predominant cause of cancer mortality worldwide, is a critical and complex issue. In this paper, we introduce an innovative integration of multi-modal data, synthesizing fused medical imaging (CT and PET scans) with clinical health records and genomic data. This unique fusion methodology leverages advanced machine learning models, notably MedClip and BEiT, for sophisticated image feature extraction, setting a new standard in computational oncology. Our research surpasses existing approaches, as evidenced by a substantial enhancement in NSCLC detection and classification precision. The results showcase notable improvements across key performance metrics, including accuracy, precision, recall, and F1-score. Specifically, our leading multi-modal classifier model records an impressive accuracy of 94.04%. We believe that our approach has the potential to transform NSCLC diagnostics, facilitating earlier detection and more effective treatment planning and, ultimately, leading to superior patient outcomes in lung cancer care.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 6G衛星ネットワークにおけるスペクトル効率の向上:非同期フェデレーション逆強化学習によるGAILによる政策学習

Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning ( http://arxiv.org/abs/2409.18718v1 )

ライセンス: Link先を確認
Sheikh Salman Hassan, Yu Min Park, Yan Kyaw Tun, Walid Saad, Zhu Han, Choong Seon Hong, (参考訳) 本稿では,NTNにおけるビームフォーミング,スペクトルアロケーション,リモートユーザ機器アソシエーション(RUE)を最適化するために,GAILを利用した新しいポリシー学習手法を提案する。 無線ネットワーク最適化のための従来の強化学習(RL)法は、しばしば手動で設計された報酬関数に依存しており、広範囲なパラメータチューニングを必要とする。 これらの制限を克服するために,GAILフレームワークを特に活用した逆RL(IRL)を用いて,手動設計なしで報酬関数を自動的に学習する。 我々はこのフレームワークを非同期なフェデレート学習アプローチで強化し、分散化されたマルチサテライトシステムが協調して最適なポリシーを導出できるようにする。 提案手法は,RUEの最小情報レート要件を満たしつつ,スペクトル効率(SE)を最大化することを目的としている。 この問題の非凸、NP-ハードの性質に対処するため、マルチエージェント非同期フェデレーションIRL(MA-AFIRL)フレームワークと多対一マッチング理論を組み合わせる。 これによりエージェントは非同期な環境相互作用を通じて学習し、トレーニング効率とスケーラビリティを向上させることができる。 エキスパートポリシーは Whale Optimization Algorithm (WOA) を用いて生成され、GAIL内の自動報酬関数をトレーニングするためのデータを提供する。 シミュレーションの結果,MA-AFIRL法は従来のRL法よりも優れており,コンバージェンスと報酬値が14.6.%向上した。 GAILによるポリシー学習は,6G NTN最適化のための新しいベンチマークを確立する。

In this paper, a novel generative adversarial imitation learning (GAIL)-powered policy learning approach is proposed for optimizing beamforming, spectrum allocation, and remote user equipment (RUE) association in NTNs. Traditional reinforcement learning (RL) methods for wireless network optimization often rely on manually designed reward functions, which can require extensive parameter tuning. To overcome these limitations, we employ inverse RL (IRL), specifically leveraging the GAIL framework, to automatically learn reward functions without manual design. We augment this framework with an asynchronous federated learning approach, enabling decentralized multi-satellite systems to collaboratively derive optimal policies. The proposed method aims to maximize spectrum efficiency (SE) while meeting minimum information rate requirements for RUEs. To address the non-convex, NP-hard nature of this problem, we combine the many-to-one matching theory with a multi-agent asynchronous federated IRL (MA-AFIRL) framework. This allows agents to learn through asynchronous environmental interactions, improving training efficiency and scalability. The expert policy is generated using the Whale optimization algorithm (WOA), providing data to train the automatic reward function within GAIL. Simulation results show that the proposed MA-AFIRL method outperforms traditional RL approaches, achieving a $14.6\%$ improvement in convergence and reward value. The novel GAIL-driven policy learning establishes a novel benchmark for 6G NTN optimization.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 大規模項目カタログを用いたシーケンスレコメンデーションのためのスケーラブルなクロスエントロピー損失

Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs ( http://arxiv.org/abs/2409.18721v1 )

ライセンス: Link先を確認
Gleb Mezentsev, Danil Gusak, Ivan Oseledets, Evgeny Frolov, (参考訳) スケーラビリティの問題は、現代のレコメンデータシステムを生産する上で重要な役割を担います。 軽量アーキテクチャでさえ、中間計算による高い計算過負荷に悩まされ、現実のアプリケーションでは実用性が制限される。 具体的には、完全なクロスエントロピー(CE)損失を適用すると、推奨品質の面で最先端のパフォーマンスが得られることが多い。 それでも、大きなアイテムカタログを扱う場合、GPUメモリの過剰使用に悩まされる。 本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。 大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。 従来のネガティブサンプリング手法とは異なり,本手法では選択的なGPU効率計算手法を用いて,特に偽陽性である可能性が最も高いカタログの最も情報性の高い要素に着目した。 これは、モデルのサブセット上でのソフトマックス分布を最大内部積探索によって近似することで達成される。 複数のデータセットに対する実験結果から、SCEのピークメモリ使用率を最大100倍に削減し、メトリクス値を維持したり、あるいは超えたりすることで、SCEの有効性を示す。 提案手法はまた,大規模言語モデルなど,さまざまな領域における大規模開発に対する新たな視点を開放する。

Scalability issue plays a crucial role in productionizing modern recommender systems. Even lightweight architectures may suffer from high computational overload due to intermediate calculations, limiting their practicality in real-world applications. Specifically, applying full Cross-Entropy (CE) loss often yields state-of-the-art performance in terms of recommendations quality. Still, it suffers from excessive GPU memory utilization when dealing with large item catalogs. This paper introduces a novel Scalable Cross-Entropy (SCE) loss function in the sequential learning setup. It approximates the CE loss for datasets with large-size catalogs, enhancing both time efficiency and memory usage without compromising recommendations quality. Unlike traditional negative sampling methods, our approach utilizes a selective GPU-efficient computation strategy, focusing on the most informative elements of the catalog, particularly those most likely to be false positives. This is achieved by approximating the softmax distribution over a subset of the model outputs through the maximum inner product search. Experimental results on multiple datasets demonstrate the effectiveness of SCE in reducing peak memory usage by a factor of up to 100 compared to the alternatives, retaining or even exceeding their metrics values. The proposed approach also opens new perspectives for large-scale developments in different domains, such as large language models.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# キーワードパターンを用いたクロスドメインキーワード抽出

Cross-Domain Keyword Extraction with Keyness Patterns ( http://arxiv.org/abs/2409.18724v1 )

ライセンス: Link先を確認
Dongmei Zhou, Xuri Tang, (参考訳) ドメイン依存とアノテーションの主観性は、教師付きキーワード抽出の課題を提起する。 本稿では,コミュニティレベルでの2次キーネスパターンの存在を前提として,注釈付きキーワード抽出データセットから学習可能なキーワード抽出手法を提案する。 このアプローチでは、2つの畳み込みニューラルネットワークベースのモデルを使用して、キーワードデータセットからキーネスパターンを学習し、ブートストラップサンプリング戦略を用いて2つのモデルをトレーニングすることで、アノテーションの主観性を克服する。 実験により,提案手法は,平均トップ10-F尺度0.316の一般教師付きキーワード抽出における10のキーワードデータセットに対して,最先端のパフォーマンスを達成するだけでなく,トレーニングプロセスで除外された4つのデータセットに対して平均トップ10-F尺度0.346の堅牢なクロスドメイン性能を実現することを示した。 このようなドメイン間のロバスト性は、コミュニティレベルのキーネスパターンが言語ドメインに限定され、時間的に独立しているという事実、独立した特徴と依存する特徴の区別、過剰なリスクと負のトレーニングデータの欠如のバランスをとるサンプリングトレーニング戦略に起因する。

Domain dependence and annotation subjectivity pose challenges for supervised keyword extraction. Based on the premises that second-order keyness patterns are existent at the community level and learnable from annotated keyword extraction datasets, this paper proposes a supervised ranking approach to keyword extraction that ranks keywords with keyness patterns consisting of independent features (such as sublanguage domain and term length) and three categories of dependent features -- heuristic features, specificity features, and representavity features. The approach uses two convolutional-neural-network based models to learn keyness patterns from keyword datasets and overcomes annotation subjectivity by training the two models with bootstrap sampling strategy. Experiments demonstrate that the approach not only achieves state-of-the-art performance on ten keyword datasets in general supervised keyword extraction with an average top-10-F-measure of 0.316 , but also robust cross-domain performance with an average top-10-F-measure of 0.346 on four datasets that are excluded in the training process. Such cross-domain robustness is attributed to the fact that community-level keyness patterns are limited in number and temperately independent of language domains, the distinction between independent features and dependent features, and the sampling training strategy that balances excess risk and lack of negative training data.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 状態変換による真の三部体の絡み合いの定量化

Quantifying genuine tripartite entanglement by reshaping the state ( http://arxiv.org/abs/2409.18727v1 )

ライセンス: Link先を確認
Dong-Dong Dong, Li-Juan Li, Xue-Ke Song, Liu Ye, Dong Wang, (参考訳) 1つの量子資源である真の多部絡み合い(GME)は、量子情報処理には不可欠であるが、既存の測度のほとんどは、GMEを忠実に検出することはできない。 本稿では,2つの単一キュービットサブシステム間の絡み合いを,残りのキュービットを追跡せずに特徴付けるペアワイズ・コンカレンス(MPC)を導入することで,新たなGME尺度を提案する。 縮小されたサブシステムの絡み合いと3本の絡み合いを組み合わせることで、対の絡み合いを得ることができる。 既存の測度と比較すると、MPC測度は以前の測度よりも多くの点で優れている。 したがって、その微細な性質から、MPCは潜在的な量子タスクを達成するための優れた候補の1つであり、またGMEの理解を促進することができると考えられる。

Although genuine multipartite entanglement (GME), as one quantum resource, is indispensable in quantum information processing, most of the existing measures cannot detect GME faithfully. In this paper, we present a novel GME measure, namely the minimum pairwise concurrence (MPC), by introducing pairwise entanglement, which characters the entanglement between two single-qubit subsystems of a multipartite system without tracing out the remaining qubit. The pairwise entanglement can be obtained by combining the entanglement of reduced subsystem and three-tangle. Compared with the existing measures, the MPC measure outperforms the previous ones in many aspects. Due to its fine properties, it thus is believed that the MPC could be one of good candidates in achieving potential quantum tasks and also facilitate the understanding for GME.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 指紋記憶における学習型画像コーデックの有効性

Effectiveness of learning-based image codecs on fingerprint storage ( http://arxiv.org/abs/2409.18730v1 )

ライセンス: Link先を確認
Daniele Mari, Saverio Cavasin, Simone Milani, Mauro Conti, (参考訳) 学習ベースのコーディング技術の成功とJPEG-AIのような学習ベースの画像コーディング標準の開発は、指紋などの生体データの保存など、さまざまな分野でそのようなソリューションを採用することを指している。 しかし、学習に基づく圧縮アーティファクトの特異な性質は、バイオメトリックの特徴やランドマークを抽出する上での影響と有効性に関していくつかの問題を引き起こしている。 この問題は、ほとんどのモデルが通常の生体画像、例えば指紋や虹彩画像と非常に異なる特徴を持つ自然色画像に基づいて訓練されているという事実によって、完全に強調されている。 実際、これらの問題は正確に疑問視され、調査されていると考えられており、そのような分析はいまだに未解明である。 本研究は,指紋画像の保存における学習ベース画像コーデックの適応性に関する最初の研究である。 実験結果によると、一定の速度で学習された解は、JPEG2000のような従来の指紋符号化基準よりも、歪みや微妙な保存の点でかなり優れていた。 実際、実験の結果、学習された圧縮アーティファクトの特異性は、自動的な指紋識別を防げないこと(ミツイアの種類や位置が著しく変化しない)や、人間の視覚検査のための妥協画像の品質(それぞれ47.8%と+3.97dBのBDレートとPSNRで得られる)が証明された。

The success of learning-based coding techniques and the development of learning-based image coding standards, such as JPEG-AI, point towards the adoption of such solutions in different fields, including the storage of biometric data, like fingerprints. However, the peculiar nature of learning-based compression artifacts poses several issues concerning their impact and effectiveness on extracting biometric features and landmarks, e.g., minutiae. This problem is utterly stressed by the fact that most models are trained on natural color images, whose characteristics are very different from usual biometric images, e.g, fingerprint or iris pictures. As a matter of fact, these issues are deemed to be accurately questioned and investigated, being such analysis still largely unexplored. This study represents the first investigation about the adaptability of learning-based image codecs in the storage of fingerprint images by measuring its impact on the extraction and characterization of minutiae. Experimental results show that at a fixed rate point, learned solutions considerably outperform previous fingerprint coding standards, like JPEG2000, both in terms of distortion and minutiae preservation. Indeed, experimental results prove that the peculiarities of learned compression artifacts do not prevent automatic fingerprint identification (since minutiae types and locations are not significantly altered), nor do compromise image quality for human visual inspection (as they gain in terms of BD rate and PSNR of 47.8% and +3.97dB respectively).
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 一般空間ブラリング下におけるハイパースペクトル画像超解像の一般的なテンソル定式化

A Generalized Tensor Formulation for Hyperspectral Image Super-Resolution Under General Spatial Blurring ( http://arxiv.org/abs/2409.18731v1 )

ライセンス: Link先を確認
Yinjian Wang, Wei Li, Yuanyuan Gui, Qian Du, James E. Fowler, (参考訳) ハイパースペクトル超解像は、高空間分解能のマルチスペクトル像と低空間分解能のハイパースペクトル像を融合させることで一般的に達成され、この課題に対する多くのテンソルベースアプローチが近年提案されている。 しかし、そのようなテンソルベース手法では、所望の超解像から観察された超スペクトル画像を生成する空間ブルーリング動作が、独立して水平および垂直のぼかしに分離可能であると仮定する。 最近の研究は、このような分離可能な空間劣化は、例えば異方性ぼけを示すような実際のセンサーの動作をモデル化するために不必要であると主張している。 この事実に対応するために、Kronecker分解に基づく一般化テンソル定式化が提案され、これまでに仮定されたような分離性を持たないものを含む、一般的な空間劣化行列を扱うことができる。 一般化された定式化の解析により、所望の超解像の正確な回復が保証される条件を明らかにし、ブロックワイズグループスパーシティ正規化によって駆動されるそのような回復のための実用的なアルゴリズムを提案する。 一般化テンソル法は, 従来の行列法だけでなく, 最先端テンソル法よりも優れており, 後者に対する利得は, 異方性空間的ぼかしの場合に特に顕著である。

Hyperspectral super-resolution is commonly accomplished by the fusing of a hyperspectral imaging of low spatial resolution with a multispectral image of high spatial resolution, and many tensor-based approaches to this task have been recently proposed. Yet, it is assumed in such tensor-based methods that the spatial-blurring operation that creates the observed hyperspectral image from the desired super-resolved image is separable into independent horizontal and vertical blurring. Recent work has argued that such separable spatial degradation is ill-equipped to model the operation of real sensors which may exhibit, for example, anisotropic blurring. To accommodate this fact, a generalized tensor formulation based on a Kronecker decomposition is proposed to handle any general spatial-degradation matrix, including those that are not separable as previously assumed. Analysis of the generalized formulation reveals conditions under which exact recovery of the desired super-resolved image is guaranteed, and a practical algorithm for such recovery, driven by a blockwise-group-sparsity regularization, is proposed. Extensive experimental results demonstrate that the proposed generalized tensor approach outperforms not only traditional matrix-based techniques but also state-of-the-art tensor-based methods; the gains with respect to the latter are especially significant in cases of anisotropic spatial blurring.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# リアルタイムDEVSにおける定量的時間特性の検証

Verification of Quantitative Temporal Properties in RealTime-DEVS ( http://arxiv.org/abs/2409.18732v1 )

ライセンス: Link先を確認
Ariel González, Maximiliano Cristiá, Carlos Luna, (参考訳) Real-Time DEVS (RT-DEVS) は、定量的な時間的要求を持つシステムをモデル化することができる。 そのようなモデルがいくつかの時間的特性を検証するためには、シミュレーション以上のものを使用する必要がある。 本研究では,RT-DEVSモデルで繰り返し発生する定量的時間特性のクラスを検証するために,モデルチェッカーUppaalを使用する。 次に、定量的時間特性に突然変異を導入することで、RT-DEVSモデルとその実装にエラーを見つけることができる。 鉄道ドメインのケーススタディが紹介されている。

Real-Time DEVS (RT-DEVS) can model systems with quantitative temporal requirements. Ensuring that such models verify some temporal properties requires to use something beyond simulation. In this work we use the model checker Uppaal to verify a class of recurrent quantitative temporal properties appearing in RT-DEVS models. Secondly, by introducing mutations to quantitative temporal properties we are able to find errors in RT-DEVS models and their implementations. A case study from the railway domain is presented.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 制約付き割当タスクに対する自己回帰的ポリシー最適化

Autoregressive Policy Optimization for Constrained Allocation Tasks ( http://arxiv.org/abs/2409.18735v1 )

ライセンス: Link先を確認
David Winkel, Niklas Strauß, Maximilian Bernhard, Zongyue Li, Thomas Seidl, Matthias Schubert, (参考訳) 割り当てタスクは、各ステップで限られた量のリソースをエンティティのセットに割り当てなければならない問題のクラスを表す。 このタスクの代表的な例としては、ポートフォリオの最適化や、サーバ間で計算ワークロードの分散がある。 割り当てタスクは通常、常に厳密に満たさなければならない実践的な要件を記述する線形制約によって拘束される。 例えば、ポートフォリオ最適化においては、投資家は投資期間中に特定の産業セクターに資金の30%未満を割り当てなければならない。 このような制約は、複雑な方法で許可されたアロケーションのアクション空間を制限するため、制約違反を回避するためのポリシーを学ぶのが難しくなる。 本稿では,各エンティティのアロケーションを逐次サンプリングする自己回帰プロセスに基づく制約付きアロケーションタスクの新しい手法を提案する。 さらに, 逐次サンプリングによる初期バイアスに対処する新しい脱バイアス機構を提案する。 本稿では, ポートフォリオ最適化, 計算負荷分布, 合成アロケーションベンチマークの3つの制約付アロケーションタスクにおいて, 制約付き強化学習(CRL)手法と比較して, 提案手法の優れた性能を示す。 私たちのコードは、https://github.com/niklasdbs/paspoで利用可能です。

Allocation tasks represent a class of problems where a limited amount of resources must be allocated to a set of entities at each time step. Prominent examples of this task include portfolio optimization or distributing computational workloads across servers. Allocation tasks are typically bound by linear constraints describing practical requirements that have to be strictly fulfilled at all times. In portfolio optimization, for example, investors may be obligated to allocate less than 30\% of the funds into a certain industrial sector in any investment period. Such constraints restrict the action space of allowed allocations in intricate ways, which makes learning a policy that avoids constraint violations difficult. In this paper, we propose a new method for constrained allocation tasks based on an autoregressive process to sequentially sample allocations for each entity. In addition, we introduce a novel de-biasing mechanism to counter the initial bias caused by sequential sampling. We demonstrate the superior performance of our approach compared to a variety of Constrained Reinforcement Learning (CRL) methods on three distinct constrained allocation tasks: portfolio optimization, computational workload distribution, and a synthetic allocation benchmark. Our code is available at: https://github.com/niklasdbs/paspo
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# ネットワーク侵入検知システムにおける逆問題:研究の展望と今後の展望

Adversarial Challenges in Network Intrusion Detection Systems: Research Insights and Future Prospects ( http://arxiv.org/abs/2409.18736v1 )

ライセンス: Link先を確認
Sabrine Ennaji, Fabio De Gaspari, Dorjan Hitaj, Alicia K/Bidi, Luigi V. Mancini, (参考訳) 機械学習は、特に侵入検知システムの領域において、サイバーセキュリティに大きな進歩をもたらした。 この改善は主に、機械学習アルゴリズムがデータの機能間の複雑な関係を識別し、見つからないサンプルをうまく一般化する能力に起因している。 特にディープニューラルネットワークは、大量のトレーニングデータの解析を可能にし、検出性能を大幅に向上することで、この進歩に寄与した。 しかし、機械学習モデルは敵の攻撃に対して脆弱である:誤った予測を行うようにモデルを誤解させるように設計された入力データの操作。 テキストや画像などの非構造化データにおける敵対的脅威に対して多くの注意が向けられているが、ネットワークトラフィックのような構造化データにおけるその有効性は、十分に調査されていない。 この調査は、機械学習ベースのネットワーク侵入検知システム(NIDS)の批判的なレビューと、敵攻撃に対する脆弱性の徹底的な分析を提供することで、このギャップを埋めようとしている。 我々は、既存のNIDS研究を批判的にレビューし、重要なトレンド、強み、限界を強調し、さらなる探索を必要とする理解のギャップを特定する。 さらに、新たな課題について議論し、より堅牢でレジリエントなNIDSモデルを開発するための洞察を提供する。 本稿では,NIDSにおける敵攻撃と防御の理解を深め,サイバーセキュリティアプリケーションにおける機械学習モデルの堅牢性向上に向けた今後の研究を導くことを目的とする。

Machine learning has brought significant advances in cybersecurity, particularly in the area of intrusion detection systems. This improvements can be mostly attributed to the ability of machine learning algorithms to identify complex relations between features in the data and to generalize well to unseen samples. Deep neural networks in particular contributed to this progress by enabling the analysis of large amounts of training data, significantly enhancing detection performance. However, machine learning models are vulnerable to adversarial attacks: manipulations of input data designed to mislead the models into making incorrect predictions. While much attention has been given to adversarial threats in unstructured data such as text and images, their effectiveness in structured data such as network traffic has not been as thoroughly explored. This survey seeks to fill this gap by providing an critical review of machine learning-based Network Intrusion Detection Systems (NIDS) and a thorough analysis of their vulnerability to adversarial attacks. We critically review existing NIDS research, highlighting key trends, strengths, and limitations, and we identify gaps in understanding that require further exploration. We further discuss emerging challenges and offer insights for developing more robust and resilient NIDS models. In summary, this paper aims to enhance understanding of adversarial attacks and defenses in NIDS and guide future research in improving the robustness of machine learning models in cybersecurity applications.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# オントロジー文脈を用いた多モーダル大言語モデルの説明可能性向上

Enhancing Explainability in Multimodal Large Language Models Using Ontological Context ( http://arxiv.org/abs/2409.18753v1 )

ライセンス: Link先を確認
Jihen Amara, Birgitta König-Ries, Sheeba Samuel, (参考訳) 近年,画像キャプションや視覚的質問応答など,さまざまなモダリティを統合するタスクにおいて,MLLM(Multimodal Large Language Models)に対する関心が高まっている。 しかし、そのようなモデルは、特にドメイン固有のアプリケーションにおいて、特定の視覚概念やクラスを正確にキャプションし解釈する上で、依然として課題に直面している。 ドメイン知識をオントロジーの形で統合することは、これらの問題に大きく対処できる、と私たちは主張する。 本研究では、概念実証として、オントロジーとMLLMを組み合わせて植物病のイメージを分類する新しい枠組みを提案する。 本手法では,既存の病気オントロジーから植物病に関する概念を用いてMLLMを検索し,画像から関連する視覚概念を抽出する。 次に、オントロジーの推論能力を用いて、特定された概念に従って疾患を分類する。 モデルが病気を記述する概念を正確に使用することを保証することは、ドメイン固有のアプリケーションに不可欠である。 オントロジーを利用することで、このアライメントの検証を支援します。 さらに、オントロジーの推論能力を利用することで、オントロジーの概念のアノテーションがオントロジーのアノテーションと一致しているかを確認しつつ、透明性、説明可能性、意思決定プロセスへの信頼を高める。 我々のフレームワークは、よく知られたMLLMを用いた実証研究によって支援された、オントロジーとMLLMの相乗化のための新しい方向を提供する。

Recently, there has been a growing interest in Multimodal Large Language Models (MLLMs) due to their remarkable potential in various tasks integrating different modalities, such as image and text, as well as applications such as image captioning and visual question answering. However, such models still face challenges in accurately captioning and interpreting specific visual concepts and classes, particularly in domain-specific applications. We argue that integrating domain knowledge in the form of an ontology can significantly address these issues. In this work, as a proof of concept, we propose a new framework that combines ontology with MLLMs to classify images of plant diseases. Our method uses concepts about plant diseases from an existing disease ontology to query MLLMs and extract relevant visual concepts from images. Then, we use the reasoning capabilities of the ontology to classify the disease according to the identified concepts. Ensuring that the model accurately uses the concepts describing the disease is crucial in domain-specific applications. By employing an ontology, we can assist in verifying this alignment. Additionally, using the ontology's inference capabilities increases transparency, explainability, and trust in the decision-making process while serving as a judge by checking if the annotations of the concepts by MLLMs are aligned with those in the ontology and displaying the rationales behind their errors. Our framework offers a new direction for synergizing ontologies and MLLMs, supported by an empirical study using different well-known MLLMs.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# AIは創造性を人間に勝てるか?

Can AI Enhance its Creativity to Beat Humans ? ( http://arxiv.org/abs/2409.18776v1 )

ライセンス: Link先を確認
Anne-Gaëlle Maltese, Pierre Pelletier, Rémy Guichardaz, (参考訳) 創造性は人間の表現の基本的な柱であり、イノベーションの背後にある原動力である。 人工知能が驚くべきペースで進歩するにつれ、この疑問が浮かび上がってくる。 本研究では,AIにおける2つの異なるプロンプト戦略(ナイーブとエキスパートAI)と,3つの異なるタスク(テキスト,描画,代替利用タスク)の効果を分析することにより,人間に対する人工知能(AI)の創造性を評価する。 人間の外的評価者は、人間とAIによって生成された創造的なアウトプットを記録し、これらの主観的な創造的スコアは、定量測定とNLPツールに基づいた客観的な測定で補完された。 その結果、AIは一般的に創造的なタスクにおいて人間よりも優れていますが、この利点はそれぞれのタスクの特定の性質と選択された創造性基準によってニュアンスがあります。 最終的に、AIは特定の創造的ドメインにおいて優れたパフォーマンスを示すが、私たちの結果は、AIの創造的ポテンシャルを最大化するために人間のフィードバックを統合することが重要であることを示唆している。

Creativity is a fundamental pillar of human expression and a driving force behind innovation, yet it now stands at a crossroads. As artificial intelligence advances at an astonishing pace, the question arises: can machines match and potentially surpass human creativity? This study investigates the creative performance of artificial intelligence (AI) compared to humans by analyzing the effects of two distinct prompting strategies (a Naive and an Expert AI) on AI and across three different tasks (Text, Draw and Alternative Uses tasks). Human external evaluators have scored creative outputs generated by humans and AI, and these subjective creative scores were complemented with objective measures based on quantitative measurements and NLP tools. The results reveal that AI generally outperforms humans in creative tasks, though this advantage is nuanced by the specific nature of each task and the chosen creativity criteria. Ultimately, while AI demonstrates superior performance in certain creative domains, our results suggest that integrating human feedback is crucial for maximizing AI's creative potential.
翻訳日:2024-10-01 15:09:41 公開日:2024-09-27
# 限定多負荷自動案内車によるフレキシブルジョブショップ問題の解決のための歴史誘導型地域分割進化最適化

A History-Guided Regional Partitioning Evolutionary Optimization for Solving the Flexible Job Shop Problem with Limited Multi-load Automated Guided Vehicles ( http://arxiv.org/abs/2409.18742v1 )

ライセンス: Link先を確認
Feige Liu, Chao Lu, Xin Li, (参考訳) フレキシブルな求人環境においては、自動誘導車両(AGV)を使用して仕事や加工材料を輸送することが、ワークショップのインテリジェンスを促進する重要な方法である。 シングルロードAGVと比較して、マルチロードAGVはAGVの利用を改善し、パスコンフリクトを低減できる。 そこで本研究では,限定マルチロードAGV (FJSPMA) を用いたフレキシブルなジョブショップスケジューリング問題に対して,歴史誘導型地域分割アルゴリズム (HRPEO) を提案する。 まず、多負荷AGVの特性に応じて符号化および復号規則を設計し、分岐法および境界法に基づく初期化規則を用いて初期集団を生成する。 第二に、アルゴリズムが局所的な最適状態に陥るのを防ぐため、アルゴリズムは局所的な分割戦略を採用する。 この戦略は、解空間を複数の領域に分割し、その領域のポテンシャルを測定する。 その後、各イテレーションでリージョンを複数のクラスタにクラスタ化し、クラスタのセットに基づいて進化的検索を行う個人を選択する。 第3に、FJSPMAの特性に応じて機械の選択と輸送順序を最適化するために、グレディなアプローチを用いてアルゴリズムの活用能力を向上させるために、局所探索戦略が設計されている。 最後に、アルゴリズムの性能をテストするために、ベンチマークで多数の実験を行う。 複数の高度なアルゴリズムと比較すると、HRPEOはFJSPMAを解くのに有利である。

In a flexible job shop environment, using Automated Guided Vehicles (AGVs) to transport jobs and process materials is an important way to promote the intelligence of the workshop. Compared with single-load AGVs, multi-load AGVs can improve AGV utilization, reduce path conflicts, etc. Therefore, this study proposes a history-guided regional partitioning algorithm (HRPEO) for the flexible job shop scheduling problem with limited multi-load AGVs (FJSPMA). First, the encoding and decoding rules are designed according to the characteristics of multi-load AGVs, and then the initialization rule based on the branch and bound method is used to generate the initial population. Second, to prevent the algorithm from falling into a local optimum, the algorithm adopts a regional partitioning strategy. This strategy divides the solution space into multiple regions and measures the potential of the regions. After that, cluster the regions into multiple clusters in each iteration, and selects individuals for evolutionary search based on the set of clusters. Third, a local search strategy is designed to improve the exploitation ability of the algorithm, which uses a greedy approach to optimize machines selection and transportation sequence according to the characteristics of FJSPMA. Finally, a large number of experiments are carried out on the benchmarks to test the performance of the algorithm. Compared with multiple advanced algorithms, the results show that the HRPEO has a better advantage in solving FJSPMA.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# OpenObject-NAV:動的キャリア関連シーングラフに基づくオープン語彙オブジェクト指向ナビゲーション

OpenObject-NAV: Open-Vocabulary Object-Oriented Navigation Based on Dynamic Carrier-Relationship Scene Graph ( http://arxiv.org/abs/2409.18743v1 )

ライセンス: Link先を確認
Yujie Tang, Meiling Wang, Yinan Deng, Zibo Zheng, Jiagui Zhong, Yufeng Yue, (参考訳) 日常では、カップのような頻繁に使われる物体は固定されていない位置を持ち、同じカテゴリー内の複数のインスタンスを持ち、キャリアも頻繁に変化する。 その結果、ロボットが特定のインスタンスに効率的にナビゲートすることが困難になる。 この課題に対処するためには、ロボットはシーンの変更や計画の更新を継続的に行う必要がある。 しかし、現在のオブジェクトナビゲーションアプローチは、主にセマンティックレベルに焦点を当てており、シーン表現を動的に更新する能力がない。 本稿では、頻繁に使用されるオブジェクトと静的キャリアの関係をキャプチャする。 オープンボキャブラリ・キャリア・リレーショナル・シーングラフ(CRSG)を構築し、ロボットナビゲーション中の搬送状態を更新し、シーンの動的変化を反映する。 さらに、CRSGに基づいて、ナビゲーションプロセスをマルコフ決定プロセスとしてモデル化するインスタンスナビゲーション戦略を提案する。 各ステップにおいて、決定はLarge Language Modelの常識知識と視覚言語の特徴的類似性によって通知される。 本研究では,ハビタットシミュレーターにおいて,日常的に頻繁に使用される一連の時系列ナビゲーションタスクを設計した。 その結果,CRSGを更新することで,移動目標への移動を効率的に行うことができることがわかった。 さらに,本アルゴリズムを実ロボットに展開し,その実用性を検証した。

In everyday life, frequently used objects like cups often have unfixed positions and multiple instances within the same category, and their carriers frequently change as well. As a result, it becomes challenging for a robot to efficiently navigate to a specific instance. To tackle this challenge, the robot must capture and update scene changes and plans continuously. However, current object navigation approaches primarily focus on semantic-level and lack the ability to dynamically update scene representation. This paper captures the relationships between frequently used objects and their static carriers. It constructs an open-vocabulary Carrier-Relationship Scene Graph (CRSG) and updates the carrying status during robot navigation to reflect the dynamic changes of the scene. Based on the CRSG, we further propose an instance navigation strategy that models the navigation process as a Markov Decision Process. At each step, decisions are informed by Large Language Model's commonsense knowledge and visual-language feature similarity. We designed a series of long-sequence navigation tasks for frequently used everyday items in the Habitat simulator. The results demonstrate that by updating the CRSG, the robot can efficiently navigate to moved targets. Additionally, we deployed our algorithm on a real robot and validated its practical effectiveness.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# cottention:cosineアテンション付きリニアトランスフォーマー

Cottention: Linear Transformers With Cosine Attention ( http://arxiv.org/abs/2409.18747v1 )

ライセンス: Link先を確認
Gabriel Mongaras, Trevor Dohm, Eric C. Larson, (参考訳) 注意機構、特にソフトマックスの注意は、GPTのようなトランスフォーマーベースのモデルの成功に役立っている。 しかし、配列長に対するソフトマックスの注意の二次記憶複雑性は、より長いシーケンスを処理する上で大きな課題となる。 ソフトマックス操作をコサイン類似性に置き換える新しい注意機構であるCottentionを導入する。 コサイン類似性の性質を活用し、注意方程式を再構成することにより、Cottentionは、配列長に関してネイティブな線形メモリ複雑性を達成し、ソフトマックスの注意よりも本質的にメモリ効率が良い。 我々は、Cottentionを有限な隠れ状態のリカレントニューラルネットワーク(RNN)として再構成することができ、推論時のメモリ使用量を一定にすることができることを示した。 我々は、双方向BERTタスクと因果GPTタスクの両方においてCottentionを評価し、ソフトマックスアテンションに匹敵する性能を示しながら、メモリ要求を大幅に低減した。 効率的な計算を実現するため、我々はCottention用のカスタムCUDAカーネルを開発した。 本研究の結果から,Cottention はソフトマックスアテンションに代わる有望な代替手段であり,線形メモリの複雑さと推論中に一定のメモリフットプリントを維持する能力により,性能を犠牲にすることなく長いシーケンスを処理できることが示唆された。

Attention mechanisms, particularly softmax attention, have been instrumental in the success of transformer-based models such as GPT. However, the quadratic memory complexity of softmax attention with respect to sequence length poses significant challenges for processing longer sequences. We introduce Cottention, a novel attention mechanism that replaces the softmax operation with cosine similarity. By leveraging the properties of cosine similarity and rearranging the attention equation, Cottention achieves native linear memory complexity with respect to sequence length, making it inherently more memory-efficient than softmax attention. We demonstrate that Cottention can be reformulated as a recurrent neural network (RNN) with a finite hidden state, allowing for constant memory usage during inference. We evaluate Cottention on both the bidirectional BERT and causal GPT tasks, demonstrating comparable performance to softmax attention while significantly reducing memory requirements. To ensure efficient computation, we develop a custom CUDA kernel for Cottention. Our results show that Cottention is a promising alternative to softmax attention, enabling the processing of longer sequences without sacrificing performance, due to its native linear memory complexity and ability to maintain a constant memory footprint during inference.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# TensorSocket: ディープラーニングトレーニングのための共有データローディング

TensorSocket: Shared Data Loading for Deep Learning Training ( http://arxiv.org/abs/2409.18749v1 )

ライセンス: Link先を確認
Ties Robroek, Neil Kim Nielsen, Pınar Tözün, (参考訳) ディープラーニングモデルのトレーニングは、反復的かつリソース集約的なプロセスである。 データサイエンティストは、パラメータセット(例:ハイパーパラメータチューニング)、モデルアーキテクチャ(例:ニューラルアーキテクチャサーチ)に着地する前に、いくつかのモデルをトレーニングすることが多い。 これらのトレーニングタスクの計算効率は、トレーニングデータによるトレーニングプロセスの供給方法に大きく依存する。 これらのタスクの反復的な性質は、計算リソースの必要性とコストを悪化させるため、同じデータ処理パイプラインが何度も実行されます。 本稿では,データローダを同時に共有することで,ディープラーニング学習の計算的ニーズを軽減するために,Tensorsocketを提案する。 Tensorsocketは、コロケーションされたトレーニングワークロードがGPU上で高いスループットを持つ場合のCPU側のボトルネックを軽減するが、CPU上でのデータローディングスループットの低下によって抑制される。 Tensorsocketは、コロケーションされたトレーニングプロセス間の冗長な計算を削減し、最新のGPU-GPU相互接続を活用することで、これを実現する。 我々は、Tensorsocketのハードウェアとパイプラインに依存しない性質を実証し、さまざまなトレーニングシナリオを用いて評価する。 我々の評価では、Tensorsocketはデータ共有なしでは実現不可能なシナリオを可能にし、トレーニングスループットを最大100\%$に向上させ、クラウドインスタンスを利用する場合、CPU側のハードウェアリソースの必要性を減らし、50\%$のコスト削減を実現している。 さらに、TensorsocketはCoorDLやJoaderといった共有データローディングの最先端ソリューションよりも優れています。 使用、メンテナンス、デプロイが容易で、CPUリソースを少なくしながら、より高いか他のソリューションのスループットにマッチする。

Training deep learning models is a repetitive and resource-intensive process. Data scientists often train several models before landing on set of parameters (e.g., hyper-parameter tuning), model architecture (e.g., neural architecture search), among other things that yields the highest accuracy. The computational efficiency of these training tasks depends highly on how well we can supply the training process with training data. The repetitive nature of these tasks results in the same data processing pipelines running over and over exacerbating the need for and costs of computational resources. In this paper, we present Tensorsocket to reduce the computational needs of deep learning training by enabling simultaneous training processes to share the same data loader. Tensorsocket mitigates CPU-side bottlenecks in cases where the collocated training workloads have high throughput on GPU, but are held back by lower data-loading throughput on CPU. Tensorsocket achieves this by reducing redundant computations across collocated training processes and leveraging modern GPU-GPU interconnects. We demonstrate the hardware- and pipeline-agnostic nature of Tensorsocket and evaluate it using a variety of training scenarios. Our evaluation shows that Tensorsocket enables scenarios that are infeasible without data sharing, increases training throughput by up to $100\%$, and when utilizing cloud instances, Tensorsocket achieves cost savings of $50\%$ by reducing the hardware resource needs on the CPU side. Furthermore, Tensorsocket outperforms the state-of-the-art solutions for shared data loading such as CoorDL and Joader. It is easier to use, maintain, and deploy, and either achieves higher or matches the throughput of other solutions while requiring less CPU resources.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# 銀河-ハロ結合のための幾何学的深層学習--銀河固有アライメントのケーススタディ

Geometric deep learning for galaxy-halo connection: a case study for galaxy intrinsic alignments ( http://arxiv.org/abs/2409.18761v1 )

ライセンス: Link先を確認
Yesukhei Jagvaral, Francois Lanusse, Rachel Mandelbaum, (参考訳) ルビン天文台 LSST のような今後の宇宙画像調査では、様々な科学的応用のために、現実的な銀河団を包含する大規模なシミュレーションが必要である。 特に問題となるのは、内在的なアライメント(IA)の現象であり、銀河は過剰密度に向きを変え、適切にモデル化されていない場合、弱い重力レンズ解析において重要な体系的バイアスをもたらす可能性がある。 計算上の制約のため、膨大な量にわたるIAに関連する銀河の形成と進化の複雑な詳細をシミュレートするのは現実的ではない。 代替として、IllustrisTNG-100シミュレーションに基づいて訓練された深部生成モデルを提案し、3次元銀河の形状と向きをサンプリングし、相関したスカラー特徴とともに固有アライメントを正確に再現する。 宇宙のWebをグラフの集合としてモデル化し、各グラフはハローを表す。 このアーキテクチャは、銀河配向のためのSO(3)$\times$$\mathbb{R}^n$拡散生成モデルと、我々の宇宙のユークリッド対称性を明示的に尊重するE(3)同変グラフニューラルネットワークで実装された$n$スカラーで構成されている。 このモデルは、参照シミュレーションと統計的に一致した銀河方位などの特徴を学習し、予測することができる。 特に, このモデルでは, 非直線スケールで複雑な銀河物理学によって支配される非ユークリッド値SO(3)量(銀河配向)とともに, ユークリッド値スカラー(銀河の大きさ, 形状, 色)を共同でモデル化できることが示されている。

Forthcoming cosmological imaging surveys, such as the Rubin Observatory LSST, require large-scale simulations encompassing realistic galaxy populations for a variety of scientific applications. Of particular concern is the phenomenon of intrinsic alignments (IA), whereby galaxies orient themselves towards overdensities, potentially introducing significant systematic biases in weak gravitational lensing analyses if they are not properly modeled. Due to computational constraints, simulating the intricate details of galaxy formation and evolution relevant to IA across vast volumes is impractical. As an alternative, we propose a Deep Generative Model trained on the IllustrisTNG-100 simulation to sample 3D galaxy shapes and orientations to accurately reproduce intrinsic alignments along with correlated scalar features. We model the cosmic web as a set of graphs, each graph representing a halo with nodes representing the subhalos/galaxies. The architecture consists of a SO(3) $\times$ $\mathbb{R}^n$ diffusion generative model, for galaxy orientations and $n$ scalars, implemented with E(3) equivariant Graph Neural Networks that explicitly respect the Euclidean symmetries of our Universe. The model is able to learn and predict features such as galaxy orientations that are statistically consistent with the reference simulation. Notably, our model demonstrates the ability to jointly model Euclidean-valued scalars (galaxy sizes, shapes, and colors) along with non-Euclidean valued SO(3) quantities (galaxy orientations) that are governed by highly complex galactic physics at non-linear scales.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# チャート作成: LLM駆動データ可視化のスケーラブルな評価のためのチャート質問回答の利用

Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations ( http://arxiv.org/abs/2409.18764v1 )

ライセンス: Link先を確認
James Ford, Xingmeng Zhao, Dan Schumacher, Anthony Rios, (参考訳) 本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。 従来の評価手法は、費用がかかり難い人間の判断に頼っている場合が多いが、データ精度のみに重点を置いて、視覚コミュニケーションの有効性を無視している場合が多い。 VQAモデルを用いることで、グラフの表現品質と一般的なコミュニケーションの明確さを評価する。 2つの主要なVQAベンチマークデータセットであるChartQAとPlotQAを使用して実験を行い、OpenAIのGPT-3.5 TurboとMetaのLlama 3.1 70B-Instructモデルによって可視化された。 以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。 さらに,この結果から,少ないショットプロンプトがグラフ生成の精度を大幅に向上させることが示されたが,LLMが人間の生成したグラフの精度に完全に一致するようになるまでには,かなりの進展がみられていない。 これは、人間のアノテーションを必要とせずに迅速な反復を可能にすることによって研究プロセスの迅速化を図り、この分野の進歩を加速させる、我々の研究の重要性を浮き彫りにしている。

We propose a novel framework that leverages Visual Question Answering (VQA) models to automate the evaluation of LLM-generated data visualizations. Traditional evaluation methods often rely on human judgment, which is costly and unscalable, or focus solely on data accuracy, neglecting the effectiveness of visual communication. By employing VQA models, we assess data representation quality and the general communicative clarity of charts. Experiments were conducted using two leading VQA benchmark datasets, ChartQA and PlotQA, with visualizations generated by OpenAI's GPT-3.5 Turbo and Meta's Llama 3.1 70B-Instruct models. Our results indicate that LLM-generated charts do not match the accuracy of the original non-LLM-generated charts based on VQA performance measures. Moreover, while our results demonstrate that few-shot prompting significantly boosts the accuracy of chart generation, considerable progress remains to be made before LLMs can fully match the precision of human-generated graphs. This underscores the importance of our work, which expedites the research process by enabling rapid iteration without the need for human annotation, thus accelerating advancements in this field.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# 含意非線形ダイナミクスモデルによるデモから学ぶ

Learning from Demonstration with Implicit Nonlinear Dynamics Models ( http://arxiv.org/abs/2409.18768v1 )

ライセンス: Link先を確認
Peter David Fagan, Subramanian Ramamoorthy, (参考訳) 実証から学ぶ(LfD)は、複雑な動きを含むタスクを解決するための政策を訓練するのに有用なパラダイムである。 実際には、LfDを成功させるためには、ポリシー実行中にエラーの蓄積を克服する必要がある。 既存の研究は、データ収集のスケーリング、ヒューマン・イン・ザ・ループによるポリシーエラーの修正、ポリシー予測の時間的アンサンブル、動的システムモデルのパラメータの学習などを通じてこの問題に対処しようとしている。 本研究では,この問題を克服するための代替手法を提案し,検証する。 貯水池計算にインスパイアされた我々は、可変な動的特性を持つ固定非線形力学系を含む新しいニューラルネットワーク層を開発した。 LASA Human Handwriting Dataset を用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。 経験的な実験を通じて、我々の層を既存のニューラルネットワークアーキテクチャに組み込むことで、LfDの複雑なエラーに対処できることが実証された。 さらに、ポリシー予測の時間的アンサンブルや、Echo State Networks (ESN) の実装など、既存のアプローチとの比較評価を行う。 提案手法は,複数の動的状態に一般化し,競合レイテンシのスコアを維持するとともに,手書き作業においてより正確なポリシ精度とロバスト性を実現する。

Learning from Demonstration (LfD) is a useful paradigm for training policies that solve tasks involving complex motions. In practice, the successful application of LfD requires overcoming error accumulation during policy execution, i.e. the problem of drift due to errors compounding over time and the consequent out-of-distribution behaviours. Existing works seek to address this problem through scaling data collection, correcting policy errors with a human-in-the-loop, temporally ensembling policy predictions or through learning the parameters of a dynamical system model. In this work, we propose and validate an alternative approach to overcoming this issue. Inspired by reservoir computing, we develop a novel neural network layer that includes a fixed nonlinear dynamical system with tunable dynamical properties. We validate the efficacy of our neural network layer on the task of reproducing human handwriting motions using the LASA Human Handwriting Dataset. Through empirical experiments we demonstrate that incorporating our layer into existing neural network architectures addresses the issue of compounding errors in LfD. Furthermore, we perform a comparative evaluation against existing approaches including a temporal ensemble of policy predictions and an Echo State Networks (ESNs) implementation. We find that our approach yields greater policy precision and robustness on the handwriting task while also generalising to multiple dynamics regimes and maintaining competitive latency scores.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# 眼窩部特徴を用いた眼窩周囲距離の予測と疾患分類

State-of-the-Art Periorbital Distance Prediction and Disease Classification Using Periorbital Features ( http://arxiv.org/abs/2409.18769v1 )

ライセンス: Link先を確認
George R. Nahass, Ghasem Yazdanpanah, Madison Cheung, Alex Palacios, Jeffery Peterson, Kevin Heinze, Sasha Hubschman, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi, (参考訳) 眼と蓋の周囲の眼窩間距離と特徴は、疾患の定量化と外科的および医学的介入のモニタリングに貴重な情報を保持する。 これらの距離は通常、主観的かつ非常に時間を要するプロセスである手動で測定される。 そこで我々は,3つの深層学習手法を考案し,疾患分類における周辺距離の有用性について検討した。 深層学習の予測した距離のMAEは、訓練されたヒトのアノテータ間の誤差よりも小さいか、非常に近いものだった。 我々は、我々のモデルと現在の近日軌道距離予測法(SOTA)を比較し、我々の手法が1つの遠日軌道測度を除く全てのデータセット上でSOTAより優れていることを発見した。 我々はまた、オープンソースの健康眼で訓練されたモデルを用いて、病気の眼で堅牢なセグメンテーションが達成できることを示し、下流分類モデルの高品質な特徴として、軌道周辺距離が利用できることを示した。 分類における中間段階としてのセグメンテーションネットワークの活用は、従来の畳み込みニューラルネットワークで観察される分布外問題を回避することにより、眼科プラスティックおよび頭蓋顔面手術における分類モデルの一般化可能性を高めるために幅広い意味を持つ。

Periorbital distances and features around the eyes and lids hold valuable information for disease quantification and monitoring of surgical and medical intervention. These distances are commonly measured manually, a process that is both subjective and highly time-consuming. Here, we set out to developed three deep-learning methods for segmentation and periorbital distance prediction, and also evaluate the utility of periorbital distances for disease classification. The MAE of our deep learning predicted distances was less than or very close to the error observed between trained human annotators. We compared our models to the current state-of-the-art (SOTA) method for periorbital distance prediction and found that our methods outperformed SOTA on all of our datasets on all but one periorbital measurement. We also show that robust segmentation can be achieved on diseased eyes using models trained on open-source, healthy eyes, and that periorbital distances have can be used as high-quality features in downstream classification models. Leveraging segmentation networks as intermediary steps in classification has broad implications for increasing the generalizability of classification models in ophthalmic plastic and craniofacial surgery by avoiding the out-of-distribution problem observed in traditional convolutional neural networks.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# 単一画像からのリライティング:データセットと深い内在的アーキテクチャ

Relighting from a Single Image: Datasets and Deep Intrinsic-based Architecture ( http://arxiv.org/abs/2409.18770v1 )

ライセンス: Link先を確認
Yixiong Yang, Hassan Ahmed Sial, Ramon Baldrich, Maria Vanrell, (参考訳) 単一画像シーンのリライティングは、入力画像の現実的な新しいバージョンを生成し、新たな目標光条件で照らされるようにすることを目的としている。 既存の研究では様々な観点からこの問題を探求しているが、任意の光条件下で信頼された画像を生成することは極めて困難であり、関連するデータセットは乏しい。 私たちの研究は、データセットと方法論の両方の観点からこの問題に対処しています。 そこで本研究では,内在成分の基底的真理を持つ合成データセットと,実験条件下で収集した実データセットの2つの新しいデータセットを提案する。 これらのデータセットは、既存のデータセットの不足を軽減する。 ライティングパイプラインに物理一貫性を組み込むため,本質的な分解に基づく2段階ネットワークを構築し,中間ステップで出力を行い,物理的制約を導入する。 トレーニングセットが本質的な分解に基礎的真理を欠いている場合、本質的な出力が満足できるように教師なしのモジュールを導入する。 提案手法は,既存のデータセットと新たに開発したデータセットの両方でテストした結果,最先端の手法よりも性能が優れている。 さらに、我々の合成データセットを用いて、我々の方法や他の先行手法を事前訓練することで、他のデータセットの性能を高めることができる。 本手法はどんな光条件でも適用可能であるので, アニメーション結果を生成することができる。 データセット、メソッド、ビデオが公開されている。

Single image scene relighting aims to generate a realistic new version of an input image so that it appears to be illuminated by a new target light condition. Although existing works have explored this problem from various perspectives, generating relit images under arbitrary light conditions remains highly challenging, and related datasets are scarce. Our work addresses this problem from both the dataset and methodological perspectives. We propose two new datasets: a synthetic dataset with the ground truth of intrinsic components and a real dataset collected under laboratory conditions. These datasets alleviate the scarcity of existing datasets. To incorporate physical consistency in the relighting pipeline, we establish a two-stage network based on intrinsic decomposition, giving outputs at intermediate steps, thereby introducing physical constraints. When the training set lacks ground truth for intrinsic decomposition, we introduce an unsupervised module to ensure that the intrinsic outputs are satisfactory. Our method outperforms the state-of-the-art methods in performance, as tested on both existing datasets and our newly developed datasets. Furthermore, pretraining our method or other prior methods using our synthetic dataset can enhance their performance on other datasets. Since our method can accommodate any light conditions, it is capable of producing animated results. The dataset, method, and videos are publicly available.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# LowBit GEMMの残差計算におけるRSVDの利用法

A method of using RSVD in residual calculation of LowBit GEMM ( http://arxiv.org/abs/2409.18772v1 )

ライセンス: Link先を確認
Hongyaoxing Gu, (参考訳) 近年のハードウェア技術の進歩は、低精度アプリケーションに多くの可能性をもたらしている。 しかし、低精度の使用は重大な計算誤差を生じさせ、計算精度を維持する上で大きな課題となる。 低ランク残差量子化行列乗算(LRQMM)法を提案し、高密度低精度量子化行列乗算に対する残差補償に低ランク近似を導入する。 BLAS-2レベルの余分な時間オーバーヘッドで数倍の精度向上を実現することができる。 さらに、LRQMMは完全にデータフリーな量子化法であり、事前学習のための追加データを必要としない。 また、他のメソッドと簡単に対応できる低精度GEMM演算子でのみ動作する。 実験により、LRQMMは直接量子化行列乗算の誤差を1~2桁削減できる。 ディープラーニングネットワークでは、LRQMM-4bitはResnet-50で61.8%のImageNet Top-1精度、Direct Quantの精度は8.3%である。

The advancements of hardware technology in recent years has brought many possibilities for low-precision applications. However, the use of low precision can introduce significant computational errors, posing a considerable challenge to maintaining the computational accuracy. We propose low-rank residuals quantized matrix multiplication(LRQMM) method which introduces low-rank approximation in residual compensation for dense low precision quantization matrix multiplication. It can bring several times accuracy improvement with only BLAS-2 level extra time overhead. Moreover, LRQMM is a completely data-free quantization method that does not require additional data for pre-training. And it only works with low precision GEMM operator, which is easy to couple with other methods. Through experimentation, LRQMM can reduce the error of direct quantized matrix multiplication by 1~2 orders of magnitude, when dealing with larger matrix sizes, the computational speed is only reduced by approximately 20\%. In deep learning networks, LRQMM-4bit achieves 61.8% ImageNet Top-1 accuracy in Resnet-50, while the Direct Quant accuracy is only 8.3%.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# Open-Nav: オープンソース LLM による連続環境におけるゼロショットビジョンとランゲージナビゲーションの探索

Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs ( http://arxiv.org/abs/2409.18794v1 )

ライセンス: Link先を確認
Yanyuan Qiao, Wenqi Lyu, Hui Wang, Zixu Wang, Zerui Li, Yuan Zhang, Mingkui Tan, Qi Wu, (参考訳) VLN(Vision-and-Language Navigation)タスクは、エージェントが3D環境をナビゲートするためのテキスト命令に従う必要がある。 従来のアプローチでは、VLNモデルをトレーニングするためのドメイン固有のデータセットに大きく依存する、教師付き学習手法が使用されていた。 近年の手法では,GPT-4のような大規模言語モデル(LLM)を用いてゼロショットでVLNタスクを解く手法が提案されている。 本研究では,連続環境におけるゼロショットVLNのためのオープンソースのLCMを探索する新しい研究であるOpen-Navを紹介する。 Open-Navは、タスクを命令理解、進捗予測、意思決定に分解するために、空間時間チェーン・オブ・シント(CoT)推論アプローチを採用している。 LLMのナビゲーションにおける推論を改善するために、微粒な物体と空間的知識でシーン知覚を強化する。 シミュレーション環境と実環境環境の両方における大規模な実験により, Open-Nav は, クローズドソース LLM と比較して, 競争性能が向上することを示した。

Vision-and-Language Navigation (VLN) tasks require an agent to follow textual instructions to navigate through 3D environments. Traditional approaches use supervised learning methods, relying heavily on domain-specific datasets to train VLN models. Recent methods try to utilize closed-source large language models (LLMs) like GPT-4 to solve VLN tasks in zero-shot manners, but face challenges related to expensive token costs and potential data breaches in real-world applications. In this work, we introduce Open-Nav, a novel study that explores open-source LLMs for zero-shot VLN in the continuous environment. Open-Nav employs a spatial-temporal chain-of-thought (CoT) reasoning approach to break down tasks into instruction comprehension, progress estimation, and decision-making. It enhances scene perceptions with fine-grained object and spatial knowledge to improve LLM's reasoning in navigation. Our extensive experiments in both simulated and real-world environments demonstrate that Open-Nav achieves competitive performance compared to using closed-source LLMs.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# 不規則サンプリング相関によるエネルギー時間絡みの検証

Verifying Energy-Time Entanglement with Irregularly Sampled Correlations ( http://arxiv.org/abs/2409.18803v1 )

ライセンス: Link先を確認
James Schneeloch, Christopher C. Tison, Richard J. Birrittella, Ian Brinkley, Michael L. Fanto, Paul M. Alsing, (参考訳) 実験的な測定による絡み合いの検証には、実験手法の限界を考慮に入れながら、得られたデータが古典的な情報源から生成できないことを証明する必要がある。 エネルギー時間自由度では、任意のフィルタを不均一間隔で通過する光の関数として現実的な高分解能周波数測定が得られ、この課題がさらに悪化する。 本研究では、これらの測定から収集したデータを用いて、状態や測定装置について特別な仮定をする必要なく、エネルギー時間絡みの証明に必要なエネルギーとタイミングの相関の度合いを十分に証明する方法について述べる。 これを実現するために, システム内に存在する相関関係(および絡み合い)を過大評価しないデータから連続変数の確率密度を構築する方法を示すとともに, これらの手法が連続変数の自由度(例えば, 空間, 場の二次度など)すべてに適用可能であることに留意する。 自発パラメトリックダウン・コンバージョンにおける光子対から得られる周波数とタイミングの相関を用いて,これらの手法の実現可能性について述べる。

Verifying entanglement with experimental measurements requires that we take the limitations of experimental techniques into account, while still proving that the data obtained could not have been generated from a classical source. In the energy-time degree of freedom, this challenge is exacerbated because realistic high-resolution frequency measurements are obtained as a function of light passing through arbitrary filters positioned at uneven intervals. In this work, we show how the data gathered from these kinds of measurements can be used to fully certify the degree of energy and timing correlations needed to certify energy-time entanglement without having to make special assumptions about the state or the measurement device. We accomplish this by showing how to construct a continuous-variable probability density from the data that can closely estimate, but never over-estimate the correlations (and entanglement) actually present in the system, and note that these methods are applicable to all continuous-variable degrees of freedom (e.g., spatial, field quadratures, etc). We illustrate the feasibility of these methods using frequency and timing correlations obtainable from photon pairs in Spontaneous Parametric Down-Conversion.
翻訳日:2024-10-01 14:25:07 公開日:2024-09-27
# HardCore生成: データ拡張のためのハードUNSAT問題の生成

HardCore Generation: Generating Hard UNSAT Problems for Data Augmentation ( http://arxiv.org/abs/2409.18778v1 )

ライセンス: Link先を確認
Joseph Cotnareanu, Zhanguang Zhang, Hui-Ling Zhen, Yingxue Zhang, Mark Coates, (参考訳) SAT問題(SAT problem for brevity)として知られるブール方程式の満足度を効果的に決定することは、様々な産業問題において重要である。 近年、深層学習法が出現し、SAT問題解決に大きな可能性をもたらしている。 しかし、この分野の発展の大きな障壁は、大規模で現実的なデータセットの不足である。 現在の公開データセットの大部分はランダムに生成されているか、非常に制限されている。 これらのデータセットは、ディープラーニングメソッドの有意義なトレーニングには不十分である。 これを踏まえて、研究者はSAT問題をより正確に反映したデータを生成するための生成技術を模索し始めた。 これらの手法は、これまでSAT問題や時間スケール性障害を発生させることができないかに悩まされてきた。 本稿では、コアとして知られる問題の「硬さ」に寄与する重要なコントリビュータを特定し、操作することで対処する。 これまでのいくつかの研究はコアに対処してきたが、従来のヒューリスティックコア検出技術に費やされているため、時間コストは許容できないほど高い。 本稿では,グラフニューラルネットワークを用いた高速コア検出手法を提案する。 実験結果から,解きづらい問題を効率よく生成し,元の例問題の鍵となる属性を維持できることが示唆された。 実験により,生成したSAT問題をデータ拡張設定に使用することにより,ソルバランタイムの予測精度の向上が期待できることを示す。

Efficiently determining the satisfiability of a boolean equation -- known as the SAT problem for brevity -- is crucial in various industrial problems. Recently, the advent of deep learning methods has introduced significant potential for enhancing SAT solving. However, a major barrier to the advancement of this field has been the scarcity of large, realistic datasets. The majority of current public datasets are either randomly generated or extremely limited, containing only a few examples from unrelated problem families. These datasets are inadequate for meaningful training of deep learning methods. In light of this, researchers have started exploring generative techniques to create data that more accurately reflect SAT problems encountered in practical situations. These methods have so far suffered from either the inability to produce challenging SAT problems or time-scalability obstacles. In this paper we address both by identifying and manipulating the key contributors to a problem's ``hardness'', known as cores. Although some previous work has addressed cores, the time costs are unacceptably high due to the expense of traditional heuristic core detection techniques. We introduce a fast core detection procedure that uses a graph neural network. Our empirical results demonstrate that we can efficiently generate problems that remain hard to solve and retain key attributes of the original example problems. We show via experiment that the generated synthetic SAT problems can be used in a data augmentation setting to provide improved prediction of solver runtimes.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# マイクロ波-光量子トランスダクションにおけるオプティメカル4波混合によるフィルタリング課題の回避

Bypassing the filtering challenges in microwave-optical quantum transduction through optomechanical four-wave mixing ( http://arxiv.org/abs/2409.18781v1 )

ライセンス: Link先を確認
James Schneeloch, Erin Sheridan, A. Matthew Smith, Christopher C. Tison, Daniel L. Campbell, Matthew D. LaHaye, Michael L. Fanto, Paul M. Alsing, (参考訳) マイクロ波光量子トランスダクションは、量子ネットワークにおいて重要な技術である。 多くのマイクロ波-光変換技術は3波長混合プロセスに依存しているため、このプロセスは駆動するテレコムバンド(ポンプ)レーザーから光子を消費し、入力されたマイクロ波光子をこのマイクロ波周波数でレーザーから変形したテレコムバンド光子に変換する。 しかし、同じ空間モードで古典的に明るいレーザーから数GHzしか離れていない単一光子をきれいに分離するには、非常に狭い遷移帯域で前例のない消滅の周波数フィルタが必要であり、今日の技術の能力を損なうことになる。 この課題に直接向き合うのではなく、ポンプ光子を$$pairs$で消費し、ポンプから広く分離された透過光子を生成する4波混合プロセスを用いて、同じトランスダクション目標を同等の効率で達成できることを示す。 本プロセスは, 従来の光学式よりも高次光弾性, 電気ひずみのアナログを考慮し, 従来の光学的カップリングを超越して, 効率を向上する方法について検討する。

Microwave-optical quantum transduction is a key enabling technology in quantum networking, but has been plagued by a formidable technical challenge. As most microwave-optical-transduction techniques rely on three-wave mixing processes, the processes consume photons from a driving telecom-band (pump) laser to convert input microwave photons into telecom-band photons detuned from the laser by this microwave frequency. However, cleanly separating out single photons detuned only a few GHz away from a classically bright laser in the same spatial mode requires frequency filters of unprecedented extinction over a very narrow transition band, straining the capabilities of today's technology. Instead of confronting this challenge directly, we show how one may achieve the same transduction objective with comparable efficiency using a four-wave mixing process in which $pairs$ of pump photons are consumed to produce transduced optical photons widely separated in frequency from the pump. We develop this process by considering higher-order analogues of photoelasticity and electrostriction than those used in conventional optomechanics, and examine how the efficiency of this process can be made to exceed conventional optomechanical couplings.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# 多値時間変化処理による境界構造モデルの非パラメトリック効率的な推定

Non-parametric efficient estimation of marginal structural models with multi-valued time-varying treatments ( http://arxiv.org/abs/2409.18782v1 )

ライセンス: Link先を確認
Axel Martin, Michele Santacatterina, Iván Díaz, (参考訳) マージナル構造モデル(Marginal Structure Model)は、時間変化のある露光の存在下で因果効果を推定するための一般的な方法である。 その人気にもかかわらず、多値および時間変化の処理を持つ限界構造モデルに対してスケーラブルな非パラメトリック推定器は存在しない。 本稿では,機械学習と最近の半パラメトリック効率理論を併用して縦断研究を行い,そのような推定器を提案する。 提案手法は, 1次von-Mises展開, 効率的な影響関数, 効率境界を含む非パラメトリック同定関数について検討した。 提案した推定器が効率よく, 漸近的に正常で, 連続的に頑健である条件を示す。 本研究は, 推定器の特性を説明するためのシミュレーション研究を行い, 累積観測症例数に対する移動性の影響について研究した, COVID-19データセットの動機づけ研究の結果を報告する。

Marginal structural models are a popular method for estimating causal effects in the presence of time-varying exposures. In spite of their popularity, no scalable non-parametric estimator exist for marginal structural models with multi-valued and time-varying treatments. In this paper, we use machine learning together with recent developments in semiparametric efficiency theory for longitudinal studies to propose such an estimator. The proposed estimator is based on a study of the non-parametric identifying functional, including first order von-Mises expansions as well as the efficient influence function and the efficiency bound. We show conditions under which the proposed estimator is efficient, asymptotically normal, and sequentially doubly robust in the sense that it is consistent if, for each time point, either the outcome or the treatment mechanism is consistently estimated. We perform a simulation study to illustrate the properties of the estimators, and present the results of our motivating study on a COVID-19 dataset studying the impact of mobility on the cumulative number of observed cases.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# DualDn: 差別化可能なISPによるデュアルドメインのデノーミング

DualDn: Dual-domain Denoising via Differentiable ISP ( http://arxiv.org/abs/2409.18783v1 )

ライセンス: Link先を確認
Ruikang Li, Yujin Wang, Shiqi Chen, Fan Zhang, Jinwei Gu, Tianfan Xue, (参考訳) Image Denoisingは、カメラのイメージ信号処理(ISP)パイプラインにおいて重要なコンポーネントである。 ISPパイプラインにデノイザを注入する方法には、キャプチャした生フレーム(生ドメイン)に直接デノイザを適用するか、ISPの出力sRGBイメージ(sRGBドメイン)に直接デノイザを注入する2つの典型的な方法がある。 しかし、どちらのアプローチにも限界がある。 その後のISP処理によって、生ドメインの残留ノイズが増幅され、sRGBドメインは、ISPが歪むノイズのみを見るため、空間的に変化するノイズを扱うのに苦労する。 したがって、ほとんどの生またはsRGBドメインは特定のノイズ分布とISP構成でのみ機能する。 これらの課題に対処するために、新しい学習ベースの二重ドメイン記述法であるDualDnを提案する。 以前の単一ドメインのdenoisingとは異なり、DualDnは生ドメインとsRGBドメインの2つのdenoisingネットワークで構成されている。 一方、sRGBドメインはISPの変動に適応し、ISPによって増幅された残留ノイズを除去する。 どちらのネットワークも差別化可能なISPに接続されており、このISPはエンドツーエンドで訓練され、推論段階で破棄される。 この設計により、DualDnは、異なる未知のノイズ、ISPパラメータ、さらには新しいISPパイプラインに適応できるため、多くの学習ベースのdenoisingメソッドと比較してより一般化性が高い。 実験により、DualDnは最先端のパフォーマンスを達成し、異なるデノーミングアーキテクチャに適応できることが示されている。 さらに、DualDnは実際のカメラをリトレーニングすることなく、プラグアンドプレイでデノナイジングモジュールとして使用することができ、商用のオンカメラデノナイジングよりも優れたパフォーマンスを示すことができる。 プロジェクトのWebサイトは以下の通りである。

Image denoising is a critical component in a camera's Image Signal Processing (ISP) pipeline. There are two typical ways to inject a denoiser into the ISP pipeline: applying a denoiser directly to captured raw frames (raw domain) or to the ISP's output sRGB images (sRGB domain). However, both approaches have their limitations. Residual noise from raw-domain denoising can be amplified by the subsequent ISP processing, and the sRGB domain struggles to handle spatially varying noise since it only sees noise distorted by the ISP. Consequently, most raw or sRGB domain denoising works only for specific noise distributions and ISP configurations. To address these challenges, we propose DualDn, a novel learning-based dual-domain denoising. Unlike previous single-domain denoising, DualDn consists of two denoising networks: one in the raw domain and one in the sRGB domain. The raw domain denoising adapts to sensor-specific noise as well as spatially varying noise levels, while the sRGB domain denoising adapts to ISP variations and removes residual noise amplified by the ISP. Both denoising networks are connected with a differentiable ISP, which is trained end-to-end and discarded during the inference stage. With this design, DualDn achieves greater generalizability compared to most learning-based denoising methods, as it can adapt to different unseen noises, ISP parameters, and even novel ISP pipelines. Experiments show that DualDn achieves state-of-the-art performance and can adapt to different denoising architectures. Moreover, DualDn can be used as a plug-and-play denoising module with real cameras without retraining, and still demonstrate better performance than commercial on-camera denoising. The project website is available at: https://openimaginglab.github.io/DualDn/
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# 知識蒸留のための学生志向の教員知識保持

Student-Oriented Teacher Knowledge Refinement for Knowledge Distillation ( http://arxiv.org/abs/2409.18785v1 )

ライセンス: Link先を確認
Chaomin Shen, Yaomin Huang, Haokun Zhu, Jinsong Fan, Guixu Zhang, (参考訳) 知識蒸留は、大きな教師ネットワークからよりコンパクトで合理化された学生ネットワークに知識を伝達する能力で広く認知されている。 伝統的な知識蒸留法は、主に教師の複雑な知識を学生ネットワークに学習するタスクを課す教師指向のパラダイムに従っている。 しかし、モデル能力と建築設計の相違により、教師が与える複雑な知識に対する生徒の理解が損なわれ、結果として準最適性能がもたらされる。 本稿では,教師の知識を学生のニーズに合うように改良し,知識伝達の有効性を向上させることを目的とした新しい視点を提案する。 具体的には,教師の生徒の知識を動的に洗練させるために,学習可能な機能強化戦略を取り入れた学生指向知識蒸留(SoKD)を提案する。 さらに,教師と学生の相互関心領域を特定するためにDAM(Distinctive Area Detection Module)を配置し,これらの重要な領域に知識伝達を集中させることにより,無関係な情報の伝達を回避する。 このカスタマイズされたモジュールは、より集中的で効果的な知識蒸留プロセスを保証する。 プラグインとして機能する我々のアプローチは,様々な知識蒸留手法と統合することができる。 本手法の有効性と一般化性について検討した。

Knowledge distillation has become widely recognized for its ability to transfer knowledge from a large teacher network to a compact and more streamlined student network. Traditional knowledge distillation methods primarily follow a teacher-oriented paradigm that imposes the task of learning the teacher's complex knowledge onto the student network. However, significant disparities in model capacity and architectural design hinder the student's comprehension of the complex knowledge imparted by the teacher, resulting in sub-optimal performance. This paper introduces a novel perspective emphasizing student-oriented and refining the teacher's knowledge to better align with the student's needs, thereby improving knowledge transfer effectiveness. Specifically, we present the Student-Oriented Knowledge Distillation (SoKD), which incorporates a learnable feature augmentation strategy during training to refine the teacher's knowledge of the student dynamically. Furthermore, we deploy the Distinctive Area Detection Module (DAM) to identify areas of mutual interest between the teacher and student, concentrating knowledge transfer within these critical areas to avoid transferring irrelevant information. This customized module ensures a more focused and effective knowledge distillation process. Our approach, functioning as a plug-in, could be integrated with various knowledge distillation methods. Extensive experimental results demonstrate the efficacy and generalizability of our method.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# 大規模言語モデルの正直性に関する調査

A Survey on the Honesty of Large Language Models ( http://arxiv.org/abs/2409.18786v1 )

ライセンス: Link先を確認
Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam, (参考訳) 正直さは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則であり、これらのモデルは、彼らが知っていることを認識し、知らないことを認識し、彼らの知識を忠実に表現することができるように要求する。 有望であるにもかかわらず、現在のLLMは、自信を持って答えを提示したり、知っていることを表現できないといった、重大な不正直な行動を示す。 加えて、LLMの誠実さに関する研究は、様々な誠実さの定義、既知の知識と未知の知識の区別の困難さ、関連する研究の包括的理解の欠如など、課題に直面している。 これらの課題に対処するため、我々はLCMの誠実さに関する調査を行い、その明確化、評価アプローチ、改善戦略について紹介する。 さらに,この重要な領域のさらなる探索をめざして,今後の研究への洞察を提供する。

Honesty is a fundamental principle for aligning large language models (LLMs) with human values, requiring these models to recognize what they know and don't know and be able to faithfully express their knowledge. Despite promising, current LLMs still exhibit significant dishonest behaviors, such as confidently presenting wrong answers or failing to express what they know. In addition, research on the honesty of LLMs also faces challenges, including varying definitions of honesty, difficulties in distinguishing between known and unknown knowledge, and a lack of comprehensive understanding of related research. To address these issues, we provide a survey on the honesty of LLMs, covering its clarification, evaluation approaches, and strategies for improvement. Moreover, we offer insights for future research, aiming to inspire further exploration in this important area.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# 野生での発掘: セマンティックセグメンテーションのためのGOOSE-Exデータセット

Excavating in the Wild: The GOOSE-Ex Dataset for Semantic Segmentation ( http://arxiv.org/abs/2409.18788v1 )

ライセンス: Link先を確認
Raphael Hagmanns, Peter Mortimer, Miguel Granero, Thorsten Luettel, Janko Petereit, (参考訳) 自律システムのためのディープラーニングベースのテクニックのデプロイの成功は、デプロイメント環境における各システムのデータの可用性に大きく依存している。 特に非構造屋外環境では、より少ないロボットプラットフォームやシナリオのためのデータセットはごくわずかである。 初期の研究では、非構造環境における知覚能力を高めるために、ドイツのアウトドア・オフロードデータセット(GOOSE)フレームワークと、オフロード車両からの10000のマルチモーダルフレームを提示した。 本稿では,GOOSEフレームワークの一般化可能性について述べる。 これを実現するため,GOOSE-Exデータセットをオープンソース化した。GOOSE-Exデータセットには,さまざまな異なる環境から5000個のラベル付きマルチモーダルフレームが含まれており,ロボット掘削機と四足歩行プラットフォームに記録されている。 本研究では,異なるプラットフォーム上でのセマンティックセグメンテーション性能と,目に見えない環境におけるセンサモードの総合的な解析を行う。 さらに、組み合わせたデータセットが、異なる下流アプリケーションやオフロードナビゲーション、オブジェクト操作、シーン補完といった競合にどのように利用できるかを実証する。 オフロード知覚のためのデータセット、プラットフォームドキュメント、トレーニング済みの最先端モデルがhttps://goose-dataset.de/.com/で公開される。 名

The successful deployment of deep learning-based techniques for autonomous systems is highly dependent on the data availability for the respective system in its deployment environment. Especially for unstructured outdoor environments, very few datasets exist for even fewer robotic platforms and scenarios. In an earlier work, we presented the German Outdoor and Offroad Dataset (GOOSE) framework along with 10000 multimodal frames from an offroad vehicle to enhance the perception capabilities in unstructured environments. In this work, we address the generalizability of the GOOSE framework. To accomplish this, we open-source the GOOSE-Ex dataset, which contains additional 5000 labeled multimodal frames from various completely different environments, recorded on a robotic excavator and a quadruped platform. We perform a comprehensive analysis of the semantic segmentation performance on different platforms and sensor modalities in unseen environments. In addition, we demonstrate how the combined datasets can be utilized for different downstream applications or competitions such as offroad navigation, object manipulation or scene completion. The dataset, its platform documentation and pre-trained state-of-the-art models for offroad perception will be made available on https://goose-dataset.de/. \
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# ボソニックノイズ量子メートル法における時間とエネルギーの相互作用

Interplay between time and energy in bosonic noisy quantum metrology ( http://arxiv.org/abs/2409.18791v1 )

ライセンス: Link先を確認
Wojciech Górecki, Francesco Albarelli, Simone Felicetti, Roberto Di Candia, Lorenzo Maccone, (参考訳) 無限次元プローブ(ボソニックモードなど)を使用する場合、原理的にはいくつかの物理パラメータを推定する際に無限の精度が得られる。 これは非物理的であり、無限の資源を必要とするため、いくつかの追加の制約を課す必要がある:通常、プローブで使われる平均エネルギーは有限である。 ここでは、エネルギーと時間の両方を資源として扱い、ノイズの存在下では、平均エネルギーと推定に費やされる時間との間には非自明な相互作用が存在することを示す。 我々の結果は最も一般的な気象学的なスキーム(例えば外部アンシラとの絡み合いを伴う適応的なスキーム)に有効である。 本稿では,Linbladian雑音を受けるボソニックモードのパラダイムケースを特徴付けるパラメータに対して,最近導出した精度境界を適用した。 推定に要する時間をどのように分割して、可能な限りの精度を達成するかを示す。 ほとんどの場合、最適な性能は、適応性やアンシラとの絡み合いを必要とせずに得られる。 結果を最適な古典的戦略と比較する。 興味深いことに、温度推定にはフォック状態の高速前処理プロトコルを用いることで、どの古典的戦略よりも多くの光子のスケーリングが可能である。

When using infinite-dimensional probes (such as a bosonic mode), one could in principle obtain infinite precision when estimating some physical parameters. This is unphysical, as it would require infinite resources, so one needs to impose some additional constraint: typically the average energy employed by the probe is finite. Here we treat both energy and time as a resource, showing that, in the presence of noise, there is a nontrivial interplay between the average energy and the time devoted to the estimation. Our results are valid for the most general metrological schemes (e.g. adaptive schemes which may involve entanglement with external ancillae). We apply recently derived precision bounds for all parameters characterizing the paradigmatic case of a bosonic mode, subject to Linbladian noise. We show how the time employed in the estimation should be partitioned in order to achieve the best possible precision. In most cases, the optimal performance may be obtained without the necessity of adaptivity or entanglement with ancilla. We compare results with optimal classical strategies. Interestingly, for temperature estimation, applying a fast-prepare-and-measure protocol with Fock states provides better scaling with the number of photons than any classical strategy.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# Hierarchical Federated ADMM

Hierarchical Federated ADMM ( http://arxiv.org/abs/2409.18796v1 )

ライセンス: Link先を確認
Seyed Mohammad Azimi-Abarghouyi, Nicola Bastianello, Karl H. Johansson, Viktoria Fodor, (参考訳) 本稿では、勾配勾配に基づく階層型学習(FL)アルゴリズムから脱却し、乗算器の交互方向法(ADMM)に基づく新しい階層型FLフレームワークを開発する。 本稿では,上位層にADMMを,下位層にADMMを,下位層にADMMを,下位層にADMMを用いる2つの新しいFLアルゴリズムを提案する。 提案フレームワークは,プライバシを強化し,学習収束度と精度の点で従来のアルゴリズムと比較して,提案アルゴリズムの優位性を実証した。 さらに、各レイヤのADMMは、ローカルステップの数が非常に限られていても、下位レイヤの勾配勾配は良好に機能する。

In this paper, we depart from the widely-used gradient descent-based hierarchical federated learning (FL) algorithms to develop a novel hierarchical FL framework based on the alternating direction method of multipliers (ADMM). Within this framework, we propose two novel FL algorithms, which both use ADMM in the top layer: one that employs ADMM in the lower layer and another that uses the conventional gradient descent-based approach. The proposed framework enhances privacy, and experiments demonstrate the superiority of the proposed algorithms compared to the conventional algorithms in terms of learning convergence and accuracy. Additionally, gradient descent on the lower layer performs well even if the number of local steps is very limited, while ADMM on both layers lead to better performance otherwise.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# 2023年アジア競技大会におけるメダルイベントとしてのスポーツ: BERTopic と GPT-4 Topic Fine-Tuning によるパブリックパーセプションの探索

Esports Debut as a Medal Event at 2023 Asian Games: Exploring Public Perceptions with BERTopic and GPT-4 Topic Fine-Tuning ( http://arxiv.org/abs/2409.18798v1 )

ライセンス: Link先を確認
Tyreal Yizhou Qian, Bo Yu, Weizhe Li, Chenglong Xu, (参考訳) 本研究は,2023年アジア競技大会におけるエスポートの世論と,LLM強化BERトピックモデリング分析を用いたイベントにおける価値共創について検討した。 我々は、公共の認識を表す5つの主要なテーマと、主要な利害関係者がエスポートエコシステム内外でどのように価値を創造したかを特定した。 主要な発見は、ソーシャルメディアマーケティングの戦略的利用が世論に影響を与え、エスポートイベントやブランドを促進することを強調し、イベントの物流とインフラの重要性を強調した。 さらに、従来のエスポートエコシステム以外の利害関係者による共同創造価値、特に全国的表現とパフォーマンスの促進が示された。 スポーツとしてエスポートを合法化するための継続的な取り組みを支持し,主流の認識は依然として課題である,と指摘する。 メダルのイベントとしてエスポートが取り入れられたことで、広く受け入れられ、否定的な大衆の認識を和らげることができた。 さらに、非伝統的な利害関係者からの貢献は、エスポートにおける異文化間協力の価値を裏付けた。

This study examined the public opinions of esports at the 2023 Asian Games and value co-creation during the event using an LLM-enhanced BERTopic modeling analysis. We identified five major themes representing public perceptions, as well as how major stakeholders co-created value within and beyond the esports ecosystem. Key findings highlighted the strategic use of social media marketing to influence public opinion and promote esports events and brands, emphasizing the importance of event logistics and infrastructure. Additionally, the study revealed the co-creation value contributed by stakeholders outside the traditional esports ecosystem, particularly in promoting national representation and performance. Our findings supported the ongoing efforts to legitimize esports as a sport, noting that mainstream recognition remains a challenge. The inclusion of esports as a medal event showcased broader acceptance and helped mitigate negative public perceptions. Moreover, contributions from non-traditional stakeholders underscored the value of cross-subcultural collaborations in esports.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# MiniVLN:進歩的知識蒸留による効率的な視覚・言語ナビゲーション

MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation ( http://arxiv.org/abs/2409.18800v1 )

ライセンス: Link先を確認
Junyou Zhu, Yanyuan Qiao, Siqi Zhang, Xingjian He, Qi Wu, Jing Liu, (参考訳) 近年、Embodied AI(Embodied AI)は急速に進歩しているが、モデルのサイズが大きくなるにつれて、Embodied AIプラットフォームの限られた計算能力と矛盾している。 この課題に対処するため、我々は高モデル性能と実用的なデプロイ可能性の両方を達成することを目指している。 具体的には、Embodied AIのコアタスクであるVision-and-Language Navigation(VLN)に焦点を当てる。 本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNを作成し,軽量モデル開発における蒸留技術の可能性を示す。 提案手法は,事前学習段階における微粒な知識と微粒な学習段階における航法固有の知識を捉えることを目的としている。 その結果, 2段階蒸留法は, 単段階蒸留法と比較して, 教師モデルと生徒モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。 公開R2RとREVERIEベンチマークでは、MiniVLNは教師モデルのパラメータの約12%しか持たず、教師モデルと同等のパフォーマンスを達成する。

In recent years, Embodied Artificial Intelligence (Embodied AI) has advanced rapidly, yet the increasing size of models conflicts with the limited computational capabilities of Embodied AI platforms. To address this challenge, we aim to achieve both high model performance and practical deployability. Specifically, we focus on Vision-and-Language Navigation (VLN), a core task in Embodied AI. This paper introduces a two-stage knowledge distillation framework, producing a student model, MiniVLN, and showcasing the significant potential of distillation techniques in developing lightweight models. The proposed method aims to capture fine-grained knowledge during the pretraining phase and navigation-specific knowledge during the fine-tuning phase. Our findings indicate that the two-stage distillation approach is more effective in narrowing the performance gap between the teacher model and the student model compared to single-stage distillation. On the public R2R and REVERIE benchmarks, MiniVLN achieves performance on par with the teacher model while having only about 12% of the teacher model's parameter count.
翻訳日:2024-10-01 11:53:50 公開日:2024-09-27
# 高次元におけるマニフォールド仮説下の拡散モデルの収束性

Convergence of Diffusion Models Under the Manifold Hypothesis in High-Dimensions ( http://arxiv.org/abs/2409.18804v1 )

ライセンス: Link先を確認
Iskander Azangulov, George Deligiannidis, Judith Rousseau, (参考訳) 拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は、高次元データ分布から合成データを生成するために使用される強力な最先端の手法であり、画像、オーディオ、ビデオ生成に広く用いられている。 多様体仮説は、高次元データはしばしば周囲空間内の低次元多様体の上にあり、与えられた例で成り立つと広く信じられている。 最近の結果は、拡散モデルが多様体の仮説にどのように適応するかについての貴重な知見を提供しているが、これらのモデルに大きな経験的成功を捉えておらず、非常に実りある研究の方向性となっている。 本研究では, DDPMを多様体仮説の下で研究し, スコアの学習の観点で, 周囲次元に依存しないレートを達成できることを証明した。 サンプリングの面では、周囲次元 w.r.t, Kullback-Leibler 発散率 w.r.t, $O(\sqrt{D})$ w.r.t. ワッサーシュタイン距離 w.r.t に依存しないレートを得る。 我々は、拡散モデルとガウス過程の極限論をよく研究した理論を結びつける新しい枠組みを開発する。

Denoising Diffusion Probabilistic Models (DDPM) are powerful state-of-the-art methods used to generate synthetic data from high-dimensional data distributions and are widely used for image, audio and video generation as well as many more applications in science and beyond. The manifold hypothesis states that high-dimensional data often lie on lower-dimensional manifolds within the ambient space, and is widely believed to hold in provided examples. While recent results has provided invaluable insight into how diffusion models adapt to the manifold hypothesis, they do not capture the great empirical success of these models, making this a very fruitful research direction. In this work, we study DDPMs under the manifold hypothesis and prove that they achieve rates independent of the ambient dimension in terms of learning the score. In terms of sampling, we obtain rates independent of the ambient dimension w.r.t. the Kullback-Leibler divergence, and $O(\sqrt{D})$ w.r.t. the Wasserstein distance. We do this by developing a new framework connecting diffusion models to the well-studied theory of extrema of Gaussian Processes.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# 成形可能な開発パターン

Moldable Development Patterns ( http://arxiv.org/abs/2409.18811v1 )

ライセンス: Link先を確認
Oscar Nierstrasz, Tudor Gîrba, (参考訳) 型付け可能な開発は、ソフトウェアシステムを説明可能なものにすることで意思決定をサポートする。 これは、ソフトウェアに多数のカスタムツールを追加するのを安くし、実際に探索可能なドメインモデルにすることで実現されます。 オープンソースシステムと産業システムの両方に成形性開発を適用した数年の経験から, 成形性開発が実際にどのように機能するかを説明するために, 相互に支援するパターンがいくつか見出された。 この論文はターゲット (i)成形性開発について学びたい読者。 (II)ベストプラクティスを学ぼうと願うGlasmorous ToolkitモールドブルIDEの現在のユーザ、そして 三 他のプラットフォーム及び技術を用いて成形可能な開発を行うことに関心のある開発者。

Moldable development supports decision-making by making software systems explainable. This is done by making it cheap to add numerous custom tools to your software, turning it into a live, explorable domain model. Based on several years of experience of applying moldable development to both open-source and industrial systems, we have identified several mutually supporting patterns to explain how moldable development works in practice. This paper targets (i) readers curious to learn about moldable development, (ii) current users of the Glamorous Toolkit moldable IDE wanting to learn best practices, and (iii) developers interested in applying moldable development using other platforms and technology.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# LLMs4Synthesis:科学合成のための大規模言語モデルの活用

LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis ( http://arxiv.org/abs/2409.18812v1 )

ライセンス: Link先を確認
Hamed Babaei Giglou, Jennifer D'Souza, Sören Auer, (参考訳) 本稿では,LLMs4Synthesisフレームワークを導入し,高次言語モデル(LLM)による高品質な科学合成の能力向上を図っている。 このフレームワークは、オープンソースとプロプライエタリなLLMの両方を活用することにより、科学的洞察の迅速で一貫性があり、文脈的にリッチな統合の必要性に対処する。 また、これらの合成の完全性と信頼性を評価する上でのLCMの有効性について検討し、現在の測定基準における不整合を緩和する。 本研究は, 科学論文を処理するための新しい方法論を開発し, 新たな合成タイプを定義し, 合成を評価するための9つの詳細な品質基準を確立することにより, この分野に寄与する。 LLMと強化学習とAIフィードバックの統合は、合成品質を最適化し、確立された基準との整合性を確保するために提案される。 LLMs4Synthesisフレームワークとそのコンポーネントは利用可能であり、科学研究合成における生成および評価プロセスの両方を強化することを約束している。

In response to the growing complexity and volume of scientific literature, this paper introduces the LLMs4Synthesis framework, designed to enhance the capabilities of Large Language Models (LLMs) in generating high-quality scientific syntheses. This framework addresses the need for rapid, coherent, and contextually rich integration of scientific insights, leveraging both open-source and proprietary LLMs. It also examines the effectiveness of LLMs in evaluating the integrity and reliability of these syntheses, alleviating inadequacies in current quantitative metrics. Our study contributes to this field by developing a novel methodology for processing scientific papers, defining new synthesis types, and establishing nine detailed quality criteria for evaluating syntheses. The integration of LLMs with reinforcement learning and AI feedback is proposed to optimize synthesis quality, ensuring alignment with established criteria. The LLMs4Synthesis framework and its components are made available, promising to enhance both the generation and evaluation processes in scientific research synthesis.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# EyeTrAES: 適応イベントスライシングによる微細で低レイテンシなアイトラッキング

EyeTrAES: Fine-grained, Low-Latency Eye Tracking via Adaptive Event Slicing ( http://arxiv.org/abs/2409.18813v1 )

ライセンス: Link先を確認
Argha Sen, Nuwan Bandara, Ila Gokarn, Thivya Kandappu, Archan Misra, (参考訳) 近年のアイトラッキング技術は、人間とコンピュータのインタラクション、バーチャルと拡張現実、ウェアラブルの健康に幅広い応用があるため、注目されている。 従来のRGBカメラベースの視線追跡システムは、時間分解能の低下と計算上の制約に悩まされ、目の動きの速さを捉える効果が制限される。 これらの制約に対処するため,ニューロモルフィックイベントカメラを用いた自然眼球運動の高忠実度追跡のための新しいアプローチであるEyeTrAESを提案する。 EyeTrAESのハイライトのひとつは、さまざまなアイムーブメントパターンにわたって、イベントフレーム内に適切な量の記述可能な非同期イベントデータが蓄積されることを保証する、新しい適応ウィンドウ/スライシングアルゴリズムを使用することである。 EyeTrAESは、単一の目から蓄積したイベントフレームに軽量な画像処理機能を適用して、瞳のセグメンテーションと追跡を行う。 IoU~=92%の精度で瞳孔追跡率を6+%向上させるとともに, 競合する純粋な事象ベースの眼球追跡法[38]に比べて少なくとも3倍の遅延を生じることを示す。 また、EyeTrAESが捉えた瞳孔運動は個人によって異なる特徴を示し、生体認証指紋として機能することを示した。 頑健なユーザ認証のために、短時間の瞳孔運動学の特徴ベクトルを用いた軽量なユーザごとのランダムフォレスト分類器を訓練し、瞳孔(位置、速度、加速度)のスライドウィンドウを構成する。 2つの異なるデータセットを用いた実験により、EyeTrAESベースの認証技術は高い認証精度 (~=0.82) と低い処理遅延 (~=12ms) を同時に達成し、複数の最先端の競合ベースラインを著しく上回ることを示した。

Eye-tracking technology has gained significant attention in recent years due to its wide range of applications in human-computer interaction, virtual and augmented reality, and wearable health. Traditional RGB camera-based eye-tracking systems often struggle with poor temporal resolution and computational constraints, limiting their effectiveness in capturing rapid eye movements. To address these limitations, we propose EyeTrAES, a novel approach using neuromorphic event cameras for high-fidelity tracking of natural pupillary movement that shows significant kinematic variance. One of EyeTrAES's highlights is the use of a novel adaptive windowing/slicing algorithm that ensures just the right amount of descriptive asynchronous event data accumulation within an event frame, across a wide range of eye movement patterns. EyeTrAES then applies lightweight image processing functions over accumulated event frames from just a single eye to perform pupil segmentation and tracking. We show that these methods boost pupil tracking fidelity by 6+%, achieving IoU~=92%, while incurring at least 3x lower latency than competing pure event-based eye tracking alternatives [38]. We additionally demonstrate that the microscopic pupillary motion captured by EyeTrAES exhibits distinctive variations across individuals and can thus serve as a biometric fingerprint. For robust user authentication, we train a lightweight per-user Random Forest classifier using a novel feature vector of short-term pupillary kinematics, comprising a sliding window of pupil (location, velocity, acceleration) triples. Experimental studies with two different datasets demonstrate that the EyeTrAES-based authentication technique can simultaneously achieve high authentication accuracy (~=0.82) and low processing latency (~=12ms), and significantly outperform multiple state-of-the-art competitive baselines.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# 深層学習モデルを用いたMRI画像からのアルツハイマー病早期診断

Early diagnosis of Alzheimer's disease from MRI images with deep learning model ( http://arxiv.org/abs/2409.18814v1 )

ライセンス: Link先を確認
Sajjad Aghasi Javid, Mahmood Mohassel Feghhi, (参考訳) 認知症の最も多い原因はアルツハイマー病(AD)である。 この状態は軽度から重度に進行し、人々の日常の習慣に干渉する。 早期診断は、患者医療や臨床試験において重要な役割を担っている。 畳み込みニューラルネットワーク(CNN)は、MRIスキャンから特定の疾患の特徴を特定するためのフレームワークを作成するために使用される。 しかし、Kaggleから得られた画像データセットは、各クラスからのサンプルの均等な分散を必要とするクラス不均衡の重大な問題に直面している。 本稿では、この不均衡に対処するために、SMOTE(Synthetic Minority Oversampling Technique)を利用する。 さらに,AD画像から重要な特徴を抽出するために,事前学習した畳み込みニューラルネットワークをDEMNET認知ネットワークに適用した。 提案されたモデルは98.67%の精度を達成した。

It is acknowledged that the most common cause of dementia worldwide is Alzheimer's disease (AD). This condition progresses in severity from mild to severe and interferes with people's everyday routines. Early diagnosis plays a critical role in patient care and clinical trials. Convolutional neural networks (CNN) are used to create a framework for identifying specific disease features from MRI scans Classification of dementia involves approaches such as medical history review, neuropsychological tests, and magnetic resonance imaging (MRI). However, the image dataset obtained from Kaggle faces a significant issue of class imbalance, which requires equal distribution of samples from each class to address. In this article, to address this imbalance, the Synthetic Minority Oversampling Technique (SMOTE) is utilized. Furthermore, a pre-trained convolutional neural network has been applied to the DEMNET dementia network to extract key features from AD images. The proposed model achieved an impressive accuracy of 98.67%.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# スイスのホームケア看護における地域転写モデル : 学際的ケーススタディ

Local Transcription Models in Home Care Nursing in Switzerland: an Interdisciplinary Case Study ( http://arxiv.org/abs/2409.18819v1 )

ライセンス: Link先を確認
Jeremy Kramer, Tetiana Kravchenko, Beatrice Kaufmann, Friederike J. S. Thilo, Mascha Kurpicz-Briki, (参考訳) 自然言語処理(NLP)の分野での最近の進歩は、医療部門を含むさまざまな分野の新たなユースケースを可能にしている。 特に、転写は、看護ドキュメントプロセスにおける自動化をサポートし、看護師が患者と対話する時間を増やすために使用することができる。 しかし、課題は様々である。 (a)データプライバシー (b)現地語・方言、及び (c)ドメイン固有の語彙に対処する必要がある。 本研究は,スイスにおける在宅ケア看護の文書化の事例について考察する。 我々は異なる転写ツールとモデルを評価し、OpenAI Whisperでいくつかの実験を行い、ドイツ語の異なるバリエーション(方言、外国語アクセント)と、ホームケア専門専門医による手作業によるサンプルテキストについて検討した。 この結果から,使用済みのアウト・オブ・ザ・ボックスモデルでさえ十分な性能を示し,今後の研究の出発点となることが示唆された。

Latest advances in the field of natural language processing (NLP) enable new use cases for different domains, including the medical sector. In particular, transcription can be used to support automation in the nursing documentation process and give nurses more time to interact with the patients. However, different challenges including (a) data privacy, (b) local languages and dialects, and (c) domain-specific vocabulary need to be addressed. In this case study, we investigate the case of home care nursing documentation in Switzerland. We assessed different transcription tools and models, and conducted several experiments with OpenAI Whisper, involving different variations of German (i.e., dialects, foreign accent) and manually curated example texts by a domain expert of home care nursing. Our results indicate that even the used out-of-the-box model performs sufficiently well to be a good starting point for future research in the field.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# 機械学習を用いた自動量子システムモデリング

Automated quantum system modeling with machine learning ( http://arxiv.org/abs/2409.18822v1 )

ライセンス: Link先を確認
Kaustav Mukherjee, Johannes Schachenmayer, Shannon Whitlock, Sebastian Wüster, (参考訳) 現実の世界における量子システムの複雑さにもかかわらず、デコヒーレンスを考慮すれば、実効的な多体状態のモデルはしばしば量子力学を記述するのに十分である。 簡単な量子力学測定のセットを考えると、機械学習アルゴリズムがそのようなモデルを構築することができることを示す。 有効なヒルベルト空間はブラックボックスであり、必要なトレーニングデータを生成するのに十分な1つのアクセス可能な出力状態への結合のバリエーションがある。 我々は、マルコフ的オープン量子システムのシミュレーションを通して、ニューラルネットワークが有効状態の$N$と最も関連するハミルトン項と状態強調過程とレートを自動的に検出できることを示した。 N\leq5$のシステムの場合、予測の平均相対誤差は10$%である。 より高度なネットワークとより大きなトレーニングセットにより、将来の単一ソフトウェアは未知のデバイスやシステムのためのモデル構築のための自動化されたファーストストップソリューションを提供し、システムへの物理的な洞察に基づく従来のアプローチを補完し、検証することが可能である。

Despite the complexity of quantum systems in the real world, models with just a few effective many-body states often suffice to describe their quantum dynamics, provided decoherence is accounted for. We show that a machine learning algorithm is able to construct such models, given a straightforward set of quantum dynamics measurements. The effective Hilbert space can be a black box, with variations of the coupling to just one accessible output state being sufficient to generate the required training data. We demonstrate through simulations of a Markovian open quantum system that a neural network can automatically detect the number $N $ of effective states and the most relevant Hamiltonian terms and state-dephasing processes and rates. For systems with $N\leq5$ we find typical mean relative errors of predictions in the $10 \%$ range. With more advanced networks and larger training sets, it is conceivable that a future single software can provide the automated first stop solution to model building for an unknown device or system, complementing and validating the conventional approach based on physical insight into the system.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# YOLOv8-ResCBAM: YOLOv8による小児関節リスト骨折検出のための効果的なアテンションモジュール

YOLOv8-ResCBAM: YOLOv8 Based on An Effective Attention Module for Pediatric Wrist Fracture Detection ( http://arxiv.org/abs/2409.18826v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Chun-Tse Chien, Jen-Shiun Chiang, (参考訳) 難治性外傷や骨折は、特に骨折症例のかなりの割合を占める小児において、日常生活において頻繁に起こる。 手術の前に、外科医は患者にまずX線撮影を依頼し、X線画像の分析に基づいて手術の準備をする。 ニューラルネットワークの開発に伴い、You Only Look Once (YOLO)シリーズモデルがコンピュータ支援診断の骨折検出に広く使われ、YOLOv8モデルは良好な結果を得た。 ニューラルネットワークにアテンションモジュールを適用することは、モデルパフォーマンスを改善するための効果的な方法の1つである。 本稿では,resblock(ResCBAM)と統合された畳み込みブロックアテンションモジュールを元となるYOLOv8ネットワークアーキテクチャに組み込んだYOLOv8-ResCBAMを提案する。 GRAZPEDWRI-DXデータセットによる実験結果から、提案モデルの平均平均精度が0.5(mAP 50)の区間で算出され、元のYOLOv8モデルの63.6%から65.8%に向上し、最先端の性能が達成された。 実装コードはhttps://github.com/RuiyangJu/Fracture_Detection_Improved_YOLOv8で公開されている。

Wrist trauma and even fractures occur frequently in daily life, particularly among children who account for a significant proportion of fracture cases. Before performing surgery, surgeons often request patients to undergo X-ray imaging first, and prepare for the surgery based on the analysis of the X-ray images. With the development of neural networks, You Only Look Once (YOLO) series models have been widely used in fracture detection for Computer-Assisted Diagnosis, where the YOLOv8 model has obtained the satisfactory results. Applying the attention modules to neural networks is one of the effective methods to improve the model performance. This paper proposes YOLOv8-ResCBAM, which incorporates Convolutional Block Attention Module integrated with resblock (ResCBAM) into the original YOLOv8 network architecture. The experimental results on the GRAZPEDWRI-DX dataset demonstrate that the mean Average Precision calculated at Intersection over Union threshold of 0.5 (mAP 50) of the proposed model increased from 63.6% of the original YOLOv8 model to 65.8%, which achieves the state-of-the-art performance. The implementation code is available at https://github.com/RuiyangJu/Fracture_Detection_Improved_YOLOv8.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# ARLBench: 強化学習におけるハイパーパラメータ最適化のためのフレキシブルで効率的なベンチマーク

ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning ( http://arxiv.org/abs/2409.18827v1 )

ライセンス: Link先を確認
Jannis Becktepe, Julian Dierkes, Carolin Benjamins, Aditya Mohan, David Salinas, Raghu Rajan, Frank Hutter, Holger Hoos, Marius Lindauer, Theresa Eimer, (参考訳) ハイパーパラメータは、高い性能の強化学習(RL)エージェントを確実に訓練する上で重要な要素である。 残念なことに、そのようなハイパーパラメータをチューニングするための自動化アプローチの開発と評価には、コストと時間がかかります。 その結果、そのようなアプローチは単一のドメインやアルゴリズムでのみ評価されることが多く、比較が難しくなり、一般化可能性に対する洞察が制限される。 本稿では,RLにおけるハイパーパラメータ最適化(HPO)のベンチマークであるARLBenchを提案する。 RLにおけるHPOの研究を可能にするため、計算資源の少ない設定でも、様々なアルゴリズムと環境の組み合わせにまたがるHPOタスクの代表的なサブセットを選択する。 この選択により、これまで必要だった計算のごく一部だけを使用して自動RL(AutoRL)メソッドのパフォーマンスプロファイルを生成することができ、より広い範囲の研究者がRLでHPOに取り組むことができる。 ハイパーパラメータのランドスケープに関する大規模かつ大規模なデータセットをベースとして、ARLBenchはAutoRLの研究のための効率的でフレキシブルで未来志向の基盤です。 ベンチマークとデータセットは、https://github.com/automl/arlbench.comで公開されている。

Hyperparameters are a critical factor in reliably training well-performing reinforcement learning (RL) agents. Unfortunately, developing and evaluating automated approaches for tuning such hyperparameters is both costly and time-consuming. As a result, such approaches are often only evaluated on a single domain or algorithm, making comparisons difficult and limiting insights into their generalizability. We propose ARLBench, a benchmark for hyperparameter optimization (HPO) in RL that allows comparisons of diverse HPO approaches while being highly efficient in evaluation. To enable research into HPO in RL, even in settings with low compute resources, we select a representative subset of HPO tasks spanning a variety of algorithm and environment combinations. This selection allows for generating a performance profile of an automated RL (AutoRL) method using only a fraction of the compute previously necessary, enabling a broader range of researchers to work on HPO in RL. With the extensive and large-scale dataset on hyperparameter landscapes that our selection is based on, ARLBench is an efficient, flexible, and future-oriented foundation for research on AutoRL. Both the benchmark and the dataset are available at https://github.com/automl/arlbench.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# MECG-E:マンバをベースとした経口洗浄用心電図エンハンサー

MECG-E: Mamba-based ECG Enhancer for Baseline Wander Removal ( http://arxiv.org/abs/2409.18828v1 )

ライセンス: Link先を確認
Kuo-Hsuan Hung, Kuan-Chen Wang, Kai-Chun Liu, Wei-Lun Chen, Xugang Lu, Yu Tsao, Chii-Wann Lin, (参考訳) 心電図(ECG)は心血管疾患の診断に重要な非侵襲的方法である。 しかし、ECG信号は電気干渉や信号の流路といったノイズ汚染の影響を受けやすいため、診断精度が低下する。 様々なECGデノベーション手法が提案されているが、既存のほとんどの手法では、非常にノイズの多い条件下では最適以下の性能を得るか、推論中にいくつかのステップを必要とするため、オンライン処理中に遅延が発生する。 本稿では,その高速推論と優れた非線形マッピング機能で知られるMambaアーキテクチャを活用する,新しいECGデノナイズモデル(MECG-E)を提案する。 実験結果から,MECG-Eは様々な騒音条件下で,複数の測定値にまたがる既知モデルを上回ることが示唆された。 さらに、MECG-Eは、最先端の拡散に基づくECGデノイザよりも推論時間が少なく、モデルの機能性と効率を実証する。

Electrocardiogram (ECG) is an important non-invasive method for diagnosing cardiovascular disease. However, ECG signals are susceptible to noise contamination, such as electrical interference or signal wandering, which reduces diagnostic accuracy. Various ECG denoising methods have been proposed, but most existing methods yield suboptimal performance under very noisy conditions or require several steps during inference, leading to latency during online processing. In this paper, we propose a novel ECG denoising model, namely Mamba-based ECG Enhancer (MECG-E), which leverages the Mamba architecture known for its fast inference and outstanding nonlinear mapping capabilities. Experimental results indicate that MECG-E surpasses several well-known existing models across multiple metrics under different noise conditions. Additionally, MECG-E requires less inference time than state-of-the-art diffusion-based ECG denoisers, demonstrating the model's functionality and efficiency.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# 量子交互演算子アンザッツを用いた線形制約付き組合せ最適化の収束保証

Convergence guarantee for linearly-constrained combinatorial optimization with a quantum alternating operator ansatz ( http://arxiv.org/abs/2409.18829v1 )

ライセンス: Link先を確認
Brayden Goldstein-Gelb, Phillip C. Lotshaw, (参考訳) 本稿では,Hilbert部分空間内で量子状態を進化させることにより,線形に制約された最適化問題のクラスを解く量子交互演算子アンサッツ(QAOA$^+$)を提案する。 我々の主な焦点は、逐次整数係数を含む線形制約を持つ問題のクラスである。 このクラスの問題に対して、回路層の数が増えるにつれて最適解に確実に収束するQAOA$^+$回路を考案し、制約のない問題や対称制約のある問題を解くための以前の保証を一般化する。 我々のアプローチには、実現可能な状態間の遷移を駆動する非対称な「混合」ハミルトニアンと、任意の既知の実現可能な解を初期状態として組み込む方法が含まれており、これらはここで考慮される特定の線形制約を越えて適用することができる。 この分析はQAOA$^+$性能保証を線形制約された問題のより一般的な集合に拡張し、将来の一般化のためのツールを提供する。

We present a quantum alternating operator ansatz (QAOA$^+$) that solves a class of linearly constrained optimization problems by evolving a quantum state within a Hilbert subspace of feasible problem solutions. Our main focus is on a class of problems with a linear constraint containing sequential integer coefficients. For problems in this class, we devise QAOA$^+$ circuits that provably converge to the optimal solution as the number of circuit layers increases, generalizing previous guarantees for solving unconstrained problems or problems with symmetric constraints. Our approach includes asymmetric ``mixing" Hamiltonians that drive transitions between feasible states, as well as a method to incorporate an arbitrary known feasible solution as the initial state, each of which can be applied beyond the specific linear constraints considered here. This analysis extends QAOA$^+$ performance guarantees to a more general set of linearly-constrained problems and provides tools for future generalizations.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# 2次元畳み込みニューラルネットワークによる画像として表現された軌道の分類と回帰

Classification and regression of trajectories rendered as images via 2D Convolutional Neural Networks ( http://arxiv.org/abs/2409.18832v1 )

ライセンス: Link先を確認
Mariaclaudia Nicolai, Raffaella Fiamma Cabini, Diego Ulisse Pizzagalli, (参考訳) 軌道は座標の時系列と見なすことができ、典型的には運動物体から生じる。 軌跡分類法は特に異なる動きパターンを検出するために重要であり、回帰法は運動量の計算と予測を行う。 コンピュータビジョンの最近の進歩は、2次元畳み込み層(CNN)を持つ人工ニューラルネットワークを介して画像として表現された軌跡の処理を容易にしている。 このアプローチは、複雑な形状を認識するために必要な画像から特徴の空間的階層を学習するCNNの機能を活用する。 さらに、入力軌跡を一定数の点で要求する他の機械学習手法の制限を克服する。 しかし、画像としての描画軌道は、離散格子上の座標のプロットによる情報損失や、線厚やエイリアスによるスペクトル変化など、調査の不十分な成果をもたらす可能性がある。 本研究では,CNNの分類と回帰問題の解法として,異なるモダリティを用いた画像として描画された合成軌道の解法について検討した。 本研究で検討されるパラメータは,線厚,画像解像度,動作履歴(時間成分のカラーコーディング)の使用,アンチエイリアスなどである。 その結果,移動方向が重要となるアプリケーションにおいて,モデル深度や動作履歴に応じて適切な画像解像度を選択することの重要性を強調した。

Trajectories can be regarded as time-series of coordinates, typically arising from motile objects. Methods for trajectory classification are particularly important to detect different movement patterns, while methods for regression to compute motility metrics and forecasting. Recent advances in computer vision have facilitated the processing of trajectories rendered as images via artificial neural networks with 2d convolutional layers (CNNs). This approach leverages the capability of CNNs to learn spatial hierarchies of features from images, necessary to recognize complex shapes. Moreover, it overcomes the limitation of other machine learning methods that require input trajectories with a fixed number of points. However, rendering trajectories as images can introduce poorly investigated artifacts such as information loss due to the plotting of coordinates on a discrete grid, and spectral changes due to line thickness and aliasing. In this study, we investigate the effectiveness of CNNs for solving classification and regression problems from synthetic trajectories that have been rendered as images using different modalities. The parameters considered in this study include line thickness, image resolution, usage of motion history (color-coding of the temporal component) and anti-aliasing. Results highlight the importance of choosing an appropriate image resolution according to model depth and motion history in applications where movement direction is critical.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# The' Generalization Errorの信頼区間の構築 - 総合ベンチマークによる検討

Constructing Confidence Intervals for 'the' Generalization Error -- a Comprehensive Benchmark Study ( http://arxiv.org/abs/2409.18836v1 )

ライセンス: Link先を確認
Hannah Schulz-Kümpel, Sebastian Fischer, Thomas Nagler, Anne-Laure Boulesteix, Bernd Bischl, Roman Hornung, (参考訳) 機械学習における予測モデルの品質を評価する際には、予測性能を測定する一般化誤差に対する信頼区間(CI)が重要である。 幸いにも、このようなCIの計算方法は数多く存在し、新しい有望なアプローチが継続的に提案されている。 一般的にこれらの手法は、クロスバリデーションとブートストレッピングでよく使われる様々な再サンプリング手順と、異なる分散推定手法を組み合わせたものである。 しかし残念ながら、これらの組み合わせがいつ最も確実に採用されるのか、どのように一般的に比較されるのかについては、現時点では合意が得られていない。 本研究では,4種類のインデューサと合計8個の損失関数を用いて,合計18個の表の回帰および分類問題に対して13個の異なる手法を実験的に評価し,CIを一般化誤差と比較した最初の大規模研究を行った。 一般化エラーのためのCI構築の方法論的基礎と固有の課題について概説し、統一されたフレームワークにおける13のメソッド全てを簡潔にレビューする。 最後に、CIメソッドは、相対カバレッジ頻度、幅、実行時間の観点から評価される。 これらの知見に基づき、推奨するメソッドのサブセットを特定できる。 また、データセットをOpenMLのベンチマークスイートとして公開し、GitHubのコードを使ってさらなる研究の基盤を提供しています。

When assessing the quality of prediction models in machine learning, confidence intervals (CIs) for the generalization error, which measures predictive performance, are a crucial tool. Luckily, there exist many methods for computing such CIs and new promising approaches are continuously being proposed. Typically, these methods combine various resampling procedures, most popular among them cross-validation and bootstrapping, with different variance estimation techniques. Unfortunately, however, there is currently no consensus on when any of these combinations may be most reliably employed and how they generally compare. In this work, we conduct the first large-scale study comparing CIs for the generalization error - empirically evaluating 13 different methods on a total of 18 tabular regression and classification problems, using four different inducers and a total of eight loss functions. We give an overview of the methodological foundations and inherent challenges of constructing CIs for the generalization error and provide a concise review of all 13 methods in a unified framework. Finally, the CI methods are evaluated in terms of their relative coverage frequency, width, and runtime. Based on these findings, we are able to identify a subset of methods that we would recommend. We also publish the datasets as a benchmarking suite on OpenML and our code on GitHub to serve as a basis for further studies.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# 加速のみによるUnruh-Dewitt検出器間の相互作用:FDU効果の並列性

Interaction between Unruh-Dewitt detectors exclusively due to acceleration: A Parallel to the FDU Effect ( http://arxiv.org/abs/2409.18853v1 )

ライセンス: Link先を確認
Wenting Zhou, Shijing Cheng, Hongwei Yu, (参考訳) FDU(Fulling-Davies-Unruh)効果によって予測される単一検出器の自然励起に類似した、加速によってのみ発生する真空中の2つの検出器間の相互作用を発見した。 しかし、この相互作用はFDU効果とは対照的であり、発見された相互作用が熱環境に現れないため、均一に加速された検出器が熱浴中であるかのように振る舞うことを示唆している。 新たな相互作用は検出器間の分離に固有の依存関係を示しており、検出器間の分離が変化するにつれて、これらの挙動が遷移する可能性があるため、誘惑的あるいは反発的になる可能性がある。 さらに興味深いことに、FDU効果の単調加速度依存性とは対照的に、相互作用が強い最適な加速の存在が示唆される。

We have discovered an interaction between two detectors in a vacuum that emerges exclusively due to acceleration, akin to the spontaneous excitation of a single detector as predicted by the Fulling-Davies-Unruh (FDU) effect. However, this interaction contrasts sharply with the FDU effect, which suggests that a uniformly accelerated detector behaves as if it were in a thermal bath, as the discovered interaction does not manifest in a thermal environment. The novel interaction displays unique dependencies on the separation between detectors: it can be either attractive or repulsive, with the potential to transition between these behaviors as the inter-detector separation changes. More intriguingly, it exhibits a surprising large-small duality in its dependence on acceleration, suggesting the existence of an optimal acceleration at which the interaction is strongest, in contrast to the monotonic acceleration-dependence of the FDU effect.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-27
# MinerU: 正確な文書コンテンツ抽出のためのオープンソースソリューション

MinerU: An Open-Source Solution for Precise Document Content Extraction ( http://arxiv.org/abs/2409.18839v1 )

ライセンス: Link先を確認
Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He, (参考訳) 文書コンテンツ分析はコンピュータビジョンにおいて重要な研究領域である。 OCR、レイアウト検出、公式認識などの手法が大幅に進歩しているにもかかわらず、既存のオープンソースソリューションは、文書の種類や内容の多様性のために、高品質なコンテンツ抽出を一貫して提供するのに苦労している。 これらの課題に対処するため,我々は,高精度な文書コンテンツ抽出のためのオープンソースソリューションMinerUを提案する。 MinerUは、洗練されたPDF-Extract-Kitモデルを利用して、多様なドキュメントからコンテンツを効果的に抽出し、最終的な結果の正確性を保証するために、微調整された事前処理と後処理ルールを採用する。 実験の結果,MinerUは文書の種類によって高い性能を実現し,コンテンツ抽出の品質と一貫性を著しく向上させることがわかった。 MinerUオープンソースプロジェクトはhttps://github.com/opendatalab/MinerUで公開されている。

Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# RNC:資源制約エッジデバイス上での効率的なRRAM対応NASとDNNのコンパイル

RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices ( http://arxiv.org/abs/2409.18841v1 )

ライセンス: Link先を確認
Kam Chi Loong, Shihao Han, Sishuo Liu, Ning Lin, Zhongrui Wang, (参考訳) コンピューティング・イン・メモリ(CIM)は、新しいコンピューティングパラダイムであり、従来のフォン・ノイマンアーキテクチャと比較して、高い並列性、低レイテンシ、エネルギー効率でニューラルネットワークを加速するための注目すべきポテンシャルを提供する。 しかし、既存の研究は主にリソース制約を考慮せずに、大規模ニューラルネットワークのためのハードウェアアーキテクチャとネットワークの共同設計に焦点を当てている。 本研究では、抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)を開発することを目的とする。 そこで本研究では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。 計算ユニットの利用を最大化するために, 階層分割, 複製, ネットワークパッキングを統合したコンパイル手法を提案する。 結果として得られるネットワークアーキテクチャは、Non-dominated Sorted Genetic Algorithm II (NSGA-II)によって達成されたパレート最適性を備えたワンショットニューラルネットワークアプローチを用いて、高精度または低レイテンシに最適化することができる。 SqueezenetやMobilenetV3 Smallのようなモバイルフレンドリーなネットワークのコンパイルは、異なるクロスバーリソースを持つISAACライクなフレームワークと比較して80%以上の利用率と6倍以上のスピードアップを達成することができる。 NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。 この論文のコードはhttps://github.com/ArChiiii/rram_nas_comp_packで公開されている。

Computing-in-memory (CIM) is an emerging computing paradigm, offering noteworthy potential for accelerating neural networks with high parallelism, low latency, and energy efficiency compared to conventional von Neumann architectures. However, existing research has primarily focused on hardware architecture and network co-design for large-scale neural networks, without considering resource constraints. In this study, we aim to develop edge-friendly deep neural networks (DNNs) for accelerators based on resistive random-access memory (RRAM). To achieve this, we propose an edge compilation and resource-constrained RRAM-aware neural architecture search (NAS) framework to search for optimized neural networks meeting specific hardware constraints. Our compilation approach integrates layer partitioning, duplication, and network packing to maximize the utilization of computation units. The resulting network architecture can be optimized for either high accuracy or low latency using a one-shot neural network approach with Pareto optimality achieved through the Non-dominated Sorted Genetic Algorithm II (NSGA-II). The compilation of mobile-friendly networks, like Squeezenet and MobilenetV3 small can achieve over 80% of utilization and over 6x speedup compared to ISAAC-like framework with different crossbar resources. The resulting model from NAS optimized for speed achieved 5x-30x speedup. The code for this paper is available at https://github.com/ArChiiii/rram_nas_comp_pack.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# 古典的統計的(サンプル内)直観はうまく一般化しない: バイアス分散トレードオフ、オーバーフィッティング、固定設計からランダム設計へ

Classical Statistical (In-Sample) Intuitions Don't Generalize Well: A Note on Bias-Variance Tradeoffs, Overfitting and Moving from Fixed to Random Designs ( http://arxiv.org/abs/2409.18842v1 )

ライセンス: Link先を確認
Alicia Curth, (参考訳) 二重降下や良心過剰といった機械学習(ML)現象の突然の出現は、多くの古典的な訓練を受けた統計学者を不安にさせる可能性がある。 このような現象の初期の観測の歴史的欠如は、今日のより複雑なML手法、過度なパラメータ化、補間、あるいはより高次のデータ次元への依存によるものである。 本稿では,古典統計学の教科書で教えられている直観に反する振る舞いを観察するもう一つの理由を示す。 特に、多くの直観は固定された設計設定に起因しており、そこでは(ノイズのある結果の再サンプリングによる)サンプル内予測誤差が興味をそそる一方で、現代のMLは一般化誤差、すなわちランダムな設計におけるサンプル外予測誤差を評価している。 ここでは、固定された設計からランダムな設計への単純な動きが、バイアス分散トレードオフに関する教科書の直観に(おそらく驚くほど)遠い結果をもたらすことを強調し、固定およびランダムな設計において二重降下と良性オーバーフィットを観察する可能性についてコメントする。

The sudden appearance of modern machine learning (ML) phenomena like double descent and benign overfitting may leave many classically trained statisticians feeling uneasy -- these phenomena appear to go against the very core of statistical intuitions conveyed in any introductory class on learning from data. The historical lack of earlier observation of such phenomena is usually attributed to today's reliance on more complex ML methods, overparameterization, interpolation and/or higher data dimensionality. In this note, we show that there is another reason why we observe behaviors today that appear at odds with intuitions taught in classical statistics textbooks, which is much simpler to understand yet rarely discussed explicitly. In particular, many intuitions originate in fixed design settings, in which in-sample prediction error (under resampling of noisy outcomes) is of interest, while modern ML evaluates its predictions in terms of generalization error, i.e. out-of-sample prediction error in random designs. Here, we highlight that this simple move from fixed to random designs has (perhaps surprisingly) far-reaching consequences on textbook intuitions relating to the bias-variance tradeoff, and comment on the resulting (im)possibility of observing double descent and benign overfitting in fixed versus random designs.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# 2つのスパース行列は1より優れている:二重スパース因子分解によるスペースニューラルネットワーク

Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization ( http://arxiv.org/abs/2409.18850v1 )

ライセンス: Link先を確認
Vladimír Boža, Vladimír Macko, (参考訳) ニューラルネットワークは、サイズと複雑さが大きいため、作業が難しいことが多い。 これを解決するために, 重量行列を縮小・分解することで, 低ランク・ブロック対角係数化などのモデルサイズを小さくすることを目的とした。 本研究では,重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。 この問題の解法は正確には計算不可能であるが,ADMMによる変更最小化に基づく効率的なヒューリスティックを提案する。 例えば、1ショットプルーニング環境では、LLaMA2-13Bモデルよりも高い性能を維持しつつ、LLaMA2-13Bモデルのサイズを50%削減することができる。 また、畳み込みニューラルネットワークに対する最先端の層ワイドプルーニングアプローチであるOptimal Brain Compressionと比較した。 さらに, モデル微調整後の精度向上も継続した。 コードは、https://github.com/usamec/double_sparse.comで入手できる。

Neural networks are often challenging to work with due to their large size and complexity. To address this, various methods aim to reduce model size by sparsifying or decomposing weight matrices, such as magnitude pruning and low-rank or block-diagonal factorization. In this work, we present Double Sparse Factorization (DSF), where we factorize each weight matrix into two sparse matrices. Although solving this problem exactly is computationally infeasible, we propose an efficient heuristic based on alternating minimization via ADMM that achieves state-of-the-art results, enabling unprecedented sparsification of neural networks. For instance, in a one-shot pruning setting, our method can reduce the size of the LLaMA2-13B model by 50% while maintaining better performance than the dense LLaMA2-7B model. We also compare favorably with Optimal Brain Compression, the state-of-the-art layer-wise pruning approach for convolutional neural networks. Furthermore, accuracy improvements of our method persist even after further model fine-tuning. Code available at: https://github.com/usamec/double_sparse.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# 複雑な動的環境下での高精度表面再構成のための時空間2次元ガウススプラッティング

Space-time 2D Gaussian Splatting for Accurate Surface Reconstruction under Complex Dynamic Scenes ( http://arxiv.org/abs/2409.18852v1 )

ライセンス: Link先を確認
Shuo Wang, Binbin Huang, Ruoyu Wang, Shenghua Gao, (参考訳) 従来の表面再構成法は、多人数活動を含む実世界の複雑なダイナミックシーンや人間と物体の相互作用を扱う場合、幾何学的精度が低いか、長い訓練時間に悩まされる。 複雑なシーンにおける動的内容と閉塞に対処するため,時空間2次元ガウススプラッティング手法を提案する。 具体的には、動的シーンにおける幾何学的品質を改善するために、標準2次元ガウススプラットを学習し、これら2次元ガウススプラットを変形させながら、深さと正規正規化器を導入して物体の表面に位置するガウススの円盤を強制する。 さらに, 複雑なシーンにおける閉塞問題に対処するため, 構成不透明変形戦略を導入し, 閉塞領域の表面の回復をさらに抑制する。 実世界のスパースビュービデオデータセットとモノクロダイナミックデータセットの実験により、再構築は、特に細部の表面において、最先端の手法よりも優れていることが示された。 プロジェクトページとさらなる視覚化は、https://tb2-sy.github.io/st-2dgs/.com/で見ることができる。

Previous surface reconstruction methods either suffer from low geometric accuracy or lengthy training times when dealing with real-world complex dynamic scenes involving multi-person activities, and human-object interactions. To tackle the dynamic contents and the occlusions in complex scenes, we present a space-time 2D Gaussian Splatting approach. Specifically, to improve geometric quality in dynamic scenes, we learn canonical 2D Gaussian splats and deform these 2D Gaussian splats while enforcing the disks of the Gaussian located on the surface of the objects by introducing depth and normal regularizers. Further, to tackle the occlusion issues in complex scenes, we introduce a compositional opacity deformation strategy, which further reduces the surface recovery of those occluded areas. Experiments on real-world sparse-view video datasets and monocular dynamic datasets demonstrate that our reconstructions outperform state-of-the-art methods, especially for the surface of the details. The project page and more visualizations can be found at: https://tb2-sy.github.io/st-2dgs/.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# ノードプルーニングと補助オプションによる選択バイアスの緩和

Mitigating Selection Bias with Node Pruning and Auxiliary Options ( http://arxiv.org/abs/2409.18857v1 )

ライセンス: Link先を確認
Hyeong Kyu Choi, Weijie Xu, Chi Xue, Stephanie Eckman, Chandan K. Reddy, (参考訳) 大規模言語モデル (LLMs) は、複数の質問に応答するときに、特定の選択オプションを不当に選好し、LLM自動化システムにおいて重大な信頼性上の懸念を生じさせる。 この選択バイアス問題を緩和するために、従来の解法はデバイアス法を用いてモデルの入力や出力を調整した。 対照的に、我々の研究は選択バイアスのモデルの内部表現を調査している。 具体的には、バイアスに寄与する線形層パラメータを除去する新しいデバイアス化手法であるバイアスノードプルーニング(BNP)を導入する。 さらに, ブラックボックスLLMと互換性のある, 単純かつ効果的な入力修正手法である補助オプションインジェクション(AOI)を提案する。 選択バイアスをより体系的に評価するために、既存のメトリクスをレビューし、一般的なメトリクスの感度に対処して不均衡を示すChoice Kullback-Leibler Divergence(CKLD)を導入する。 実験により,本手法は3つのLLMに適用した場合,各種データセットに対して頑健かつ適応可能であることが示された。

Large language models (LLMs) often show unwarranted preference for certain choice options when responding to multiple-choice questions, posing significant reliability concerns in LLM-automated systems. To mitigate this selection bias problem, previous solutions utilized debiasing methods to adjust the model's input and/or output. Our work, in contrast, investigates the model's internal representation of the selection bias. Specifically, we introduce a novel debiasing approach, Bias Node Pruning (BNP), which eliminates the linear layer parameters that contribute to the bias. Furthermore, we present Auxiliary Option Injection (AOI), a simple yet effective input modification technique for debiasing, which is compatible even with black-box LLMs. To provide a more systematic evaluation of selection bias, we review existing metrics and introduce Choice Kullback-Leibler Divergence (CKLD), which addresses the insensitivity of the commonly used metrics to label imbalance. Experiments show that our methods are robust and adaptable across various datasets when applied to three LLMs.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# 微調整大言語モデルにおける記憶の予測と解析

Predicting and analyzing memorization within fine-tuned Large Language Models ( http://arxiv.org/abs/2409.18858v1 )

ライセンス: Link先を確認
Jérémie Dentan, Davide Buscaldi, Aymen Shabou, Sonia Vanier, (参考訳) 大規模言語モデルは、幅広い複雑なタスクを解く能力のために、大きな注目を集めている。 しかし、これらのモデルはトレーニングデータのかなりの割合を記憶しており、推論時に開示されると深刻な脅威となる。 この意図しない記憶を緩和するためには、どの要素が記憶されているのか、なぜ記憶されているのかを理解することが不可欠である。 現存するほとんどの著作は後部説明を提供しており、実際は限定的な関心を持っている。 このギャップに対処するため、分類設定において、スライスされた相互情報に基づく新しい手法を提案し、記憶されたサンプルを事前検出する。 訓練の初期段階から効率が良く、実践的なシナリオにも容易に適応できる。 提案手法は,我々が実証した新たな理論的結果に支えられ,計算予算の低さが要求される。 我々は,暗記前に,これらの脆弱なサンプルの系統的な検査と保護を行うための方法を編み出した,強い経験的結果を得た。

Large Language Models have received significant attention due to their abilities to solve a wide range of complex tasks. However these models memorize a significant proportion of their training data, posing a serious threat when disclosed at inference time. To mitigate this unintended memorization, it is crucial to understand what elements are memorized and why. Most existing works provide a posteriori explanations, which has a limited interest in practice. To address this gap, we propose a new approach based on sliced mutual information to detect memorized samples a priori, in a classification setting. It is efficient from the early stages of training, and is readily adaptable to practical scenarios. Our method is supported by new theoretical results that we demonstrate, and requires a low computational budget. We obtain strong empirical results, paving the way for systematic inspection and protection of these vulnerable samples before memorization happens.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# 構造的多元グラフ生成の課題

Challenges of Generating Structurally Diverse Graphs ( http://arxiv.org/abs/2409.18859v1 )

ライセンス: Link先を確認
Fedor Velikonivtsev, Mikhail Mironov, Liudmila Prokhorenkova, (参考訳) 多くのグラフに関連した問題に対して、構造的に多様性のあるグラフの集合を持つことが不可欠である。 例えば、このようなグラフは、グラフアルゴリズムやその神経近似をテストするために使用することができる。 しかし、我々の知る限りでは、構造的に多様性のあるグラフを生成するという問題は文献では研究されていない。 本稿ではこのギャップを埋める。 まず、グラフの集合に対する多様性の定義方法、このタスクが非自明な理由、適切な多様性尺度を選択する方法について議論する。 そこで, 標準ランダムグラフモデル, 局所グラフ最適化, 遺伝的アルゴリズム, ニューラル生成モデルに基づくアプローチを検討する。 本研究では,基本ランダムグラフ生成器の多様性を著しく向上させることが可能であることを示す。 さらに、生成したグラフの解析により、グラフ距離の性質をよりよく理解することができる:どの多様性尺度が最適化に使用されるかによって、得られたグラフは、多様性尺度の根底にあるグラフ距離の感度に関する洞察を与える、非常に異なる構造特性を持つかもしれない。

For many graph-related problems, it can be essential to have a set of structurally diverse graphs. For instance, such graphs can be used for testing graph algorithms or their neural approximations. However, to the best of our knowledge, the problem of generating structurally diverse graphs has not been explored in the literature. In this paper, we fill this gap. First, we discuss how to define diversity for a set of graphs, why this task is non-trivial, and how one can choose a proper diversity measure. Then, for a given diversity measure, we propose and compare several algorithms optimizing it: we consider approaches based on standard random graph models, local graph optimization, genetic algorithms, and neural generative models. We show that it is possible to significantly improve diversity over basic random graph generators. Additionally, our analysis of generated graphs allows us to better understand the properties of graph distances: depending on which diversity measure is used for optimization, the obtained graphs may possess very different structural properties which gives insights about the sensitivity of the graph distance underlying the diversity measure.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# LW2G: プロンプトに基づく継続的学習のための学習

LW2G: Learning Whether to Grow for Prompt-based Continual Learning ( http://arxiv.org/abs/2409.18860v1 )

ライセンス: Link先を確認
Qian Feng, Dawei Zhou, Hanbin Zhao, Chao Zhang, Hui Qian, (参考訳) 継続学習(CL)は、非定常的なシナリオで学び、シーケンシャルなタスクから徐々に知識を取得し、維持することを目的としている。 近年のPrompt-based Continual Learning (PCL) は,PTM(Pre-Trained Models) で顕著な性能を発揮している。 これらのアプローチは、新しいタスク(\emph{prompt learning})を学習する際に新しいプロンプトセットを追加してプロンプトセットプールを成長させ、各テストサンプル(\emph{prompt search})に対して正しいセットを選択するためのマッチングメカニズムを採用する。 従来の研究は、PRA(Prompt Retrieval Accuracy)を強化するためのマッチングメカニズムを改善することで、後者の段階に焦点を当てていた。 クロスタスクな知識の促進を促進し,効果的かつ効率的なプロンプトセットプールを形成するために,タスク間の相違に基づき,前段階のプラグインモジュールを'textbf{Learn W whether to Grow' (LW2G) に提案する。 具体的には、複数のタスクが特定の共通点を共有している場合、共有されたプロンプトセットを使用し、新しいタスクと以前のタスクの間に大きな違いがある場合、新しいセットを追加する。 我々のLW2Gは、Hinder Forward Capability(HFC)と呼ばれる指標を開発し、従来の特徴空間の直交補体に対する元の勾配を外科的に修正することで、新しいタスクの学習に課される障害を測定する。 HFCでは、動的成長アプローチが動的しきい値で成長するかを適応的に学習する。 さらに,更新プロンプトと事前学習した知識との整合性を確保するために,勾配に基づく制約を設計し,転送促進のための重み再利用戦略を提案する。 大規模な実験により,本手法の有効性が示された。 ソースコードは \url{https://github.com/RAIAN08/LW2G} で公開されている。

Continual Learning (CL) aims to learn in non-stationary scenarios, progressively acquiring and maintaining knowledge from sequential tasks. Recent Prompt-based Continual Learning (PCL) has achieved remarkable performance with Pre-Trained Models (PTMs). These approaches grow a prompt sets pool by adding a new set of prompts when learning each new task (\emph{prompt learning}) and adopt a matching mechanism to select the correct set for each testing sample (\emph{prompt retrieval}). Previous studies focus on the latter stage by improving the matching mechanism to enhance Prompt Retrieval Accuracy (PRA). To promote cross-task knowledge facilitation and form an effective and efficient prompt sets pool, we propose a plug-in module in the former stage to \textbf{Learn Whether to Grow (LW2G)} based on the disparities between tasks. Specifically, a shared set of prompts is utilized when several tasks share certain commonalities, and a new set is added when there are significant differences between the new task and previous tasks. Inspired by Gradient Projection Continual Learning, our LW2G develops a metric called Hinder Forward Capability (HFC) to measure the hindrance imposed on learning new tasks by surgically modifying the original gradient onto the orthogonal complement of the old feature space. With HFC, an automated scheme Dynamic Growing Approach adaptively learns whether to grow with a dynamic threshold. Furthermore, we design a gradient-based constraint to ensure the consistency between the updating prompts and pre-trained knowledge, and a prompts weights reusing strategy to enhance forward transfer. Extensive experiments show the effectiveness of our method. The source codes are available at \url{https://github.com/RAIAN08/LW2G}.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# クローズド量子多体系の熱化ダイナミクス--精密大規模実測対角化実験

Thermalization Dynamics in Closed Quantum Many Body Systems: a Precision Large Scale Exact Diagonalization Study ( http://arxiv.org/abs/2409.18863v1 )

ライセンス: Link先を確認
Ivo A. Maceira, Andreas M. Läuchli, (参考訳) Krylov-subspace Time Evolutionアルゴリズムを用いて、積分不能な有限スピン環のリアルタイムダイナミクスを、高精度で非常に長い時間にシミュレートする。 得られた平衡状態と熱状態の間の有限サイズ偏差を系統的に研究し,偏差に対するエネルギー分散の重要性を強調した。 偏差は固有状態熱化仮説によってよく説明され、フォン・ノイマンエントロピー補正スケーリングは局所作用素スケーリングの平方である。 我々はまた、緩和されたフォン・ノイマンエントロピーへの地域法的な貢献を明らかにし、検討されたサブシステムとその直近の環境の間の相互情報に接続する。 また、局所可観測物は系長と線形に成長する緩和時間スケールで指数関数的に平衡に向かって緩和し、局所作用素とは多少独立であるが、初期状態のエネルギーに強く依存し、全体のエネルギースペクトルの一方の端に最も速い緩和時間を求める。

Using a Krylov-subspace time evolution algorithm, we simulate the real-time dynamics of non-integrable finite spin rings to quite long times with high accuracy. We systematically study the finite-size deviation between the resulting equilibrium state and the thermal state, and we highlight the importance of the energy variance on the deviations. We find that the deviations are well described by the eigenstate thermalization hypothesis, and that the von Neumann entropy correction scaling is the square of the local operator scaling. We reveal also an area law contribution to the relaxed von Neumann entropy, which we connect to the mutual information between the considered subsystem and its immediate environment. We also find that local observables relax towards equilibrium exponentially with a relaxation time scale that grows linearly with system length and is somewhat independent of the local operator, but depends strongly on the energy of the initial state, with the fastest relaxation times found towards one end of the overall energy spectrum.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# 位置情報のための位置エンコーダグラフ量子ニューラルネットワーク

Positional Encoder Graph Quantile Neural Networks for Geographic Data ( http://arxiv.org/abs/2409.18865v1 )

ライセンス: Link先を確認
William E. R. de Amorim, Scott A. Sisson, T. Rodrigues, David J. Nott, Guilherme S. Rodrigues, (参考訳) 位置エンコーダグラフニューラルネットワーク(PE-GNN)は、連続空間データのモデリングにおける主要なアプローチである。 しかし、彼らはしばしばキャリブレーションされた予測分布の生成に失敗し、不確実性定量化の有効性を制限している。 本稿では,PE-GNN,Quantile Neural Networks,Recalibrationを完全非パラメトリックなフレームワークに統合し,予測分布について最小限の仮定を必要とする,位置エンコーダグラフ量子ニューラルネットワーク(PE-GQNN)を提案する。 本稿では,量子化に基づく損失関数と組み合わせることで,計算複雑性を増大させることなく,正確かつ信頼性の高い確率モデルが得られる新しいネットワークアーキテクチャを提案する。 我々の手法は空間的データコンテキストを超えて適用可能な条件密度推定のためのフレキシブルで堅牢なフレームワークを提供する。 さらに、GNN層操作によるデータ漏洩を回避しつつ、モデルにKNN予測器を組み込む構造的手法を導入する。 ベンチマークデータセットの実験では、PE-GQNNは予測精度と不確実性の定量化の両方で既存の最先端手法を著しく上回っている。

Positional Encoder Graph Neural Networks (PE-GNNs) are a leading approach for modeling continuous spatial data. However, they often fail to produce calibrated predictive distributions, limiting their effectiveness for uncertainty quantification. We introduce the Positional Encoder Graph Quantile Neural Network (PE-GQNN), a novel method that integrates PE-GNNs, Quantile Neural Networks, and recalibration techniques in a fully nonparametric framework, requiring minimal assumptions about the predictive distributions. We propose a new network architecture that, when combined with a quantile-based loss function, yields accurate and reliable probabilistic models without increasing computational complexity. Our approach provides a flexible, robust framework for conditional density estimation, applicable beyond spatial data contexts. We further introduce a structured method for incorporating a KNN predictor into the model while avoiding data leakage through the GNN layer operation. Experiments on benchmark datasets demonstrate that PE-GQNN significantly outperforms existing state-of-the-art methods in both predictive accuracy and uncertainty quantification.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# MCUBench: MCU上のティニーオブジェクト検出器のベンチマーク

MCUBench: A Benchmark of Tiny Object Detectors on MCUs ( http://arxiv.org/abs/2409.18866v1 )

ライセンス: Link先を確認
Sudhakar Sah, Darshan C. Ganji, Matteo Grimaldi, Ravish Kumar, Alexander Hoffman, Honnesh Rohmetra, Ehsan Saboori, (参考訳) MCUBenchは、7つの異なるMCUにわたるVOCデータセットで評価された100 YOLO以上のオブジェクト検出モデルを特徴付けるベンチマークである。 このベンチマークは、さまざまな入力解像度とYOLOベースのワンステージ検出器に対する平均精度、レイテンシ、RAM、Flash使用率に関する詳細なデータを提供する。 固定されたトレーニングパイプラインと制御された比較を行うことで、包括的なパフォーマンスメトリクスを収集します。 私たちのPareto-Optimal分析は、現代の検出ヘッドとトレーニング技術を統合することで、YOLOv3のようなレガシーモデルを含むさまざまなYOLOアーキテクチャが平均平均精度(mAP)と遅延の間の高い効率のトレードオフを実現することができることを示している。 MCUBenchは、現代のオブジェクト検出器のMCU性能をベンチマークするための貴重なツールであり、特定の制約に基づいてモデル選択を支援する。

We introduce MCUBench, a benchmark featuring over 100 YOLO-based object detection models evaluated on the VOC dataset across seven different MCUs. This benchmark provides detailed data on average precision, latency, RAM, and Flash usage for various input resolutions and YOLO-based one-stage detectors. By conducting a controlled comparison with a fixed training pipeline, we collect comprehensive performance metrics. Our Pareto-optimal analysis shows that integrating modern detection heads and training techniques allows various YOLO architectures, including legacy models like YOLOv3, to achieve a highly efficient tradeoff between mean Average Precision (mAP) and latency. MCUBench serves as a valuable tool for benchmarking the MCU performance of contemporary object detectors and aids in model selection based on specific constraints.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# 視覚的接地の有無を考慮したニューラルモデルにおける個別化

Individuation in Neural Models with and without Visual Grounding ( http://arxiv.org/abs/2409.18868v1 )

ライセンス: Link先を確認
Alexey Tikhonov, Lisa Bylinina, Ivan P. Yamshchikov, (参考訳) 識別情報のエンコーディングに関しては,言語とビジョンのモデルCLIPとFastTextとSBERTの2つのテキストのみのモデルの違いを示す。 ここでは,CLIPが基質,顆粒凝集体,および各種対象物に対して提供する潜在表現について検討する。 CLIPの埋め込みは、テキストのみのデータで訓練されたモデルよりも、識別の定量的な違いを捉えていることを実証する。 さらに、私たちがCLIP埋め込みから導出した識別階層は、言語学や認知科学において提案される階層と一致している。

We show differences between a language-and-vision model CLIP and two text-only models - FastText and SBERT - when it comes to the encoding of individuation information. We study latent representations that CLIP provides for substrates, granular aggregates, and various numbers of objects. We demonstrate that CLIP embeddings capture quantitative differences in individuation better than models trained on text-only data. Moreover, the individuation hierarchy we deduce from the CLIP embeddings agrees with the hierarchies proposed in linguistics and cognitive science.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# Emu3: 次世代の予測は必要なだけ

Emu3: Next-Token Prediction is All You Need ( http://arxiv.org/abs/2409.18869v1 )

ライセンス: Link先を確認
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang, (参考訳) 次世代の予測は汎用人工知能への有望な道と考えられているが、まだ拡散モデル(例えば、安定拡散)と合成アプローチ(例えば、CLIPとLLMの組み合わせ)によって支配されているマルチモーダルなタスクに精通するのに苦戦している。 本稿では,新しい最先端マルチモーダルモデルであるEmu3について紹介する。 画像、テキスト、動画を離散空間にトークン化することにより、マルチモーダルシーケンスの混合に基づいて、スクラッチから単一のトランスフォーマーを訓練する。 Emu3は、SDXLやLLaVA-1.6といったフラッグシップモデルよりも優れており、拡散や構成アーキテクチャの必要性を排除している。 Emu3はまた、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することができる。 我々は、トークンという特異な焦点を集中させることで、複雑なマルチモーダルモデル設計を単純化し、トレーニングと推論の両方でスケールする大きな可能性を解き放つ。 この結果は,言語を越えた汎用マルチモーダルインテリジェンスを構築するための,次世代の予測が有望な道であることを示す。 我々は、この方向のさらなる研究を支援するために、重要な技術とモデルをオープンソースにしています。

While next-token prediction is considered a promising path towards artificial general intelligence, it has struggled to excel in multimodal tasks, which are still dominated by diffusion models (e.g., Stable Diffusion) and compositional approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a new suite of state-of-the-art multimodal models trained solely with next-token prediction. By tokenizing images, text, and videos into a discrete space, we train a single transformer from scratch on a mixture of multimodal sequences. Emu3 outperforms several well-established task-specific models in both generation and perception tasks, surpassing flagship models such as SDXL and LLaVA-1.6, while eliminating the need for diffusion or compositional architectures. Emu3 is also capable of generating high-fidelity video via predicting the next token in a video sequence. We simplify complex multimodal model designs by converging on a singular focus: tokens, unlocking great potential for scaling both during training and inference. Our results demonstrate that next-token prediction is a promising path towards building general multimodal intelligence beyond language. We open-source key techniques and models to support further research in this direction.
翻訳日:2024-10-01 08:58:26 公開日:2024-09-27
# コンディショナル・ジェネレーション・バイバーサル・ネットワークを用いた乳房MRIのダイナミックな腫瘍造影効果のシミュレーション

Simulating Dynamic Tumor Contrast Enhancement in Breast MRI using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2409.18872v1 )

ライセンス: Link先を確認
Richard Osuala, Smriti Joshi, Apostolia Tsirikoglou, Lidia Garrucho, Walter H. L. Pinaya, Daniel M. Lang, Julia A. Schnabel, Oliver Diaz, Karim Lekadir, (参考訳) 本稿では,乳房MRIにおける仮想コントラスト強調法を提案する。 非コントラスト強調MRIから複数のDCE-MRIタイムポイントの同時生成配列を含むDCE-MRI画像を予測することにより,腫瘍の局所化と,関連する健康リスクを伴わないキャラクタリゼーションを実現する。 さらに,Multi-metricd Aggregate Measure (SAMe) を用いて合成DCE-MRI画像の質的,定量的に評価し,腫瘍セグメント化下流タスクにおける有用性を評価し,マルチシーケンスDCE-MRI生成における時間パターンの解析を行った。 提案手法は, 乳がんの診断と治療, 特に造影剤の投与を禁ずる患者に対して, 仮想コントラスト増強の可能性を強調し, 現実的で有用なDCE-MRIシークエンスを生成する上で有望な結果を示すものである。

This paper presents a method for virtual contrast enhancement in breast MRI, offering a promising non-invasive alternative to traditional contrast agent-based DCE-MRI acquisition. Using a conditional generative adversarial network, we predict DCE-MRI images, including jointly-generated sequences of multiple corresponding DCE-MRI timepoints, from non-contrast-enhanced MRIs, enabling tumor localization and characterization without the associated health risks. Furthermore, we qualitatively and quantitatively evaluate the synthetic DCE-MRI images, proposing a multi-metric Scaled Aggregate Measure (SAMe), assessing their utility in a tumor segmentation downstream task, and conclude with an analysis of the temporal patterns in multi-sequence DCE-MRI generation. Our approach demonstrates promising results in generating realistic and useful DCE-MRI sequences, highlighting the potential of virtual contrast enhancement for improving breast cancer diagnosis and treatment, particularly for patients where contrast agent administration is contraindicated.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# CESNET-TimeSeries24: ネットワークトラフィック異常検出と予測のための時系列データセット

CESNET-TimeSeries24: Time Series Dataset for Network Traffic Anomaly Detection and Forecasting ( http://arxiv.org/abs/2409.18874v1 )

ライセンス: Link先を確認
Josef Koumar, Karel Hynek, Tomáš Čejka, Pavel Šiška, (参考訳) ネットワークトラフィックの異常検出は、コンピュータネットワークのセキュリティの維持と悪意のある活動の特定に不可欠である。 異常検出に対する主要なアプローチの1つは、予測に基づく手法である。 それでも、予測と異常検出のための広範な実世界のネットワークデータセットが欠落しており、異常検出アルゴリズムのパフォーマンス過大評価を引き起こす可能性がある。 本論文は,CESNET3ネットワークから収集したネットワークエンティティの行動の時系列データからなるデータセットを導入することで,このギャップに対処する。 データセットは、275万のアクティブIPアドレスの40週間のネットワークトラフィックから作成されました。 提案したデータのISP起源は、ネットワークエンティティ間の高いばらつきを保証し、予測と異常検出モデルに対するユニークで信頼性の高い課題を形成する。 予測に基づく異常検出アプローチの実践的展開に関する貴重な洞察を提供する。

Anomaly detection in network traffic is crucial for maintaining the security of computer networks and identifying malicious activities. One of the primary approaches to anomaly detection are methods based on forecasting. Nevertheless, extensive real-world network datasets for forecasting and anomaly detection techniques are missing, potentially causing performance overestimation of anomaly detection algorithms. This manuscript addresses this gap by introducing a dataset comprising time series data of network entities' behavior, collected from the CESNET3 network. The dataset was created from 40 weeks of network traffic of 275 thousand active IP addresses. The ISP origin of the presented data ensures a high level of variability among network entities, which forms a unique and authentic challenge for forecasting and anomaly detection models. It provides valuable insights into the practical deployment of forecast-based anomaly detection approaches.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# CemiFace: 顔認識のためのセンターベース半ハード合成顔生成

CemiFace: Center-based Semi-hard Synthetic Face Generation for Face Recognition ( http://arxiv.org/abs/2409.18876v1 )

ライセンス: Link先を確認
Zhonglin Sun, Siyang Song, Ioannis Patras, Georgios Tzimiropoulos, (参考訳) プライバシー問題は顔認識技術の開発において主要な関心事である。 合成顔画像は、有効な顔認識(FR)性能を維持しながら、潜在的な法的リスクを部分的に軽減することができるが、既存の生成的アプローチで合成された顔画像によって訓練されたFRモデルは、これらの合成サンプルの識別品質が不十分なため、しばしば性能劣化の問題に悩まされる。 本稿では,ソリッド・フェース・モデル・トレーニングにどのような影響を及ぼすのかを体系的に検討し,その特徴とある程度の類似性を持つフェース・イメージが訓練されたFRモデルの性能に与える影響を明らかにする。 そこで本研究では,新たな拡散型アプローチ(CemiFace)を提案する。この手法は,被験者中心と様々なレベルの類似性を持つ顔サンプルを生成し,顔認識のための効果的な識別用サンプルを含む顔データセットを生成する。 実験結果から, 類似度が比較的低い場合には, 生成したデータセットのトレーニングにより, 従来の生成手法と比較して, 競争性能が向上することが示された。

Privacy issue is a main concern in developing face recognition techniques. Although synthetic face images can partially mitigate potential legal risks while maintaining effective face recognition (FR) performance, FR models trained by face images synthesized by existing generative approaches frequently suffer from performance degradation problems due to the insufficient discriminative quality of these synthesized samples. In this paper, we systematically investigate what contributes to solid face recognition model training, and reveal that face images with certain degree of similarities to their identity centers show great effectiveness in the performance of trained FR models. Inspired by this, we propose a novel diffusion-based approach (namely Center-based Semi-hard Synthetic Face Generation (CemiFace)) which produces facial samples with various levels of similarity to the subject center, thus allowing to generate face datasets containing effective discriminative samples for training face recognition. Experimental results show that with a modest degree of similarity, training on the generated dataset can produce competitive performance compared to previous generation methods.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# UniEmoX: ユニバーサルシーン感情知覚のためのクロスモーダルセマンティックガイド付き大規模事前学習

UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception ( http://arxiv.org/abs/2409.18877v1 )

ライセンス: Link先を確認
Chuang Chen, Xiao Sun, Zhi Liu, (参考訳) 視覚的感情分析は、コンピュータビジョンと心理学の両方において重要な研究価値を持っている。 しかし、既存の視覚的感情分析法は、感情知覚のあいまいさとデータシナリオの多様性により、限定的な一般化性に悩まされている。 この問題に対処するため, モーダルなセマンティック誘導型大規模事前学習フレームワークUniEmoXを導入する。 UniEmoXは、個人と環境の間の相互作用から感情探索プロセスの分離性を強調した心理学的研究に触発され、よりニュアンスで差別的な感情表現を導出することを目的として、シーン中心および人中心の低レベル画像空間構造情報を統合した。 UniEmoXは、ペア画像とペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現をより効果的に強化する。 我々の知る限り、このフレームワークは、心理学理論を現代のコントラスト学習と統合する最初の大規模事前学習フレームワークであり、多様なシナリオにおける感情分析のためのマスク付き画像モデリング技術である。 さらに,視覚的感情的データセットEmo8を開発した。 Emo8サンプルは、漫画、自然、現実、SF、広告のカバースタイルなど、さまざまな領域をカバーする。 2つの下流タスクにわたる6つのベンチマークデータセットで実施された総合的な実験は、UniEmoXの有効性を検証する。 ソースコードはhttps://github.com/chincharles/u-emo.comで入手できる。

Visual emotion analysis holds significant research value in both computer vision and psychology. However, existing methods for visual emotion analysis suffer from limited generalizability due to the ambiguity of emotion perception and the diversity of data scenarios. To tackle this issue, we introduce UniEmoX, a cross-modal semantic-guided large-scale pretraining framework. Inspired by psychological research emphasizing the inseparability of the emotional exploration process from the interaction between individuals and their environment, UniEmoX integrates scene-centric and person-centric low-level image spatial structural information, aiming to derive more nuanced and discriminative emotional representations. By exploiting the similarity between paired and unpaired image-text samples, UniEmoX distills rich semantic knowledge from the CLIP model to enhance emotional embedding representations more effectively. To the best of our knowledge, this is the first large-scale pretraining framework that integrates psychological theories with contemporary contrastive learning and masked image modeling techniques for emotion analysis across diverse scenarios. Additionally, we develop a visual emotional dataset titled Emo8. Emo8 samples cover a range of domains, including cartoon, natural, realistic, science fiction and advertising cover styles, covering nearly all common emotional scenes. Comprehensive experiments conducted on six benchmark datasets across two downstream tasks validate the effectiveness of UniEmoX. The source code is available at https://github.com/chincharles/u-emo.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# プレトレーニング言語モデルを用いたマルチラベル分類を用いた安全ネット精神科病院における自殺診断

Suicide Phenotyping from Clinical Notes in Safety-Net Psychiatric Hospital Using Multi-Label Classification with Pre-Trained Language Models ( http://arxiv.org/abs/2409.18878v1 )

ライセンス: Link先を確認
Zehan Li, Yan Hu, Scott Lane, Salih Selek, Lokesh Shahani, Rodrigo Machado-Vieira, Jair Soares, Hua Xu, Hongfang Liu, Ming Huang, (参考訳) 自殺事件の正確な特定と分類は、自殺予防の改善、手術負担の軽減、高明度精神医学的設定におけるケア品質の向上をもたらす。 事前訓練された言語モデルは、非構造的な臨床物語から自殺を識別する約束を提供する。 我々は,500の注釈付き精神評価ノートから自殺行為を検知するための2つの微調整戦略(複数ラベルと単一ラベル)を用いて,BERTに基づく4つのモデルの性能評価を行った。 メモには自殺観念(SI)、自殺未遂(SA)、自殺(ES)、自殺自傷(NSSI)が記載された。 RoBERTaはバイナリ関連性(acc=0.86, F1=0.78)で他のモデルよりも優れていた。 MentalBERT (F1=0.74)もBioClinicalBERT (F1=0.72)を上回った。 単一マルチラベル分類器(acc=0.88, F1=0.81)で微調整されたRoBERTaでは、ドメイン関連データに基づいて事前訓練されたモデルと、単一のマルチラベル分類戦略により効率と性能が向上した。 キーワード: EHRベースのフィノッティピング、自然言語処理、EHRデータの二次的利用、自殺分類、BERTベースのモデル、精神医学、メンタルヘルス

Accurate identification and categorization of suicidal events can yield better suicide precautions, reducing operational burden, and improving care quality in high-acuity psychiatric settings. Pre-trained language models offer promise for identifying suicidality from unstructured clinical narratives. We evaluated the performance of four BERT-based models using two fine-tuning strategies (multiple single-label and single multi-label) for detecting coexisting suicidal events from 500 annotated psychiatric evaluation notes. The notes were labeled for suicidal ideation (SI), suicide attempts (SA), exposure to suicide (ES), and non-suicidal self-injury (NSSI). RoBERTa outperformed other models using binary relevance (acc=0.86, F1=0.78). MentalBERT (F1=0.74) also exceeded BioClinicalBERT (F1=0.72). RoBERTa fine-tuned with a single multi-label classifier further improved performance (acc=0.88, F1=0.81), highlighting that models pre-trained on domain-relevant data and the single multi-label classification strategy enhance efficiency and performance. Keywords: EHR-based Phynotyping; Natural Language Processing; Secondary Use of EHR Data; Suicide Classification; BERT-based Model; Psychiatry; Mental Health
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# 合成西ブロット源属性のための説明可能なアーティファクト

Explainable Artifacts for Synthetic Western Blot Source Attribution ( http://arxiv.org/abs/2409.18881v1 )

ライセンス: Link先を確認
João Phillipe Cardenuto, Sara Mandelli, Daniel Moreira, Paolo Bestagini, Edward Delp, Anderson Rocha, (参考訳) 近年の人工知能の進歩により、生成モデルは原始的なものと区別できない合成科学的イメージを作成できるようになった。 不正な記事を体系的に生成する製紙所として知られる組織によって活用されると、これらの技術は根拠のない科学に関する誤報の拡散に大きく寄与し、科学研究への信頼を損なう可能性がある。 以前の研究では、合成コンテンツを識別するための畳み込みニューラルネットワークのようなブラックボックスソリューションを探索してきたが、異なるモデルにまたがって一般化し、検出過程を知らせる合成画像のアーティファクトに関する洞察を提供するという課題に対処する者はほとんどいなかった。 本研究の目的は、最先端の生成モデル(ジェネレーティブ・ディフュージョン・モデル、ジェネレーティブ・ディフュージョン・モデル)によって生成された説明可能なアーティファクトを特定し、それらをオープン・セットの識別とソース属性(すなわち、画像を作成するモデルを指し示す)に活用することである。

Recent advancements in artificial intelligence have enabled generative models to produce synthetic scientific images that are indistinguishable from pristine ones, posing a challenge even for expert scientists habituated to working with such content. When exploited by organizations known as paper mills, which systematically generate fraudulent articles, these technologies can significantly contribute to the spread of misinformation about ungrounded science, potentially undermining trust in scientific research. While previous studies have explored black-box solutions, such as Convolutional Neural Networks, for identifying synthetic content, only some have addressed the challenge of generalizing across different models and providing insight into the artifacts in synthetic images that inform the detection process. This study aims to identify explainable artifacts generated by state-of-the-art generative models (e.g., Generative Adversarial Networks and Diffusion Models) and leverage them for open-set identification and source attribution (i.e., pointing to the model that created the image).
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# オープンソースソフトウェアパッケージレジストリにおける依存性問題の概要とカタログ

An Overview and Catalogue of Dependency Challenges in Open Source Software Package Registries ( http://arxiv.org/abs/2409.18884v1 )

ライセンス: Link先を確認
Tom Mens, Alexandre Decan, (参考訳) オープンソースソフトウェアは、ソフトウェア開発をスピードアップするためにかなりのレベルの再利用を可能にしていますが、すべてのソフトウェア実践者が定期的に直面する恐ろしい依存性の地獄も引き起こしています。 この記事では、OSSパッケージやライブラリに依存する依存関係関連の課題のカタログを提供する。 このカタログは、これらの課題を理解し、定量化し、克服するために行われた経験的研究に関する豊富な科学文献のレビューに基づいている。 我々の成果は、中高年研究者や、OSSパッケージレジストリの依存関係ネットワークにかかわる課題に対処する上で、研究の進歩についてもっと学びたい実践者の出発点として利用することができる。

While open-source software has enabled significant levels of reuse to speed up software development, it has also given rise to the dreadful dependency hell that all software practitioners face on a regular basis. This article provides a catalogue of dependency-related challenges that come with relying on OSS packages or libraries. The catalogue is based on a review of the abundant scientific literature on empirical research that has been conducted to understand, quantify and overcome these challenges. Our results can be used as a starting point for junior and senior researchers as well as practitioners that would like to learn more about research advances in dealing with the challenges that come with the dependency networks of large OSS package registries.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# HR-Extreme:極端気象予報のための高分解能データセット

HR-Extreme: A High-Resolution Dataset for Extreme Weather Forecasting ( http://arxiv.org/abs/2409.18885v1 )

ライセンス: Link先を確認
Nian Ran, Peng Xiao, Yue Wang, Wesley Shi, Jianxin Lin, Qi Meng, Richard Allmendinger, (参考訳) 気象予報における大規模深層学習モデルの応用は、パングやフクシといったモデルで実証された高解像度予測や予測期間の延長など、この分野に大きな進歩をもたらした。 これらの成功にもかかわらず、過去の研究は、極度の気象事象の無視が主な特徴であり、そのような事象のために特別にキュレーションされたデータセットが利用可能であることは、依然として限られている。 そこで本研究では,NOAAが提供する3kmのリアルタイムデータセットであるHRRR(High-Resolution Rapid Refresh)データから得られた高解像度の極端気象事例を包含した包括的データセットを提案する。 また、HR-Extreme上での最先端ディープラーニングモデルと数値気象予測(NWP)システムの評価を行い、HR-Heimと呼ばれる改良されたベースライン深層学習モデルを提案する。 以上の結果から,極度の気象ケースの誤差は全体の予測誤差よりも著しく大きいことが判明した。 これらの知見は、今後の研究において、その実用性を高めるために、極端な天気予報の精度を改善することに焦点を当てる必要性を浮き彫りにしている。

The application of large deep learning models in weather forecasting has led to significant advancements in the field, including higher-resolution forecasting and extended prediction periods exemplified by models such as Pangu and Fuxi. Despite these successes, previous research has largely been characterized by the neglect of extreme weather events, and the availability of datasets specifically curated for such events remains limited. Given the critical importance of accurately forecasting extreme weather, this study introduces a comprehensive dataset that incorporates high-resolution extreme weather cases derived from the High-Resolution Rapid Refresh (HRRR) data, a 3-km real-time dataset provided by NOAA. We also evaluate the current state-of-the-art deep learning models and Numerical Weather Prediction (NWP) systems on HR-Extreme, and provide a improved baseline deep learning model called HR-Heim which has superior performance on both general loss and HR-Extreme compared to others. Our results reveal that the errors of extreme weather cases are significantly larger than overall forecast error, highlighting them as an crucial source of loss in weather prediction. These findings underscore the necessity for future research to focus on improving the accuracy of extreme weather forecasts to enhance their practical utility.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# IDGen: LLM評価のためのアイテム識別誘起プロンプト生成

IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation ( http://arxiv.org/abs/2409.18892v1 )

ライセンス: Link先を確認
Fan Lin, Shuyi Xie, Yong Dai, Wenlin Yao, Tianjiao Lang, Zishan Xu, Zhichao Hu, Xiao Xiao, Yuhong Liu, Yu Zhang, (参考訳) 大きな言語モデル(LLM)は、複雑なタスクの管理にますます適しているため、評価セットは十分な差別性を維持するために、これらの進歩に追随しなければなりません。 教育評価において広く用いられている項目識別(ID)理論は、個々の試験項目がハイパフォーマーとローパフォーマーを区別する能力を測定する。 この理論に触発されて、モデル能力に応じて評価セットが継続的に更新され、洗練されることを保証するために、LCMを評価するためのID誘起プロンプト合成フレームワークを提案する。 我々のデータ合成フレームワークは、幅と特異性の両方を優先します。 LLMの能力を総合的に評価するプロンプトを生成すると同時に、モデル間で有意義なパフォーマンスの違いを明らかにし、様々なタスクやドメイン間でそれらの相対的な強度と弱点を効果的に識別することができる。 高品質なデータを生成するために,一般化フレームワークに自己補正機構を組み込んで,迅速な識別と難易度予測のための2つのモデルを開発し,データ合成フレームワークを容易にし,データ合成研究評価に有用なツールを提供する。 生成したデータを用いて5つのSOTAモデルを評価する。 我々のデータの平均スコアは51.92で、変動は10.06である。 対照的に、以前の作品(すなわち、SELF-INSTRUCTとWizardLM)は平均スコアが67を超え、3.2以下である。 その結果、我々のフレームワークが生成したデータは、以前の研究と比べて、より困難で差別的であることが示された。 我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。

As Large Language Models (LLMs) grow increasingly adept at managing complex tasks, the evaluation set must keep pace with these advancements to ensure it remains sufficiently discriminative. Item Discrimination (ID) theory, which is widely used in educational assessment, measures the ability of individual test items to differentiate between high and low performers. Inspired by this theory, we propose an ID-induced prompt synthesis framework for evaluating LLMs to ensure the evaluation set can continually update and refine according to model abilities. Our data synthesis framework prioritizes both breadth and specificity. It can generate prompts that comprehensively evaluate the capabilities of LLMs while revealing meaningful performance differences between models, allowing for effective discrimination of their relative strengths and weaknesses across various tasks and domains. To produce high-quality data, we incorporate a self-correct mechanism into our generalization framework, and develop two models to predict prompt discrimination and difficulty score to facilitate our data synthesis framework, contributing valuable tools to evaluation data synthesis research. We apply our generated data to evaluate five SOTA models. Our data achieves an average score of 51.92, accompanied by a variance of 10.06. By contrast, previous works (i.e., SELF-INSTRUCT and WizardLM) obtain an average score exceeding 67, with a variance below 3.2. The results demonstrate that the data generated by our framework is more challenging and discriminative compared to previous works. We will release a dataset of over 3,000 carefully crafted prompts to facilitate evaluation research of LLMs.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# HM3:事前学習モデルのための階層型多目的モデルマージ

HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models ( http://arxiv.org/abs/2409.18893v1 )

ライセンス: Link先を確認
Yu Zhou, Xingyu Wu, Jibin Wu, Liang Feng, Kay Chen Tan, (参考訳) モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。 これは、オリジナルのトレーニングデータやさらなるトレーニングプロセスの必要性を回避できるため、大規模な事前訓練モデル開発で人気を博している。 しかし、既存のモデルマージアプローチのほとんどはパラメータ空間の探索にのみ焦点を合わせ、同じアーキテクチャのモデルを統合する。 アーキテクチャ領域内でのマージは、その可能性にもかかわらず、巨大な検索スペースと層互換性の課題のために、まだ初期段階にある。 本稿では、アーキテクチャ空間のマージプロセスを強化学習タスクとしてモデル化することにより、より柔軟で包括的なモデルマージ技術への大きな進歩を示す。 我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。 さらに,多目的最適化パラダイムを導入して,ユーザの多様なタスク嗜好に対応するとともに,最適モデルのParetoフロントを学習して,カスタマイズされたマージ提案を提供する。 テキスト翻訳,数学的推論,コード生成など,複数のタスクにまたがる実験結果から,モデルマージにおける提案フレームワークの有効性と優位性を検証した。 コードはレビュープロセスの後に公開されます。

Model merging is a technique that combines multiple large pretrained models into a single model with enhanced performance and broader task adaptability. It has gained popularity in large pretrained model development due to its ability to bypass the need for original training data and further training processes. However, most existing model merging approaches focus solely on exploring the parameter space, merging models with identical architectures. Merging within the architecture space, despite its potential, remains in its early stages due to the vast search space and the challenges of layer compatibility. This paper marks a significant advance toward more flexible and comprehensive model merging techniques by modeling the architecture-space merging process as a reinforcement learning task. We train policy and value networks using offline sampling of weight vectors, which are then employed for the online optimization of merging strategies. Moreover, a multi-objective optimization paradigm is introduced to accommodate users' diverse task preferences, learning the Pareto front of optimal models to offer customized merging suggestions. Experimental results across multiple tasks, including text translation, mathematical reasoning, and code generation, validate the effectiveness and superiority of the proposed framework in model merging. The code will be made publicly available after the review process.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# 高精度な暗号価格変動予測のためのマルチソースハード・ソフト情報融合手法

Multi-Source Hard and Soft Information Fusion Approach for Accurate Cryptocurrency Price Movement Prediction ( http://arxiv.org/abs/2409.18895v1 )

ライセンス: Link先を確認
Saeed Mohammadi Dashtaki, Mehdi Hosseini Chagahi, Behzad Moshiri, Md. Jalil Piran, (参考訳) 金融および暗号通貨分野で最も重要な課題の1つは、暗号通貨の価格トレンドを正確に予測することである。 人工知能(AI)を活用することは、この課題に対処する上で有益である。 実質的な成長とボラティリティを特徴とする暗号通貨市場は、仮想通貨価格の動きの解読と予測に力を入れている投資家や学者を惹きつけている。 このような予測のために利用可能な膨大な多様なデータの配列は、タスクの複雑さを増大させる。 本研究では,暗号通貨価格変動予測の精度を高めるために,HSIF(ハード・アンド・ソフト・インフォメーション・フュージョン)と呼ばれる新しい手法を導入する。 このアプローチのハード情報コンポーネントは、技術的指標とともに歴史的価格記録を含んでいる。 補足すると、ソフトデータコンポーネントはX(元Twitter)から抽出され、ニュースの見出しと暗号通貨に関するツイートを含んでいる。 このデータを利用するには、双方向エンコーダ表現を変換器(BERT)ベースの感情分析手法であるファイナンシャルBERT(FinBERT)を用いる。 最後に,本モデルでは,処理されたハードおよびソフトデータを含む情報集合をフィードする。 双方向長短期メモリ(BiLSTM)モデルを用いるのは,前向きと後向きの両方の処理情報が逐次情報の長期依存性をキャプチャできるためである。 我々の経験的発見は、bitcoin関連のデータをテストすることによって、単一ソースデータに依存するモデルよりもHSIFアプローチの方が優れていることを強調している。 Bitcoinのデータセットにハードとソフトの情報を融合することで、われわれのモデルは価格変動を予測するのに約96.8倍の精度を持つ。 情報を組み込むことで,社会的感情が価格変動に与える影響を把握し,ハード情報から得られた技術的分析に基づく予測を補うことができる。

One of the most important challenges in the financial and cryptocurrency field is accurately predicting cryptocurrency price trends. Leveraging artificial intelligence (AI) is beneficial in addressing this challenge. Cryptocurrency markets, marked by substantial growth and volatility, attract investors and scholars keen on deciphering and forecasting cryptocurrency price movements. The vast and diverse array of data available for such predictions increases the complexity of the task. In our study, we introduce a novel approach termed hard and soft information fusion (HSIF) to enhance the accuracy of cryptocurrency price movement forecasts. The hard information component of our approach encompasses historical price records alongside technical indicators. Complementing this, the soft data component extracts from X (formerly Twitter), encompassing news headlines and tweets about the cryptocurrency. To use this data, we use the Bidirectional Encoder Representations from Transformers (BERT)-based sentiment analysis method, financial BERT (FinBERT), which performs best. Finally, our model feeds on the information set including processed hard and soft data. We employ the bidirectional long short-term memory (BiLSTM) model because processing information in both forward and backward directions can capture long-term dependencies in sequential information. Our empirical findings emphasize the superiority of the HSIF approach over models dependent on single-source data by testing on Bitcoin-related data. By fusing hard and soft information on Bitcoin dataset, our model has about 96.8\% accuracy in predicting price movement. Incorporating information enables our model to grasp the influence of social sentiment on price fluctuations, thereby supplementing the technical analysis-based predictions derived from hard information.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# S2O:Articulated 3D Objectsのオープン化と拡張

S2O: Static to Openable Enhancement for Articulated 3D Objects ( http://arxiv.org/abs/2409.18896v1 )

ライセンス: Link先を確認
Denys Iliash, Hanxiao Jiang, Yiming Zhang, Manolis Savva, Angel X. Chang, (参考訳) 大規模な3Dデータセットの進歩にもかかわらず、現時点ではインタラクティブな3Dオブジェクトデータセットは少ない。 本研究では,静的な3次元オブジェクトを静的な部分検出,動作予測,内部形状の完備化によって対話的に生成するS2Oタスクを提案する。 この課題に対処するための統一的なフレームワークを定式化し、体系的な評価のためのテストベッドとして機能するオープンな3Dオブジェクトの挑戦的なデータセットをキュレートする。 実験では,S2Oタスクの先行作業と単純かつ効果的なヒューリスティックスから手法をベンチマークした。 静的な3Dオブジェクトを対話的にオープンなオブジェクトに変換することは可能ですが、すべてのメソッドがタスクの現実的な設定に一般化するのに苦労していることに気付き、将来的な作業の方向性を強調します。

Despite much progress in large 3D datasets there are currently few interactive 3D object datasets, and their scale is limited due to the manual effort required in their construction. We introduce the static to openable (S2O) task which creates interactive articulated 3D objects from static counterparts through openable part detection, motion prediction, and interior geometry completion. We formulate a unified framework to tackle this task, and curate a challenging dataset of openable 3D objects that serves as a test bed for systematic evaluation. Our experiments benchmark methods from prior work and simple yet effective heuristics for the S2O task. We find that turning static 3D objects into interactively openable counterparts is possible but that all methods struggle to generalize to realistic settings of the task, and we highlight promising future work directions.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# テキスト・画像合成のための微調整安定拡散モデルにおけるデータセット乱用の検出

Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis ( http://arxiv.org/abs/2409.18897v1 )

ライセンス: Link先を確認
Songrui Wang, Yubo Zhu, Wei Tong, Sheng Zhong, (参考訳) テキスト・ツー・イメージ合成は、現実的でスタイリングされた画像を生成するために非常に人気があり、しばしば特殊なタスクのためにドメイン固有のデータセットを持つ微調整生成モデルを必要とする。 しかし、これらの貴重なデータセットは、認可されていない使用と承認されていない共有のリスクに直面し、所有者の権利を妥協する。 本稿では,テキスト・画像合成のための安定拡散モデルの微調整におけるデータセット乱用の問題に対処する。 我々は、不正使用やトレースデータ漏洩を検出するために設計されたデータセット透かしフレームワークを提案する。 このフレームワークは、複数のウォーターマーキングスキームにまたがる2つの重要な戦略を採用し、大規模なデータセット認証に有効である。 大規模な実験では、フレームワークの有効性、データセットへの影響の最小化(高い検出精度のために修正が必要なデータのわずか2%)、データリークのトレース機能などが実証されている。 また、このフレームワークの堅牢性と転送性を強調し、データセット乱用を検出するための実用性を示した。

Text-to-image synthesis has become highly popular for generating realistic and stylized images, often requiring fine-tuning generative models with domain-specific datasets for specialized tasks. However, these valuable datasets face risks of unauthorized usage and unapproved sharing, compromising the rights of the owners. In this paper, we address the issue of dataset abuse during the fine-tuning of Stable Diffusion models for text-to-image synthesis. We present a dataset watermarking framework designed to detect unauthorized usage and trace data leaks. The framework employs two key strategies across multiple watermarking schemes and is effective for large-scale dataset authorization. Extensive experiments demonstrate the framework's effectiveness, minimal impact on the dataset (only 2% of the data required to be modified for high detection accuracy), and ability to trace data leaks. Our results also highlight the robustness and transferability of the framework, proving its practical applicability in detecting dataset abuse.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# ルックアップテーブルと拡散プリミティブを用いた教師なし低照度画像強調

Unsupervised Low-light Image Enhancement with Lookup Tables and Diffusion Priors ( http://arxiv.org/abs/2409.18899v1 )

ライセンス: Link先を確認
Yunlong Lin, Zhenqi Fu, Kairun Wen, Tian Ye, Sixiang Chen, Ge Meng, Yingying Wang, Yue Huang, Xiaotong Tu, Xinghao Ding, (参考訳) 低照度画像強調(LIE)は、低照度環境において劣化した画像を高精度かつ効率的に回収することを目的としている。 近年の先進的なLIE技術は、多くの低正規の光画像対、ネットワークパラメータ、計算資源を必要とするディープニューラルネットワークを使用している。 その結果、実用性は限られている。 本研究では,拡散先行とルックアップテーブル(DPLUT)に基づく新しい非教師付きLIEフレームワークを考案し,低照度画像の効率的な回復を実現する。 提案手法は,光調整ルックアップテーブル (LLUT) とノイズ抑制ルックアップテーブル (NLUT) の2つの重要な構成要素からなる。 LLUTは教師なしの損失のセットで最適化されている。 特定の画像のダイナミックレンジ調整のための画素単位の曲線パラメータを予測することを目的としている。 NLUTは、光が明るくなってから増幅ノイズを取り除くように設計されている。 拡散モデルがノイズに敏感なため,高性能ノイズ抑圧を実現するために拡散先行モデルを導入する。 広汎な実験により、我々の手法は視覚的品質と効率の点で最先端の手法よりも優れていることが示された。

Low-light image enhancement (LIE) aims at precisely and efficiently recovering an image degraded in poor illumination environments. Recent advanced LIE techniques are using deep neural networks, which require lots of low-normal light image pairs, network parameters, and computational resources. As a result, their practicality is limited. In this work, we devise a novel unsupervised LIE framework based on diffusion priors and lookup tables (DPLUT) to achieve efficient low-light image recovery. The proposed approach comprises two critical components: a light adjustment lookup table (LLUT) and a noise suppression lookup table (NLUT). LLUT is optimized with a set of unsupervised losses. It aims at predicting pixel-wise curve parameters for the dynamic range adjustment of a specific image. NLUT is designed to remove the amplified noise after the light brightens. As diffusion models are sensitive to noise, diffusion priors are introduced to achieve high-performance noise suppression. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods in terms of visual quality and efficiency.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# Visual Promptingによるビジュアルオブジェクト追跡の改善

Improving Visual Object Tracking through Visual Prompting ( http://arxiv.org/abs/2409.18901v1 )

ライセンス: Link先を確認
Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin, (参考訳) 対象と周囲の邪魔者を区別するために識別モデルを学ぶことは、汎用的な視覚的物体追跡に不可欠である。 トラッカーの識別能力に限界があるため,トラッカーに対する動的対象適応は困難である。 本稿では、この問題を解決するために、汎用的なビジュアルオブジェクト追跡(PiVOT)のための新しいビジュアルプロンプティング機構を提案する。 PiVOTは、事前訓練された基礎モデルCLIPによるプロンプト生成ネットワークを提案し、視覚的プロンプトを自動生成および洗練し、追跡のための基礎モデル知識の伝達を可能にする。 CLIPは幅広いカテゴリレベルの知識を提供するが、トラッカーはインスタンス固有のデータに基づいて訓練され、ユニークなオブジェクトインスタンスの認識に優れる。 したがって、PiVOTはまず、潜在的なターゲット位置をハイライトする視覚的プロンプトをコンパイルする。 CLIPの知識をトラッカーに転送するために、PiVOTはCLIPを活用して、候補オブジェクトと潜在的なターゲットを越えて参照テンプレートとの類似性に基づいて視覚的なプロンプトを洗練する。 視覚的プロンプトが洗練されると、潜在的なターゲット位置をより強調し、無関係なプロンプト情報を減らすことができる。 提案するプロンプト機構により,視覚的プロンプトの誘導により,改良されたインスタンス認識機能マップを生成できる。 提案手法はトレーニング中にCLIPを含まないため、トレーニングの複雑さを保ち、事前訓練された基礎モデルの一般化能力を保っている。 複数のベンチマークで大規模な実験を行った結果,提案手法を用いたPiVOTは邪魔な物体の抑制やトラッカーの強化が可能であった。

Learning a discriminative model to distinguish a target from its surrounding distractors is essential to generic visual object tracking. Dynamic target representation adaptation against distractors is challenging due to the limited discriminative capabilities of prevailing trackers. We present a new visual Prompting mechanism for generic Visual Object Tracking (PiVOT) to address this issue. PiVOT proposes a prompt generation network with the pre-trained foundation model CLIP to automatically generate and refine visual prompts, enabling the transfer of foundation model knowledge for tracking. While CLIP offers broad category-level knowledge, the tracker, trained on instance-specific data, excels at recognizing unique object instances. Thus, PiVOT first compiles a visual prompt highlighting potential target locations. To transfer the knowledge of CLIP to the tracker, PiVOT leverages CLIP to refine the visual prompt based on the similarities between candidate objects and the reference templates across potential targets. Once the visual prompt is refined, it can better highlight potential target locations, thereby reducing irrelevant prompt information. With the proposed prompting mechanism, the tracker can generate improved instance-aware feature maps through the guidance of the visual prompt, thus effectively reducing distractors. The proposed method does not involve CLIP during training, thereby keeping the same training complexity and preserving the generalization capability of the pretrained foundation model. Extensive experiments across multiple benchmarks indicate that PiVOT, using the proposed prompting method can suppress distracting objects and enhance the tracker.
翻訳日:2024-10-01 08:01:28 公開日:2024-09-27
# ガウス雑音下における最小二乗・直交射影・QR分解アルゴリズムの確率論的解析

Probabilistic Analysis of Least Squares, Orthogonal Projection, and QR Factorization Algorithms Subject to Gaussian Noise ( http://arxiv.org/abs/2409.18905v1 )

ライセンス: Link先を確認
Ali Lotfi, Julien Langou, Mohammad Meysami, (参考訳) 本稿では、列が加わったとき([Q, c])に正則行列 Q の条件数がどのように変化するかを解析する Liesen et al (2002) の研究を拡張し、特に C の垂直度を Q のスパンに焦点をあてて、その結果を Liesen et al (2002) の Theorem 2.3 に示した。 本研究は, 行列 B が完全直交ではない場合でも, 完全直交性を前提とせず, 行列 B の条件数増加に関する境界を導出することにより, このギャップを解消するものである。 また、ガウス雑音下での直交射影と最小四角形の性能についての結果も提示し、この理論の発展を後押しする。

In this paper, we extend the work of Liesen et al. (2002), which analyzes how the condition number of an orthonormal matrix Q changes when a column is added ([Q, c]), particularly focusing on the perpendicularity of c to the span of Q. Their result, presented in Theorem 2.3 of Liesen et al. (2002), assumes exact arithmetic and orthonormality of Q, which is a strong assumption when applying these results to numerical methods such as QR factorization algorithms. In our work, we address this gap by deriving bounds on the condition number increase for a matrix B without assuming perfect orthonormality, even when a column is not perfectly orthogonal to the span of B. This framework allows us to analyze QR factorization methods where orthogonalization is imperfect and subject to Gaussian noise. We also provide results on the performance of orthogonal projection and least squares under Gaussian noise, further supporting the development of this theory.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 医療データを対象としたフェデレーション学習におけるプライバシ・脅威の詳細な分析

In-depth Analysis of Privacy Threats in Federated Learning for Medical Data ( http://arxiv.org/abs/2409.18907v1 )

ライセンス: Link先を確認
Badhan Chandra Das, M. Hadi Amini, Yanzhao Wu, (参考訳) 統合学習は医療現場で医療画像を分析するための有望な機械学習技術として登場しており、機密性の高い患者データを保護し、プライバシ規制に従うための効果的な方法と考えられている。 しかし、最近の研究では、フェデレートされた学習のデフォルト設定が、プライバシー攻撃に対して故意にプライベートトレーニングデータを公開する可能性があることが明らかになっている。 したがって、そのようなプライバシーリスクと医療領域における潜在的な緩和戦略の強さは、いまだに不明である。 本稿では,医療データを対象としたフェデレーション学習において,プライバシリスク分析と緩和に3つのオリジナル貢献を行う。 まず、フェデレーション学習環境における医療データ処理におけるプライバシーリスクを分析し、プライバシー保護のための効果的な緩和戦略を開発するための総合的なフレームワーク、MedPFLを提案する。 第2に,我々は,フェデレーション学習における医療画像処理の重大なプライバシーリスクを実証し,プライバシ攻撃を行うことで,敵が医療画像を正確に再構築できることを示した。 第三に、ランダムノイズを付加する一般的な防御機構は、医学データのプライバシー保護に関する固有の課題を提起するフェデレートラーニングにおけるプライバシ攻撃から医療画像を保護するのに必ずしも有効ではない。 さらに,連合学習環境における医療データのプライバシー保護に関するいくつかのユニークな研究課題について論じる。 医療データに対するフェデレーション学習に伴うプライバシーリスクを分析・緩和するために,いくつかのベンチマーク医用画像データセットについて広範な実験を行った。

Federated learning is emerging as a promising machine learning technique in the medical field for analyzing medical images, as it is considered an effective method to safeguard sensitive patient data and comply with privacy regulations. However, recent studies have revealed that the default settings of federated learning may inadvertently expose private training data to privacy attacks. Thus, the intensity of such privacy risks and potential mitigation strategies in the medical domain remain unclear. In this paper, we make three original contributions to privacy risk analysis and mitigation in federated learning for medical data. First, we propose a holistic framework, MedPFL, for analyzing privacy risks in processing medical data in the federated learning environment and developing effective mitigation strategies for protecting privacy. Second, through our empirical analysis, we demonstrate the severe privacy risks in federated learning to process medical images, where adversaries can accurately reconstruct private medical images by performing privacy attacks. Third, we illustrate that the prevalent defense mechanism of adding random noises may not always be effective in protecting medical images against privacy attacks in federated learning, which poses unique and pressing challenges related to protecting the privacy of medical data. Furthermore, the paper discusses several unique research questions related to the privacy protection of medical data in the federated learning environment. We conduct extensive experiments on several benchmark medical image datasets to analyze and mitigate the privacy risks associated with federated learning for medical data.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 最小レグレットを用いたベストアーム識別

Best Arm Identification with Minimal Regret ( http://arxiv.org/abs/2409.18909v1 )

ライセンス: Link先を確認
Junwen Yang, Vincent Y. F. Tan, Tianyuan Jin, (参考訳) 責任ある実験を必要とする現実世界のアプリケーションによって動機付けられ、最小限の後悔を伴うベストアーム識別(BAI)の問題を提起する。 マルチアームバンディット問題のこの革新的な変種は、最もユビキタスな目的である、後悔の最小化とBAIの2つをエレガントにアマルガメイトしている。 より正確には、エージェントの目標は、所定の信頼レベル$\delta$の最高の腕を識別し、累積的後悔を停止時間まで最小化することである。 分布の単一パラメータ指数族に焦点をあて、情報理論の手法を活用し、期待される累積後悔に基づいて、インスタンス依存の下位境界を確立する。 さらに, 信頼度の高いBAIにおいて, 累積的後悔とサンプルの複雑さの緊張感を浮き彫りにする, 興味をそそる不合理な結果を示す。 相補的に、信頼度がゼロになるにつれて漸近的最適性を達成するDouble KL-UCBアルゴリズムを設計・解析する。 特に、このアルゴリズムは2つの異なる信頼境界を用いて、ランダムにアームの選択を誘導する。 本研究は, 後悔の最小化とBAIの関連性について, 新たな視点を呈するものである。

Motivated by real-world applications that necessitate responsible experimentation, we introduce the problem of best arm identification (BAI) with minimal regret. This innovative variant of the multi-armed bandit problem elegantly amalgamates two of its most ubiquitous objectives: regret minimization and BAI. More precisely, the agent's goal is to identify the best arm with a prescribed confidence level $\delta$, while minimizing the cumulative regret up to the stopping time. Focusing on single-parameter exponential families of distributions, we leverage information-theoretic techniques to establish an instance-dependent lower bound on the expected cumulative regret. Moreover, we present an intriguing impossibility result that underscores the tension between cumulative regret and sample complexity in fixed-confidence BAI. Complementarily, we design and analyze the Double KL-UCB algorithm, which achieves asymptotic optimality as the confidence level tends to zero. Notably, this algorithm employs two distinct confidence bounds to guide arm selection in a randomized manner. Our findings elucidate a fresh perspective on the inherent connections between regret minimization and BAI.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 因果情報抽出のためのソフト対策

Soft Measures for Extracting Causal Collective Intelligence ( http://arxiv.org/abs/2409.18911v1 )

ライセンス: Link先を確認
Maryam Berijanian, Spencer Dork, Kuldeep Singh, Michael Riley Millikan, Ashlin Riggs, Aadarsh Swaminathan, Sarah L. Gibbs, Scott E. Friedman, Nathan Brugnone, (参考訳) 複雑な社会システムに対処するためには、集団知能の理解とモデリングが不可欠である。 ファジィ認知マップ(FCM)と呼ばれる方向グラフは因果精神モデルを符号化する強力なツールを提供するが、テキストから高積分性FCMを抽出することは困難である。 本研究では,大規模言語モデル(LLM)を用いてFCM抽出を自動化する手法を提案する。 本稿では,新しいグラフに基づく類似度尺度を導入し,その出力と人間の判断をElo評価システムを通じて関連付けて評価する。 その結果, 人的評価と正の相関が認められたが, 最高の評価基準でさえFCMニュアンスを捕捉する際の限界を示した。 微調整 LLM の性能は向上するが、既存の対策は依然として不足している。 本研究は、FCM抽出に適したソフトな類似性対策の必要性を強調し、NLPを用いた集団知能モデリングを推進している。

Understanding and modeling collective intelligence is essential for addressing complex social systems. Directed graphs called fuzzy cognitive maps (FCMs) offer a powerful tool for encoding causal mental models, but extracting high-integrity FCMs from text is challenging. This study presents an approach using large language models (LLMs) to automate FCM extraction. We introduce novel graph-based similarity measures and evaluate them by correlating their outputs with human judgments through the Elo rating system. Results show positive correlations with human evaluations, but even the best-performing measure exhibits limitations in capturing FCM nuances. Fine-tuning LLMs improves performance, but existing measures still fall short. This study highlights the need for soft similarity measures tailored to FCM extraction, advancing collective intelligence modeling with NLP.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 自由電子との強い相互作用によるリドバーグ原子操作

Rydberg-atom manipulation through strong interaction with free electrons ( http://arxiv.org/abs/2409.18913v1 )

ライセンス: Link先を確認
Adamantios P. Synanidis, P. A. D. Gonçalves, F. Javier García de Abajo, (参考訳) 光に閉じ込められたライドバーグ原子は、外部に応用された光場を通して工学できる長距離原子-原子相互作用を媒介する量子多体物理学を探索するのに適したプラットフォームである。 しかし、このアプローチは双極子許容遷移と光波長の秩序の空間分解能に限られる。 ここでは, 自由電子と個々のリドベルグ原子との相互作用を, 非双極子遷移をサブナノメータ空間精度で誘導し, 最終原子状態のかなりの制御を行うアプローチとして理論的に検討する。 我々は、電子エネルギーと電子-ビーム距離を適切に選択した組み合わせに対して、単一電子が生成する一階励起確率を観察する。 さらに電子-原子の絡み合いと電子の側方形状について検討した。 我々の結果は、以前はアクセスできない方法でリドバーグ原子を操作する強力なツールとして自由電子を支持する。

Optically trapped Rydberg atoms are a suitable platform to explore quantum many-body physics mediated by long-range atom--atom interactions that can be engineered through externally applied light fields. However, this approach is limited to dipole-allowed transitions and a spatial resolution of the order of the optical wavelength. Here, we theoretically investigate the interaction between free electrons and individual Rydberg atoms as an approach to induce nondipolar transitions with subnanometer spatial precision and a substantial degree of control over the final atomic states. We observe unity-order excitation probabilities produced by a single electron for suitably chosen combinations of electron energies and electron-beam distance to the atom. We further discuss electron--atom entanglement in combination with lateral shaping of the electron followed by postselection. Our results support free electrons as powerful tools to manipulate Rydberg atoms in previously inaccessible ways.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# A-FedPD:Dual-Driftの調整は、すべてフェデレーションされたPrimal-Dual Learningの必要性

A-FedPD: Aligning Dual-Drift is All Federated Primal-Dual Learning Needs ( http://arxiv.org/abs/2409.18915v1 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Dacheng Tao, (参考訳) データプライバシと協調トレーニングをジャグリングするための一般的なパラダイムとして、フェデレーションドラーニング(FL)は、エッジクライアント上で大規模な異種データセットを分散処理するために栄えています。 帯域幅の制限とセキュリティ上の考慮のため、元々の問題を複数のサブプロブレムに分割して並列に解決する。 本稿では,従来からある非活動的クライアントの二重ヒステリシスに起因した「二重ドリフト」である非凸シナリオにおいて,このような手法の深刻な共通欠陥を指摘する。 さらにこの問題に対処するために,グローバルなコンセンサスとローカルな2変数を協調する仮想二重更新を構築する,アラインド・フェデレート・プライマル・デュアル(A-FedPD)手法を提案する。 一方,A-FedPD法における最適化と一般化の効率を円滑な非凸目的に対して総合的に解析し,その効率と実用性を確認した。 提案手法の有効性を検証するため,いくつかの古典的FL装置を用いて実験を行った。

As a popular paradigm for juggling data privacy and collaborative training, federated learning (FL) is flourishing to distributively process the large scale of heterogeneous datasets on edged clients. Due to bandwidth limitations and security considerations, it ingeniously splits the original problem into multiple subproblems to be solved in parallel, which empowers primal dual solutions to great application values in FL. In this paper, we review the recent development of classical federated primal dual methods and point out a serious common defect of such methods in non-convex scenarios, which we say is a "dual drift" caused by dual hysteresis of those longstanding inactive clients under partial participation training. To further address this problem, we propose a novel Aligned Federated Primal Dual (A-FedPD) method, which constructs virtual dual updates to align global consensus and local dual variables for those protracted unparticipated local clients. Meanwhile, we provide a comprehensive analysis of the optimization and generalization efficiency for the A-FedPD method on smooth non-convex objectives, which confirms its high efficiency and practicality. Extensive experiments are conducted on several classical FL setups to validate the effectiveness of our proposed method.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 各次元における最大デバイス非依存ランダム性

Maximal device-independent randomness in every dimension ( http://arxiv.org/abs/2409.18916v1 )

ライセンス: Link先を確認
Máté Farkas, Jurij Volčič, Sigurd A. L. Storgaard, Ranyiliu Chen, Laura Mančinska, (参考訳) ランダム数は幅広い科学で使われている。 多くのアプリケーションにおいて、予測不能な \textit{private} 乱数を生成することは不可欠である。 デバイス非依存の量子乱数生成は、量子プロセスの固有のランダム性を利用して、現在の物理学の理解に従って、基本的に予測不可能な数を生成するフレームワークである。 デバイス非依存の量子乱数生成は例外的な理論的な偉業であるが、量子システムを制御することの難しさは、実際に実行することを困難にしている。 したがって、制御できる自由度(次元)の完全なパワーを利用するのが望ましい。 ローカル次元$d$の量子系から、プライベートなデバイスに依存しないランダム性を持つ2 ビット以上の \log(d)$ビットが抽出されることが知られている。 本稿では、この境界は、明示的なプロトコルの族を提供することにより、すべての次元に対して$d$で達成できることを実証する。 この結果を得るために, 完全認証(「自己検証」)が不可能あるいは非現実的なシナリオに対して, デバイス非依存のアプリケーションに広く関心を持つことのできる, 新たな認証技術を開発した。

Random numbers are used in a wide range of sciences. In many applications, generating unpredictable \textit{private} random numbers is indispensable. Device-independent quantum random number generation is a framework that makes use of the intrinsic randomness of quantum processes to generate numbers that are fundamentally unpredictable according to our current understanding of physics. While device-independent quantum random number generation is an exceptional theoretical feat, the difficulty of controlling quantum systems makes it challenging to carry out in practice. It is therefore desirable to harness the full power of the quantum degrees of freedom (the dimension) that one can control. It is known that no more than $2 \log(d)$ bits of private device-independent randomness can be extracted from a quantum system of local dimension $d$. In this paper we demonstrate that this bound can be achieved for all dimensions $d$ by providing a family of explicit protocols. In order to obtain our result, we develop new certification techniques that can be of wider interest in device-independent applications for scenarios in which complete certification (`self-testing') is impossible or impractical.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 量子畳み込みニューラルネットワークアーキテクチャのサブスペース保存

Subspace Preserving Quantum Convolutional Neural Network Architectures ( http://arxiv.org/abs/2409.18918v1 )

ライセンス: Link先を確認
Léo Monbroussou, Jonas Landman, Letao Wang, Alex B. Grilo, Elham Kashefi, (参考訳) サブスペース保存量子回路(Subspace Preserving quantum circuits)は、量子アルゴリズムのクラスであり、計算におけるいくつかの対称性に依存して、理論的な保証を与えることができる。 これらのアルゴリズムは多項式スピードアップを提供し、古典的な機械学習アルゴリズムを模倣するのに利用できるため、広く関心を集めている。 本研究では,ハミング重み保存量子回路に基づく新しい畳み込みニューラルネットワークアーキテクチャモデルを提案する。 特に、畳み込み層と、量子状態の対称性を保ちながら、部分空間保存しないゲートを用いて非線形性を実現した測定に基づくプール層を導入する。 提案手法は,古典的なディープラーニングアーキテクチャよりも多項式実行時間の方が優れている。 我々は、GPU指向のライブラリで我々の技術をより効率的にシミュレートできる、ハミング重み保存量子回路のためのオープンソースのシミュレーションライブラリを提供する。 このコードを用いて、複雑な画像分類タスクにおいて、量子ビット数に制限があり、古典的なディープラーニングアーキテクチャよりも少ないパラメータで優れた性能を示すアーキテクチャの例を示す。

Subspace preserving quantum circuits are a class of quantum algorithms that, relying on some symmetries in the computation, can offer theoretical guarantees for their training. Those algorithms have gained extensive interest as they can offer polynomial speed-up and can be used to mimic classical machine learning algorithms. In this work, we propose a novel convolutional neural network architecture model based on Hamming weight preserving quantum circuits. In particular, we introduce convolutional layers, and measurement based pooling layers that preserve the symmetries of the quantum states while realizing non-linearity using gates that are not subspace preserving. Our proposal offers significant polynomial running time advantages over classical deep-learning architecture. We provide an open source simulation library for Hamming weight preserving quantum circuits that can simulate our techniques more efficiently with GPU-oriented libraries. Using this code, we provide examples of architectures that highlight great performances on complex image classification tasks with a limited number of qubits, and with fewer parameters than classical deep-learning architectures.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# クラスタBPI:マルチコアSOCにおけるハードウェア熱トロイの木馬に対する防御のための高効率細粒ブラインドパワー同定

Cluster-BPI: Efficient Fine-Grain Blind Power Identification for Defending against Hardware Thermal Trojans in Multicore SoCs ( http://arxiv.org/abs/2409.18921v1 )

ライセンス: Link先を確認
Mohamed R. Elshamy, Mehdi Elahi, Ahmad Patooghy, Abdel-Hameed A. Badawy, (参考訳) 現代のマルチコアシステムオンチップ(SoC)は、総消費電力を測定するハードウェア監視機構を備えている。 しかし、これらの凝集度測定は、きめ細かい熱と電力管理には不十分であることが多い。 本稿では,従来のBlind Power Identification (BPI) 法の感度とロバスト性を向上させるために,改良されたクラスタリングBlind Power Identification (ICBPI) 手法を提案する。 BPIは個々のコアの消費電力を推定し、熱センサデータと全電力測定のみを用いてSoCの熱的挙動をモデル化する。 提案手法は,BPIの初期化過程を改良し,特にBPIの精度に重要な非負行列分解(NNMF)を改良する。 ICBPIは、密度に基づくノイズ(DBSCAN)のあるアプリケーションの空間クラスタリングを導入し、温度と消費電力データの整合性を向上し、より正確な消費電力推定を提供する。 ICBPI法を2つの重要なタスクで検証する。 最初のタスクは、異種プロセッサを含む4つの異なるマルチコアアーキテクチャにおける電力推定精度を評価する。 その結果、ICBPIは精度を大幅に向上し、従来のBPIに比べて77.56%、最先端のBPISS法に比べて68.44%の誤差率を減少させることがわかった。 第2のタスクは、異種プロセッサにおける悪意のある熱センサ攻撃の検出と位置決めの改善に焦点を当てている。 以上の結果から,ICBPIはマルチコアSoCのセキュリティとロバスト性を高めることが示唆された。

Modern multicore System-on-Chips (SoCs) feature hardware monitoring mechanisms that measure total power consumption. However, these aggregate measurements are often insufficient for fine-grained thermal and power management. This paper presents an enhanced Clustering Blind Power Identification (ICBPI) approach, designed to improve the sensitivity and robustness of the traditional Blind Power Identification (BPI) method. BPI estimates the power consumption of individual cores and models the thermal behavior of an SoC using only thermal sensor data and total power measurements. The proposed ICBPI approach refines BPI's initialization process, particularly improving the non-negative matrix factorization (NNMF) step, which is critical to the accuracy of BPI. ICBPI introduces density-based spatial clustering of applications with noise (DBSCAN) to better align temperature and power consumption data, thereby providing more accurate power consumption estimates. We validate the ICBPI method through two key tasks. The first task evaluates power estimation accuracy across four different multicore architectures, including a heterogeneous processor. Results show that ICBPI significantly enhances accuracy, reducing error rates by 77.56% compared to the original BPI and by 68.44% compared to the state-of-the-art BPISS method. The second task focuses on improving the detection and localization of malicious thermal sensor attacks in heterogeneous processors. The results demonstrate that ICBPI enhances the security and robustness of multicore SoCs against such attacks.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# SurfaceAI:オープンストリートレベルの画像に基づく凝集性路面品質データセットの自動作成

SurfaceAI: Automated creation of cohesive road surface quality datasets based on open street-level imagery ( http://arxiv.org/abs/2409.18922v1 )

ライセンス: Link先を確認
Alexandra Kapp, Edith Hoffmann, Esther Weigmann, Helena Mihaljević, (参考訳) 本稿では,道路面の形状と品質に関する総合的なジオレファレンスデータセットを生成するためのパイプラインであるSurfaceAIを紹介する。 この動機は、交通参加者、特に脆弱な道路利用者の安全と快適性に対する道路不均一性の重大な影響に起因し、インフラのモデリングと分析において詳細な道路表面データの必要性を強調した。 SurfaceAIはこのギャップに対処するため、クラウドソーシングされたMapillaryデータを活用して、ストリートレベルの画像で見える道路表面のタイプと品質を予測するモデルを訓練し、道路セグメント全体の密集情報を提供する。

This paper introduces SurfaceAI, a pipeline designed to generate comprehensive georeferenced datasets on road surface type and quality from openly available street-level imagery. The motivation stems from the significant impact of road unevenness on the safety and comfort of traffic participants, especially vulnerable road users, emphasizing the need for detailed road surface data in infrastructure modeling and analysis. SurfaceAI addresses this gap by leveraging crowdsourced Mapillary data to train models that predict the type and quality of road surfaces visible in street-level images, which are then aggregated to provide cohesive information on entire road segment conditions.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 純粋な非ガウス三部体状態における絡み合い分布:シュミット分解法

Entanglement distribution in pure non-Gaussian tripartite states: a Schmidt decomposition approach ( http://arxiv.org/abs/2409.18923v1 )

ライセンス: Link先を確認
Abdeldjalil Merdaci, Ahmed Jellal, (参考訳) 3つの結合量子調和振動子の系における絡み合いについて検討する。 具体的には、シュミット分解を用いて、その絡み合いが3つのサブシステム間でどのように分散されるかを分析する。 シュミット分解(Schmidt decomposition)は、複合量子系における二部交絡を特徴づける強力な数学的ツールである。 これは、サブシステム間の積状態の和として多部量子状態を記述することができ、係数はシュミット係数と呼ばれる。 この分解を3つの結合振動子の一般量子状態に適用し、振動子の相互作用強度が変化するにつれてシュミット係数がどのように進化するかを研究する。 このことは、全体3粒子系の異なる分割間で絡み合いがどのように共有されるかについての洞察を与える。 本研究は,ネットワーク型量子システムにおけるマルチパーティ・エンタングルメントの基本的な理解を推し進めるものである。 また、複数の絡み合ったノードを用いた量子情報処理にも影響する。

We study entanglement in a system of three coupled quantum harmonic oscillators. Specifically, we use the Schmidt decomposition to analyze how the entanglement is distributed among the three subsystems. The Schmidt decomposition is a powerful mathematical tool for characterizing bipartite entanglement in composite quantum systems. It allows to write a multipartite quantum state as a sum of product states between the subsystems, with coefficients known as Schmidt coefficients. We apply this decomposition to the general quantum state of three coupled oscillators and study how the Schmidt coefficients evolve as the interaction strengths between the oscillators are varied. This provides insight into how entanglement is shared between the different bipartitions of the overall three-particle system. Our results advance the fundamental understanding of multipartite entanglement in networked quantum systems. They also have implications for quantum information processing using multiple entangled nodes.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# AIPatient: EHR と LLM によるエージェントワークフローのシミュレーション

AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow ( http://arxiv.org/abs/2409.18924v1 )

ライセンス: Link先を確認
Huizi Yu, Jiayan Zhou, Lingyao Li, Shan Chen, Jack Gallifant, Anye Shi, Xiang Li, Wenyue Hua, Mingyu Jin, Guang Chen, Yang Zhou, Zhao Li, Trisha Gupte, Ming-Li Chen, Zahra Azizi, Yongfeng Zhang, Themistocles L. Assimes, Xin Ma, Danielle S. Bitterman, Lin Lu, Lizhou Fan, (参考訳) シミュレーション患者システムは、現代医学教育と研究において重要な役割を担い、安全で統合的な学習環境を提供し、臨床意思決定シミュレーションを可能にする。 大言語モデル(LLM)は、医療条件と患者と医師の相互作用を高忠実で低コストで再現することにより、シミュレートされた患者システムを促進することができる。 しかし、これらのシステムの有効性と信頼性の確保は、ユーザへの堅牢で安定した知識拡散とともに、大きく、多様性があり、正確な患者知識ベースを必要とするため、依然として課題である。 そこで我々は,AIPatient Knowledge Graph(AIPatient KG)を入力とし,Reasoning Retrieval-Augmented Generation(Reasoning RAG)エージェントワークフローを生成バックボーンとして開発した。 AIPatient KGは、Electronic Health Records (EHRs)のデータをMIMIC-IIIデータベースに収集し、知識ベース妥当性の高い1,495人の臨床的に多様で関連性の高いコホートを生成する(F1 0.89)。 Reasoning RAGは、検索、KGクエリ生成、抽象化、チェッカー、書き直し、要約を含むタスクにまたがる6つのLLMエージェントを活用する。 このエージェントフレームワークは、EHRベースの医療質問回答(QA)で94.15%の精度に達する。 また,高い可読性 (中間フレッシュ読解率77.23), 中央フレッシュキンケイド級5.6), 頑健性 (ANOVA F値0.6126, p<0.1), 安定性 (ANOVA F値0.782, p<0.1) を示す。 AIPatient システムの有望な性能は、医学教育、モデル評価、システム統合など幅広い応用をサポートする可能性を強調している。

Simulated patient systems play a crucial role in modern medical education and research, providing safe, integrative learning environments and enabling clinical decision-making simulations. Large Language Models (LLM) could advance simulated patient systems by replicating medical conditions and patient-doctor interactions with high fidelity and low cost. However, ensuring the effectiveness and trustworthiness of these systems remains a challenge, as they require a large, diverse, and precise patient knowledgebase, along with a robust and stable knowledge diffusion to users. Here, we developed AIPatient, an advanced simulated patient system with AIPatient Knowledge Graph (AIPatient KG) as the input and the Reasoning Retrieval-Augmented Generation (Reasoning RAG) agentic workflow as the generation backbone. AIPatient KG samples data from Electronic Health Records (EHRs) in the Medical Information Mart for Intensive Care (MIMIC)-III database, producing a clinically diverse and relevant cohort of 1,495 patients with high knowledgebase validity (F1 0.89). Reasoning RAG leverages six LLM powered agents spanning tasks including retrieval, KG query generation, abstraction, checker, rewrite, and summarization. This agentic framework reaches an overall accuracy of 94.15% in EHR-based medical Question Answering (QA), outperforming benchmarks that use either no agent or only partial agent integration. Our system also presents high readability (median Flesch Reading Ease 77.23; median Flesch Kincaid Grade 5.6), robustness (ANOVA F-value 0.6126, p<0.1), and stability (ANOVA F-value 0.782, p<0.1). The promising performance of the AIPatient system highlights its potential to support a wide range of applications, including medical education, model evaluation, and system integration.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# ソーシャルメディアボット政策:パッシブ・アクティブ・エンフォースメントの評価

Social Media Bot Policies: Evaluating Passive and Active Enforcement ( http://arxiv.org/abs/2409.18931v1 )

ライセンス: Link先を確認
Kristina Radivojevic, Christopher McAleer, Catrell Conley, Cormac Kennedy, Paul Brenner, (参考訳) MFM(Multimodal Foundation Models)の出現は、ソーシャルメディアプラットフォームを変革するための大きな約束である。 しかし、この進歩は、オンライン利用者の搾取において悪意あるアクターを促進するため、かなりのセキュリティと倫理上の懸念ももたらしている。 我々は,MFMボットの展開を緩和する上で,ソーシャルメディアプラットフォーム上でのセキュリティプロトコルの強度を評価することを目的とする。 我々は、X(元Twitter)、Instagram、Facebook、Threads、TikTok、Mastodon、Reddit、LinkedInの8つのソーシャルメディアプラットフォームにおけるボットとコンテンツポリシーを調査した。 Seleniumを用いて、ボットの配置とAI生成コンテンツポリシーとその実施メカニズムをテストするウェブボットを開発した。 以上の結果から,これらのプラットフォームの現在の実施機構に重大な脆弱性があることが示唆された。 ボット活動に対する明確なポリシーがあるにも関わらず、すべてのプラットフォームが私たちのFMボットの動作を検知し、防止することができませんでした。 この発見は、これらのソーシャルメディアプラットフォームが採用するセキュリティ対策の重大なギャップを明らかにしており、悪意あるアクターがこれらの弱点を利用して誤報を広めたり、詐欺を犯したり、ユーザーを操ったりできる可能性を強調している。

The emergence of Multimodal Foundation Models (MFMs) holds significant promise for transforming social media platforms. However, this advancement also introduces substantial security and ethical concerns, as it may facilitate malicious actors in the exploitation of online users. We aim to evaluate the strength of security protocols on prominent social media platforms in mitigating the deployment of MFM bots. We examined the bot and content policies of eight popular social media platforms: X (formerly Twitter), Instagram, Facebook, Threads, TikTok, Mastodon, Reddit, and LinkedIn. Using Selenium, we developed a web bot to test bot deployment and AI-generated content policies and their enforcement mechanisms. Our findings indicate significant vulnerabilities within the current enforcement mechanisms of these platforms. Despite having explicit policies against bot activity, all platforms failed to detect and prevent the operation of our MFM bots. This finding reveals a critical gap in the security measures employed by these social media platforms, underscoring the potential for malicious actors to exploit these weaknesses to disseminate misinformation, commit fraud, or manipulate users.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# ReviveDiff: 逆気象条件下での画像復元のためのユニバーサル拡散モデル

ReviveDiff: A Universal Diffusion Model for Restoring Images in Adverse Weather Conditions ( http://arxiv.org/abs/2409.18932v1 )

ライセンス: Link先を確認
Wenfeng Huang, Guoan Xu, Wenjing Jia, Stuart Perry, Guangwei Gao, (参考訳) 夜間、霧、雨天、水中などの困難な環境で撮影された画像は、しばしば著しく劣化し、視覚的品質が著しく低下する。 これらの劣化した画像の効果的な復元は、その後の視覚タスクにとって重要である。 既存の多くのアプローチでは、個々のタスクに対して特定の優先順位を組み込むことに成功したが、これらの調整されたソリューションは適用性を他の劣化に制限している。 本研究では,多種多様な劣化に対処し,その品質を向上し,回復させることで,イメージを生き返らせる,"ReviveDiff"と呼ばれるユニバーサルネットワークアーキテクチャを提案する。 我々のアプローチは、運動や電子的問題によって引き起こされる劣化とは異なり、悪条件下での品質劣化は主に自然媒質(霧、水、低輝度など)が原因であり、物体の本来の構造を一般的に保存する、という観察に着想を得たものである。 このような画像の品質を回復するために、拡散モデルの最新の進歩を活用し、画像のシャープネス、歪み、ノイズレベル、ダイナミックレンジ、色精度など、画像品質を決定する重要な要因を網羅して、マクロレベルとマイクロレベルの両方から画像品質を復元するReviveDiffを開発した。 ReviveDiffを、Rainy、Underwater、Low-light、Smoke、Nighttime Hazyの5種類の劣化条件をカバーする7つのベンチマークデータセットで厳格に評価した。 実験の結果, ReviveDiffは, 定量的, 視覚的に, 最先端の手法よりも優れていた。

Images captured in challenging environments--such as nighttime, foggy, rainy weather, and underwater--often suffer from significant degradation, resulting in a substantial loss of visual quality. Effective restoration of these degraded images is critical for the subsequent vision tasks. While many existing approaches have successfully incorporated specific priors for individual tasks, these tailored solutions limit their applicability to other degradations. In this work, we propose a universal network architecture, dubbed "ReviveDiff", which can address a wide range of degradations and bring images back to life by enhancing and restoring their quality. Our approach is inspired by the observation that, unlike degradation caused by movement or electronic issues, quality degradation under adverse conditions primarily stems from natural media (such as fog, water, and low luminance), which generally preserves the original structures of objects. To restore the quality of such images, we leveraged the latest advancements in diffusion models and developed ReviveDiff to restore image quality from both macro and micro levels across some key factors determining image quality, such as sharpness, distortion, noise level, dynamic range, and color accuracy. We rigorously evaluated ReviveDiff on seven benchmark datasets covering five types of degrading conditions: Rainy, Underwater, Low-light, Smoke, and Nighttime Hazy. Our experimental results demonstrate that ReviveDiff outperforms the state-of-the-art methods both quantitatively and visually.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 第2部から第1部へ : 総合的ビデオ理解における多モード大言語モデルの検討

From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding ( http://arxiv.org/abs/2409.18938v1 )

ライセンス: Link先を確認
Heqing Zou, Tianze Luo, Guiyang Xie, Victor, Zhang, Fengmao Lv, Guangcong Wang, Juanyang Chen, Zhuochen Wang, Hansheng Zhang, Huaijian Zhang, (参考訳) 視覚的エンコーダとLarge Language Models(LLM)の統合は、視覚的理解タスクにおいて有望なパフォーマンスを示し、視覚的推論のための人間のようなテキストを理解・生成する固有の能力を活用している。 視覚データの性質が多様であることから、MM-LLM(MultiModal Large Language Models)は、画像、ショートビデオ、ロングビデオを理解するためのモデル設計とトレーニングのバリエーションを示す。 本稿では、静止画像と短い映像の理解と比較して、長いビデオ理解によって生じる実質的な違いと固有の課題に焦点を当てる。 静止画像とは異なり、ショートビデオは空間的および空間的時間的情報の両方を持つシーケンシャルフレームを含み、ロングビデオは時間的情報と長期的時間的情報からなる複数のイベントから構成される。 本研究では,画像理解から長いビデオ理解まで,MM-LLMの進歩をトレースし,要約することを目的とする。 様々な視覚的理解課題の違いを概観し、よりきめ細かな時空間的詳細、動的事象、長期的依存関係など、長時間の映像理解における課題を明らかにする。 次に、長編ビデオの理解のためのモデル設計およびトレーニング手法の観点から、MM-LLMの進歩を詳述する。 最後に、様々な長さの映像理解ベンチマークにおける既存のMM-LLMの性能を比較し、長いビデオ理解におけるMM-LLMの将来的な方向性について議論する。

The integration of Large Language Models (LLMs) with visual encoders has recently shown promising performance in visual understanding tasks, leveraging their inherent capability to comprehend and generate human-like text for visual reasoning. Given the diverse nature of visual data, MultiModal Large Language Models (MM-LLMs) exhibit variations in model designing and training for understanding images, short videos, and long videos. Our paper focuses on the substantial differences and unique challenges posed by long video understanding compared to static image and short video understanding. Unlike static images, short videos encompass sequential frames with both spatial and within-event temporal information, while long videos consist of multiple events with between-event and long-term temporal information. In this survey, we aim to trace and summarize the advancements of MM-LLMs from image understanding to long video understanding. We review the differences among various visual understanding tasks and highlight the challenges in long video understanding, including more fine-grained spatiotemporal details, dynamic events, and long-term dependencies. We then provide a detailed summary of the advancements in MM-LLMs in terms of model design and training methodologies for understanding long videos. Finally, we compare the performance of existing MM-LLMs on video understanding benchmarks of various lengths and discuss potential future directions for MM-LLMs in long video understanding.
翻訳日:2024-10-01 07:51:30 公開日:2024-09-27
# 音声による信頼構築 : 音声アシスタントの魅力に対するユーザの認識に及ぼす声調の影響

Building Trust Through Voice: How Vocal Tone Impacts User Perception of Attractiveness of Voice Assistants ( http://arxiv.org/abs/2409.18941v1 )

ライセンス: Link先を確認
Sabid Bin Habib Pias, Alicia Freel, Ran Huang, Donald Williamson, Minjeong Kim, Apu Kapadia, (参考訳) 音声アシスタント(VA)は単純なタスクで人気があるが、オンラインショッピングのような複雑な活動に使用するのをためらうことが多い。 VAの発声音のような発声特性が,複雑なタスクにおいて,VAをユーザにとってより魅力的で信頼性の高いものにするかどうかを検討した。 その結果,VA音声のトーンが,その魅力と信頼性に大きく影響していることが判明した。 実験の参加者は、肯定的あるいは中立的な声調を持つVAに惹きつけられる傾向があり、最終的に彼らがより魅力的に感じたVAを信頼した。 VAの信頼感は,様々な声調を取り入れた思慮深い音声設計によって向上することができると結論付けた。

Voice Assistants (VAs) are popular for simple tasks, but users are often hesitant to use them for complex activities like online shopping. We explored whether the vocal characteristics like the VA's vocal tone, can make VAs perceived as more attractive and trustworthy to users for complex tasks. Our findings show that the tone of the VA voice significantly impacts its perceived attractiveness and trustworthiness. Participants in our experiment were more likely to be attracted to VAs with positive or neutral tones and ultimately trusted the VAs they found more attractive. We conclude that VA's perceived trustworthiness can be enhanced through thoughtful voice design, incorporating a variety of vocal tones.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# Ruler: 大規模言語モデルに対する生成長制御のためのモデル非依存手法

Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models ( http://arxiv.org/abs/2409.18943v1 )

ライセンス: Link先を確認
Jiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang, (参考訳) 大きな言語モデルの指示追従能力は、人間が自然な方法でAIエージェントと対話することを可能にする。 しかしながら、特定の長さの応答を生成する必要がある場合、大きな言語モデルは、数値的な制約を正確に知覚するのに固有の困難さのために、ユーザのニーズを満たすのに苦労することが多い。 生成した応答長を制御するための大規模言語モデルの能力を探るため,ターゲット長生成タスク (TLG) を提案し,そのモデルの性能を評価するために,精密マッチング (PM) とフレキシブルマッチング (FM) という2つのメトリクスを設計する。 さらに,メタ長Tokens (MLTs) を用いて,長さ制約された命令下での大規模言語モデルの命令追従能力を向上させる,ルールと呼ばれる新しいモデルに依存しない手法を提案する。 具体的には、ルールは、命令内の長さ制約に基づいて、指定された長さの応答を生成する能力をLLMに装備する。 さらに、ルールは、長さ制約が明示的に提供されていない場合に自動的に適切なMLTを生成し、優れた汎用性と一般化を示す。 総合的な実験により、ターゲット長生成タスクにおける異なるLLM間のルールの有効性が、PMにおける全レベル27.97平均利得、FMにおける29.57平均利得で示されている。 さらに,ルールの有効性と一般化をさらに実証するために,広範囲なアブレーション実験を実施している。 私たちのコードとデータはhttps://github.com/Geaming2002/Ruler.orgで公開されています。

The instruction-following ability of large language models enables humans to interact with AI agents in a natural way. However, when required to generate responses of a specific length, large language models often struggle to meet users' needs due to their inherent difficulty in accurately perceiving numerical constraints. To explore the ability of large language models to control the length of generated responses, we propose the Target Length Generation Task (TLG) and design two metrics, Precise Match (PM) and Flexible Match (FM) to evaluate the model's performance in adhering to specified response lengths. Furthermore, we introduce a novel, model-agnostic approach called Ruler, which employs Meta Length Tokens (MLTs) to enhance the instruction-following ability of large language models under length-constrained instructions. Specifically, Ruler equips LLMs with the ability to generate responses of a specified length based on length constraints within the instructions. Moreover, Ruler can automatically generate appropriate MLT when length constraints are not explicitly provided, demonstrating excellent versatility and generalization. Comprehensive experiments show the effectiveness of Ruler across different LLMs on Target Length Generation Task, e.g., at All Level 27.97 average gain on PM, 29.57 average gain on FM. In addition, we conduct extensive ablation experiments to further substantiate the efficacy and generalization of Ruler. Our code and data is available at https://github.com/Geaming2002/Ruler.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# オープン量子系におけるゆらぎ散逸理論と情報幾何学

Fluctuation-Dissipation Theorem and Information Geometry in Open Quantum Systems ( http://arxiv.org/abs/2409.18944v1 )

ライセンス: Link先を確認
Jian-Hao Zhang, Cenke Xu, Yichen Xu, (参考訳) 情報理論の観点から,オープン量子系におけるゆらぎ散逸定理を提案する。 摂動下での系の感度を計測し、混合量子状態の相関挙動を特徴付ける忠実度相関器に関連付けるフィデリティ感受性を定義する。 特に、強弱自然対称性破壊(SW-SSB)相、強対称性短距離相関相、それらの間の量子臨界点における忠実度感受性のスケーリング挙動を決定する。 次に、密度行列の距離測度を用いて、構造に関する幾何学的視点を提供する。 摂動前後の密度行列間の摂動距離から生じる量子情報幾何学の計量は一般に非解析的である。 最後に、原理的にSW-SSBと位相遷移を検出するための実験プローブとして使用できる多項式プロキシを設計する。 特に、多項式プロキシの各項が、忠実度相関器の R'enyi バージョンと関連していることを示す。

We propose a fluctuation-dissipation theorem in open quantum systems from an information-theoretic perspective. We define the fidelity susceptibility that measures the sensitivity of the systems under perturbation and relate it to the fidelity correlator that characterizes the correlation behaviors for mixed quantum states. In particular, we determine the scaling behavior of the fidelity susceptibility in the strong-to-weak spontaneous symmetry breaking (SW-SSB) phase, strongly symmetric short-range correlated phase, and the quantum critical point between them. We then provide a geometric perspective of our construction using distance measures of density matrices. We find that the metric of the quantum information geometry generated by perturbative distance between density matrices before and after perturbation is generally non-analytic. Finally, we design a polynomial proxy that can in principle be used as an experimental probe for detecting the SW-SSB and phase transition through quantum metrology. In particular, we show that each term of the polynomial proxy is related to the R\'enyi versions of the fidelity correlators.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# 分割正規化を実装したリカレントニューラルネットワークの無条件安定性

Unconditional stability of a recurrent neural circuit implementing divisive normalization ( http://arxiv.org/abs/2409.18946v1 )

ライセンス: Link先を確認
Shivang Rawat, David J. Heeger, Stefano Martiniani, (参考訳) リカレントニューラルネットワークの安定性は、特にシームレスに訓練できる生物学的にもっともらしい神経力学モデルの開発において、大きな課題となる。 従来の皮質回路モデルは、力学系の膨張する非線形性のために訓練が難しいことで知られており、非線形安定性の制約を課すのが難しい最適化問題となっている。 逆に、リカレントニューラルネットワーク(RNN)は、シーケンシャルなデータを含むタスクでは優れているが、生物学的な妥当性と解釈性に欠ける。 本研究では,動的分割正規化(DN)とORGaNICsの安定性を結合させることにより,これらの課題に対処する。 リアプノフの間接法を用いて、リカレント重み行列が恒等式であるとき、任意の次元ORGaNICs回路の非条件局所安定性の顕著な特性を証明した。 これにより、回路のエネルギー関数を導出し、回路と個々のニューロンが達成しようとしていることの規範的原理を提供する。 さらに、2次元モデルの安定性を実証し、より高次元における安定性を実証する。 最後に、ORGaNICsは、その固有の安定性と、爆発、消滅、発振勾配の問題に対処する適応時間定数のおかげで、勾配のクリッピング/スケーリングなしで時間的後方伝播によって訓練できることを示す。 RNNベンチマークでモデルの性能を評価することにより、ORGaNICsは静的画像分類タスクにおいて代替の神経力学モデルより優れ、シーケンシャルタスクではLSTMと相容れない性能を示すことがわかった。

Stability in recurrent neural models poses a significant challenge, particularly in developing biologically plausible neurodynamical models that can be seamlessly trained. Traditional cortical circuit models are notoriously difficult to train due to expansive nonlinearities in the dynamical system, leading to an optimization problem with nonlinear stability constraints that are difficult to impose. Conversely, recurrent neural networks (RNNs) excel in tasks involving sequential data but lack biological plausibility and interpretability. In this work, we address these challenges by linking dynamic divisive normalization (DN) to the stability of ORGaNICs, a biologically plausible recurrent cortical circuit model that dynamically achieves DN and has been shown to simulate a wide range of neurophysiological phenomena. By using the indirect method of Lyapunov, we prove the remarkable property of unconditional local stability for an arbitrary-dimensional ORGaNICs circuit when the recurrent weight matrix is the identity. We thus connect ORGaNICs to a system of coupled damped harmonic oscillators, which enables us to derive the circuit's energy function, providing a normative principle of what the circuit, and individual neurons, aim to accomplish. Further, for a generic recurrent weight matrix, we prove the stability of the 2D model and demonstrate empirically that stability holds in higher dimensions. Finally, we show that ORGaNICs can be trained by backpropagation through time without gradient clipping/scaling, thanks to its intrinsic stability property and adaptive time constants, which address the problems of exploding, vanishing, and oscillating gradients. By evaluating the model's performance on RNN benchmarks, we find that ORGaNICs outperform alternative neurodynamical models on static image classification tasks and perform comparably to LSTMs on sequential tasks.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# 混合量子状態のX-アビリティ

X-arability of mixed quantum states ( http://arxiv.org/abs/2409.18948v1 )

ライセンス: Link先を確認
Harm Derksen, Nathaniel Johnston, Benjamin Lovitz, Aravindan Vijayaraghavan, (参考訳) 量子系における絡み合いがいつ存在するかを決定する問題は、量子物理学における最も活発な研究分野の1つである。 手元の設定によって、絡み合い(あるいはその欠如)の異なる概念が関係する。 例えば、分離性(ボソン、フェルミオン、区別可能な粒子)、シュミット数、双分離性、絡み合い深さ、結合次元などである。 本研究では, X-arability と呼ぶ分離可能性の統一概念を提案し,研究する。 純粋状態 X の部分集合(より具体的には代数多様体)については、混合量子状態が X の凸殻にある場合、X-アーブルであると述べる。 結果は、X-可分性のための半定プログラム(可分性のための対称拡張階層を一般化する)のX-テンション階層と、フェルミオン分離性のための新しいデ・フィネッティの定理である。 -- X 上のエルミート作用素を最適化するための固有計算の階層構造。 -- X-tangled 部分空間問題に対する線形システムの階層構造であり、標準交叉部分空間問題においても多項式時間保証が改善された。

The problem of determining when entanglement is present in a quantum system is one of the most active areas of research in quantum physics. Depending on the setting at hand, different notions of entanglement (or lack thereof) become relevant. Examples include separability (of bosons, fermions, and distinguishable particles), Schmidt number, biseparability, entanglement depth, and bond dimension. In this work, we propose and study a unified notion of separability, which we call X-arability, that captures a wide range of applications including these. For a subset (more specifically, an algebraic variety) of pure states X, we say that a mixed quantum state is X-arable if it lies in the convex hull of X. We develop unified tools and provable guarantees for X-arability, which already give new results for the standard separability problem. Our results include: -- An X-tension hierarchy of semidefinite programs for X-arability (generalizing the symmetric extensions hierarchy for separability), and a new de Finetti theorem for fermionic separability. -- A hierarchy of eigencomputations for optimizing a Hermitian operator over X, with applications to X-tanglement witnesses and polynomial optimization. -- A hierarchy of linear systems for the X-tangled subspace problem, with improved polynomial time guarantees even for the standard entangled subspace problem.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# スペクトルウェーブレットドロップアウト:ウェーブレット領域における規則化

Spectral Wavelet Dropout: Regularization in the Wavelet Domain ( http://arxiv.org/abs/2409.18951v1 )

ライセンス: Link先を確認
Rinor Cakaj, Jens Mehnert, Bin Yang, (参考訳) 正規化技術はオーバーフィッティングを防止し、従って畳み込みニューラルネットワーク(CNN)の一般化能力を向上させる。 オーバーフィッティングの理由の1つは、ネットワークの異なる部分間の複雑な共適応であり、CNNがそれぞれの部分で有用な特徴表現を独立して学習するように促すのではなく、彼らの共同応答に依存するようにしている。 周波数領域操作は、周波数分解を利用して時間的および空間的コヒーレンスを持つデータを修正するための強力な戦略である。 1D-SWD と 2D-SWD の2つの変種を含む新しい正規化手法である Spectral Wavelet Dropout (SWD) を導入する。 これらの変種は、特徴写像の離散ウェーブレット分解において、詳細周波数帯域をランダムに落とすことにより、CNNの一般化を改善する。 提案手法は、フーリエ領域の係数を排除した既存のスペクトル「フーリエ」ドロップアウト(2D-SFD)と自身を区別する。 特に、SWDはSFDが必要とする2つとは異なり、1つのハイパーパラメータしか必要としない。 また,1次元のスペクトル「フーリエ」ドロップアウト (1D-SFD) を実装し,総合的な比較を行う。 評価の結果,CIFAR-10/100ベンチマークでは1D-SFDと2D-SFDの双方と比較して1Dと2DのSWDが競合することがわかった。 具体的には、1D/2D-SFDと比較して1D-SWDは計算複雑性が著しく低い。 Pascal VOC Object Detectionベンチマークでは、SWDは1D-SFDと2D-SFDを上回る性能を示し、トレーニング中の計算複雑性を低下させる。

Regularization techniques help prevent overfitting and therefore improve the ability of convolutional neural networks (CNNs) to generalize. One reason for overfitting is the complex co-adaptations among different parts of the network, which make the CNN dependent on their joint response rather than encouraging each part to learn a useful feature representation independently. Frequency domain manipulation is a powerful strategy for modifying data that has temporal and spatial coherence by utilizing frequency decomposition. This work introduces Spectral Wavelet Dropout (SWD), a novel regularization method that includes two variants: 1D-SWD and 2D-SWD. These variants improve CNN generalization by randomly dropping detailed frequency bands in the discrete wavelet decomposition of feature maps. Our approach distinguishes itself from the pre-existing Spectral "Fourier" Dropout (2D-SFD), which eliminates coefficients in the Fourier domain. Notably, SWD requires only a single hyperparameter, unlike the two required by SFD. We also extend the literature by implementing a one-dimensional version of Spectral "Fourier" Dropout (1D-SFD), setting the stage for a comprehensive comparison. Our evaluation shows that both 1D and 2D SWD variants have competitive performance on CIFAR-10/100 benchmarks relative to both 1D-SFD and 2D-SFD. Specifically, 1D-SWD has a significantly lower computational complexity compared to 1D/2D-SFD. In the Pascal VOC Object Detection benchmark, SWD variants surpass 1D-SFD and 2D-SFD in performance and demonstrate lower computational complexity during training.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# repairBench: プログラム修復のためのフロンティアモデルのリーダーボード

RepairBench: Leaderboard of Frontier Models for Program Repair ( http://arxiv.org/abs/2409.18952v1 )

ライセンス: Link先を確認
André Silva, Martin Monperrus, (参考訳) AI駆動のプログラム修復は、パッチを作成することによってバグの多いソフトウェアを修復するためにAIモデルを使用する。 AIの急速な進歩は、確実にプログラム修復の最先端のパフォーマンスに影響を与える。 しかし、この進捗を把握するには、頻繁で標準化された評価が必要である。 本稿では,AI駆動型プログラム修復のための新しいリーダーボードであるRe repairBenchを提案する。 repairBenchの主な特徴は次のとおりである。 すべてのパッチはコンパイルされ、テストスイートに対して実行される。 2)フロンティアモデルを頻繁で標準化された方法で評価する。 repairBenchは2つの高品質なベンチマークであるDefects4JとGitBug-Javaを活用して、実際のプログラムの修復タスクに対するフロンティアモデルを評価する。 repairBenchの評価フレームワークを公開しています。 新しいフロンティアモデルのリリースに合わせて、リーダーボードを更新します。

AI-driven program repair uses AI models to repair buggy software by producing patches. Rapid advancements in AI surely impact state-of-the-art performance of program repair. Yet, grasping this progress requires frequent and standardized evaluations. We propose RepairBench, a novel leaderboard for AI-driven program repair. The key characteristics of RepairBench are: 1) it is execution-based: all patches are compiled and executed against a test suite, 2) it assesses frontier models in a frequent and standardized way. RepairBench leverages two high-quality benchmarks, Defects4J and GitBug-Java, to evaluate frontier models against real-world program repair tasks. We publicly release the evaluation framework of RepairBench. We will update the leaderboard as new frontier models are released.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# UniCal: 統一型ニューラルネットワークキャリブレーション

UniCal: Unified Neural Sensor Calibration ( http://arxiv.org/abs/2409.18953v1 )

ライセンス: Link先を確認
Ze Yang, George Chen, Haowei Zhang, Kevin Ta, Ioan Andrei Bârsan, Daniel Murphy, Sivabalan Manivasagam, Raquel Urtasun, (参考訳) 自動運転車(SDV)には、LiDARとカメラの正確な校正が必要である。 従来のキャリブレーション法は一般的に、制御され構造化されたシーンでキャプチャされたフィデューシャルを利用し、処理を最適化するために対応を計算する。 これらのアプローチは費用がかかり、相当なインフラと運用を必要とするため、車両車両のスケールが困難である。 本研究は,複数のLiDARとカメラを備えたSDVを強制的に校正する統合フレームワークUniCalを提案する。 本手法は,幾何的および光学的に一貫したセンサ観測を多視点でレンダリングできる,異種シーン表現に基づく。 センサのキャリブレーションと背景のシーン表現を異なるボリュームレンダリングにより共同で学習し、特定のキャリブレーションフィデューシャルを必要とせず、屋外センサデータを活用する。 この "drive-and-calibrate" アプローチは、既存のキャリブレーションシステムと比較してコストと運用上のオーバーヘッドを大幅に削減し、大規模なSDVの効率的なキャリブレーションを可能にした。 異なるセンサからの観測における幾何的整合性を確保するために,特徴ベース登録とニューラルレンダリングを組み合わせた新たな表面アライメント損失を導入する。 複数のデータセットに対する総合的な評価では、UniCalは既存のキャリブレーションアプローチの精度に優れ、より効率的であり、拡張性のあるキャリブレーションにはUniCalの価値を示す。

Self-driving vehicles (SDVs) require accurate calibration of LiDARs and cameras to fuse sensor data accurately for autonomy. Traditional calibration methods typically leverage fiducials captured in a controlled and structured scene and compute correspondences to optimize over. These approaches are costly and require substantial infrastructure and operations, making it challenging to scale for vehicle fleets. In this work, we propose UniCal, a unified framework for effortlessly calibrating SDVs equipped with multiple LiDARs and cameras. Our approach is built upon a differentiable scene representation capable of rendering multi-view geometrically and photometrically consistent sensor observations. We jointly learn the sensor calibration and the underlying scene representation through differentiable volume rendering, utilizing outdoor sensor data without the need for specific calibration fiducials. This "drive-and-calibrate" approach significantly reduces costs and operational overhead compared to existing calibration systems, enabling efficient calibration for large SDV fleets at scale. To ensure geometric consistency across observations from different sensors, we introduce a novel surface alignment loss that combines feature-based registration with neural rendering. Comprehensive evaluations on multiple datasets demonstrate that UniCal outperforms or matches the accuracy of existing calibration approaches while being more efficient, demonstrating the value of UniCal for scalable calibration.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# 相互作用するフェルミオン原子の波動関数を拡大する

Magnifying the Wave Function of Interacting Fermionic Atoms ( http://arxiv.org/abs/2409.18954v1 )

ライセンス: Link先を確認
Sandra Brandstetter, Carl Heintze, Keerthan Subramanian, Paul Hill, Philipp M. Preiss, Maciej Gałka, Selim Jochim, (参考訳) 多くの身体システムを理解することは物理学の重要な課題である。 単一原子分解イメージング技術は、超低温量子ガス中の微視的相関へのアクセスを解き放った。 しかし、検出手法の分解能によって、関連する長さのスケールが曖昧になる場合には使用できない。 本稿では、原子の波動関数を増大させるために調整された光ポテンシャルの進化に基づく物質波倍率スキームについて述べる。 この手法を実証するために、強い相互作用を持つ状態にある原子を画像化し、相関系を特徴付ける新しい方法を確立した。

Understanding many body systems is a key challenge in physics. Single atom resolved imaging techniques have unlocked access to microscopic correlations in ultracold quantum gases. However they cannot be used when the relevant length scales are obscured by the resolution of the detection technique. We present a matterwave magnification scheme, based on evolutions in optical potentials, tailored to magnify the wave function of atoms, such that all length scales can be resolved. To showcase this method, we image atoms in the strongly interacting regime, establishing a new way to characterize correlated systems.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# LML: データ拡張予測のためのデータセットを学習する言語モデル

LML: Language Model Learning a Dataset for Data-Augmented Prediction ( http://arxiv.org/abs/2409.18957v1 )

ライセンス: Link先を確認
Praneeth Vadlapati, (参考訳) 本稿では,機械学習(ML)モデルを用いて処理される大規模言語モデル(LLM)を分類タスクに利用するための新しいアプローチを提案する。 データクリーニングと機能エンジニアリングに大きく依存するMLモデルとは異なり、この方法はLLMを使用してプロセスを合理化する。 本稿では,データ拡張予測 (Data-Augmented Prediction, DAP) と呼ばれる新しい手法を用いて,Language Model Learning (LML) と呼ばれる新しい概念を提案する。 この分類は、人間が手動でデータを調べ、理解し、参照としてデータを用いて分類を決定する手法を用いて、LLMによって行われる。 トレーニングデータを要約して評価し、各ラベルの分類に最も寄与する特徴を決定する。 DAPのプロセスでは、データセットから関連する行を取得するために使用されるクエリを自動的に生成するために、データサマリを使用する。 分類は、データ要約と関連する行を用いてLLMによって生成され、複雑なデータであっても良好な精度が確保される。 DAPにおけるデータ要約と類似データの使用により、コンテキスト対応の意思決定が保証される。 提案手法は,予測の解釈可能性を高めるために,ユーザが各予測の背後にあるロジックをレビューできるようにすることで,「説明可能な機械学習モデルとしてのAct」という単語を使用する。 いくつかのテストケースでは、システムは90%以上の精度を記録し、システムの有効性と、様々なシナリオにおいて従来のMLモデルを上回る性能を証明した。 コードはhttps://github.com/Pro-GenAI/LML-DAPで公開されている。

This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks, which are typically handled using Machine Learning (ML) models. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called "Language Model Learning (LML)" powered by a new method called "Data-Augmented Prediction (DAP)". The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. Training data is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary to automatically create a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data. Usage of data summary and similar data in DAP ensures context-aware decision-making. The proposed method uses the words "Act as an Explainable Machine Learning Model" in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# O(d/T)$ Convergence Theory for Diffusion Probabilistic Models under Minimal Assumptions

$O(d/T)$ Convergence Theory for Diffusion Probabilistic Models under Minimal Assumptions ( http://arxiv.org/abs/2409.18959v1 )

ライセンス: Link先を確認
Gen Li, Yuling Yan, (参考訳) 目標分布からノイズへとデータを摂動させる拡散過程を学習して新しいデータを生成するスコアベース拡散モデルは、様々な生成タスクにおいて顕著な成功を収めた。 その優れた経験的性能にもかかわらず、既存の理論上の保証はしばしば厳密な仮定や準最適収束率によって制約される。 本稿では、最小の仮定の下で、人気のあるSDEベースのサンプルラーに対して高速収束理論を確立する。 解析の結果、スコア関数の$\ell_{2}$-accurate推定値が与えられた場合、ターゲットと生成された分布間の総変動距離は$O(d/T)$(対数因子を無視)で上界し、$d$はデータ次元、$T$はステップ数であることがわかった。 この結果は、有限一階のモーメントを持つ任意の対象分布に対して成り立つ。 我々の知る限り、これはSDEベースのサンプルとODEベースのサンプルの両方に対する既存の収束理論を改善し、ターゲットデータ分布に最小限の仮定を課し、評価する。 これは、逆プロセスの各ステップでエラーがどのように伝播するかの詳細な特徴を提供する、新しい分析ツールセットによって達成される。

Score-based diffusion models, which generate new data by learning to reverse a diffusion process that perturbs data from the target distribution into noise, have achieved remarkable success across various generative tasks. Despite their superior empirical performance, existing theoretical guarantees are often constrained by stringent assumptions or suboptimal convergence rates. In this paper, we establish a fast convergence theory for a popular SDE-based sampler under minimal assumptions. Our analysis shows that, provided $\ell_{2}$-accurate estimates of the score functions, the total variation distance between the target and generated distributions is upper bounded by $O(d/T)$ (ignoring logarithmic factors), where $d$ is the data dimensionality and $T$ is the number of steps. This result holds for any target distribution with finite first-order moment. To our knowledge, this improves upon existing convergence theory for both the SDE-based sampler and another ODE-based sampler, while imposing minimal assumptions on the target data distribution and score estimates. This is achieved through a novel set of analytical tools that provides a fine-grained characterization of how the error propagates at each step of the reverse process.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# ProMerge: 教師なしインスタンスセグメンテーションのためのプロンプトとマージ

ProMerge: Prompt and Merge for Unsupervised Instance Segmentation ( http://arxiv.org/abs/2409.18961v1 )

ライセンス: Link先を確認
Dylan Li, Gyungin Shin, (参考訳) 教師なしのインスタンスセグメンテーションは、人間のラベル付きデータに頼ることなく、イメージ内の異なるオブジェクトインスタンスをセグメントすることを目的としている。 この分野は最近、自己教師付きモデル(例えば、DINO)の豊かな視覚特徴表現によって得られる強い局所的対応のために、顕著な進歩を遂げている。 最近の最先端のアプローチでは、自己教師機能を使用して画像をグラフとして表現し、一般化された固有値システム(正規化カット)を解き、前景マスクを生成する。 効果的ではあるが、この戦略は付随する計算要求によって制限され、推論速度が遅くなる。 本稿では,プロンプト・アンド・マージ(Prompt and Merge, ProMerge, Prompt and Merge, ProMerge)を提案する。 ProMergeは競争結果を得るだけでなく、最先端の正規化カットベースのアプローチに比べて推論時間を大幅に短縮する。 さらに,マスク予測を擬似ラベルとして用いた物体検出装置のトレーニングでは,様々な難解なインスタンスセグメンテーションベンチマークにおいて,現行の非教師なしモデルを上回る結果が得られた。

Unsupervised instance segmentation aims to segment distinct object instances in an image without relying on human-labeled data. This field has recently seen significant advancements, partly due to the strong local correspondences afforded by rich visual feature representations from self-supervised models (e.g., DINO). Recent state-of-the-art approaches use self-supervised features to represent images as graphs and solve a generalized eigenvalue system (i.e., normalized-cut) to generate foreground masks. While effective, this strategy is limited by its attendant computational demands, leading to slow inference speeds. In this paper, we propose Prompt and Merge (ProMerge), which leverages self-supervised visual features to obtain initial groupings of patches and applies a strategic merging to these segments, aided by a sophisticated background-based mask pruning technique. ProMerge not only yields competitive results but also offers a significant reduction in inference time compared to state-of-the-art normalized-cut-based approaches. Furthermore, when training an object detector using our mask predictions as pseudo-labels, the resulting detector surpasses the current leading unsupervised model on various challenging instance segmentation benchmarks.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# 視覚状態空間モデルにおけるトーケンプルーニングの探索

Exploring Token Pruning in Vision State Space Models ( http://arxiv.org/abs/2409.18962v1 )

ライセンス: Link先を確認
Zheng Zhan, Zhenglun Kong, Yifan Gong, Yushu Wu, Zichong Meng, Hangyu Zheng, Xuan Shen, Stratis Ioannidis, Wei Niu, Pu Zhao, Yanzhi Wang, (参考訳) 状態空間モデル(SSM)は、トランスフォーマーの注目モジュールと比較して線形計算複雑性を維持する利点があり、新しいタイプの強力な視覚基盤モデルとして視覚タスクに適用されている。 視覚変換器(ViT)の最終的な予測は,最も情報に富むトークンのサブセットにのみ基づくものであるという観測から着想を得て,トークンベースのプルーニングによるSSMベースの視覚モデルの効率向上に向けた新たな一歩を踏み出した。 しかし、ViT向けに設計された既存のトークンプルーニング技術の直接的な応用は、広範囲の微調整を施しても、優れた性能を発揮できない。 この問題に対処するために、SSMのユニークな計算特性を再検討し、単純アプリケーションによってシーケンシャルトークンの位置が破壊されることを発見する。 この知見は、SSMベースの視覚モデルに特化して、新規で一般的なトークンプルーニング手法を設計する動機となっている。 まず, 隠れ状態アライメント方式を導入し, 残ったトークンの近傍を安定化させ, 性能向上を図る。 また,SSMモデルに適応したトークン重要度評価手法を提案する。 効率的な実装と実用的なアクセラレーション手法により,本手法は実際の高速化をもたらす。 大規模な実験により,本手法は様々なタスクにおける性能への影響を最小限に抑えながら,計算量を大幅に削減できることが実証された。 特に,PlainMamba-L3 の FLOP を 41.6 % 削減した ImageNet では81.7 % の精度を実現している。 さらに,本研究は,将来の研究のために,SSMに基づく視覚モデルの振る舞いを理解するための深い洞察を提供する。

State Space Models (SSMs) have the advantage of keeping linear computational complexity compared to attention modules in transformers, and have been applied to vision tasks as a new type of powerful vision foundation model. Inspired by the observations that the final prediction in vision transformers (ViTs) is only based on a subset of most informative tokens, we take the novel step of enhancing the efficiency of SSM-based vision models through token-based pruning. However, direct applications of existing token pruning techniques designed for ViTs fail to deliver good performance, even with extensive fine-tuning. To address this issue, we revisit the unique computational characteristics of SSMs and discover that naive application disrupts the sequential token positions. This insight motivates us to design a novel and general token pruning method specifically for SSM-based vision models. We first introduce a pruning-aware hidden state alignment method to stabilize the neighborhood of remaining tokens for performance enhancement. Besides, based on our detailed analysis, we propose a token importance evaluation method adapted for SSM models, to guide the token pruning. With efficient implementation and practical acceleration methods, our method brings actual speedup. Extensive experiments demonstrate that our approach can achieve significant computation reduction with minimal impact on performance across different tasks. Notably, we achieve 81.7\% accuracy on ImageNet with a 41.6\% reduction in the FLOPs for pruned PlainMamba-L3. Furthermore, our work provides deeper insights into understanding the behavior of SSM-based vision models for future research.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# 量子アセンブリ言語回路をqudit形式に変換する

Transpiling quantum assembly language circuits to a qudit form ( http://arxiv.org/abs/2409.18963v1 )

ライセンス: Link先を確認
Denis A. Drozhzhin, Anastasiia S. Nikolaeva, Evgeniy O. Kiktenko, Aleksey K. Fedorov, (参考訳) 本稿では,Open Quantum ASseMblyフォーマット(OpenQASM, QASM)で表されるキュービット回路をquditハードウェア上で実行するためのqudit形式に変換するワークフローを紹介し,qudit実験結果をqubit結果に変換する方法を提案する。 ここでは、通常のqubitトランスパイルと実行として「qubit」、$d{=}3$レベルが「qutrit」、$d{=}4$レベルが「ququart」、$d{=}4$レベルが「qubits per quart」である。 クォーディットの潜在的な利点を示すトランスパイリング回路のいくつかの例を示す。

In this paper, we introduce the workflow for converting qubit circuits represented by Open Quantum ASseMbly format (OpenQASM, also known as QASM) into the qudit form for execution on qudit hardware and provide a method for translating qudit experiment results back into qubit results. We present the comparison of several qudit transpilation regimes, which differ in decomposition of multicontrolled gates: "qubit" as ordinary qubit transpilation and execution, "qutrit" with $d{=}3$ levels and single qubit in qudit and "ququart" with $d{=}4$ levels and 2 qubits per ququart. We provide several examples of transpiling circuits, which demonstrate potential advantages of qudits.
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# PhysGen: 物理を取り巻くrigid-Bodyのイメージ・ツー・ビデオ生成

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation ( http://arxiv.org/abs/2409.18964v1 )

ライセンス: Link先を確認
Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang, (参考訳) 本稿では、画像と入力条件(例えば、画像内の物体に印加される力とトルク)を変換して、現実的で、物理的に可視で、時間的に一貫した映像を生成する、新しい画像対ビデオ生成法であるPhysGenを提案する。 我々の重要な洞察は、モデルに基づく物理シミュレーションをデータ駆動型ビデオ生成プロセスに統合し、画像空間の高機能化を可能にすることである。 私たちのシステムの中心には3つのコアコンポーネントがあります。 一 画像の形状、材料及び物理パラメータを効果的に把握する画像理解モジュール (II)剛体物理と推定パラメータを用いて現実的な挙動をシミュレートする画像空間力学シミュレーションモデル 三 映像に基づくレンダリング・リファインメントモジュールで、映像拡散を利用して、シミュレーションされた動きを特徴とするリアルな映像を生成する。 結果として得られるビデオは物理と外観の両方で現実的であり、さらに正確に制御可能であり、定量的比較と総合的なユーザースタディを通じて、既存のデータ駆動型画像-ビデオ生成よりも優れた結果を示す。 PhysGenの生成されたビデオは、イメージをリアルなアニメーションにしたり、ユーザーがイメージと対話したり、様々なダイナミクスを作成できるなど、さまざまなダウンストリームアプリケーションに使用することができる。 プロジェクトページ: https://stevenlsw.github.io/physgen/

We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/
翻訳日:2024-10-01 07:41:44 公開日:2024-09-27
# 複数グループ:シミュレート・ソーシャル・アンサンブルによるLCMの指導システム

Plurals: A System for Guiding LLMs Via Simulated Social Ensembles ( http://arxiv.org/abs/2409.17213v1 )

ライセンス: Link先を確認
Joshua Ashkinaze, Emily Fry, Narendra Edara, Eric Gilbert, Ceren Budak, (参考訳) 近年の議論は、言語モデルが特定の視点を好むのではないかという懸念を提起した。 しかし、もし解決策が"どこからでも見る"ことではなく、むしろ異なる視点を活用することにあるとしたらどうでしょう? 本稿では,多言語AIのためのシステムとPythonライブラリであるPluralsを紹介する。 複数言語は、カスタマイズ可能な構造内で意図的に行われるエージェント(LLM、オプションでペルソナを含む)と、モデレーターが審議を監督する。 Pluralsは、シミュレートされたソーシャルアンサンブルのジェネレータである。 Pluralsは政府データセットを統合して、全国的に代表されるペルソナを作成し、民主的な熟考理論に触発された熟考テンプレートを含み、ユーザーは情報共有構造と構造内の熟考行動の両方をカスタマイズできる。 6つのケーススタディは、理論的構成と有効性に対する忠実さを示している。 3つのランダム化実験は、シミュレーションされた焦点群が関連する聴衆のオンラインサンプル(75%の試験でゼロショット生成を超越した)と共振する結果を示した。 複数言語は多元的AIのためのパラダイムと具体的なシステムである。 Pluralsライブラリはhttps://github.com/josh-ashkinaze/pluralsで公開されている。

Recent debates raised concerns that language models may favor certain viewpoints. But what if the solution is not to aim for a 'view from nowhere' but rather to leverage different viewpoints? We introduce Plurals, a system and Python library for pluralistic AI deliberation. Plurals consists of Agents (LLMs, optionally with personas) which deliberate within customizable Structures, with Moderators overseeing deliberation. Plurals is a generator of simulated social ensembles. Plurals integrates with government datasets to create nationally representative personas, includes deliberation templates inspired by democratic deliberation theory, and allows users to customize both information-sharing structures and deliberation behavior within Structures. Six case studies demonstrate fidelity to theoretical constructs and efficacy. Three randomized experiments show simulated focus groups produced output resonant with an online sample of the relevant audiences (chosen over zero-shot generation in 75% of trials). Plurals is both a paradigm and a concrete system for pluralistic AI. The Plurals library is available at https://github.com/josh-ashkinaze/plurals and will be continually updated.
翻訳日:2024-10-01 07:32:01 公開日:2024-09-27
# 複数グループ:シミュレート・ソーシャル・アンサンブルによるLCMの指導システム

Plurals: A System for Guiding LLMs Via Simulated Social Ensembles ( http://arxiv.org/abs/2409.17213v2 )

ライセンス: Link先を確認
Joshua Ashkinaze, Emily Fry, Narendra Edara, Eric Gilbert, Ceren Budak, (参考訳) 近年の議論は、言語モデルが特定の視点を好むのではないかという懸念を提起した。 しかし、もし解決策が"どこからでも見る"ことではなく、むしろ異なる視点を活用することにあるとしたらどうでしょう? 本稿では,多言語AIのためのシステムとPythonライブラリであるPluralsを紹介する。 複数言語は、カスタマイズ可能な構造内で意図的に行われるエージェント(LLM、オプションでペルソナを含む)と、モデレーターが審議を監督する。 Pluralsは、シミュレートされたソーシャルアンサンブルのジェネレータである。 Pluralsは政府データセットを統合して、全国的に代表されるペルソナを作成し、民主的な熟考理論に触発された熟考テンプレートを含み、ユーザーは情報共有構造と構造内の熟考行動の両方をカスタマイズできる。 6つのケーススタディは、理論的構成と有効性に対する忠実さを示している。 3つのランダム化実験は、シミュレーションされた焦点群が関連する聴衆のオンラインサンプル(75%の試験でゼロショット生成を超越した)と共振する結果を示した。 複数言語は多元的AIのためのパラダイムと具体的なシステムである。 Pluralsライブラリはhttps://github.com/josh-ashkinaze/pluralsで公開されている。

Recent debates raised concerns that language models may favor certain viewpoints. But what if the solution is not to aim for a 'view from nowhere' but rather to leverage different viewpoints? We introduce Plurals, a system and Python library for pluralistic AI deliberation. Plurals consists of Agents (LLMs, optionally with personas) which deliberate within customizable Structures, with Moderators overseeing deliberation. Plurals is a generator of simulated social ensembles. Plurals integrates with government datasets to create nationally representative personas, includes deliberation templates inspired by democratic deliberation theory, and allows users to customize both information-sharing structures and deliberation behavior within Structures. Six case studies demonstrate fidelity to theoretical constructs and efficacy. Three randomized experiments show simulated focus groups produced output resonant with an online sample of the relevant audiences (chosen over zero-shot generation in 75% of trials). Plurals is both a paradigm and a concrete system for pluralistic AI. The Plurals library is available at https://github.com/josh-ashkinaze/plurals and will be continually updated.
翻訳日:2024-10-01 07:32:01 公開日:2024-09-27
# 音声対話型LLMにおける思考の連鎖を伴わない内在化ASR

Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM ( http://arxiv.org/abs/2409.17353v1 )

ライセンス: Link先を確認
Robin Shing-Hei Yuen, Timothy Tin-Long Tse, Jian Zhu, (参考訳) 現在の音声ベースのLLMは、広範囲なASRとTSデータセットで主に訓練されており、これらの領域に関連するタスクに優れています。 しかし、直接音声対話を処理できる能力は、依然として顕著に制約されている。 これらのモデルは、しばしばASR-to-TTSのパイプラインに依存し、音声応答を生成する前に音声をテキストに変換する。 本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。 このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。 また、さらなる研究を促進するために、大規模な合成会話データセットもリリースしました。

Current speech-based LLMs are predominantly trained on extensive ASR and TTS datasets, excelling in tasks related to these domains. However, their ability to handle direct speech-to-speech conversations remains notably constrained. These models often rely on an ASR-to-TTS chain-of-thought pipeline, converting speech into text for processing before generating audio responses, which introduces latency and loses audio features. We propose a method that implicitly internalizes ASR chain of thought into a speech LLM, enhancing its native speech understanding capabilities. Our approach reduces latency and improves the model's native understanding of speech, paving the way for more efficient and natural real-time audio interactions. We also release a large-scale synthetic conversational dataset to facilitate further research.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# 音声対話型LLMにおける思考の連鎖を伴わない内在化ASR

Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM ( http://arxiv.org/abs/2409.17353v2 )

ライセンス: Link先を確認
Robin Shing-Hei Yuen, Timothy Tin-Long Tse, Jian Zhu, (参考訳) 現在の音声ベースのLLMは、広範囲なASRとTSデータセットで主に訓練されており、これらの領域に関連するタスクに優れています。 しかし、直接音声対話を処理できる能力は、依然として顕著に制約されている。 これらのモデルは、しばしばASR-to-TTSのパイプラインに依存し、音声応答を生成する前に音声をテキストに変換する。 本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。 このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。 また、さらなる研究を促進するために、大規模な合成会話データセットもリリースしました。

Current speech-based LLMs are predominantly trained on extensive ASR and TTS datasets, excelling in tasks related to these domains. However, their ability to handle direct speech-to-speech conversations remains notably constrained. These models often rely on an ASR-to-TTS chain-of-thought pipeline, converting speech into text for processing before generating audio responses, which introduces latency and loses audio features. We propose a method that implicitly internalizes ASR chain of thought into a speech LLM, enhancing its native speech understanding capabilities. Our approach reduces latency and improves the model's native understanding of speech, paving the way for more efficient and natural real-time audio interactions. We also release a large-scale synthetic conversational dataset to facilitate further research.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# 数理システムに関する大規模言語モデルのスケーリング行動:Pythiaを用いた例

Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia ( http://arxiv.org/abs/2409.17391v2 )

ライセンス: Link先を確認
Zhejian Zhou, Jiayu Wang, Dahua Lin, Kai Chen, (参考訳) 大規模言語モデル(LLM)は数学の推論において顕著な能力を示してきたが、加算や乗算といった数値演算を正確に行うことにはまだ苦戦している。 数値は様々な LLM によってトークンにトークン化され、数値演算のパフォーマンスに影響を及ぼす。 現在は2人の代表者がいる。 1) tokenize into $1$-digit, and 2)Tokenizeを$1\sim 3$ digitにする。 この差は、大まかに言えば、異なる数字システム(つまり、ベース10$またはベース10^{3}$)を使用することと等価である。 そこで本研究では,変圧器を用いた大規模言語モデルを用いて,異なる数値システムのスケーリング挙動について検討する。 経験的に、ベース10$システムは、トレーニングデータスケール、スクラッチのトレーニング設定によるモデルサイズ、および異なる数値システムは、非常によく似た微調整性能を持つのに対して、ベース10^{2}$または10^{3}$システムよりも一貫してデータ効率が良いことを示しています。 これは、ベーシックな10ドルシステムよりも高いトークン周波数によるものです。 さらに,加法および乗算における外挿行動パターンを明らかにした。 私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。 また、モデルによって学習されたメカニズムについても光を当てています。

Though Large Language Models (LLMs) have shown remarkable abilities in mathematics reasoning, they are still struggling with performing numeric operations accurately, such as addition and multiplication. Numbers can be tokenized into tokens in various ways by different LLMs and affect the numeric operations performance. Currently, there are two representatives: 1) Tokenize into $1$-digit, and 2) Tokenize into $1\sim 3$ digit. The difference is roughly equivalent to using different numeral systems (namely base $10$ or base $10^{3}$). In light of this, we study the scaling behavior of different numeral systems in the context of transformer-based large language models. We empirically show that a base $10$ system is consistently more data-efficient than a base $10^{2}$ or $10^{3}$ system across training data scale, model sizes under from-scratch training settings, while different number systems have very similar fine-tuning performances. We attribute this to higher token frequencies of a base $10$ system. Additionally, we reveal extrapolation behavior patterns on addition and multiplication. We identify that base $100$ and base $1000$ systems struggle on token-level discernment and token-level operations. We also sheds light on the mechanism learnt by the models.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# Modulated Intervention Preference Optimization (MIPO): 簡単さを維持し、困難を再定義する

Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult ( http://arxiv.org/abs/2409.17545v2 )

ライセンス: Link先を確認
Cheolhun Jang, (参考訳) 優先最適化手法は、よく訓練されたSFTモデルを基準モデルとしてトレーニングを開始するのが一般的である。 RLHF と DPO では、ポリシーモデルが参照モデルの分布から過度に逸脱することを防止するために、優先順位最適化プロセス中に正規化項が使用される。 参照モデルが与えられたデータにすでに整合している場合、あるいはわずかな調整しか必要としていない場合、このアプローチは、整合性のあるモデルを生成することができる。 しかし、参照モデルが与えられたデータと一致せず、現在の状態からかなり逸脱する必要がある場合、正規化項が実際にモデルアライメントを妨げる可能性がある。 そこで本研究では,この問題に対処するために,textbf{Modulated Intervention Preference Optimization (MIPO)を提案する。 MIPOは、そのデータがどのように適合しているかに基づいて、参照モデルからの介入の度合いを変調する。 データが適切に整合している場合、ポリシーモデルが参照モデルから著しく逸脱することを防ぐために介入が増加する。 逆に、アライメントが不十分な場合、干渉を減らし、より広範なトレーニングを容易にする。 我々は,Alpaca Eval 2.0 と MT-Bench における Mistral-7B と Llama3-8B を用いた MIPO と DPO の性能を比較した。 実験の結果,MIPO は様々な評価シナリオにおいて DPO を一貫して上回っていることがわかった。

Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose \textbf{Modulated Intervention Preference Optimization (MIPO)} to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# TLSNotary Protocolの概要

A Comprehensive Review of TLSNotary Protocol ( http://arxiv.org/abs/2409.17670v2 )

ライセンス: Link先を確認
Maciej Kalka, Marek Kirejczyk, (参考訳) Transport Layer Security (TLS) プロトコルは、インターネット上の通信をセキュアにするための暗号化プロトコルである。 TLSプロトコルはセキュアな通信の基盤となり、Webブラウジングセッションのセキュア化に最もよく使われている。 本研究では,TLSのセキュリティ特性を最大限に活用しつつ,TLSセッションからデータの証明をクライアントが得ることを目的としたTLSNotaryプロトコルについて検討する。 サーバ側の調整や許可なしにこのような証明を実現するため、標準TLSプロトコルを拡張するために、セキュアなマルチパーティ計算(MPC)と知識証明を併用するパワーが使用される。 まず,TLSNotaryプロトコルの理解に必要な暗号プリミティブを導入し,標準TLSプロトコルを経由する。 最後に、TLSNotaryプロトコルの詳細について述べる。

Transport Layer Security (TLS) protocol is a cryptographic protocol designed to secure communication over the internet. The TLS protocol has become a fundamental in secure communication, most commonly used for securing web browsing sessions. In this work, we investigate the TLSNotary protocol, which aim to enable the Client to obtain proof of provenance for data from TLS session, while getting as much as possible from the TLS security properties. To achieve such proofs without any Server-side adjustments or permissions, the power of secure multi-party computation (MPC) together with zero knowledge proofs is used to extend the standard TLS Protocol. To make the compliacted landscape of MPC as comprehensible as possible we first introduce the cryptographic primitives required to understand the TLSNotary protocol and go through standard TLS protocol. Finally, we look at the TLSNotary protocol in detail.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# 人間のメッシュ推定と体形確保のための人体計測の活用

Leveraging Anthropometric Measurements to Improve Human Mesh Estimation and Ensure Consistent Body Shapes ( http://arxiv.org/abs/2409.17671v2 )

ライセンス: Link先を確認
Katja Ludwig, Julian Lorenz, Daniel Kienzle, Tuan Bui, Rainer Lienhart, (参考訳) 人の基本的な体型は、単一のビデオ内では変化しない。 しかしながら、ほとんどのSOTAヒューマンメッシュ推定(HME)モデルは、ビデオフレームごとにわずかに異なるボディ形状を出力し、同一人物に対して一貫性のないボディ形状をもたらす。 対照的に、私たちは何世紀にもわたって、既に人間から取得されているテーラーのような人為的計測を活用しています。 我々は、このような人体計測を人間のメッシュモデルの体形パラメータに変換するA2Bと呼ばれるモデルを作成する。 さらに,細粒度SOTA 3次元ポーズ推定(HPE)モデルは,推定キーポイントの精度に関して,HMEモデルより優れていることがわかった。 このような3次元HPEモデルの結果に対して逆キネマティクス(IK)を適用してA2Bのボディ形状を合成すると、ASPsetやFit3Dのような挑戦的なデータセットに対して優れた一貫性のある人間のメッシュが得られ、SOTA HMEモデルと比較してMPJPEを30mm以上下げることができることを示す。 さらに、HMEモデルからA2Bモデルへの置き換えにより、HMEモデルの性能が向上するだけでなく、一貫した形状が生まれる。

The basic body shape of a person does not change within a single video. However, most SOTA human mesh estimation (HME) models output a slightly different body shape for each video frame, which results in inconsistent body shapes for the same person. In contrast, we leverage anthropometric measurements like tailors are already obtaining from humans for centuries. We create a model called A2B that converts such anthropometric measurements to body shape parameters of human mesh models. Moreover, we find that finetuned SOTA 3D human pose estimation (HPE) models outperform HME models regarding the precision of the estimated keypoints. We show that applying inverse kinematics (IK) to the results of such a 3D HPE model and combining the resulting body pose with the A2B body shape leads to superior and consistent human meshes for challenging datasets like ASPset or fit3D, where we can lower the MPJPE by over 30 mm compared to SOTA HME models. Further, replacing HME models estimates of the body shape parameters with A2B model results not only increases the performance of these HME models, but also leads to consistent body shapes.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# MoJE:脱獄専門家の混成、暴行攻撃の警護にタブラル・クラシファイア(動画あり)

MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks ( http://arxiv.org/abs/2409.17699v2 )

ライセンス: Link先を確認
Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hamed, Ambrish Rawat, Mark Purcell, (参考訳) 多様なアプリケーションにおけるLarge Language Models(LLMs)の普及は、潜在的ジェイルブレイク攻撃を防ぐための堅牢なセキュリティ対策の必要性を浮き彫りにしている。 これらの攻撃は、LSM内の脆弱性、データ完全性やユーザのプライバシを危険にさらす。 ガードレールはこのような脅威に対して重要な防御機構として機能するが、既存のモデルは検出精度と計算効率の両方の観点から、しばしば不足する。 本稿では,LLMに対するジェイルブレイク攻撃防止の重要性を論じ,これらのモデルを保護する上での入力ガードレールの役割を強調した。 現状のガードレールの限界を超えるよう設計された新しいガードレールアーキテクチャであるMoJE(Mixture of Jailbreak Expert)を紹介する。 単純な言語統計手法を用いることで、MoJEはモデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。 厳格な実験を通じて、MoJEは良心的なプロンプトを損なうことなく90%の攻撃を検知できる優れた性能を示し、脱獄攻撃に対するLLMの安全性を高めた。

The proliferation of Large Language Models (LLMs) in diverse applications underscores the pressing need for robust security measures to thwart potential jailbreak attacks. These attacks exploit vulnerabilities within LLMs, endanger data integrity and user privacy. Guardrails serve as crucial protective mechanisms against such threats, but existing models often fall short in terms of both detection accuracy, and computational efficiency. This paper advocates for the significance of jailbreak attack prevention on LLMs, and emphasises the role of input guardrails in safeguarding these models. We introduce MoJE (Mixture of Jailbreak Expert), a novel guardrail architecture designed to surpass current limitations in existing state-of-the-art guardrails. By employing simple linguistic statistical techniques, MoJE excels in detecting jailbreak attacks while maintaining minimal computational overhead during model inference. Through rigorous experimentation, MoJE demonstrates superior performance capable of detecting 90% of the attacks without compromising benign prompts, enhancing LLMs security against jailbreak attacks.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# Few-shot Pairwise Rank Prompting: 効果的な非パラメトリック検索モデル

Few-shot Pairwise Rank Prompting: An Effective Non-Parametric Retrieval Model ( http://arxiv.org/abs/2409.17745v2 )

ライセンス: Link先を確認
Nilanjan Sinhababu, Andrew Parry, Debasis Ganguly, Debasis Samanta, Pabitra Mitra, (参考訳) 教師付きランキングモデルは、効果的であることの利点にもかかわらず、通常複雑な処理(通常、タスク固有の事前トレーニングと微調整の複数の段階)を伴います。 これによって研究者たちは,ゼロショットで動作可能な大規模言語モデル(LLM)を活用した,シンプルなパイプラインの探索を動機付けている。 しかし、ゼロショット推論では、クエリのペアとその関連ドキュメントのトレーニングセットは使用しないため、そのパフォーマンスは、そのようなペアでトレーニングされる教師付きモデルよりも大幅に低下する。 トレーニングサンプルが一般的にゼロショットのパフォーマンスを改善するという既存の知見に触発されて、私たちの研究では、これがランキングモデルにも当てはまるかどうか調査している。 より具体的には、クエリとドキュメントのペアが与えられた場合、トレーニングセットから類似したクエリの好みの例を増やすことで、好み予測タスクが改善される。 提案手法は,インドメイン (TREC DL) とアウトドメイン (BEIR サブセット) の検索ベンチマークにおいて,ゼロショットベースラインに対する一貫した改善を示す。 また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。

A supervised ranking model, despite its advantage of being effective, usually involves complex processing - typically multiple stages of task-specific pre-training and fine-tuning. This has motivated researchers to explore simpler pipelines leveraging large language models (LLMs) that are capable of working in a zero-shot manner. However, since zero-shot inference does not make use of a training set of pairs of queries and their relevant documents, its performance is mostly worse than that of supervised models, which are trained on such example pairs. Motivated by the existing findings that training examples generally improve zero-shot performance, in our work, we explore if this also applies to ranking models. More specifically, given a query and a pair of documents, the preference prediction task is improved by augmenting examples of preferences for similar queries from a training set. Our proposed pairwise few-shot ranker demonstrates consistent improvements over the zero-shot baseline on both in-domain (TREC DL) and out-domain (BEIR subset) retrieval benchmarks. Our method also achieves a close performance to that of a supervised model without requiring any complex training pipeline.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# 信頼区間が明らかになった:現実の医療画像AIの準備は整っているか?

Confidence intervals uncovered: Are we ready for real-world medical imaging AI? ( http://arxiv.org/abs/2409.17763v2 )

ライセンス: Link先を確認
Evangelia Christodoulou, Annika Reinke, Rola Houhou, Piotr Kalinowski, Selen Erkan, Carole H. Sudre, Ninon Burgos, Sofiène Boutaj, Sophie Loizillon, Maëlys Solal, Nicola Rieke, Veronika Cheplygina, Michela Antonelli, Leon D. Mayer, Minu D. Tizabi, M. Jorge Cardoso, Amber Simpson, Paul F. Jäger, Annette Kopp-Schneider, Gaël Varoquaux, Olivier Colliot, Lena Maier-Hein, (参考訳) 医療画像は、医療のAIトランスフォーメーションを先導している。 パフォーマンスレポートは、どの方法が臨床に翻訳されるべきかを決定するための鍵である。 多くの場合、幅広い結論は単に平均的なパフォーマンス値から導き出される。 本稿では,この一般的なプラクティスは,性能の変動を無視するので,しばしば誤解を招く単純化である,と論じる。 私たちの貢献は3倍です。 1)2023年に発表されたすべてのMICCAIセグメンテーション論文(n = 221)を分析した結果,論文の50%以上が性能変動を全く評価していないことが明らかとなった。 また,モデル性能に対する信頼区間(CI)を報告した論文は1紙(0.5%)のみであった。 2) 報告ボトルネックに対処するため, セグメンテーション論文における標準偏差 (SD) は, 平均Dice類似度係数 (DSC) の2次多項式関数で近似できることを示した。 56件のMICCAI課題の外部検証データに基づいて,本手法のCIを精度良く再構築できることを実証した。 (3) 最終的にMICCAI 2023セグメンテーション論文の平均DSC付近で95%CIを再構築した。 中央値CI幅は0.03で,第1位と第2位の間の中央値性能ギャップの3倍であった。 論文の60%以上において,第2ランク法の平均性能は第1ランク法のCI内であった。 結論として,現在の出版物は,どのモデルが臨床実践に翻訳できるかを裏付ける十分な証拠を提供していない。

Medical imaging is spearheading the AI transformation of healthcare. Performance reporting is key to determine which methods should be translated into clinical practice. Frequently, broad conclusions are simply derived from mean performance values. In this paper, we argue that this common practice is often a misleading simplification as it ignores performance variability. Our contribution is threefold. (1) Analyzing all MICCAI segmentation papers (n = 221) published in 2023, we first observe that more than 50% of papers do not assess performance variability at all. Moreover, only one (0.5%) paper reported confidence intervals (CIs) for model performance. (2) To address the reporting bottleneck, we show that the unreported standard deviation (SD) in segmentation papers can be approximated by a second-order polynomial function of the mean Dice similarity coefficient (DSC). Based on external validation data from 56 previous MICCAI challenges, we demonstrate that this approximation can accurately reconstruct the CI of a method using information provided in publications. (3) Finally, we reconstructed 95% CIs around the mean DSC of MICCAI 2023 segmentation papers. The median CI width was 0.03 which is three times larger than the median performance gap between the first and second ranked method. For more than 60% of papers, the mean performance of the second-ranked method was within the CI of the first-ranked method. We conclude that current publications typically do not provide sufficient evidence to support which models could potentially be translated into clinical practice.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# BeanCounter: ビジネス指向テキストの低毒性、大規模、オープンデータセット

BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text ( http://arxiv.org/abs/2409.17827v2 )

ライセンス: Link先を確認
Siyan Wang, Bradford Levy, (参考訳) 言語モデリングにおける最近のブレークスルーの多くは、同じモデルアーキテクチャを大規模データセットに効果的にスケーリングすることによるものだ。 この点において、最近の研究は、トレーニングデータセットのサイズと品質の増加によるパフォーマンスの向上を強調し、大規模なデータセットの新たなソースの必要性を示唆している。 本研究では,企業の開示から抽出された159B以上のトークンからなる公開データセットであるBeanCounterを紹介する。 BeanCounterの0.1%未満がCommon Crawlベースのデータセットに現れており、同様のソースに依存するデータセットよりも桁違いに大きい。 データの出所を考えると、BeanCounterはWebベースのデータセットよりも比較的現実的で毒性が低いという仮説を立てています。 この仮説を探索した結果,BeanCounterでも同様の頻度で発生するが,他のデータセットと比較して有毒な文脈は極めて少ないことが判明した。 BeanCounterの実用性を実証するために,BeanCounter上で継続的にトレーニングされている2つのLCMとベースモデルを比較した。 有害な生成が18~33%減少し、継続的に事前訓練されたモデルに対するファイナンス領域内での性能が向上した。 本研究では,BeanCounterがマルチビリオンパラメータLLMのトレーニングに十分なスケールで,低毒性で高品質なドメイン固有データの新たな情報源であることを示す。

Many of the recent breakthroughs in language modeling have resulted from scaling effectively the same model architecture to larger datasets. In this vein, recent work has highlighted performance gains from increasing training dataset size and quality, suggesting a need for novel sources of large-scale datasets. In this work, we introduce BeanCounter, a public dataset consisting of more than 159B tokens extracted from businesses' disclosures. We show that this data is indeed novel: less than 0.1% of BeanCounter appears in Common Crawl-based datasets and it is an order of magnitude larger than datasets relying on similar sources. Given the data's provenance, we hypothesize that BeanCounter is comparatively more factual and less toxic than web-based datasets. Exploring this hypothesis, we find that many demographic identities occur with similar prevalence in BeanCounter but with significantly less toxic context relative to other datasets. To demonstrate the utility of BeanCounter, we evaluate and compare two LLMs continually pre-trained on BeanCounter with their base models. We find an 18-33% reduction in toxic generation and improved performance within the finance domain for the continually pretrained models. Collectively, our work suggests that BeanCounter is a novel source of low-toxicity and high-quality domain-specific data with sufficient scale to train multi-billion parameter LLMs.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# 視点シフトによる単眼深度推定のための新しいデータセット

A New Dataset for Monocular Depth Estimation Under Viewpoint Shifts ( http://arxiv.org/abs/2409.17851v2 )

ライセンス: Link先を確認
Aurel Pjetri, Stefano Caprasecca, Leonardo Taccari, Matteo Simoncini, Henrique Piñeiro Monteagudo, Walter Wallace, Douglas Coimbra de Andrade, Francesco Sambo, Andrew David Bagdanov, (参考訳) 単眼深度推定は、自律運転や他の多くのコンピュータビジョンアプリケーションにとって重要なタスクである。 この分野では大きな進歩があったが、深さ推定モデルに対する視点シフトの影響は、大半が未解明のままである。 本稿では,異なるカメラ位置と方向が単眼深度推定性能に与える影響を定量化するための新しいデータセットと評価手法を提案する。 ホログラフィー推定とオブジェクト検出に基づいて,高価なライダーセンサの必要をなくし,基礎的真理戦略を提案する。 道路シーンの多様なデータセットを複数視点から収集し,現代の深度推定モデルのロバスト性を評価する。 パブリックデータセット上での戦略の有効性を評価した上で、現在のモデルの限界についての貴重な洞察を提供し、現実世界のアプリケーションにおける視点の変化を考慮することの重要性を強調します。

Monocular depth estimation is a critical task for autonomous driving and many other computer vision applications. While significant progress has been made in this field, the effects of viewpoint shifts on depth estimation models remain largely underexplored. This paper introduces a novel dataset and evaluation methodology to quantify the impact of different camera positions and orientations on monocular depth estimation performance. We propose a ground truth strategy based on homography estimation and object detection, eliminating the need for expensive lidar sensors. We collect a diverse dataset of road scenes from multiple viewpoints and use it to assess the robustness of a modern depth estimation model to geometric shifts. After assessing the validity of our strategy on a public dataset, we provide valuable insights into the limitations of current models and highlight the importance of considering viewpoint variations in real-world applications.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# マルチユーザセマンティック通信における分散資源割当のハイパーゲーム理論

Hypergame Theory for Decentralized Resource Allocation in Multi-user Semantic Communications ( http://arxiv.org/abs/2409.17985v2 )

ライセンス: Link先を確認
Christo Kurisummoottil Thomas, Walid Saad, (参考訳) セマンティック・コミュニケーション(セマンティック・コミュニケーション、Semantic Communication、SC)は、無線デバイスがデータソースからのみ関連情報を送信し、コンピュータリソースに依存して欠落したデータポイントを再生する、新たな通信パラダイムである。 しかし,協調に必要となる計算と通信のオーバーヘッドのため,マルチユーザSCシステムの設計はより困難になる。 セマンティック言語を学習し、リソース割り当てを行う既存のソリューションは、マルチユーザSCに関わる計算と通信のトレードオフを捉えるのに失敗することが多い。 このギャップに対処するために,マルチユーザSCシステムにおける分散コンピューティングと通信資源割り当てのための新しいフレームワークを提案する。 エンドユーザのタスクエクスペリエンスの質を最大化するために、分散的にコミュニケーションとコンピューティングリソース(推論のための)を効率的に割り当てるという課題は、Stackelbergのハイパーゲーム理論の適用によって解決される。 第2レベルのハイパーゲームの概念を活用することで、ユーザ同士のコミュニケーションや制御戦略に関する誤解をモデル化する新たな分析式が開発されている。 さらに、学習した資源割り当てプロトコルの平衡解析は、誤認識を考慮して、ローカルなスタックルバーグ均衡への計算と通信戦略の収束を検証している。 シミュレーションの結果,提案したStackelbergハイパーゲームは,ユーザにとって高い品質のエクスペリエンスを維持しつつ,コミュニケーションや計算資源を効率的に活用することを示す。

Semantic communications (SC) is an emerging communication paradigm in which wireless devices can send only relevant information from a source of data while relying on computing resources to regenerate missing data points. However, the design of a multi-user SC system becomes more challenging because of the computing and communication overhead required for coordination. Existing solutions for learning the semantic language and performing resource allocation often fail to capture the computing and communication tradeoffs involved in multiuser SC. To address this gap, a novel framework for decentralized computing and communication resource allocation in multiuser SC systems is proposed. The challenge of efficiently allocating communication and computing resources (for reasoning) in a decentralized manner to maximize the quality of task experience for the end users is addressed through the application of Stackelberg hyper game theory. Leveraging the concept of second-level hyper games, novel analytical formulations are developed to model misperceptions of the users about each other's communication and control strategies. Further, equilibrium analysis of the learned resource allocation protocols examines the convergence of the computing and communication strategies to a local Stackelberg equilibria, considering misperceptions. Simulation results show that the proposed Stackelberg hyper game results in efficient usage of communication and computing resources while maintaining a high quality of experience for the users compared to state-of-the-art that does not account for the misperceptions.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# InterNet: インターリーブモダリティ伝達と自己教師型ホモグラフィー予測に基づく教師なしクロスモーダルホログラフィー推定

InterNet: Unsupervised Cross-modal Homography Estimation Based on Interleaved Modality Transfer and Self-supervised Homography Prediction ( http://arxiv.org/abs/2409.17993v2 )

ライセンス: Link先を確認
Junchen Yu, Si-Yuan Cao, Runmin Zhang, Chenghao Zhang, Jianxin Hu, Zhu Yu, Beinan Yu, Hui-liang Shen, (参考訳) 我々は、インターネットワークと呼ばれるインターリーブモダリティ伝達と自己教師型ホモグラフィ予測に基づく、新しい教師なしクロスモーダルホモグラフィー推定フレームワークを提案する。 InterNetは、モダリティ転送と自己教師付きホモグラフィー推定を統合し、両方のコンポーネントを交互にプロモートするための革新的なインターリーブド最適化フレームワークを導入している。 モダリティ転送は、徐々にモダリティギャップを狭め、自己教師付きホモグラフィー推定を容易にし、合成モダリティ内データを完全に活用する。 自己教師付きホモグラフィー推定は、信頼性の高い予測を徐々に達成し、モダリティ伝達に対する堅牢な相互監督を提供する。 推定精度をさらに高めるため、細粒度のホモグラフィー特徴損失を定式化し、2つのコンポーネント間の接続を改善する。 さらに, モデルパラメータの削減とドメイン間一般化能力の向上を両立させるため, 比較性能を維持しつつ, 簡易かつ効果的な蒸留訓練手法を用いる。 実験の結果、InterNetは教師なしメソッドのSOTA(State-of-the-art)のパフォーマンスを実現し、MHNやLocalTransといった教師なしメソッドよりも優れています。

We propose a novel unsupervised cross-modal homography estimation framework, based on interleaved modality transfer and self-supervised homography prediction, named InterNet. InterNet integrates modality transfer and self-supervised homography estimation, introducing an innovative interleaved optimization framework to alternately promote both components. The modality transfer gradually narrows the modality gaps, facilitating the self-supervised homography estimation to fully leverage the synthetic intra-modal data. The self-supervised homography estimation progressively achieves reliable predictions, thereby providing robust cross-modal supervision for the modality transfer. To further boost the estimation accuracy, we also formulate a fine-grained homography feature loss to improve the connection between two components. Furthermore, we employ a simple yet effective distillation training technique to reduce model parameters and improve cross-domain generalization ability while maintaining comparable performance. Experiments reveal that InterNet achieves the state-of-the-art (SOTA) performance among unsupervised methods, and even outperforms many supervised methods such as MHN and LocalTrans.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# CRoP: コンテキストワイドロバストな静的人間センシングパーソナライゼーション

CRoP: Context-wise Robust Static Human-Sensing Personalization ( http://arxiv.org/abs/2409.17994v2 )

ライセンス: Link先を確認
Sawinder Kaur, Avery Gump, Jingyu Xin, Yi Xiao, Harshit Sharma, Nina R Benway, Jonathan L Preston, Asif Salekin, (参考訳) ディープラーニングとモノのインターネットの進歩は、多様な人間のセンシングアプリケーションに繋がった。 しかし、様々な要因や文脈の影響を受けながら、人間の知覚の異なるパターンは、自然分布シフトによるジェネリックニューラルネットワークモデルの性能に挑戦する。 これを解決するために、パーソナライゼーションは個々のユーザーに対してモデルをカスタマイズする。 しかし、ほとんどのパーソナライゼーション研究は、ユーザ内一般化性を制限する、感覚データのコンテキストにおけるユーザ内不均一性を見落としている。 この制限は、一般化可能性とパーソナライゼーションの両方を損なう限られたデータ可用性を損なう臨床応用において特に重要である。 特に,治療進行などの外的要因によりユーザ内感覚特性が変化することが期待され,さらに課題が複雑化する。 この研究は、市販の事前学習モデルとプルーニングを用いた新しい静的パーソナライズ手法であるCRoPを導入し、パーソナライズと一般化を最適化する。 CRoPは、実際の健康ドメインの2つを含む4つの人間センシングデータセットにおいて、パーソナライズ効果とユーザ内ロバスト性に優れており、その実用的および社会的影響を強調している。 さらに、CRoPの一般化能力と設計選択を支援するために、勾配内積分析、アブレーション研究、最先端のベースラインとの比較を通じて経験的正当化を提供する。

The advancement in deep learning and internet-of-things have led to diverse human sensing applications. However, distinct patterns in human sensing, influenced by various factors or contexts, challenge generic neural network model's performance due to natural distribution shifts. To address this, personalization tailors models to individual users. Yet most personalization studies overlook intra-user heterogeneity across contexts in sensory data, limiting intra-user generalizability. This limitation is especially critical in clinical applications, where limited data availability hampers both generalizability and personalization. Notably, intra-user sensing attributes are expected to change due to external factors such as treatment progression, further complicating the challenges. This work introduces CRoP, a novel static personalization approach using an off-the-shelf pre-trained model and pruning to optimize personalization and generalization. CRoP shows superior personalization effectiveness and intra-user robustness across four human-sensing datasets, including two from real-world health domains, highlighting its practical and social impact. Additionally, to support CRoP's generalization ability and design choices, we provide empirical justification through gradient inner product analysis, ablation studies, and comparisons against state-of-the-art baselines.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27
# 解説

Explaining Explaining ( http://arxiv.org/abs/2409.18052v2 )

ライセンス: Link先を確認
Sergei Nirenburg, Marjorie McShane, Kenneth W. Goodman, Sanjay Oruganti, (参考訳) 高度なAIシステムに自信を持つ人々にとって、説明は鍵となる。 しかしながら、現在のAIのほぼすべてを占める機械学習ベースのシステムは、通常はブラックボックスであるため、説明できない。 説明可能なAI(XAI)ムーブメントは、この問題を"説明"を再定義することによってヘッジする。 人間中心で説明可能なAI(HCXAI)ムーブメントは、ユーザの説明指向のニーズを特定するが、機械学習へのコミットメントのため、それらを満たすことはできない。 クリティカルドメインで運用する現実の人々が必要とする説明の種別を達成するためには、AIにどのようにアプローチするかを再考する必要がある。 本稿では、機械学習によって得られたデータによって補完される知識ベースのインフラを応用した認知エージェント開発のためのハイブリッドアプローチについて述べる。 これらのエージェントは、人間ロボットチームの決定と行動の最終的な責任を負う人間のアシスタントとして機能する。 シミュレーションロボットのチームが人間に割り当てられた探索課題に協力するデモシステムの、内部パネルを用いたエージェントの説明可能性について述べる。

Explanation is key to people having confidence in high-stakes AI systems. However, machine-learning-based systems -- which account for almost all current AI -- can't explain because they are usually black boxes. The explainable AI (XAI) movement hedges this problem by redefining "explanation". The human-centered explainable AI (HCXAI) movement identifies the explanation-oriented needs of users but can't fulfill them because of its commitment to machine learning. In order to achieve the kinds of explanations needed by real people operating in critical domains, we must rethink how to approach AI. We describe a hybrid approach to developing cognitive agents that uses a knowledge-based infrastructure supplemented by data obtained through machine learning when applicable. These agents will serve as assistants to humans who will bear ultimate responsibility for the decisions and actions of the human-robot team. We illustrate the explanatory potential of such agents using the under-the-hood panels of a demonstration system in which a team of simulated robots collaborate on a search task assigned by a human.
翻訳日:2024-09-30 12:04:48 公開日:2024-09-27