このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240510となっている論文です。

PDF登録状況(公開日: 20240510)

TitleAuthorsAbstract論文公表日・翻訳日
# Light-SLAM: 集中照明条件下でのLightGlueに基づくロバストな深層学習ビジュアルSLAMシステム

Light-SLAM: A Robust Deep-Learning Visual SLAM System Based on LightGlue under Challenging Lighting Conditions ( http://arxiv.org/abs/2407.02382v1 )

ライセンス: Link先を確認
Zhiqi Zhao, Chang Wu, Xiaotong Kong, Zejie Lv, Xiaoqi Du, Qiyan Li, (参考訳) 同時局所マッピング(SLAM)は、インテリジェント交通システムや自律ロボットにとって重要な技術となり、自律運転に広く利用されている。 しかし、照明環境に挑戦する従来の手動機能ベースの手法は、堅牢性と精度の確保を困難にしている。 深層学習に基づくいくつかの手法は潜在的な可能性を示しているが、依然として大きな欠点がある。 この問題に対処するために、LightGlueディープラーニングネットワークに基づく視覚SLAMのための新しいハイブリッドシステムを提案する。 従来の手作りの機能を置き換えるために、ディープローカル機能記述子を使用し、高速で正確な機能マッチングを実現するために、より効率的で正確なディープネットワークを提供する。 したがって、ディープラーニングの頑健さをシステム全体を改善するために利用します。 従来の幾何学的アプローチを組み合わせて、単眼、双眼、RGB-Dセンサーのための完全な視覚SLAMシステムを導入しました。 提案システムは、KITTI、EuRoC、TUM、および4Seasonの4つの公開データセットと、実際のキャンパスシーンで徹底的にテストした。 実験結果から,提案手法は従来の手動特徴や深層学習に基づく手法よりも,低照度で光度の強い環境に適応する上で,精度と堅牢性が高いことが示された。 リアルタイムでGPU上でも動かせる。

Simultaneous Localization and Mapping (SLAM) has become a critical technology for intelligent transportation systems and autonomous robots and is widely used in autonomous driving. However, traditional manual feature-based methods in challenging lighting environments make it difficult to ensure robustness and accuracy. Some deep learning-based methods show potential but still have significant drawbacks. To address this problem, we propose a novel hybrid system for visual SLAM based on the LightGlue deep learning network. It uses deep local feature descriptors to replace traditional hand-crafted features and a more efficient and accurate deep network to achieve fast and precise feature matching. Thus, we use the robustness of deep learning to improve the whole system. We have combined traditional geometry-based approaches to introduce a complete visual SLAM system for monocular, binocular, and RGB-D sensors. We thoroughly tested the proposed system on four public datasets: KITTI, EuRoC, TUM, and 4Season, as well as on actual campus scenes. The experimental results show that the proposed method exhibits better accuracy and robustness in adapting to low-light and strongly light-varying environments than traditional manual features and deep learning-based methods. It can also run on GPU in real time.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-10
# C-ShipGen:パラメトリック船殻設計のための条件付き誘導拡散モデル

C-ShipGen: A Conditional Guided Diffusion Model for Parametric Ship Hull Design ( http://arxiv.org/abs/2407.03333v1 )

ライセンス: Link先を確認
Noah J. Bagazinski, Faez Ahmed, (参考訳) 船の設計は複雑な設計プロセスであり、海軍の建築家のチームが完成するまでに何年もかかるかもしれない。 船の設計プロセスの改善は、顧客に対して高品質な設計を提供しながら、大幅なコスト削減につながる可能性がある。 船体設計のための新しい技術は拡散モデル(英語版)である。 船体設計のための拡散モデルに関する以前の研究は、ドラッグを減らし、転覆量を大きくした高品質な船体を製作した。 しかし、設計上の制約を満たす船体は生成できなかった。 本稿では,船体の所望の主次元など,特定の制約を課した船体設計を生成する条件拡散モデルを提案する。 さらに、この拡散モデルは、全抵抗回帰モデルからの勾配を利用して、低抵抗設計を作成する。 5つの設計テストケースは、拡散モデルと設計最適化アルゴリズムを比較し、低抵抗の船体設計を作成した。 5つの試験例すべてにおいて、拡散モデルは、最適化された船体よりも総抵抗が低く、25%以上の抵抗低減を有する多様な設計を作成することが示されている。 拡散モデルもこれらの設計を再訓練せずに生成した。 この作業は、データ駆動アプローチでユーザ要求を満たす高品質な船体を作成することで、船の設計サイクル時間を著しく短縮することができる。

Ship design is a complex design process that may take a team of naval architects many years to complete. Improving the ship design process can lead to significant cost savings, while still delivering high-quality designs to customers. A new technology for ship hull design is diffusion models, a type of generative artificial intelligence. Prior work with diffusion models for ship hull design created high-quality ship hulls with reduced drag and larger displaced volumes. However, the work could not generate hulls that meet specific design constraints. This paper proposes a conditional diffusion model that generates hull designs given specific constraints, such as the desired principal dimensions of the hull. In addition, this diffusion model leverages the gradients from a total resistance regression model to create low-resistance designs. Five design test cases compared the diffusion model to a design optimization algorithm to create hull designs with low resistance. In all five test cases, the diffusion model was shown to create diverse designs with a total resistance less than the optimized hull, having resistance reductions over 25%. The diffusion model also generated these designs without retraining. This work can significantly reduce the design cycle time of ships by creating high-quality hulls that meet user requirements with a data-driven approach.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-10
# 大学院生のエントレプレナーシップの認知--課題,機会,文化的バイアス

Perceptions of Entrepreneurship Among Graduate Students: Challenges, Opportunities, and Cultural Biases ( http://arxiv.org/abs/2407.10367v1 )

ライセンス: Link先を確認
Manuela Andreea Petrescu, Dan Mircea Suciu, (参考訳) 本研究の目的は、デジタル指向の起業コースに入学した大学院生の起業意識を、起業に伴う課題と機会に焦点をあてて調査することである。 今日のデジタル時代には、ビジネスは、運用プロセスの促進、拡張の促進、競争力を高めるために、調整されたソフトウェアソリューションに大きく依存している。 データ収集にはオンライン探索サーベイを使用しました。 その結果、起業家精神は学生にとって魅力的な選択肢だと考えられていたが、そのうちのごく一部はすぐに事業を始めるつもりであると宣言した。 学生が提起した主な問題は、資源不足や支援の欠如など、内的特性と外部的障害であった。 性差別と文化的偏見は継続し、女性の機会と平等を制限している。 ジェンダーの面では、女性は指導的役割において限られた代表者であり、より無給の「家業」をすることを期待され、ビジネスを営む上での能力が低いと認識され、スキルを証明する必要がある。 女性の差別が減ったとしても、どちらの性別も、女性がビジネス領域で差別に直面していることに同意する。 パーセンテージの面では、女性はより高いパーセンテージで性差別に言及した。 これらの問題に対処するには、女性にとって公平な治療と機会を確保するために、意識、教育、政策の変更が必要である。

The purpose of the paper is to examine the perceptions of entrepreneurship of graduate students enrolled in a digital-oriented entrepreneurship course, focusing on the challenges and opportunities related to starting a business. In today's digital era, businesses heavily depend on tailored software solutions to facilitate their operational processes, foster expansion, and enhance their competitive edge, thus assuming, to a certain degree, the characteristics of software companies. For data gathering, we used online exploratory surveys. The findings indicated that although entrepreneurship was considered an attractive option by students, very few of them declared that they intended to start a business soon. The main issues raised by the students were internal traits and external obstacles, such as lack of resources and support. Gender discrimination and cultural biases persist, limiting opportunities and equality for women. In terms of gender, women face limited representation in leadership roles, are expected to do more unpaid 'family work', are perceived as less capable in ding business, and need to prove their skills. Even if women are less discriminated now, both genders agree that women still face discrimination in business domain. In terms of percentages, women mentioned gender discrimination in higher percentages. Addressing these issues requires awareness, education, and policy changes to ensure fair treatment and opportunities for women.
翻訳日:2024-07-22 12:49:16 公開日:2024-05-10
# コンピュータ科学における初等生の学習行動と評価手法 : 実証的研究

The Perceived Learning Behaviors and Assessment Techniques of First-Year Students in Computer Science: An Empirical Study ( http://arxiv.org/abs/2407.10368v1 )

ライセンス: Link先を確認
Manuela Andreea Petrescu, Tudor Dan Mihoc, (参考訳) 本研究の目的は,1年生が認識する現在の学習行動,駆動力,評価技術を確認することであり,最新の発達(パンデミック,遠隔指導,対人指導)のレンズを通してそれらを検証することである。 教育者や教育機関は、これらの発見を認識し、実施することによって、学生のさまざまなニーズや嗜好を考慮し、より快適な学習環境を構築することができ、最終的には教育全体の質を向上させることができる。 学生は、エクササイズベースの学習、グループ指導、ペアプログラミングによって、対人指導が最も効果的な学習方法であると信じている。 本研究は, 評価方法として, 実践的, 書面的な試験が優先されていることを示唆する。 また,実世界のシナリオを取り入れ,対話型学習アプローチを奨励し,活発な教育環境を構築することの重要性も強調した。

The objective of our study is to ascertain the present learning behaviors, driving forces, and assessment techniques as perceived by first-year students, and to examine them through the lens of the most recent developments (pandemic, shift to remote instruction, return to in-person instruction). Educators and educational institutions can create a more accommodating learning environment that takes into account the varied needs and preferences of students by recognizing and implementing these findings, which will ultimately improve the quality of education as a whole. Students believe that in-person instruction is the most effective way to learn, with exercise-based learning, group instruction, and pair programming. Our research indicates that, for evaluation methods, there is a preference for practical and written examinations. Our findings also underscore the importance of incorporating real-world scenarios, encouraging interactive learning approaches, and creating engaging educational environments.
翻訳日:2024-07-22 12:49:16 公開日:2024-05-10
# 無限列多体フロケットスピン系における可積分性と正確に解けるダイナミクスのシグナチャ

Signatures of Integrability and Exactly Solvable Dynamics in an Infinite-Range Many-Body Floquet Spin System ( http://arxiv.org/abs/2405.15797v1 )

ライセンス: Link先を確認
Harshit Sharma, Udaysinh T. Bhosale, (参考訳) 近年のSharma and Bhosale [Phys. Rev. B, 109, 014412 (2024)]では、無限の範囲Ising相互作用を持つ$N$-spin Floquetモデルが導入された。 本稿では, 相互作用の強度を$J$に一般化し, 上記の作業に$J=1$のケースを還元する。 J=1/2$の場合、このモデルは偶数量子ビットのみの可積分性を示す。 我々は6ドル、8ドル、10ドル、12ドルのキュービットのケースを解析的に解決し、その固有系、様々な初期状態の絡み合いのダイナミクス、ユニタリ進化作用素を発見した。 これらの量は量子可積分性(QI)の符号を示す。 even-$N > 12$ qubits の一般的な場合、スペクトル退化のような数値的な証拠と、絡み合い力学と時間進化したユニタリ作用素の正確な周期的性質を用いて QI の存在を接続する。 奇数$N$に対するQIの欠如をQIの署名の違反を観察することによって数値的に示す。 C_{\mbox{max}}$) の最大値は$N$ と減少し, 絡み合いの性質を示す。 結果を検証するための可能な実験について論じる。

In a recent work Sharma and Bhosale [Phys. Rev. B, 109, 014412 (2024)], $N$-spin Floquet model having infinite range Ising interaction was introduced. In this paper, we generalized the strength of interaction to $J$, such that $J=1$ case reduces to the aforementioned work. We show that for $J=1/2$ the model still exhibits integrability for an even number of qubits only. We analytically solve the cases of $6$, $8$, $10$, and $12$ qubits, finding its eigensystem, dynamics of entanglement for various initial states, and the unitary evolution operator. These quantities exhibit the signature of quantum integrability (QI). For the general case of even-$N > 12$ qubits, we conjuncture the presence of QI using the numerical evidences such as spectrum degeneracy, and the exact periodic nature of both the entanglement dynamics and the time-evolved unitary operator. We numerically show the absence of QI for odd $N$ by observing a violation of the signatures of QI. We analytically and numerically find that the maximum value of time-evolved concurrence ($C_{\mbox{max}}$) decreases with $N$, indicating the multipartite nature of entanglement. Possible experiments to verify our results are discussed.
翻訳日:2024-06-02 14:39:48 公開日:2024-05-10
# 高次元空間における微分類似性:理論と応用

Differential Similarity in Higher Dimensional Spaces: Theory and Applications ( http://arxiv.org/abs/1902.03667v4 )

ライセンス: Link先を確認
L. Thorne McCarty, (参考訳) 本稿では、arXiv:1401.2411[cs.LG]で提案された微分類似性理論の拡張と実験について述べる。 目的は、幾何学的モデルと確率的モデルとを原則的に組み合わせたクラスタリングとコーディングのためのアルゴリズムを開発することである。 単純さのために、以前の論文の幾何学モデルは3次元の場合に限定されていた。 本稿では,この制約を取り除き,フル$n$次元の場合を考える。 数学的モデルは同じだが、$n$-dimensionalの場合の解の計算戦略は異なっており、本論文の主な目的の1つはこれらの戦略の開発と分析である。 もう1つの主な目的は、サンプルデータからモデルのパラメータを再度$n$次元で推定するテクニックを考案することである。 我々は、古典的MNISTデータセットとCIFAR-10データセットの2つの実世界の例に適用することで、解法と推定手法を評価する。

This paper presents an extension and an elaboration of the theory of differential similarity, which was originally proposed in arXiv:1401.2411 [cs.LG]. The goal is to develop an algorithm for clustering and coding that combines a geometric model with a probabilistic model in a principled way. For simplicity, the geometric model in the earlier paper was restricted to the three-dimensional case. The present paper removes this restriction, and considers the full $n$-dimensional case. Although the mathematical model is the same, the strategies for computing solutions in the $n$-dimensional case are different, and one of the main purposes of this paper is to develop and analyze these strategies. Another main purpose is to devise techniques for estimating the parameters of the model from sample data, again in $n$ dimensions. We evaluate the solution strategies and the estimation techniques by applying them to two familiar real-world examples: the classical MNIST dataset and the CIFAR-10 dataset.
翻訳日:2024-05-27 03:32:54 公開日:2024-05-10
# モデルオンモデル誤認の評価

An Assessment of Model-On-Model Deception ( http://arxiv.org/abs/2405.12999v1 )

ライセンス: Link先を確認
Julius Heitkoetter, Michael Gerovitch, Laker Newhouse, (参考訳) 高い能力を持つ言語モデルの信頼性は、偽りのアウトプットを生成できる場合に危険にさらされる。 さらに、モデルが騙しに弱い場合、信頼性を損なう。 本稿では,複雑なモデル・オン・モデル認知のシナリオを解析する手法を提案する。 Llama-2 7B, 13B, 70B, および GPT-3.5 を用いて, MMLU の質問に対する誤った回答を正当化することにより, 1万以上の誤解を招く説明のデータセットを作成する。 モデルがこれらの説明を読むと、それらすべてが著しく騙されていることが分かりました。 さらに悪いことに、すべての能力のモデルは他人を誤解させるのに成功しているが、より有能なモデルは詐欺に抵抗するのにわずかに優れている。 詐欺を検知し、防御する手法の開発を推奨する。

The trustworthiness of highly capable language models is put at risk when they are able to produce deceptive outputs. Moreover, when models are vulnerable to deception it undermines reliability. In this paper, we introduce a method to investigate complex, model-on-model deceptive scenarios. We create a dataset of over 10,000 misleading explanations by asking Llama-2 7B, 13B, 70B, and GPT-3.5 to justify the wrong answer for questions in the MMLU. We find that, when models read these explanations, they are all significantly deceived. Worryingly, models of all capabilities are successful at misleading others, while more capable models are only slightly better at resisting deception. We recommend the development of techniques to detect and defend against deception.
翻訳日:2024-05-27 03:08:05 公開日:2024-05-10
# FunnelNet: リアルタイムにデジタル心室をモニタリングするエンドツーエンドのディープラーニングフレームワーク

FunnelNet: An End-to-End Deep Learning Framework to Monitor Digital Heart Murmur in Real-Time ( http://arxiv.org/abs/2405.09570v1 )

ライセンス: Link先を確認
Md Jobayer, Md. Mehedi Hasan Shawon, Md Rakibul Hasan, Shreya Ghosh, Tom Gedeon, Md Zakir Hossain, (参考訳) 目的:心臓の大腿骨は心臓内の乱流によって引き起こされる異常な音である。 心エコー法、心エコー法、心電図(PCG)など、いくつかの診断方法により、心室とその重症度を検出することができる。 しかし、これらの手法には、医療提供者間の広範なトレーニングや経験、心エコー検査のコストとアクセシビリティ、ノイズ干渉やPCGデータ処理などの制限がある。 本研究の目的は,従来型および深部分離型畳み込みネットワークを用いた,エンドツーエンドのリアルタイム心室検出手法を開発することである。 方法:PCGデータから意味のある特徴を抽出するために連続ウェーブレット変換(CWT)を適用した。 提案されたネットワークには、Squeeze net、Bottleneck、Expansion netの3つの部分がある。 Squeezenetは圧縮されたデータ表現を生成するが、Bottleneck層は深度的に分離可能な畳み込みネットワークを用いて計算複雑性を低減する。 拡張ネットは圧縮されたデータを高次元にアップサンプリングし、代表データの小さな詳細をキャプチャする。 結果: 評価には4つの公開データセットを使用し,すべてのデータセットで最先端のパフォーマンスを達成した。 さらに、提案したネットワークを、Raspberry PIとAndroidデバイスという2つのリソース制約されたデバイス上でテストし、それを小さな機械学習モデル(TinyML)に切り離し、最大99.70%を実現した。 結論:提案モデルでは,限られたリソース内でリアルタイムに正確な心臓骨折検出を行うためのディープラーニングフレームワークを提供する。 意義:医療従事者を支援するために、よりアクセシブルで実用的な医療サービスと診断時間を短縮する。 コードはTBAで公開されている。

Objective: Heart murmurs are abnormal sounds caused by turbulent blood flow within the heart. Several diagnostic methods are available to detect heart murmurs and their severity, such as cardiac auscultation, echocardiography, phonocardiogram (PCG), etc. However, these methods have limitations, including extensive training and experience among healthcare providers, cost and accessibility of echocardiography, as well as noise interference and PCG data processing. This study aims to develop a novel end-to-end real-time heart murmur detection approach using traditional and depthwise separable convolutional networks. Methods: Continuous wavelet transform (CWT) was applied to extract meaningful features from the PCG data. The proposed network has three parts: the Squeeze net, the Bottleneck, and the Expansion net. The Squeeze net generates a compressed data representation, whereas the Bottleneck layer reduces computational complexity using a depthwise-separable convolutional network. The Expansion net is responsible for up-sampling the compressed data to a higher dimension, capturing tiny details of the representative data. Results: For evaluation, we used four publicly available datasets and achieved state-of-the-art performance in all datasets. Furthermore, we tested our proposed network on two resource-constrained devices: a Raspberry PI and an Android device, stripping it down into a tiny machine learning model (TinyML), achieving a maximum of 99.70%. Conclusion: The proposed model offers a deep learning framework for real-time accurate heart murmur detection within limited resources. Significance: It will significantly result in more accessible and practical medical services and reduced diagnosis time to assist medical professionals. The code is publicly available at TBA.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-10
# Zero-Knowledge ゲーム

Zero-Knowledge Games ( http://arxiv.org/abs/2009.13521v3 )

ライセンス: Link先を確認
Ian Malloy, (参考訳) 本稿では、ゼロ知識ゲームに対するマルコフ過程と、そのようなゲームに見られるナッシュ均衡のモデルを紹介する。 シンメトリゲームは、情報を得たプレイヤーの信頼が命題や証明の信頼に関して考慮されるときに、アナログゼロ知識ゲームを持つことを示す。

This paper introduces Markov processes for zero-knowledge games and models Nash equilibrium found in such games. Symmetric games are shown to have an analog zero-knowledge game when confidence in a player being informed is considered with respect to trust in propositions and proofs.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-10
# グラフ用大規模言語モデルの検討

A Survey of Large Language Models for Graphs ( http://arxiv.org/abs/2405.08011v1 )

ライセンス: Link先を確認
Xubin Ren, Jiabin Tang, Dawei Yin, Nitesh Chawla, Chao Huang, (参考訳) グラフは、現実世界のシナリオにおける関係を表現するために使用される重要なデータ構造である。 従来の研究では、グラフニューラルネットワーク(GNN)が、リンク予測やノード分類といったグラフ中心のタスクにおいて、驚くべき結果をもたらすことが確認されている。 これらの進歩にもかかわらず、データスパシティや限定的な一般化能力といった課題は引き続き続く。 近年,Large Language Models (LLM) が自然言語処理に注目されている。 彼らは言語理解と要約に長けている。 グラフ学習タスクのパフォーマンス向上手段として,LLMとグラフ学習技術の統合が注目されている。 本稿では,グラフ学習に適用された最新のLLMの詳細なレビューを行い,そのフレームワーク設計に基づいて既存の手法を分類する新しい分類法を提案する。 我々は4つのユニークなデザインを詳述する。 一 プリフィックスとしてのGNN 二 プレフィックスとしてのLLM 三 LLMs-Graphs の統合及び 四 LLMs-第一に、各カテゴリの主要な方法論を強調すること。 各フレームワークの長所と短所について検討し、LLMとグラフ学習技術の現在の統合課題を克服し、新しいアプリケーション分野に進出するなど、将来の研究への潜在的な道のりを強調する。 本調査は,グラフ学習における大規模言語モデルの活用を熱望する研究者や実践者にとって貴重な資源であり,このダイナミックな分野の継続的な進歩を促すことを目的としている。 我々は,関連するオープンソース資料を<url{https://github.com/HKUDS/Awesome-LLM4Graph-Papers} で一貫して管理している。

Graphs are an essential data structure utilized to represent relationships in real-world scenarios. Prior research has established that Graph Neural Networks (GNNs) deliver impressive outcomes in graph-centric tasks, such as link prediction and node classification. Despite these advancements, challenges like data sparsity and limited generalization capabilities continue to persist. Recently, Large Language Models (LLMs) have gained attention in natural language processing. They excel in language comprehension and summarization. Integrating LLMs with graph learning techniques has attracted interest as a way to enhance performance in graph learning tasks. In this survey, we conduct an in-depth review of the latest state-of-the-art LLMs applied in graph learning and introduce a novel taxonomy to categorize existing methods based on their framework design. We detail four unique designs: i) GNNs as Prefix, ii) LLMs as Prefix, iii) LLMs-Graphs Integration, and iv) LLMs-Only, highlighting key methodologies within each category. We explore the strengths and limitations of each framework, and emphasize potential avenues for future research, including overcoming current integration challenges between LLMs and graph learning techniques, and venturing into new application areas. This survey aims to serve as a valuable resource for researchers and practitioners eager to leverage large language models in graph learning, and to inspire continued progress in this dynamic field. We consistently maintain the related open-source materials at \url{https://github.com/HKUDS/Awesome-LLM4Graph-Papers}.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-10
# 対数線形ガードネスとその意味

Log-linear Guardedness and its Implications ( http://arxiv.org/abs/2210.10012v5 )

ライセンス: Link先を確認
Shauli Ravfogel, Yoav Goldberg, Ryan Cotterell, (参考訳) 線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。 しかし、この除去が修正表現で訓練された下流分類器の挙動に与える影響は、完全には理解されていない。 本研究は,対数線ガードネスの概念を,敵の表現から直接概念を予測できないものと定義し,その意味について考察する。 バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。 しかし,マルチクラス対数線形モデルであるemph{can}が,対数線形ガード性の本質的な限界を下流バイアス緩和手法として指摘し,間接的にこの概念を回復することを示す。 これらの知見は線形消去法の理論的限界に光を当て、ニューラルモデルにおける内在バイアスと外因バイアスの関連性についてさらなる研究の必要性を強調した。

Methods for erasing human-interpretable concepts from neural representations that assume linearity have been found to be tractable and useful. However, the impact of this removal on the behavior of downstream classifiers trained on the modified representations is not fully understood. In this work, we formally define the notion of log-linear guardedness as the inability of an adversary to predict the concept directly from the representation, and study its implications. We show that, in the binary case, under certain assumptions, a downstream log-linear model cannot recover the erased concept. However, we demonstrate that a multiclass log-linear model \emph{can} be constructed that indirectly recovers the concept in some cases, pointing to the inherent limitations of log-linear guardedness as a downstream bias mitigation technique. These findings shed light on the theoretical limitations of linear erasure methods and highlight the need for further research on the connections between intrinsic and extrinsic bias in neural models.
翻訳日:2024-05-15 02:01:31 公開日:2024-05-10
# 多項式モーメントの不等式に対する二乗証明の和

Sums of squares certificates for polynomial moment inequalities ( http://arxiv.org/abs/2306.05761v2 )

ライセンス: Link先を確認
Igor Klep, Victor Magron, Jurij Volčič, (参考訳) 本稿では、可換変数とその形式的混合モーメントにおける多項式表現であるモーメント多項式の代数的枠組みを導入・開発する。 半代数集合上で支持され、モーメント多項式制約を受ける確率測度に対するそれらの肯定性と最適化について検討した。 擬モーメントに対するヒルベルトの17番目の問題に対する正の解が与えられる。 一方、実測度に正のモーメント多項式は、その係数を任意に小さな摂動に向ける正方形の和と正方形のモーメントである。 有界半代数集合で支持される測度のみを考慮すると、モーメント多項式正の強い代数的証明が導出される。 この結果から、モーメント多項式最適化のための半定値プログラムの収束階層が生まれる。 最後に、応用として、量子物理学からの2つの開放非線形ベル不等式が解決される。

This paper introduces and develops the algebraic framework of moment polynomials, which are polynomial expressions in commuting variables and their formal mixed moments. Their positivity and optimization over probability measures supported on semialgebraic sets and subject to moment polynomial constraints is investigated. A positive solution to Hilbert's 17th problem for pseudo-moments is given. On the other hand, moment polynomials positive on actual measures are shown to be sums of squares and formal moments of squares up to arbitrarily small perturbation of their coefficients. When only measures supported on a bounded semialgebraic set are considered, a stronger algebraic certificate for moment polynomial positivity is derived. This result gives rise to a converging hierarchy of semidefinite programs for moment polynomial optimization. Finally, as an application, two open nonlinear Bell inequalities from quantum physics are settled.
翻訳日:2024-05-15 01:42:01 公開日:2024-05-10
# DP-BREM:クライアントモメンタムを用いた差分学習とビザンチン・ロバスト・フェデレーション学習

DP-BREM: Differentially-Private and Byzantine-Robust Federated Learning with Client Momentum ( http://arxiv.org/abs/2306.12608v2 )

ライセンス: Link先を確認
Xiaolan Gu, Ming Li, Li Xiong, (参考訳) フェデレートラーニング(FL)は、複数の参加するクライアントがデータセットをローカルに保ちながら、機械学習モデルを協調的にトレーニングすることを可能にする。 既存のFLプロトコルは、データのプライバシやモデルの堅牢性を損なうような攻撃に対して脆弱である。 最近提案された防衛策は、プライバシとロバスト性の両方を保証することに焦点を当てたが、両方ではない。 本稿では,歴史から学ぶという考え方に基づいて,差分プライバシ(DP)とビザンチン頑健性(Byzantine robustness)を同時に達成することに焦点を当てる。 この堅牢性はクライアントのモーメントによって達成され、これは各クライアントの更新時間の平均化によって、誠実なクライアントの分散を減らし、単一のラウンドでは検出できないが時間とともに蓄積するビザンティンクライアントの小さな悪意のある摂動を露呈する。 最初のソリューションであるDP-BREMでは、集約されたモーメントにノイズを加えることでDPを実現し、このモーメントからプライバシコストを考慮し、この勾配からプライバシコストを考慮に入れた従来のDP-SGDとは異なる。 DP-BREMは信頼性の高いサーバ(クライアントのローカルモデルや更新を入手できる)を仮定するため,クライアントがDPノイズを安全かつ共同生成するセキュアアグリゲーション技術を利用することで,DP-BREMとDP-BREMと同じDPとロバスト性を実現するDP-BREM+と呼ばれる最終ソリューションをさらに発展させる。 理論的解析および実験結果から,提案プロトコルは,DP予算や攻撃条件の異なる複数の基本手法よりも,より優れたプライバシ・ユーティリティ・トレードオフと強力なビザンチンロバスト性を達成できることが示されている。

Federated Learning (FL) allows multiple participating clients to train machine learning models collaboratively while keeping their datasets local and only exchanging the gradient or model updates with a coordinating server. Existing FL protocols are vulnerable to attacks that aim to compromise data privacy and/or model robustness. Recently proposed defenses focused on ensuring either privacy or robustness, but not both. In this paper, we focus on simultaneously achieving differential privacy (DP) and Byzantine robustness for cross-silo FL, based on the idea of learning from history. The robustness is achieved via client momentum, which averages the updates of each client over time, thus reducing the variance of the honest clients and exposing the small malicious perturbations of Byzantine clients that are undetectable in a single round but accumulate over time. In our initial solution DP-BREM, DP is achieved by adding noise to the aggregated momentum, and we account for the privacy cost from the momentum, which is different from the conventional DP-SGD that accounts for the privacy cost from the gradient. Since DP-BREM assumes a trusted server (who can obtain clients' local models or updates), we further develop the final solution called DP-BREM+, which achieves the same DP and robustness properties as DP-BREM without a trusted server by utilizing secure aggregation techniques, where DP noise is securely and jointly generated by the clients. Both theoretical analysis and experimental results demonstrate that our proposed protocols achieve better privacy-utility tradeoff and stronger Byzantine robustness than several baseline methods, under different DP budgets and attack settings.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-10
# DIGEST: ローカルアップデートによる高速かつコミュニケーションの効率的な分散学習

DIGEST: Fast and Communication Efficient Decentralized Learning with Local Updates ( http://arxiv.org/abs/2307.07652v2 )

ライセンス: Link先を確認
Peyman Gholami, Hulya Seferoglu, (参考訳) 広く検討されている分散学習アルゴリズムは、Gossipとランダムウォークベースの学習である。 Gossipアルゴリズム(同期版と非同期版の両方)は通信コストが高く、ランダムウォークベースの学習経験は収束時間を増加させた。 本稿では,Gossipとランダムウォークの両方のアイデアを活用し,確率勾配勾配(SGD)に着目し,高速かつ通信効率のよい非同期分散学習機構DIGESTを設計する。 DIGESTは、ローカルSGDアルゴリズム上に構築された非同期分散アルゴリズムである。 単一ストリームとマルチストリームのDIGESTの両方を設計し、ストリーム数が増えると通信オーバーヘッドが増大する可能性がある。 単ストリームDIGESTと多ストリームDIGESTの収束を解析し、両アルゴリズムが最適解に漸近的に近づき、iidおよび非iidデータ分布に近づいたことを証明した。 我々は、ロジスティック回帰とディープニューラルネットワークResNet20のためのシングルストリームおよびマルチストリームDIGESTの性能を評価する。 シミュレーションの結果,マルチストリームDIGESTは収束特性が良好であることが確認された。

Two widely considered decentralized learning algorithms are Gossip and random walk-based learning. Gossip algorithms (both synchronous and asynchronous versions) suffer from high communication cost, while random-walk based learning experiences increased convergence time. In this paper, we design a fast and communication-efficient asynchronous decentralized learning mechanism DIGEST by taking advantage of both Gossip and random-walk ideas, and focusing on stochastic gradient descent (SGD). DIGEST is an asynchronous decentralized algorithm building on local-SGD algorithms, which are originally designed for communication efficient centralized learning. We design both single-stream and multi-stream DIGEST, where the communication overhead may increase when the number of streams increases, and there is a convergence and communication overhead trade-off which can be leveraged. We analyze the convergence of single- and multi-stream DIGEST, and prove that both algorithms approach to the optimal solution asymptotically for both iid and non-iid data distributions. We evaluate the performance of single- and multi-stream DIGEST for logistic regression and a deep neural network ResNet20. The simulation results confirm that multi-stream DIGEST has nice convergence properties; i.e., its convergence time is better than or comparable to the baselines in iid setting, and outperforms the baselines in non-iid setting.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-10
# G4SATBench: グラフニューラルネットワークによるSAT解決のベンチマークと改善

G4SATBench: Benchmarking and Advancing SAT Solving with Graph Neural Networks ( http://arxiv.org/abs/2309.16941v2 )

ライセンス: Link先を確認
Zhaoyu Li, Jinpei Guo, Xujie Si, (参考訳) グラフニューラルネットワーク(GNN)は先頃、従来のバックトラックやローカルサーチSATソルバに代わる選択肢を提供する、Boolean Satisfiability Problem(SAT)を解決するための有望なアプローチとして登場した。 しかし、この分野の文献が増えているにもかかわらず、既存のアプローチを評価し比較するための統一データセットと公正なベンチマークが存在しないことは注目すべきである。 G4SATBenchは、GNNベースのSATソルバの総合的な評価フレームワークを確立する最初のベンチマーク研究である。 G4SATBenchでは,3つの難易度を持つ7つの問題からなるSATデータセットの大規模かつ多種多様な集合を慎重にキュレートし,様々な予測タスク,学習目標,推論アルゴリズムにまたがる広範囲なGNNモデルをベンチマークする。 学習能力を探究し,GNNベースのSATソルバの強みと限界を理解するために,それらの解法とサーチベースのSATソルバのヒューリスティックスを比較する。 実験結果から,既存のGNNモデルでは,局所探索に類似した解法を効果的に学べるが,潜在空間における探索のバックトラックを学べない可能性が示唆された。 私たちのコードベースはhttps://github.com/zhaoyu-li/G4SATBench.comで公開されています。

Graph neural networks (GNNs) have recently emerged as a promising approach for solving the Boolean Satisfiability Problem (SAT), offering potential alternatives to traditional backtracking or local search SAT solvers. However, despite the growing volume of literature in this field, there remains a notable absence of a unified dataset and a fair benchmark to evaluate and compare existing approaches. To address this crucial gap, we present G4SATBench, the first benchmark study that establishes a comprehensive evaluation framework for GNN-based SAT solvers. In G4SATBench, we meticulously curate a large and diverse set of SAT datasets comprising 7 problems with 3 difficulty levels and benchmark a broad range of GNN models across various prediction tasks, training objectives, and inference algorithms. To explore the learning abilities and comprehend the strengths and limitations of GNN-based SAT solvers, we also compare their solving processes with the heuristics in search-based SAT solvers. Our empirical results provide valuable insights into the performance of GNN-based SAT solvers and further suggest that existing GNN models can effectively learn a solving strategy akin to greedy local search but struggle to learn backtracking search in the latent space. Our codebase is available at https://github.com/zhaoyu-li/G4SATBench.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-10
# 大規模言語モデルのための知識編集の落とし穴を解き明かす

Unveiling the Pitfalls of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2310.02129v5 )

ライセンス: Link先を確認
Zhoubo Li, Ningyu Zhang, Yunzhi Yao, Mengru Wang, Xi Chen, Huajun Chen, (参考訳) 微調整型Large Language Models(LLMs)のコストが上昇するにつれて、最近の研究はLLMに埋め込まれた暗黙の知識を編集する方法論の開発に焦点をあてている。 しかし、まだダーククラウドのオーバーヘッドは残っている -- 知識の編集はバタフライ効果を誘発するのだろうか? 知識編集が潜在的なリスクを引き起こす副作用をもたらすかどうかはまだ不明です。 本稿では,LLMの知識編集に伴う潜在的な落とし穴について検討する。 そこで我々は,新しいベンチマークデータセットを導入し,革新的な評価指標を提案する。 1) 知識衝突: 論理的に衝突する事実群を編集することで, 従来の手法で無視されたLCMの面における固有の矛盾を増大させることができる。 2) 知識歪み: 事実知識の編集を目的としたパラメータの変更は, LLMの自然知識構造を不可避的に歪曲することができる。 実験の結果は、知識編集が意図しない結果の影をLLMに不注意に投げかけ、将来の作品に注意と努力を喚起する可能性を鮮明に示している。 コードとデータはhttps://github.com/zjunlp/PitfallsKnowledgeEditing.comで公開されている。

As the cost associated with fine-tuning Large Language Models (LLMs) continues to rise, recent research efforts have pivoted towards developing methodologies to edit implicit knowledge embedded within LLMs. Yet, there's still a dark cloud lingering overhead -- will knowledge editing trigger butterfly effect? since it is still unclear whether knowledge editing might introduce side effects that pose potential risks or not. This paper pioneers the investigation into the potential pitfalls associated with knowledge editing for LLMs. To achieve this, we introduce new benchmark datasets and propose innovative evaluation metrics. Our results underline two pivotal concerns: (1) Knowledge Conflict: Editing groups of facts that logically clash can magnify the inherent inconsistencies in LLMs-a facet neglected by previous methods. (2) Knowledge Distortion: Altering parameters with the aim of editing factual knowledge can irrevocably warp the innate knowledge structure of LLMs. Experimental results vividly demonstrate that knowledge editing might inadvertently cast a shadow of unintended consequences on LLMs, which warrant attention and efforts for future works. Code and data are available at https://github.com/zjunlp/PitfallsKnowledgeEditing.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-10
# zkFL:フェデレートラーニングのためのゼロ知識証明に基づくグラディエントアグリゲーション

zkFL: Zero-Knowledge Proof-based Gradient Aggregation for Federated Learning ( http://arxiv.org/abs/2310.02554v4 )

ライセンス: Link先を確認
Zhipeng Wang, Nanqing Dong, Jiahao Sun, William Knottenbelt, Yike Guo, (参考訳) フェデレートラーニング(FL)は、中央アグリゲータのオーケストレーションの下で、複数の分散クライアントが協力してモデルをトレーニングできる機械学習パラダイムである。 FLは、ビッグデータシナリオにおけるスケーラブルな機械学習ソリューションである。 従来のFLは、クライアントのコホートを正直に形成する中心集合体の信頼前提に依存している。 しかし、悪意のあるアグリゲータは、実際には、クライアントのトレーニングモデルを捨てて置き換えたり、フェイククライアントを挿入したりして、最終的なトレーニング結果を操作することができる。 そこで本研究では,ゼロ知識証明を利用したzkFLを導入し,トレーニングモデル集約プロセスにおける悪意あるアグリゲータの問題に対処する。 正しい集計結果を保証するため、アグリゲータはラウンド毎の証明を提供し、アグリゲータが意図した振る舞いを忠実に実行することを示す。 クライアントの検証コストをさらに削減するために、ブロックチェーンを使用して証明をゼロ知識で処理します。そこでは、マイナ(すなわち、ブロックチェーンデータの検証とメンテナンスを行う参加者)が、クライアントのローカルモデルや集約モデルを知ることなく、証明を検証できます。 理論的解析と実証結果から、zkFLは基礎となるFLネットワーク構造を変更したり、トレーニング速度を著しく向上させることなく、従来のFLよりも優れたセキュリティとプライバシを実現することが示された。

Federated learning (FL) is a machine learning paradigm, which enables multiple and decentralized clients to collaboratively train a model under the orchestration of a central aggregator. FL can be a scalable machine learning solution in big data scenarios. Traditional FL relies on the trust assumption of the central aggregator, which forms cohorts of clients honestly. However, a malicious aggregator, in reality, could abandon and replace the client's training models, or insert fake clients, to manipulate the final training results. In this work, we introduce zkFL, which leverages zero-knowledge proofs to tackle the issue of a malicious aggregator during the training model aggregation process. To guarantee the correct aggregation results, the aggregator provides a proof per round, demonstrating to the clients that the aggregator executes the intended behavior faithfully. To further reduce the verification cost of clients, we use blockchain to handle the proof in a zero-knowledge way, where miners (i.e., the participants validating and maintaining the blockchain data) can verify the proof without knowing the clients' local and aggregated models. The theoretical analysis and empirical results show that zkFL achieves better security and privacy than traditional FL, without modifying the underlying FL network structure or heavily compromising the training speed.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-10
# 汎用回路アーキテクチャにおける近似t-設計

Approximate t-designs in generic circuit architectures ( http://arxiv.org/abs/2310.19783v2 )

ライセンス: Link先を確認
Daniel Belkin, James Allen, Soumik Ghosh, Christopher Kang, Sophia Lin, James Sud, Fred Chong, Bill Fefferman, Bryan K. Clark, (参考訳) 単位的 t-設計(英: Unitary t-designs)は、第一の t モーメントが極大ランダムに現れるユニタリ群上の分布である。 これまでの研究は、特定の特定のランダムな量子回路が近似t-設計をアンサンブルする深さに関するいくつかの上限を確立してきた。 ここでは、これらの境界はハールランダムの2つのサイトゲートの任意の固定されたアーキテクチャに拡張可能であることを示す。 これは、そのようなアーキテクチャのスペクトルギャップと1Dブリックワークアーキテクチャのギャップを関連付けることで達成される。 私たちの境界は、回路のブロックがサイト上の連結グラフを形成するのに必要な典型的な数のレイヤを通してのみアーキテクチャの詳細に依存する。 この量が幅に依存しない場合、回路は線形深さで近似t-設計を形成する。 また、固定アーキテクチャ上の対応する分布の性質の観点から、非決定論的アーキテクチャに暗黙的な境界を与える。

Unitary t-designs are distributions on the unitary group whose first t moments appear maximally random. Previous work has established several upper bounds on the depths at which certain specific random quantum circuit ensembles approximate t-designs. Here we show that these bounds can be extended to any fixed architecture of Haar-random two-site gates. This is accomplished by relating the spectral gaps of such architectures to those of 1D brickwork architectures. Our bound depends on the details of the architecture only via the typical number of layers needed for a block of the circuit to form a connected graph over the sites. When this quantity is independent of width, the circuit forms an approximate t-design in linear depth. We also give an implicit bound for nondeterministic architectures in terms of properties of the corresponding distribution over fixed architectures.
翻訳日:2024-05-15 01:02:54 公開日:2024-05-10
# 可変長量子鍵分布のセキュリティ証明

Security Proof for Variable-Length Quantum Key Distribution ( http://arxiv.org/abs/2311.01600v3 )

ライセンス: Link先を確認
Devashish Tupkary, Ernest Y. -Z. Tan, Norbert Lütkenhaus, (参考訳) 本稿では,IID集団攻撃に対するLennerフレームワークにおける可変長QKDのセキュリティ証明を提案する。 我々の証明は, ポストセレクション手法を用いてコヒーレントアタックに引き上げることができる。 最初の主要な結果は、一定の条件を満たす固定長プロトコルの一連のセキュリティ証明を可変長プロトコルのセキュリティ証明に変換する定理である。 この変換では、新しい計算は必要とせず、最終キー長やエラー訂正情報の変更は一切必要とせず、セキュリティパラメータは最大で2倍になる。 第2の成果は、QKDプロトコルの実行前にユーザを接続するチャネルの正直な動作を特徴付ける必要のない、より一般的な可変長QKDプロトコルのクラスの記述とセキュリティ証明である。 代わりに、これらのプロトコルは最終キーの長さを適応的に決定し、プロトコル中に行われた観測に基づいてエラー訂正に使用する情報の量を決定する。 これらの結果をqubit BB84プロトコルに適用し、可変長実装が固定長実装よりも高い期待キーレートをもたらすことを示す。

We present a security proof for variable-length QKD in the Renner framework against IID collective attacks. Our proof can be lifted to coherent attacks using the postselection technique. Our first main result is a theorem to convert a series of security proofs for fixed-length protocols satisfying certain conditions to a security proof for a variable-length protocol. This conversion requires no new calculations, does not require any changes to the final key lengths or the amount of error-correction information, and at most doubles the security parameter. Our second main result is the description and security proof of a more general class of variable-length QKD protocols, which does not require characterizing the honest behaviour of the channel connecting the users before the execution of the QKD protocol. Instead, these protocols adaptively determine the length of the final key, and the amount of information to be used for error-correction, based upon the observations made during the protocol. We apply these results to the qubit BB84 protocol, and show that variable-length implementations lead to higher expected key rates than the fixed-length implementations.
翻訳日:2024-05-15 01:02:54 公開日:2024-05-10
# LiveTune: フィードバック駆動最適化のための動的パラメータチューニング

LiveTune: Dynamic Parameter Tuning for Feedback-Driven Optimization ( http://arxiv.org/abs/2311.17279v2 )

ライセンス: Link先を確認
Soheil Zibakhsh Shabgahi, Nojan Sheybani, Aiden Tabrizi, Farinaz Koushanfar, (参考訳) 従来の機械学習トレーニングのようなフィードバック駆動の最適化は、ハイパーパラメータのリアルタイム適応性に欠ける静的プロセスである。 最適化のためのチューニングソリューションは試行錯誤とチェックポイントとスケジューラとの組み合わせを必要とするが、多くの場合、アルゴリズムからのフィードバックは見落としている。 最適化中にハイパーパラメータを調整するには、通常、プログラムを再起動し、使用時間と時間を浪費し、メモリやプロセッサに不必要な歪みを課す必要がある。 提案するLiveTuneは,LiveVariablesによる最適化ループのリアルタイムパラメータ調整を実現する新しいフレームワークである。 Live Variablesは、システム上の指定されたポートにパラメータを格納することで、継続的なフィードバック駆動の最適化を可能にし、動的に調整できる。 標準機械学習トレーニングパイプラインに対する我々のフレームワークの大規模な評価は、最大60秒と5.4キロジュールのハイパーパラメータごとのエネルギー変化を示している。 また,リコメンデーション学習アプリケーションにおいて,エージェントがベースラインよりも5倍改善したことを学習中に,ユーザが報酬構造を動的に変化させることができるLiveTuneの実現可能性と価値を示す。 最後に、エンドツーエンドで教師なしのフィードバック駆動最適化を提供するために、完全に自動化されたワークフローを概説する。

Feedback-driven optimization, such as traditional machine learning training, is a static process that lacks real-time adaptability of hyperparameters. Tuning solutions for optimization require trial and error paired with checkpointing and schedulers, in many cases feedback from the algorithm is overlooked. Adjusting hyperparameters during optimization usually requires the program to be restarted, wasting utilization and time, while placing unnecessary strain on memory and processors. We present LiveTune, a novel framework allowing real-time parameter adjustment of optimization loops through LiveVariables. Live Variables allow for continuous feedback-driven optimization by storing parameters on designated ports on the system, allowing them to be dynamically adjusted. Extensive evaluations of our framework on standard machine learning training pipelines show saving up to 60 seconds and 5.4 Kilojoules of energy per hyperparameter change. We also show the feasibility and value of LiveTune in a reinforcement learning application where the users change the dynamics of the reward structure while the agent is learning showing 5x improvement over the baseline. Finally, we outline a fully automated workflow to provide end-to-end, unsupervised feedback-driven optimization.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-10
# ポーカーハンドの記録と記述

Recording and Describing Poker Hands ( http://arxiv.org/abs/2312.11753v4 )

ライセンス: Link先を確認
Juho Kim, (参考訳) 本稿ではポーカーハンドヒストリー(PHH)ファイルフォーマットを紹介する。 心身スポーツとしてポーカーが主流の文化で広く普及し、不完全な情報AIエージェントのベンチマークとしての人工知能(AI)研究の分野における卓越しているにもかかわらず、機械で簡単に解析できる様々な種類のポーカーハンドを人間が文書化するために使用できる一貫したフォーマットが欠如している。 このギャップに対処するため,本論文では,初期ゲームパラメータやアクションから,会場,プレーヤ,タイムコントロール情報に制限されないコンテキストパラメータに至るまで,手作業のさまざまな詳細を包括的にキャプチャする,手作業履歴の簡潔で可読なマシンフレンドリーな表現を提供するPHHフォーマットを提案する。 補足では、PHHフォーマットの11種類の変種をカバーする10,088個の手を提供する。 完全な仕様はhttps://github.com/uoftcprg/phh-stdで公開されている。

This paper introduces the Poker Hand History (PHH) file format, designed to standardize the recording of poker hands across different game variants. Despite poker's widespread popularity in the mainstream culture as a mind sport and its prominence in the field of artificial intelligence (AI) research as a benchmark for imperfect information AI agents, it lacks a consistent format that humans can use to document poker hands across different variants that can also easily be parsed by machines. To address this gap in the literature, we propose the PHH format which provides a concise human-readable machine-friendly representation of hand history that comprehensively captures various details of the hand, ranging from initial game parameters and actions to contextual parameters including but not limited to the venue, players, and time control information. In the supplementary, we provide 10,088 hands covering 11 different variants in the PHH format. The full specification is available on https://github.com/uoftcprg/phh-std
翻訳日:2024-05-15 00:43:11 公開日:2024-05-10
# PlasmoData.jl - 複雑なデータをグラフとしてモデル化し分析するためのJuliaフレームワーク

PlasmoData.jl -- A Julia Framework for Modeling and Analyzing Complex Data as Graphs ( http://arxiv.org/abs/2401.11404v2 )

ライセンス: Link先を確認
David L Cole, Victor M Zavala, (参考訳) 科学や工学の応用で遭遇するデータセットは複雑な形式(画像、多変量時系列、分子、ビデオ、文字列、ネットワークなど)で現れる。 グラフ理論は、そのようなデータセットをモデル化するための統一フレームワークを提供し、データから値を分析し、視覚化し、抽出するのに役立つ強力なツールの使用を可能にする。 本研究では,複雑なデータセットのモデリングと解析を容易にするために,グラフ理論の概念を用いたオープンソースのJuliaフレームワークであるPlasmoData.jlを紹介する。 私たちのフレームワークの中核は、DataGraphと呼ばれる一般的なデータモデリング抽象化です。 本稿では,グラフとしてさまざまなデータオブジェクトを表現し,トポロジやグラフ理論,機械学習(グラフニューラルネットワークなど)などのツールを多種多様なタスクに活用するための抽象化とソフトウェア実装の方法を紹介する。 実際のデータセットを用いて、フレームワークの汎用性を説明します。 一 トポロジカルデータ分析を用いて、グラフモデルから特徴を抽出し、機械学習モデルを訓練する画像分類問題 二 多変量時系列をグラフとしてモデル化して異常事象を検出する疫病発生問題 三 グラフを使って接続をナビゲートする方法を強調する技術経路分析問題。 私たちの議論は、PlasmoData.jlがネイティブのJulia機能を活用して、コンパクトな構文、スケーラブルな計算、多様なパッケージとのインターフェースを実現する方法についても強調しています。

Datasets encountered in scientific and engineering applications appear in complex formats (e.g., images, multivariate time series, molecules, video, text strings, networks). Graph theory provides a unifying framework to model such datasets and enables the use of powerful tools that can help analyze, visualize, and extract value from data. In this work, we present PlasmoData.jl, an open-source, Julia framework that uses concepts of graph theory to facilitate the modeling and analysis of complex datasets. The core of our framework is a general data modeling abstraction, which we call a DataGraph. We show how the abstraction and software implementation can be used to represent diverse data objects as graphs and to enable the use of tools from topology, graph theory, and machine learning (e.g., graph neural networks) to conduct a variety of tasks. We illustrate the versatility of the framework by using real datasets: i) an image classification problem using topological data analysis to extract features from the graph model to train machine learning models; ii) a disease outbreak problem where we model multivariate time series as graphs to detect abnormal events; and iii) a technology pathway analysis problem where we highlight how we can use graphs to navigate connectivity. Our discussion also highlights how PlasmoData.jl leverages native Julia capabilities to enable compact syntax, scalable computations, and interfaces with diverse packages.
翻訳日:2024-05-15 00:33:27 公開日:2024-05-10
# 量子宇宙とその永遠の古典性

Quantum Universe and its Elusive Classicality ( http://arxiv.org/abs/2401.17336v2 )

ライセンス: Link先を確認
Jahan N. Schad, (参考訳) この記事は、物理学における啓示と、それらが現実に関して引き起こした疑問によって提示される課題について論じている。 それは、量子現実の無限の性質と古典現実に対する私たちの認識の相違に光を当てている。 量子から古典的現実への遷移の必要性は、観測者の介入の難しさや、客観的崩壊理論によって導入された複雑さとともに強調される。 この研究は、普遍波動関数密度行列の枠組みの中でデコヒーレンスの先駆的なアプローチを導入する。 これは、質量粒子、質量のない粒子、人体システムという3つの主要な量子サブシステム間の絡み合いを展開している。 これは相関系のフォン・ノイマン連鎖を生じさせ、一方の系を無視するともう一方の系は混合状態となる。 ここでは、コヒーレントなマスレスシステムとアニメーションは、私たちの知覚の主題である。 体内では、量子粒子波パケットの分布は、絡み合いと化学的ポテンシャルにより高度に局在し、エレンフェスト条件を満たす。 したがって、体量子粒子アンサンブルの各ミクロ状態は、統計力学粒子アンサンブルとしてアナログ的に表すことができ、デバイ統計モデルでマイクロ状態に例えることができる。 統計力学の観点からは、生命は熱力学パラメータと化学的ポテンシャルによって特徴づけられるマクロ状態を表す。 ライフマクロステートは、意識の流れに現れる絡み合った量子世界とは別の混合状態に対応する環境を自律的に処理する。 量子宇宙は決定論的に進化し、古典的な(マクロ的な)宇宙は脳によって識別される生命の基本的な述語によってその実現統計である。

The article explores challenges presented by revelations in physics and the questions they provoke concerning reality. It sheds light on the disparity between the indefinite nature of quantum reality and our perception of classical reality. The necessity for transition from the quantum to classical reality is underscored, alongside difficulties of observer intervention and the complexities introduced by the objective collapse theory. The work introduces a pioneering approach of decoherence within the framework of universal wave function density matrices. It deploys entanglement among three primary quantum subsystems: mass particles, massless particles, and the human body system. This gives rise to a Von Neumann chain of correlated systems, wherein neglecting one system renders the other two in mixed states. Here the cohered massless system and the animate being constitute subjects of our perceptions. Within the body, the distributions of quantum particle wave packets are highly localized due to entanglement and chemical potential, satisfying the Ehrenfest condition, wherein the thermal deBroglie wavelength scale is considerably smaller than their domain in the body. Thus, each microstate of the body quantum particle ensemble can be analogously represented as a statistical mechanics particle ensemble or likened to microstates in the Debye statistical model. In the statistical mechanics perspective, life represents a macrostate characterized by thermodynamics parameters, and chemical potential. The life macrostate autonomously processes an environment corresponding to a mixed state alternative of its entangled quantum world counterpart, which appears in the stream of consciousness. The quantum universe persists, evolving deterministically, and the classical (macroscopic) universe is its realization statistical by the fundamental predicate of life discerned by the brain; our elusive world.
翻訳日:2024-05-15 00:23:41 公開日:2024-05-10
# 大規模言語モデルの均質化が人間の創造的観念に及ぼす影響

Homogenization Effects of Large Language Models on Human Creative Ideation ( http://arxiv.org/abs/2402.01536v2 )

ライセンス: Link先を確認
Barrett R. Anderson, Jash Hemant Shah, Max Kreminski, (参考訳) 大規模言語モデル(LLM)は現在、ユーザが新しいアイデアを思いつくためのクリエイティビティサポートツール(CST)など、さまざまな状況で使用されている。 しかし、LLMは実際にユーザの創造性をサポートするのか? 我々は,LCMをCSTとして使用することで,LCMのユーザがより創造的になり,個々のユーザによって提案されるアイデアの範囲を広げるだけでなく,異なるユーザによって提案されるアイデアを均質化する,という仮説を立てた。 筆者らは36名の被験者を対象に,同質化仮説に従って,ChatGPTでは他のCSTよりも意味的に異なる概念が生じる傾向が見られた。 さらに、ChatGPTユーザはより詳細なアイデアを多数生成したが、生成したアイデアに対する責任は少なかった。 LLM ベースの CST のユーザ,デザイナ,開発者に対して,これらの発見がもたらす影響について論じる。

Large language models (LLMs) are now being used in a wide variety of contexts, including as creativity support tools (CSTs) intended to help their users come up with new ideas. But do LLMs actually support user creativity? We hypothesized that the use of an LLM as a CST might make the LLM's users feel more creative, and even broaden the range of ideas suggested by each individual user, but also homogenize the ideas suggested by different users. We conducted a 36-participant comparative user study and found, in accordance with the homogenization hypothesis, that different users tended to produce less semantically distinct ideas with ChatGPT than with an alternative CST. Additionally, ChatGPT users generated a greater number of more detailed ideas, but felt less responsible for the ideas they generated. We discuss potential implications of these findings for users, designers, and developers of LLM-based CSTs.
翻訳日:2024-05-15 00:23:41 公開日:2024-05-10
# スキュー情報と標準偏差に対する状態依存・状態非依存の不確かさ関係

State-dependent and state-independent uncertainty relations for skew information and standard deviation ( http://arxiv.org/abs/2402.03159v2 )

ライセンス: Link先を確認
Sahil, (参考訳) 本研究では、不整合作用素(必ずしもエルミート的ではない)の可換作用素が明示的に存在する状態依存不確かさ関係(不確かさ等式)を導出し、ウィグナー・ヤンゼスキュー情報に基づく状態依存不確かさ関係を導出する。 混合状態を持つ非互換作用素の標準偏差に基づく不確実性等式を導出する。 純状態に対して、Wigner-Yanaseスキュー情報に基づく状態独立不確実性関係は、標準偏差に基づく状態独立不確実性関係となり、ある場合にはジョルダ・デフ・アル(英語版)(Phys. Rev. A 99, 052121 (2019))の業績よりも厳密な不確実性関係となり、任意の作用素に対するジョルダ・デフ・アル(英語版)の業績を一般化する。 密度演算子のコヒーレンスを異なるチャネルの集合に対して測定すると、異なるチャネルの集合に関して密度演算子のコヒーレンス測度に対して状態非依存の不確実性関係が存在することを示す。 本稿では,Yang \emph{et al } [Phys. A 106, 052401 (2022)]に現れる汎用スキュー情報(Generalized skew information)と呼ばれるスキュー情報のより一般的なバージョンに基づく,状態依存および状態依存の不確実性関係を示す。 量子ビットでは、一般化されたスキュー情報や標準偏差の異なる形に対して、より厳密な状態非依存の不等式と等式を導出し、詳細を議論する。 最後に、弱値の概念を用いて実験で行うことのできる未知の可観測物のウィグナー・ヤンゼスキュー情報を決定するためのスキームを提供する。

In this work, we derive state-dependent uncertainty relations (uncertainty equalities) in which commutators of incompatible operators (not necessarily Hermitian) are explicitly present and state-independent uncertainty relations based on the Wigner-Yanase (-Dyson) skew information. We derive uncertainty equality based on standard deviation for incompatible operators with mixed states, a gereralization of previous works in which only pure state was considered. We show that for pure states, the Wigner-Yanase skew information based state-independent uncertainty relations become standard deviation based state-independent uncertainty relations which turn out to be tighter uncertainty relations than the ones given in the work of Giorda \emph{et al.} [Phys. Rev. A 99, 052121 (2019)] for some cases, and we generalize the work of Giorda \emph{et al.} for arbitrary operators. We show that if the coherence of a density operator is measured with respect to a collection of different channels, then there exists a state-independent uncertainty relation for the coherence measures of the density operator with respect to that collection of different channels. We show that state-dependent and state-independent uncertainty relations based on a more general version of skew information called generalized skew information appeared in Yang \emph{et al.} [Phys. Rev. A 106, 052401 (2022)] which includes the Wigner-Yanase (-Dyson) skew information and the Fisher information as special cases hold. In a qubit, we derive tighter state-independent uncertainty inequalities and equalities for different form of generalized skew informations and standard deviations, and discuss in detail. Finally, we provide a scheme to determine the Wigner-Yanase (-Dyson) skew information of an unknown observable which can be performed in experiment using the notion of weak values.
翻訳日:2024-05-15 00:13:55 公開日:2024-05-10
# シングルチャイルド言語入力からの学習可能性に関する体系的研究

A systematic investigation of learnability from single child linguistic input ( http://arxiv.org/abs/2402.07899v2 )

ライセンス: Link先を確認
Yulu Qin, Wentao Wang, Brenden M. Lake, (参考訳) 言語モデル(LM)は言語的に一貫性のあるテキストを生成するのに顕著な習熟度を示し、人間の言語学習性を理解することとの関連性について議論を呼んだ。 しかし、これらのモデルのトレーニングデータと、子供が受ける言語的入力との間には、大きなギャップがある。 LMは一般的に、子供指向の音声(Warstadt and Bowman, 2022; Warstadt et al , 2023; Frank, 2023a)と大きく、根本的に異なるデータに基づいて訓練される。 本研究は, 一人の子どもの言語入力のサブセットに基づいて, LMを訓練することに焦点を当てた。 以前、Wang, Vong, Kim, and Lake (2023) は、この設定で訓練されたLMが構文的および意味的な単語クラスタを形成し、特定の言語現象に対する感受性を発達させることを発見した。 そこで本研究では,シングルチャイルド入力からの学習可能性の堅牢性を検討するために,5つのデータセット(シングルチャイルドと2つのベースライン)で6種類のモデルアーキテクチャを体系的に学習する。 その結果, シングルチャイルドデータセットを用いて学習したモデルは, 従来の研究と一貫した結果を示し, 子どもの言語入力のサブセットから意味的な構文的・意味的表現を形成するという頑健さを浮き彫りにした。

Language models (LMs) have demonstrated remarkable proficiency in generating linguistically coherent text, sparking discussions about their relevance to understanding human language learnability. However, a significant gap exists between the training data for these models and the linguistic input a child receives. LMs are typically trained on data that is orders of magnitude larger and fundamentally different from child-directed speech (Warstadt and Bowman, 2022; Warstadt et al., 2023; Frank, 2023a). Addressing this discrepancy, our research focuses on training LMs on subsets of a single child's linguistic input. Previously, Wang, Vong, Kim, and Lake (2023) found that LMs trained in this setting can form syntactic and semantic word clusters and develop sensitivity to certain linguistic phenomena, but they only considered LSTMs and simpler neural networks trained from just one single-child dataset. Here, to examine the robustness of learnability from single-child input, we systematically train six different model architectures on five datasets (3 single-child and 2 baselines). We find that the models trained on single-child datasets showed consistent results that matched with previous work, underscoring the robustness of forming meaningful syntactic and semantic representations from a subset of a child's linguistic input.
翻訳日:2024-05-15 00:13:55 公開日:2024-05-10
# 一般化エンタングルメントスワップにおけるエンタングルメントの活性化

Activation of entanglement in generalized entanglement swapping ( http://arxiv.org/abs/2403.06518v2 )

ライセンス: Link先を確認
Pratapaditya Bej, Abhishek Banerjee, (参考訳) 本研究では,2つのベル対を含む一般化エンタングルメントスワッピングプロセスにおけるエンタングルメントの活性化と,一般化された測定値について検討する。 従来の理解は、遠方間の絡み合いを確立するのに必要かつ十分な測定値として、絡み合いを定めている。 本研究では,一般化エンタングルメントスワッピングプロセスにおいて,エンタングルメント生成における測定演算子の役割を再評価する。 本研究では,最大エンタングルド2ビット初期状態と一般化された測定値に着目し,エンタングルド測定演算子の必要性と充足条件について検討する。 Alice と Bob 間で共有される 2 つのベル対 (1, 2) と、Bob と Charlie 間で共有される (3, 4) を利用することで、絡み合いの測定が十分である一方で、空間的に分離された観測者間の絡み合いを確立するには欠かせないことを示す。 逐次的アプローチにより、ボブが絡み目を確立することができない最初の測定を行い、次に最初の測定を後処理した後で別の測定を行うことで絡み目を確立することができる。 我々は,第2の測定を行なえる可能性を実現するために,異なる測定演算子の特定の基準を同定する。 本研究は, 量子ネットワークの絡み合い分布に新たな光を流すことにより, 遠方部同士の絡み合いの発生の可能性を明らかにするものである。 さらに, 連続測定が単一の測定値と比較して絡み合いを高めた例を紹介し, 絡み合いを高める上でのアプローチの実践的メリットを明らかにした。 さらに、このプロトコルは二部分量子状態を超えて高次元の最大絡み合った状態へと拡張し、その汎用性と適用性を強調した。

We study entanglement activation in a generalized entanglement swapping process involving two Bell pairs and generalized measurements. The conventional understanding posits entangled measurements as both necessary and sufficient for establishing entanglement between distant parties. In this study, we reassess the role of measurement operators in entanglement generation within a generalized entanglement swapping process. We focus on maximally entangled two-qubit initial states and generalized measurements, investigating the necessity and sufficiency conditions for entangled measurement operators. By utilizing two Bell pairs, (1, 2) shared between Alice and Bob, and (3, 4) shared between Bob and Charlie, we demonstrate that while entangled measurements are sufficient, they are not indispensable for establishing entanglement between spatially separated observers. Through a sequential approach, if Bob performs an initial measurement which is not able to establish entanglement then followed by another measurement after post-processing the first measurement it is possible to establish entanglement. We identify specific criteria for different measurement operators that enable the potential for performing a second measurement to establish entanglement. Our findings highlight the feasibility of generating entanglement between distant parties through a combination of measurements, shedding new light on entanglement distribution in quantum networks. Additionally, we showcase through illustrative examples how successive measurements enhance entanglement compared to single measurements, underscoring the practical benefits of our approach in enhancing entanglement. Moreover, our protocol extends beyond bipartite qubit states to higher-dimensional maximally entangled states, emphasizing its versatility and applicability.
翻訳日:2024-05-15 00:04:06 公開日:2024-05-10
# クリニカル・アクセシブル・ラジオロジー・ファンデーション・モデルに向けて--オープン・アクセスとライトウェイト--自動評価による検討

Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation ( http://arxiv.org/abs/2403.08002v4 )

ライセンス: Link先を確認
Juan Manuel Zambrano Chaves, Shih-Cheng Huang, Yanbo Xu, Hanwen Xu, Naoto Usuyama, Sheng Zhang, Fei Wang, Yujia Xie, Mahmoud Khademi, Ziyi Yang, Hany Awadalla, Julia Gong, Houdong Hu, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Yu Gu, Cliff Wong, Mu Wei, Tristan Naumann, Muhao Chen, Matthew P. Lungren, Serena Yeung-Levy, Curtis P. Langlotz, Sheng Wang, Hoifung Poon, (参考訳) 大規模基盤モデルのスケーリング法則と異常な性能は, バイオメディシンにおけるそのようなモデルの開発と利用を動機付けている。 しかしながら、いくつかのバイオメディカル・ベンチマークで早期に有望な結果が得られたにもかかわらず、これらのモデルが現実の診療所で使用される前に対処する必要がある大きな課題がまだ残っている。 GPT-4Vのような最前線の一般ドメインモデルは、マルチモーダルなバイオメディカル応用において依然として大きな性能差がある。 さらに重要なのは、アクセシビリティ、モデルコスト、退屈な手作業による評価など、理解されていない実用的な問題によって、臨床医が最先端の大規模モデルをプライベートな患者データで直接使うのが難しくなることだ。 そこで我々は,SMM(Small Multimodal Model)をオープンソースで訓練し,放射線学における非メカニカルニーズに対する能力ギャップを埋める方法について検討する。 データ効率を最大化するために、画像とテキストのモダリティに関する最先端の事前訓練モデルを導入し、LLaVA-Medが示すように、各モダリティをテキスト埋め込み空間に接地するための軽量アダプタのトレーニングに重点を置いて、モジュラーアプローチを採用する。 トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。 評価のために,GPT-4に基づく実測値CheXpromptを提案する。 ベストプラクティスとして、データエンジニアリングとマルチモーダルトレーニングにおける様々な選択肢に関する体系的アブレーション研究を行う。 結果として得られたLlaVA-Rad (7B) モデルは、レポート生成やクロスモーダル検索といった標準的な放射線学のタスクにおいて、GPT-4VやMed-PaLM M (84B) のようなはるかに大きなモデルよりも優れた結果が得られる。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。

The scaling laws and extraordinary performance of large foundation models motivate the development and utilization of such models in biomedicine. However, despite early promising results on some biomedical benchmarks, there are still major challenges that need to be addressed before these models can be used in real-world clinics. Frontier general-domain models such as GPT-4V still have significant performance gaps in multimodal biomedical applications. More importantly, less-acknowledged pragmatic issues, including accessibility, model cost, and tedious manual evaluation make it hard for clinicians to use state-of-the-art large models directly on private patient data. Here, we explore training open-source small multimodal models (SMMs) to bridge competency gaps for unmet clinical needs in radiology. To maximize data efficiency, we adopt a modular approach by incorporating state-of-the-art pre-trained models for image and text modalities, and focusing on training a lightweight adapter to ground each modality to the text embedding space, as exemplified by LLaVA-Med. For training, we assemble a large dataset of over 697 thousand radiology image-text pairs. For evaluation, we propose CheXprompt, a GPT-4-based metric for factuality evaluation, and demonstrate its parity with expert evaluation. For best practice, we conduct a systematic ablation study on various choices in data engineering and multimodal training. The resulting LlaVA-Rad (7B) model attains state-of-the-art results on standard radiology tasks such as report generation and cross-modal retrieval, even outperforming much larger models such as GPT-4V and Med-PaLM M (84B). The inference of LlaVA-Rad is fast and can be performed on a single V100 GPU in private settings, offering a promising state-of-the-art tool for real-world clinical applications.
翻訳日:2024-05-14 23:54:21 公開日:2024-05-10
# SAM-I-Am:Zero-shot Atomic-Scale Electron Micrograph Segmentationのためのセマンティックブースティング

SAM-I-Am: Semantic Boosting for Zero-shot Atomic-Scale Electron Micrograph Segmentation ( http://arxiv.org/abs/2404.06638v2 )

ライセンス: Link先を確認
Waqwoya Abebe, Jan Strube, Luanzheng Guo, Nathan R. Tallent, Oceane Bel, Steven Spurgeon, Christina Doty, Ali Jannesari, (参考訳) イメージセグメンテーションは、医療診断から自律運転まで、タスクにとって重要なイネーブルである。 しかし、正しいセグメンテーションセマンティクス - 境界はどこにあるのか? どのセグメントが論理的に似ていますか? - 最先端の基盤モデルが無意味で誤った結果を生み出すことができるように、ドメインによって変化します。 さらに、一部のドメインでは、ラベルの取得にはコストがかかり、時間がかかり、ドメイン画像(マイクログラフ)は指数関数的に多様性があり、データ共有(サードパーティのリトレーニング)は制限される。 最良セグメンテーション技術の迅速な適応を実現するため、ゼロショット基礎モデルが与えられた場合、セグメンテーションをガイドし、ドメインの期待に合うように結果を調整するセグメンテーションの概念を提案する。 本研究では,Segment Anything Model (SAM) にセマンティック・ブースティングを適用し,透過電子顕微鏡のためのミクロ構造セマンティック・セマンティック・セマンティック・セマンティクスを求める。 我々のブースターSAM-I-Amは、様々な中間マスクの幾何学的およびテクスチャ的特徴を抽出し、マスク除去およびマスクマージ操作を行う。 我々は、(絶対)+21.35%、+12.6%、+5.27%、平均IoU、-9.91%、-18.42%、-4.06%のゼロショット性能が、バニラSAM(ViT-L)よりも難易度の高い3つの画像にまたがって、平均偽陽性マスクを減少させることを示した。

Image segmentation is a critical enabler for tasks ranging from medical diagnostics to autonomous driving. However, the correct segmentation semantics - where are boundaries located? what segments are logically similar? - change depending on the domain, such that state-of-the-art foundation models can generate meaningless and incorrect results. Moreover, in certain domains, fine-tuning and retraining techniques are infeasible: obtaining labels is costly and time-consuming; domain images (micrographs) can be exponentially diverse; and data sharing (for third-party retraining) is restricted. To enable rapid adaptation of the best segmentation technology, we propose the concept of semantic boosting: given a zero-shot foundation model, guide its segmentation and adjust results to match domain expectations. We apply semantic boosting to the Segment Anything Model (SAM) to obtain microstructure segmentation for transmission electron microscopy. Our booster, SAM-I-Am, extracts geometric and textural features of various intermediate masks to perform mask removal and mask merging operations. We demonstrate a zero-shot performance increase of (absolute) +21.35%, +12.6%, +5.27% in mean IoU, and a -9.91%, -18.42%, -4.06% drop in mean false positive masks across images of three difficulty classes over vanilla SAM (ViT-L).
翻訳日:2024-05-14 23:34:50 公開日:2024-05-10
# FusionMamba: 状態空間モデルによる効率的な画像融合

FusionMamba: Efficient Image Fusion with State Space Model ( http://arxiv.org/abs/2404.07932v2 )

ライセンス: Link先を確認
Siran Peng, Xiangyu Zhu, Haoyu Deng, Zhen Lei, Liang-Jian Deng, (参考訳) 画像融合は,高分解能画像と限られたスペクトル情報,高分解能画像と豊富なスペクトルデータを組み合わせることで,高分解能マルチ・ハイパスペクトル画像を生成することを目的としている。 画像融合のための現在のディープラーニング(DL)ベースの手法は、主にCNNやTransformerを使って特徴を抽出し、異なるタイプのデータをマージする。 CNNは効率的だが、受容野は限られており、グローバルなコンテキストを捉える能力に制限がある。 逆に、トランスフォーマーはグローバルな情報を学ぶのが得意だが、その二次的な複雑さによって妨げられる。 幸いなことに、ステートスペースモデル(SSM)の最近の進歩、特にMambaは、線形複雑性による世界的な認識を可能にすることで、この問題に対する有望な解決策を提供する。 しかし、画像融合のような領域において重要な能力である情報融合におけるSSMの可能性を探る試みは少ない。 そこで我々は,効率的な画像融合法であるFusionMambaを提案する。 私たちの貢献は主に2つの側面に焦点を当てています。 まず、異なるソースからの画像が異なる特性を持っていることを認識し、2つのU字型ネットワークにマンバブロックを組み込み、空間的特徴とスペクトル的特徴を効率的で独立的で階層的な方法で抽出する新しいアーキテクチャを提案する。 第二に、空間情報とスペクトル情報を効果的に組み合わせるために、二重入力に対応するためにマンバブロックを拡張する。 この拡張はFusionMambaブロックと呼ばれる新しいモジュールの作成につながります。 我々は,3つの画像融合タスクに関連する5つのデータセットについて,一連の実験を行った。 定量的および定性的な評価結果から,FusionMambaの優位性を裏付けるSOTA性能が得られた。 コードはhttps://github.com/PSRben/FusionMamba.comで入手できる。

Image fusion aims to generate a high-resolution multi/hyper-spectral image by combining a high-resolution image with limited spectral information and a low-resolution image with abundant spectral data. Current deep learning (DL)-based methods for image fusion primarily rely on CNNs or Transformers to extract features and merge different types of data. While CNNs are efficient, their receptive fields are limited, restricting their capacity to capture global context. Conversely, Transformers excel at learning global information but are hindered by their quadratic complexity. Fortunately, recent advancements in the State Space Model (SSM), particularly Mamba, offer a promising solution to this issue by enabling global awareness with linear complexity. However, there have been few attempts to explore the potential of the SSM in information fusion, which is a crucial ability in domains like image fusion. Therefore, we propose FusionMamba, an innovative method for efficient image fusion. Our contributions mainly focus on two aspects. Firstly, recognizing that images from different sources possess distinct properties, we incorporate Mamba blocks into two U-shaped networks, presenting a novel architecture that extracts spatial and spectral features in an efficient, independent, and hierarchical manner. Secondly, to effectively combine spatial and spectral information, we extend the Mamba block to accommodate dual inputs. This expansion leads to the creation of a new module called the FusionMamba block, which outperforms existing fusion techniques such as concatenation and cross-attention. We conduct a series of experiments on five datasets related to three image fusion tasks. The quantitative and qualitative evaluation results demonstrate that our method achieves SOTA performance, underscoring the superiority of FusionMamba. The code is available at https://github.com/PSRben/FusionMamba.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-10
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v7 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-10
# 拡散モデルを用いた加速スパイラルMRIのための領域固有逆NUFFTの学習

Learning the Domain Specific Inverse NUFFT for Accelerated Spiral MRI using Diffusion Models ( http://arxiv.org/abs/2404.12361v2 )

ライセンス: Link先を確認
Trevor J. Chan, Chamith S. Rajapakse, (参考訳) 高速MRIのための深層学習法は最先端の結果を得るが、非カルテシアンサンプリングトラジェクトリで可能となる追加のスピードアップは無視される。 このギャップに対処するため,我々は多コイル高アンサンプドスパイラルMRIのための生成拡散モデルに基づく再構成アルゴリズムを開発した。 このモデルは、トレーニング中にコンディショニングと周波数ベースのガイダンスを使用して、画像と測定の整合性を保証する。 超高速スキャン時間(2D画像では0.02秒)で再構成した画像の画質(構造的類似度>0.87)を示す。 このアルゴリズムを用いて最適な可変密度スパイラル軌道の集合を同定し、非一様高速フーリエ変換を用いた従来の再構成と比較して画像品質を大幅に向上させる。 効率的なスパイラルサンプリング軌道、マルチコイルイメージング、ディープラーニング再構成を組み合わせることで、リアルタイム3Dイメージングに必要な極めて高い加速度因子を実現できる。

Deep learning methods for accelerated MRI achieve state-of-the-art results but largely ignore additional speedups possible with noncartesian sampling trajectories. To address this gap, we created a generative diffusion model-based reconstruction algorithm for multi-coil highly undersampled spiral MRI. This model uses conditioning during training as well as frequency-based guidance to ensure consistency between images and measurements. Evaluated on retrospective data, we show high quality (structural similarity > 0.87) in reconstructed images with ultrafast scan times (0.02 seconds for a 2D image). We use this algorithm to identify a set of optimal variable-density spiral trajectories and show large improvements in image quality compared to conventional reconstruction using the non-uniform fast Fourier transform. By combining efficient spiral sampling trajectories, multicoil imaging, and deep learning reconstruction, these methods could enable the extremely high acceleration factors needed for real-time 3D imaging.
翻訳日:2024-05-14 23:10:20 公開日:2024-05-10
# 言語モデルの効率的な学習のためのテキスト品質ベースプルーニング

Text Quality-Based Pruning for Efficient Training of Language Models ( http://arxiv.org/abs/2405.01582v3 )

ライセンス: Link先を確認
Vasu Sharma, Karthik Padthe, Newsha Ardalani, Kushal Tirumala, Russell Howes, Hu Xu, Po-Yao Huang, Shang-Wen Li, Armen Aghajanyan, Gargi Ghosh, Luke Zettlemoyer, (参考訳) 近年、言語モデル(LM)のトレーニングは、膨大なデータセットを計算的に重いトレーニングに頼っているため、このトレーニングプロセスは非常に困難である。 本稿では,大容量NLPデータセットのテキスト品質をモデルに依存しない方法で数値評価し,テキストインスタンスを「品質スコア」に割り当てる手法を提案する。 テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立し、LMモデルのトレーニング効率を向上する。 複数のモデルやデータセットに対する実験結果は、このアプローチの有効性を示し、トレーニングの有効性を大幅に向上させ、資源効率の高いLMトレーニングの可能性を強調している。 例えば、複数のLMモデルのダウンストリーム評価タスク14件に対して平均0.9%の絶対精度の改善を、OpenWebTextデータセットでのトレーニングでは40%少なく、トレーニングは42%速く、平均絶対精度の改善は0.8%向上し、ウィキペディアデータセットでは20%少なく、トレーニングは21%速くなった。

In recent times training Language Models (LMs) have relied on computationally heavy training over massive datasets which makes this training process extremely laborious. In this paper we propose a novel method for numerically evaluating text quality in large unlabelled NLP datasets in a model agnostic manner to assign the text instances a "quality score". By proposing the text quality metric, the paper establishes a framework to identify and eliminate low-quality text instances, leading to improved training efficiency for LM models. Experimental results over multiple models and datasets demonstrate the efficacy of this approach, showcasing substantial gains in training effectiveness and highlighting the potential for resource-efficient LM training. For example, we observe an absolute accuracy improvement of 0.9% averaged over 14 downstream evaluation tasks for multiple LM models while using 40% lesser data and training 42% faster when training on the OpenWebText dataset and 0.8% average absolute accuracy improvement while using 20% lesser data and training 21% faster on the Wikipedia dataset.
翻訳日:2024-05-14 21:03:09 公開日:2024-05-10
# Sketchが生成する: インクリメンタルなフィードバックの提供と言語指向のコードスケッチによるLLMコード生成のガイド

Sketch Then Generate: Providing Incremental User Feedback and Guiding LLM Code Generation through Language-Oriented Code Sketches ( http://arxiv.org/abs/2405.03998v2 )

ライセンス: Link先を確認
Chen Zhu-Tian, Zeyu Xiong, Xiaoshuo Yao, Elena Glassman, (参考訳) コード生成やLLM(Large Language Models)による編集のための効果的なプロンプトの作成は容易ではない。 特に、即時かつ安定したフィードバックがない場合は、コードが生成されるまで、ユーザーが精神的に予測できる結果が残されるため、効果的なインタラクションを妨げます。 これに対してLanguage-Oriented Code Sketchingというインタラクティブなアプローチを導入しました。 このアプローチは、プロンプト内の固有の言語構造を活用し、古典的な自然言語処理技術を適用して、プロンプトをコードスケッチに変換する。 スケッチは、意図したコード構造をプレビューするだけでなく、所望のコードに向けてLLMを誘導する中間のプレースホルダーとして機能し、それによって人間とLLMのインタラクションが向上する。 我々は、アプローチの適用性と今後の計画について議論することで締めくくります。

Crafting effective prompts for code generation or editing with Large Language Models (LLMs) is not an easy task. Particularly, the absence of immediate, stable feedback during prompt crafting hinders effective interaction, as users are left to mentally imagine possible outcomes until the code is generated. In response, we introduce Language-Oriented Code Sketching, an interactive approach that provides instant, incremental feedback in the form of code sketches (i.e., incomplete code outlines) during prompt crafting. This approach converts a prompt into a code sketch by leveraging the inherent linguistic structures within the prompt and applying classic natural language processing techniques. The sketch then serves as an intermediate placeholder that not only previews the intended code structure but also guides the LLM towards the desired code, thereby enhancing human-LLM interaction. We conclude by discussing the approach's applicability and future plans.
翻訳日:2024-05-14 20:52:15 公開日:2024-05-10
# 大規模言語モデルを用いたテキストデータによる交通予測の強化

Enhancing Traffic Prediction with Textual Data Using Large Language Models ( http://arxiv.org/abs/2405.06719v1 )

ライセンス: Link先を確認
Xiannan Huang, (参考訳) 交通予測は、合理的な輸送供給のスケジューリングと割り当てに重要である。 しかし、短期的な交通予測に関する既存の研究は、例外的な状況に適切に対処し、天気のような無数の文脈情報をモデルに組み込むという課題に直面している。 一方、大きな言語モデルは、固有の世界知識のために、有望なソリューションを提供する。 しかし、交通予測に直接使用すると、コスト、決定論の欠如、数学的能力の制限といった欠点が生じる。 これらの問題を緩和するために,本研究では新しいアプローチを提案する。 予測に大規模なモデルを直接利用する代わりに、テキスト情報を処理し、埋め込みを得る。 これらの埋め込みは、過去のトラフィックデータと組み合わせて、従来の時空間予測モデルに入力される。 本研究では,地域レベルとノードレベルの2つのシナリオについて検討した。 地域レベルのシナリオでは、テキスト情報はネットワーク全体に接続されたノードとして表現される。 ノードレベルのシナリオでは、大きなモデルからの埋め込みは、対応するノードにのみ接続された追加ノードを表す。 提案手法は,New York Bike データセットによる予測精度の大幅な向上を示す。

Traffic prediction is pivotal for rational transportation supply scheduling and allocation. Existing researches into short-term traffic prediction, however, face challenges in adequately addressing exceptional circumstances and integrating non-numerical contextual information like weather into models. While, Large language models offer a promising solution due to their inherent world knowledge. However, directly using them for traffic prediction presents drawbacks such as high cost, lack of determinism, and limited mathematical capability. To mitigate these issues, this study proposes a novel approach. Instead of directly employing large models for prediction, it utilizes them to process textual information and obtain embeddings. These embeddings are then combined with historical traffic data and inputted into traditional spatiotemporal forecasting models. The study investigates two types of special scenarios: regional-level and node-level. For regional-level scenarios, textual information is represented as a node connected to the entire network. For node-level scenarios, embeddings from the large model represent additional nodes connected only to corresponding nodes. This approach shows a significant improvement in prediction accuracy according to our experiment of New York Bike dataset.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 重原子核における電子-陽電子対の1光子消滅

One-photon annihilation of the electron-positron pair at heavy atomic nuclei ( http://arxiv.org/abs/2405.06720v1 )

ライセンス: Link先を確認
Alexei M. Frolov, (参考訳) 中心、非常に重く、正の電荷を持つ原子核の磁場中における電子-陽電子対の1光子消滅を調べた。 この過程の消滅率の明示的な公式は$\Gamma^{(b)}_{1 \gamma}$である。 この速度の式は、全てのポジトロニウム水素化物HPの基底(境界)状態、陽電子-ヘリウム原子$e^{+}[$ He($2^{3}S_e$)]イオンの準安定三重項状態、その他の系における実際の1光子消滅を直接記述することができる。

We investigate one-photon annihilation of the electron-positron pair in the field of a central, very heavy and positively charged atomic nucleus. The explicit formula for the annihilation rate of this process $\Gamma^{(b)}_{1 \gamma}$ is derived. Our formula for this rate can directly be used to describe the actual one-photon annihilation in the ground (bound) states of all positronium hydrides HPs, quasi-stable triplet states of the positron-helium atoms $e^{+}[$ He($2^{3}S_e$)] ions and other systems.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# Kolmogorov-Arnold Networksは放射基底関数ネットワークである

Kolmogorov-Arnold Networks are Radial Basis Function Networks ( http://arxiv.org/abs/2405.06721v1 )

ライセンス: Link先を確認
Ziyao Li, (参考訳) この短い論文は、コルモゴロフ・アルノルドネットワーク(KAN)で使用される3階のB-スプラインがガウス半径基底関数によってうまく近似できるという、高速な概念実証である。 高速な実装であるFastKANは、放射基底関数(RBF)ネットワークでもある。

This short paper is a fast proof-of-concept that the 3-order B-splines used in Kolmogorov-Arnold Networks (KANs) can be well approximated by Gaussian radial basis functions. Doing so leads to FastKAN, a much faster implementation of KAN which is also a radial basis function (RBF) network.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# ゲノム規模メタボリックネットワークモデルにおける遺伝子機能の能動的学習のためのブール行列論理プログラミング

Boolean matrix logic programming for active learning of gene functions in genome-scale metabolic network models ( http://arxiv.org/abs/2405.06724v1 )

ライセンス: Link先を確認
Lun Ai, Stephen H. Muggleton, Shi-Shun Liang, Geoff S. Baldwin, (参考訳) 研究を自律的に推進する技術はComputational Scientific Discoveryにおいて顕著であり、Synthetic Biologyは有用な目的のために新しい生物学的システムの設計と構築に焦点を当てた科学分野である。 ここでは、細胞工学の促進と生物学的発見の促進に論理ベースの機械学習技術を適用したい。 ゲノムスケールメタボリックネットワークモデル (GEMs) と呼ばれる代謝過程の包括的データベースは、しばしば標的化合物生産を最適化するための細胞工学的戦略を評価するために使用される。 しかしながら、予測されたホストの振る舞いは、しばしばモデル内のエラーのために、常にGEMによって正しく記述されるわけではない。 GEM内の複雑な遺伝的相互作用を学習するタスクは、計算的および経験的課題を提示する。 これらの問題に対処するために,ブール行列を利用して大規模論理プログラムを評価する,Boolean Matrix Logic Programming (BMLP) と呼ばれる新しい手法について述べる。 能動的学習を通じて情報的実験を導くことにより,ゲノム仮説空間を効率的に探索するシステム「BMLP_{active}$」を導入する。 サブシンボリックな方法とは対照的に、$BMLP_{active}$は、データログ論理プログラムを用いて解釈可能で論理的な表現で広く受け入れられている細菌ホストの最先端のGEMを符号化する。 特に、$BMLP_{active}$は、ランダムな実験よりも訓練例が少ない遺伝子ペア間の相互作用をうまく学習することができ、実験的な設計空間の増加を克服することができる。 $BMLP_{active}$は、代謝モデルの迅速な最適化を可能にし、有用な化合物を製造するための生物学的システムを確実に設計する。 それは、微生物工学のための自動運転ラボを作るための現実的なアプローチを提供する。

Techniques to autonomously drive research have been prominent in Computational Scientific Discovery, while Synthetic Biology is a field of science that focuses on designing and constructing new biological systems for useful purposes. Here we seek to apply logic-based machine learning techniques to facilitate cellular engineering and drive biological discovery. Comprehensive databases of metabolic processes called genome-scale metabolic network models (GEMs) are often used to evaluate cellular engineering strategies to optimise target compound production. However, predicted host behaviours are not always correctly described by GEMs, often due to errors in the models. The task of learning the intricate genetic interactions within GEMs presents computational and empirical challenges. To address these, we describe a novel approach called Boolean Matrix Logic Programming (BMLP) by leveraging boolean matrices to evaluate large logic programs. We introduce a new system, $BMLP_{active}$, which efficiently explores the genomic hypothesis space by guiding informative experimentation through active learning. In contrast to sub-symbolic methods, $BMLP_{active}$ encodes a state-of-the-art GEM of a widely accepted bacterial host in an interpretable and logical representation using datalog logic programs. Notably, $BMLP_{active}$ can successfully learn the interaction between a gene pair with fewer training examples than random experimentation, overcoming the increase in experimental design space. $BMLP_{active}$ enables rapid optimisation of metabolic models to reliably engineer biological systems for producing useful compounds. It offers a realistic approach to creating a self-driving lab for microbial engineering.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 大規模言語モデル(LLM)における脳スコアの形状について

On the Shape of Brainscores for Large Language Models (LLMs) ( http://arxiv.org/abs/2405.06725v1 )

ライセンス: Link先を確認
Jingkai Li, (参考訳) LLM(Large Language Models)の台頭とともに、LLMと人間の脳/神経系の機能的類似性を評価する手段として、新しいメトリクスであるBrainscoreが登場した。 本研究は,190名の被験者と39名のLLMと訓練を受けていない被験者を対象とするヒトfMRIデータから得られたトポロジカルな特徴を抽出することにより,新規スコアの意味を抽出することを目的とした。 その後,36種類の線形回帰モデルを訓練し,信頼性と有効性を明らかにするため,詳細な統計的解析を行った。 本研究は, 興味領域 (ROIs) と半球領域 (hemispheres) にまたがる既存の脳スコアの解釈に特徴的な特徴の組み合わせを明らかにし, 機械学習(iML) 研究の進展に大きく寄与した。 この研究は、既存の脳スコアに関するさらなる議論と分析によって豊かになっている。 我々の知る限り、この研究は、この学際領域における新しいメートル法脳スコアを理解するための最初の試みである。

With the rise of Large Language Models (LLMs), the novel metric "Brainscore" emerged as a means to evaluate the functional similarity between LLMs and human brain/neural systems. Our efforts were dedicated to mining the meaning of the novel score by constructing topological features derived from both human fMRI data involving 190 subjects, and 39 LLMs plus their untrained counterparts. Subsequently, we trained 36 Linear Regression Models and conducted thorough statistical analyses to discern reliable and valid features from our constructed ones. Our findings reveal distinctive feature combinations conducive to interpreting existing brainscores across various brain regions of interest (ROIs) and hemispheres, thereby significantly contributing to advancing interpretable machine learning (iML) studies. The study is enriched by our further discussions and analyses concerning existing brainscores. To our knowledge, this study represents the first attempt to comprehend the novel metric brainscore within this interdisciplinary domain.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 低規則関数空間上のReLUネットワークの近似誤差と複素性境界

Approximation Error and Complexity Bounds for ReLU Networks on Low-Regular Function Spaces ( http://arxiv.org/abs/2405.06727v1 )

ライセンス: Link先を確認
Owen Davis, Gianluca Geraci, Mohammad Motamed, (参考訳) 本研究では,ReLUニューラルネットワークによる有界関数の大規模クラスを最小限の正則性仮定で近似する。 近似誤差は、対象関数の一様ノルムに比例し、ネットワーク幅と深さの積に逆比例する量で上から有界化可能であることを示す。 複雑な指数的アクティベーション関数を利用するニューラルネットワークの一種である残差ネットワークを特徴とするフーリエから有界な近似誤差を継承する。 提案手法は,ReLUネットワークによるフーリエ特徴量残差ネットワークの近似に係わる注意深い複雑性解析を行うことにより構成的かつ進行する。

In this work, we consider the approximation of a large class of bounded functions, with minimal regularity assumptions, by ReLU neural networks. We show that the approximation error can be bounded from above by a quantity proportional to the uniform norm of the target function and inversely proportional to the product of network width and depth. We inherit this approximation error bound from Fourier features residual networks, a type of neural network that uses complex exponential activation functions. Our proof is constructive and proceeds by conducting a careful complexity analysis associated with the approximation of a Fourier features residual network by a ReLU network.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 深部変異スキャンを用いた微調整タンパク質言語モデルによる変異効果予測の改善

Fine-tuning Protein Language Models with Deep Mutational Scanning improves Variant Effect Prediction ( http://arxiv.org/abs/2405.06729v1 )

ライセンス: Link先を確認
Aleix Lafita, Ferran Gonzalez, Mahmoud Hossam, Paul Smyth, Jacob Deasy, Ari Allyn-Feuer, Daniel Seaton, Stephen Young, (参考訳) タンパク質言語モデル(PLM)は、タンパク質コード変異体の機能的影響と臨床的意義を予測するための高性能でスケーラブルなツールとして登場したが、まだ実験的な精度は遅れている。 そこで本研究では,NLRヘッドを用いたDeep Mutational Scanning (DMS) アッセイによる変動効果の実験的マップを用いて,PLMの性能向上のための新しい微調整手法を提案する。 保持されたタンパク質テストセットと、独立したDMSおよびProteinGymおよびClinVarによる臨床変異アノテーションベンチマークにおいて、一貫した改善が得られた。 これらの結果から,DMSは配列多様性の有望な源であり,多変量効果予測のためのPLMの性能向上のための教師付きトレーニングデータであることが示唆された。

Protein Language Models (PLMs) have emerged as performant and scalable tools for predicting the functional impact and clinical significance of protein-coding variants, but they still lag experimental accuracy. Here, we present a novel fine-tuning approach to improve the performance of PLMs with experimental maps of variant effects from Deep Mutational Scanning (DMS) assays using a Normalised Log-odds Ratio (NLR) head. We find consistent improvements in a held-out protein test set, and on independent DMS and clinical variant annotation benchmarks from ProteinGym and ClinVar. These findings demonstrate that DMS is a promising source of sequence diversity and supervised training data for improving the performance of PLMs for variant effect prediction.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 局所電位記録(LFP)によるラット海馬および核蓄積のグローバルデータ駆動モデル

A Global Data-Driven Model for The Hippocampus and Nucleus Accumbens of Rat From The Local Field Potential Recordings (LFP) ( http://arxiv.org/abs/2405.06732v1 )

ライセンス: Link先を確認
Maedeh Sadeghi, Mahdi Aliyari Shoorehdeli, Shole jamali, Abbas Haghparast, (参考訳) 脳神経ネットワークでは、ローカルフィールド電位(LFP)信号は情報の動的流れを表す。 LFP臨床データを解析することは、脳のメカニズムの理解を深める上で重要な役割を担っている。 これらのメカニズムを理解するための1つの方法は、異なる状況下で脳信号を予測するグローバルモデルを特定することです。 本研究では, 自由に移動するラットにおいて, Nucleus Accumbens および Hippocampus 領域のLFP記録に基づくグローバルデータ駆動型を同定した。 LFPは、薬(モルフィン)または天然食品(ポップコーンやビスケットなど)の報酬を受ける前と後という、2つの異なる状況でラットから記録される。 このモデルを開発するために,Long Short Term Memory (LSTM), Echo State Network (ESN), Deep Echo State Network (DeepESN), Radial Basis Function (RBF), Local Linear Model Tree (LLM) の5つの機械学習手法の比較を行った。 LoLiMoTはすべてのメソッドの中で最高のパフォーマンスで選ばれた。 このモデルでは、これらの領域の将来の状態を1つの事前訓練されたモデルで予測することができる。 このモデルの同定は、モルヒネと自然報酬がこれらの領域のニューロンの動的特徴を変化させないことを示した。

In brain neural networks, Local Field Potential (LFP) signals represent the dynamic flow of information. Analyzing LFP clinical data plays a critical role in improving our understanding of brain mechanisms. One way to enhance our understanding of these mechanisms is to identify a global model to predict brain signals in different situations. This paper identifies a global data-driven based on LFP recordings of the Nucleus Accumbens and Hippocampus regions in freely moving rats. The LFP is recorded from each rat in two different situations: before and after the process of getting a reward which can be either a drug (Morphine) or natural food (like popcorn or biscuit). A comparison of five machine learning methods including Long Short Term Memory (LSTM), Echo State Network (ESN), Deep Echo State Network (DeepESN), Radial Basis Function (RBF), and Local Linear Model Tree (LLM) is conducted to develop this model. LoLiMoT was chosen with the best performance among all methods. This model can predict the future states of these regions with one pre-trained model. Identifying this model showed that Morphine and natural rewards do not change the dynamic features of neurons in these regions.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# リカレントニューラルネットワークを用いた音楽感情予測

Music Emotion Prediction Using Recurrent Neural Networks ( http://arxiv.org/abs/2405.06747v1 )

ライセンス: Link先を確認
Xinyu Chang, Xiangyu Zhang, Haoruo Zhang, Yulu Ran, (参考訳) 本研究は,聴取者の感情状態に合うように音楽を調整し,音楽レコメンデーションシステムを強化し,治療介入を支援することを目的とした,音楽を伝達する感情認識のためのリカレントニューラルネットワークの適用について検討する。 ラッセルの感情クアドラントを用いて、音楽を4つの異なる感情領域に分類し、これらのカテゴリーを正確に予測できるモデルを開発する。 我々のアプローチは、Librosaを使って包括的なオーディオ機能を抽出し、標準RNN、双方向RNN、Long Short-Term Memory(LSTM)ネットワークなど、さまざまなリカレントニューラルネットワークアーキテクチャを適用します。 最初の実験は、感情的な四分儀に従ってラベル付けされた900のオーディオクリップのデータセットを用いて行われた。 ニューラルネットワークモデルの性能をベースライン分類器の集合と比較し、音楽表現に固有の時間的ダイナミクスを捉える上での有効性を解析する。 結果は、より単純なRNNアーキテクチャは、特に小さなデータセットにおいて、より複雑なモデルに対して、比較可能またはそれ以上に機能する可能性があることを示唆している。 ひとつは元のデータセットに基づいて拡張されたもので、もうひとつは他のソースからのものです。 この研究は、音楽の感情的影響に対する理解を深めるだけでなく、よりパーソナライズされ、感情的に共鳴する音楽レコメンデーションとセラピーシステムを構築するニューラルネットワークの可能性も示している。

This study explores the application of recurrent neural networks to recognize emotions conveyed in music, aiming to enhance music recommendation systems and support therapeutic interventions by tailoring music to fit listeners' emotional states. We utilize Russell's Emotion Quadrant to categorize music into four distinct emotional regions and develop models capable of accurately predicting these categories. Our approach involves extracting a comprehensive set of audio features using Librosa and applying various recurrent neural network architectures, including standard RNNs, Bidirectional RNNs, and Long Short-Term Memory (LSTM) networks. Initial experiments are conducted using a dataset of 900 audio clips, labeled according to the emotional quadrants. We compare the performance of our neural network models against a set of baseline classifiers and analyze their effectiveness in capturing the temporal dynamics inherent in musical expression. The results indicate that simpler RNN architectures may perform comparably or even superiorly to more complex models, particularly in smaller datasets. We've also applied the following experiments on larger datasets: one is augmented based on our original dataset, and the other is from other sources. This research not only enhances our understanding of the emotional impact of music but also demonstrates the potential of neural networks in creating more personalized and emotionally resonant music recommendation and therapy systems.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# UAV安全性の確保:物体検出・追跡・距離推定による衝突回避のための視覚的・リアルタイムフレームワーク

Ensuring UAV Safety: A Vision-only and Real-time Framework for Collision Avoidance Through Object Detection, Tracking, and Distance Estimation ( http://arxiv.org/abs/2405.06749v1 )

ライセンス: Link先を確認
Vasileios Karampinis, Anastasios Arsenos, Orfeas Filippopoulos, Evangelos Petrongonas, Christos Skliros, Dimitrios Kollias, Stefanos Kollias, Athanasios Voulodimos, (参考訳) 過去20年間で、無人航空機(UAV)は軍用と民間の両方の領域で応用が拡大し、関心が高まりつつある。 効率性と衝突を正確に推定する非協調航空機の検出は、完全自律航空機の実現と高度空力(AAM)の促進に重要である。 本稿では,光学センサを用いた非協調航空車両の検出・追跡・距離推定のためのディープラーニングフレームワークを提案する。 この総合的なセンシングフレームワークを実装する際には、自律飛行車両が障害物を知覚し、移動できるようにするために、深度情報の提供が不可欠である。 本研究では,単眼カメラの入力のみを用いて,検出された空中物体の距離情報をリアルタイムで推定する手法を提案する。 Amazon Airborne Object Tracking (AOT) Datasetを使って、オブジェクト検出、トラッキング、深さ推定タスクのためにディープラーニングコンポーネントをトレーニングします。 物体検出器に深度推定モジュールを組み込んだ従来の手法とは対照的に,本手法は画像から画像への変換として問題を定式化する。 我々は、効率的でロバストな深さ推定のために、分離された軽量エンコーダデコーダネットワークを用いる。 簡単に言えば、物体検出モジュールは障害物を識別して位置決めし、障害物の動きを監視するトラッキングモジュールと距離を計算する深さ推定モジュールの両方にこの情報を伝達する。 提案手法は,空中物体追跡(AOT, Airborne Object Tracking)データセットで評価される。

In the last twenty years, unmanned aerial vehicles (UAVs) have garnered growing interest due to their expanding applications in both military and civilian domains. Detecting non-cooperative aerial vehicles with efficiency and estimating collisions accurately are pivotal for achieving fully autonomous aircraft and facilitating Advanced Air Mobility (AAM). This paper presents a deep-learning framework that utilizes optical sensors for the detection, tracking, and distance estimation of non-cooperative aerial vehicles. In implementing this comprehensive sensing framework, the availability of depth information is essential for enabling autonomous aerial vehicles to perceive and navigate around obstacles. In this work, we propose a method for estimating the distance information of a detected aerial object in real time using only the input of a monocular camera. In order to train our deep learning components for the object detection, tracking and depth estimation tasks we utilize the Amazon Airborne Object Tracking (AOT) Dataset. In contrast to previous approaches that integrate the depth estimation module into the object detector, our method formulates the problem as image-to-image translation. We employ a separate lightweight encoder-decoder network for efficient and robust depth estimation. In a nutshell, the object detection module identifies and localizes obstacles, conveying this information to both the tracking module for monitoring obstacle movement and the depth estimation module for calculating distances. Our approach is evaluated on the Airborne Object Tracking (AOT) dataset which is the largest (to the best of our knowledge) air-to-air airborne object dataset.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 効率的なウォークオフ補償法により強化された高分解能光子対による分極エンタングルメント

Polarization Entanglement with highly non-degenerate photon pairs enhanced by effective walk-off compensation method ( http://arxiv.org/abs/2405.06752v1 )

ライセンス: Link先を確認
Sungeun Oh, Thomas Jennewein, (参考訳) バルク偏極ニオブ酸リチウム(PPLN)結晶を用いたSPDC(Type-0自然パラメトリックダウン変換)により生成する高縮退光子対の偏光絡みを示す。 ビーム変位計干渉計とサニャック干渉計の両方を用いることで、高分解能光子対の高偏極コントラストと安定した干渉を確保できる。 両屈折性結晶ウェッジを用いた有効補償法を導入し,空間的および時間的歩行を同時に除去する。 本手法は、カナダ宇宙機関(CSA)が資金提供した量子暗号化科学衛星(QEYSSat)ミッションの一環として、地上と衛星間の絡み合いに基づく量子鍵分布(EBQKD)をテストするために設計された、絡み合った光子源(EPS)に実装されている。 N = (33.33+-0.05)kHzの一致率を観測し, 空間補償の欠如と比較して有意な改善が認められた。 また、推定対生成率(2.92+-0.12)MHzと、ポンプパワーの1.0mWから(96.6+-0.3)%の絡み合いを観測し、地上から衛星・光ファイバーリンクの長距離量子通信に有望な情報源となった。

We demonstrate polarization entanglement in highly non-degenerate photon pairs, generated through Type-0 spontaneous parametric down conversion (SPDC) using bulk periodically poled Lithium Niobate (PPLN) crystals. Through the utilization of both a beam displacer interferometer scheme and a Sagnac interferometer, we ensure high polarisation contrast and stable interference of the highly non-degenerate photon pairs, which however causes substantial spatial and temporal walk-offs of the photon paths which poses a formidable challenge. We introduce an effective compensation method using birefringent crystal wedges to eliminate spatial and temporal walkoffs simultaneously. This method is implemented in our entangled photon source (EPS) designed specifically for testing entanglement-based quantum key distribution (EBQKD) between ground and satellite, as part of the Quantum Encryption and Science Satellite (QEYSSat) mission funded by the Canadian Space Agency (CSA). We observed a coincidence rate of N = (33.33+-0.05)kHz, a significant improvement compared to the absence of the spatial compensation. We also observed an estimated pair generation rate of (2.92+-0.12)MHz and an entanglement visibility of (96.6+-0.3)% from only 1.0mW of pump power, making it a promising source for long-distance quantum communication for ground-to-satellite and fiber optic links.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# アダおよび乗算器設計のためのスケーラブルで効果的な算数木生成

Scalable and Effective Arithmetic Tree Generation for Adder and Multiplier Designs ( http://arxiv.org/abs/2405.06758v1 )

ライセンス: Link先を確認
Yao Lai, Jinxin Liu, David Z. Pan, Ping Luo, (参考訳) 幅広いハードウェアシナリオにおいて、演算ユニットの計算効率と物理サイズは、ハードウェア全体の速度とフットプリントに大きな影響を与えている。 それにもかかわらず、事前の算術設計手法の有効性は、速度と面積を十分に最適化せず、処理速度が低下し、モジュールサイズが大きくなるため、不十分であることが証明されている。 算術性能を向上させるため、本研究では、加算器と乗算器の2つの最も一般的で基本的な算術モジュールに焦点を当てる。 本研究では,木構造を最適化する強化学習技術を活用し,単一プレイヤー木生成ゲームとしてデザインタスクを投入した。 このようなツリー生成の定式化により、膨大な探索空間を効率的にナビゲートし、計算効率とハードウェアサイズをわずか数時間で向上させる優れた演算設計を見つけることができる。 加算器については,理論測定値においてパレート最適性を実現する128ビット加算器の設計を探索する。 現状のPrefixRLと比較して,計算遅延とハードウェアサイズを最大で26%,ハードウェアサイズで30%削減する。 乗算器の場合、RL-MULと比較して、我々の手法は速度を増し、最大で49%、サイズを45%削減する。 さらに,本手法のフレキシビリティとスケーラビリティにより,最先端技術に設計を展開できるようになり,それらを7nm技術にシームレスに統合できることが示されている。 われわれの研究は、ハードウェア設計に関する貴重な洞察を提供し、改良された検索空間とツリー生成手法を通じて、さらなる高速化とサイズ削減を提供すると信じている。 紹介ビデオはhttps://bit.ly/ArithmeticTree.com。 コードはhttps://github.com/laiyao1/ArithmeticTree.comで公開されている。

Across a wide range of hardware scenarios, the computational efficiency and physical size of the arithmetic units significantly influence the speed and footprint of the overall hardware system. Nevertheless, the effectiveness of prior arithmetic design techniques proves inadequate, as it does not sufficiently optimize speed and area, resulting in a reduced processing rate and larger module size. To boost the arithmetic performance, in this work, we focus on the two most common and fundamental arithmetic modules: adders and multipliers. We cast the design tasks as single-player tree generation games, leveraging reinforcement learning techniques to optimize their arithmetic tree structures. Such a tree generation formulation allows us to efficiently navigate the vast search space and discover superior arithmetic designs that improve computational efficiency and hardware size within just a few hours. For adders, our approach discovers designs of 128-bit adders that achieve Pareto optimality in theoretical metrics. Compared with the state-of-the-art PrefixRL, our method decreases computational delay and hardware size by up to 26% and 30%, respectively. For multipliers, when compared to RL-MUL, our approach increases speed and reduces size by as much as 49% and 45%. Moreover, the inherent flexibility and scalability of our method enable us to deploy our designs into cutting-edge technologies, as we show that they can be seamlessly integrated into 7nm technology. We believe our work will offer valuable insights into hardware design, further accelerating speed and reducing size through the refined search space and our tree generation methodologies. See our introduction video at https://bit.ly/ArithmeticTree. Codes are released at https://github.com/laiyao1/ArithmeticTree.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 人工知能言語モデルを用いたペルシアのデジタル人文科学研究の可能性 : Farrokhzadを事例として

Opportunities for Persian Digital Humanities Research with Artificial Intelligence Language Models; Case Study: Forough Farrokhzad ( http://arxiv.org/abs/2405.06760v1 )

ライセンス: Link先を確認
Arash Rasti Meymandi, Zahra Hosseini, Sina Davari, Abolfazl Moshiri, Shabnam Rahimi-Golkhandan, Khashayar Namdar, Nikta Feizi, Mohamad Tavakoli-Targhi, Farzad Khalvati, (参考訳) 本研究は,ペルシア語文学の分析・解釈のための高度自然言語処理(NLP)と人工知能(AI)技術の統合について,フォーフ・ファロハザードの詩を中心に検討する。 計算手法を用いることで,ペルシャ詩の主題的,スタイリスティック,言語的パターンを明らかにすることを目指す。 具体的には、教師なしのフレームワークで詩のクラスタリングにトランスフォーマーベースの言語モデルを含むAIモデルを採用する。 この研究は、フォーフ・ファロハザードの研究が包括的ケーススタディを提供するとともに、ペルシア文学遺産の理解を深めるAIの可能性を強調している。 このアプローチはペルシアのデジタル人文科学の分野に貢献するだけでなく、計算技術を用いたペルシア文学研究における先例となる。

This study explores the integration of advanced Natural Language Processing (NLP) and Artificial Intelligence (AI) techniques to analyze and interpret Persian literature, focusing on the poetry of Forough Farrokhzad. Utilizing computational methods, we aim to unveil thematic, stylistic, and linguistic patterns in Persian poetry. Specifically, the study employs AI models including transformer-based language models for clustering of the poems in an unsupervised framework. This research underscores the potential of AI in enhancing our understanding of Persian literary heritage, with Forough Farrokhzad's work providing a comprehensive case study. This approach not only contributes to the field of Persian Digital Humanities but also sets a precedent for future research in Persian literary studies using computational techniques.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# LIVE: LaTexインタラクティブなビジュアル編集

LIVE: LaTex Interactive Visual Editing ( http://arxiv.org/abs/2405.06762v1 )

ライセンス: Link先を確認
Jinwei Lin, (参考訳) LaTexコーディングは学術論文を書く主要な方法の1つである。 論文を書くとき、適切な視覚的またはグラフィック的なコンポーネントは、テキストデータよりも多くの情報量を表現します。 しかし、LaTexのグラフィックアイテムの実装のほとんどは、対話的な読書体験を持つより情報に富んだ数字や表を表すのに弱点のある静的アイテムとして設計されている。 この問題に対処するために,インタラクティブなLaTexグラフィックアイテムを設計するための新しい設計手法であるLIVEを提案する。 LIVEの主な概念を簡潔に表現するために,我々は,対話的かつ基礎レベルの原理を十分に説明できる実装を表すいくつかの小説を設計した。 LIVEを使えば、Gitemsと呼ばれるよりグラフィックなアイテムを設計でき、特定の論文の相互適用の関係を簡単かつ自動的に得ることができます。 LIVE の機能を鮮明に表現するためには、NeRF の論文を参考文献として用いている。 実装プロジェクトのコードはオープンソースである。

LaTex coding is one of the main methods of writing an academic paper. When writing a paper, abundant proper visual or graphic components will represent more information volume than the textual data. However, most of the implementation of LaTex graphic items are designed as static items that have some weaknesses in representing more informative figures or tables with an interactive reading experience. To address this problem, we propose LIVE, a novel design methods idea to design interactive LaTex graphic items. To make a lucid representation of the main idea of LIVE, we designed several novels representing implementations that are interactive and enough explanation for the basic level principles. Using LIVE can design more graphic items, which we call the Gitems, and easily and automatically get the relationship of the mutual application of a specific range of papers, which will add more vitality and performance factors into writing of traditional papers especially the review papers. For vividly representing the functions of LIVE, we use the papers from NeRF as the example reference papers. The code of the implementation project is open source.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 空対空物体検出におけるロバスト性向上とロバスト性評価のための共通故障

Common Corruptions for Enhancing and Evaluating Robustness in Air-to-Air Visual Object Detection ( http://arxiv.org/abs/2405.06765v1 )

ライセンス: Link先を確認
Anastasios Arsenos, Vasileios Karampinis, Evangelos Petrongonas, Christos Skliros, Dimitrios Kollias, Stefanos Kollias, Athanasios Voulodimos, (参考訳) 完全な自律飛行を達成するための主要な障壁は、自律飛行のナビゲーションである。 非協調的な交通を管理することは、この問題において最も重要な課題である。 非協調的トラフィックを扱うための最も効率的な戦略は、ディープラーニングモデルによる単眼ビデオ処理に基づいている。 本研究は,環境条件やハードウェア条件から生じるデータ破損が,これらの手法の有効性に与える影響を調べることによって,視覚に基づく深層学習航空機の検出・追跡に寄与する。 より具体的には、実際の飛行状況を考慮したカメラ入力の一般的な汚職タイプを7ドル(約7,800円)で設計しました。 これらの破損を空中物体追跡(AOT)データセットに適用することにより、空中物体検出のための最初のロバストネスベンチマークデータセットであるAOT-Cを構築した。 このデータセットに含まれる汚職は、悪天候やセンサーノイズなど、幅広い困難条件をカバーしている。 この書簡の2つ目の貢献は、さまざまな物体検出器を含む広範囲な実験的評価を提示し、汚職レベル(ドメインシフト)の増大による性能劣化を調査することである。 評価結果に基づき, 出現する主な観測項目は以下のとおりである。 1) YOLOファミリーの1段階検出器は, より堅牢性を示した。 2)Faster R-CNNのようなトランスフォーマーベースの多段検出器は、破損に対して極めて脆弱である。 3)汚職に対するロバスト性はモデルの一般化能力に関係している。 第3の貢献は、我々の強化された合成データの微調整により、実世界の飛行実験における物体検出器の一般化能力が向上することを示すことである。

The main barrier to achieving fully autonomous flights lies in autonomous aircraft navigation. Managing non-cooperative traffic presents the most important challenge in this problem. The most efficient strategy for handling non-cooperative traffic is based on monocular video processing through deep learning models. This study contributes to the vision-based deep learning aircraft detection and tracking literature by investigating the impact of data corruption arising from environmental and hardware conditions on the effectiveness of these methods. More specifically, we designed $7$ types of common corruptions for camera inputs taking into account real-world flight conditions. By applying these corruptions to the Airborne Object Tracking (AOT) dataset we constructed the first robustness benchmark dataset named AOT-C for air-to-air aerial object detection. The corruptions included in this dataset cover a wide range of challenging conditions such as adverse weather and sensor noise. The second main contribution of this letter is to present an extensive experimental evaluation involving $8$ diverse object detectors to explore the degradation in the performance under escalating levels of corruptions (domain shifts). Based on the evaluation results, the key observations that emerge are the following: 1) One-stage detectors of the YOLO family demonstrate better robustness, 2) Transformer-based and multi-stage detectors like Faster R-CNN are extremely vulnerable to corruptions, 3) Robustness against corruptions is related to the generalization ability of models. The third main contribution is to present that finetuning on our augmented synthetic data results in improvements in the generalisation ability of the object detector in real-world flight experiments.
翻訳日:2024-05-14 20:15:33 公開日:2024-05-10
# 弱散逸型量子多体系におけるハミルトンおよびリウヴィリアン学習

Hamiltonian and Liouvillian learning in weakly-dissipative quantum many-body systems ( http://arxiv.org/abs/2405.06768v1 )

ライセンス: Link先を確認
Tobias Olsacher, Tristan Kraft, Christian Kokail, Barbara Kraus, Peter Zoller, (参考訳) 弱散逸多体系の極限における非平衡クエンチ力学からのアナログ量子シミュレーションのハミルトンおよびリウヴィリアン学習について論じる。 我々は、リウィリアンのハミルトニアン作用素とリンドブラッド作用素の作用素内容を学ぶための様々な戦略を示す。 実験の実施回数の関数として考慮した,実験的にアクセス可能な「学習エラー」に基づいて,異なるAns\atzeを比較した。 当初、再構成されたパラメータの誤差はショットノイズに支配されるため、実行回数の逆2乗根で学習誤差が減少する。 最終的に学習エラーは一定であり、欠落したアンサッツ項を認識できる。 このアプローチの中心的な側面は、パラメータ間の依存関係を導入し、変更することによって、(re-)parametrize ans\atzeを(re-)parametrizeすることです。 これにより、システムの関連するパラメータを識別し、学習タスクの複雑さを低減することができる。 重要なことに、この(再)パラメトリゼーションは古典的な後処理にのみ依存しており、実験から得られる限られた量のデータを考えると魅力的である。 我々のアプローチの際立った特徴は、完全なリウヴィリア語を学ぶ必要がなく、ハミルトン語を学ぶ可能性であり、それによって学習タスクの複雑さをさらに減らすことである。 我々は2つの実験的なスピンモデルを用いて本手法を説明する。

We discuss Hamiltonian and Liouvillian learning for analog quantum simulation from non-equilibrium quench dynamics in the limit of weakly dissipative many-body systems. We present various strategies to learn the operator content of the Hamiltonian and the Lindblad operators of the Liouvillian. We compare different ans\"atze based on an experimentally accessible "learning error" which we consider as a function of the number of runs of the experiment. Initially, the learning error decreasing with the inverse square root of the number of runs, as the error in the reconstructed parameters is dominated by shot noise. Eventually the learning error remains constant, allowing us to recognize missing ansatz terms. A central aspect of our approach is to (re-)parametrize ans\"atze by introducing and varying the dependencies between parameters. This allows us to identify the relevant parameters of the system, thereby reducing the complexity of the learning task. Importantly, this (re-)parametrization relies solely on classical post-processing, which is compelling given the finite amount of data available from experiments. A distinguishing feature of our approach is the possibility to learn the Hamiltonian, without the necessity of learning the complete Liouvillian, thus further reducing the complexity of the learning task. We illustrate our method with two, experimentally relevant, spin models.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# CANAL -- サイバー・アクティビティ・ニュース寛容言語モデル:実証的アプローチ vs. エクスペンシブ・LLM

CANAL -- Cyber Activity News Alerting Language Model: Empirical Approach vs. Expensive LLM ( http://arxiv.org/abs/2405.06772v1 )

ライセンス: Link先を確認
Urjitkumar Patel, Fang-Chun Yeh, Chinmay Gondhalekar, (参考訳) サイバー攻撃が一般的になった今日のデジタルランドスケープでは、サイバー攻撃と脅威の検出は、さまざまなドメインで極めて必須である。 我々の研究は、サイバー脅威モデリングのための新しい経験的枠組みを提示し、ニュース記事からサイバー関連情報を解析し分類し、市場ステークホルダーに対するリアルタイム警戒を強化する。 このフレームワークのコアとなるのは、CANAL - Cyber Activity News Alerting Language Modelと呼ばれる細調整のBERTモデルです。 我々は、GPT-4、LLaMA、Zephyrを含むより大型で高価なLCMに対してCANALをベンチマークし、サイバーニュース分類におけるゼロから少数ショットの学習を強調した。 CANALは、他のLLMと比較して、精度とコスト効率の両方で優れた性能を示す。 さらに,ニュース記事から発生したサイバー信号を効率的に検出する戦略的なコンポーネントであるCyber Signal Discoveryモジュールについても紹介する。 CANALとCyber Signal Discoveryモジュールは、サイバーインテリジェンスに対するアジャイル対応を必要とする企業に対して、堅牢で費用対効果の高いソリューションを提供するために、私たちのフレームワークに装備しています。

In today's digital landscape, where cyber attacks have become the norm, the detection of cyber attacks and threats is critically imperative across diverse domains. Our research presents a new empirical framework for cyber threat modeling, adept at parsing and categorizing cyber-related information from news articles, enhancing real-time vigilance for market stakeholders. At the core of this framework is a fine-tuned BERT model, which we call CANAL - Cyber Activity News Alerting Language Model, tailored for cyber categorization using a novel silver labeling approach powered by Random Forest. We benchmark CANAL against larger, costlier LLMs, including GPT-4, LLaMA, and Zephyr, highlighting their zero to few-shot learning in cyber news classification. CANAL demonstrates superior performance by outperforming all other LLM counterparts in both accuracy and cost-effectiveness. Furthermore, we introduce the Cyber Signal Discovery module, a strategic component designed to efficiently detect emerging cyber signals from news articles. Collectively, CANAL and Cyber Signal Discovery module equip our framework to provide a robust and cost-effective solution for businesses that require agile responses to cyber intelligence.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# 深層強化学習によるアメリカ人のパットオプションのヘッジ

Hedging American Put Options with Deep Reinforcement Learning ( http://arxiv.org/abs/2405.06774v1 )

ライセンス: Link先を確認
Reilly Pickard, Finn Wredenhagen, Julio DeJesus, Mario Schlener, Yuri Lawryshyn, (参考訳) 本稿では、Deep Deterministic Policy gradient(DDPG)手法を用いて、深層強化学習(DRL)を米国のヘッジパットオプションに活用する。 エージェントは最初に、幾何学的ブラウン運動(GBM)アセットパスで訓練され、特に取引コストの存在下で、ブラック・スコルズ(BS)デルタのような従来の戦略よりも優れたパフォーマンスを示す。 DRLヘッジの現実的適用性を評価するため、第2ラウンドでは、市場キャリブレーションされた確率的ボラティリティモデルを用いてDRLエージェントを訓練する。 具体的には、8つのシンボルにまたがる80個のオプションを収集し、各シンボルに対して確率的ボラティリティモデル係数を校正し、各校正モデルの経路をシミュレートして各80個のオプションに対してDRLエージェントを訓練する。 DRLエージェントは、トレーニングから同じ校正された確率的ボラティリティモデルデータを用いてテストを行う場合、BS Deltaメソッドよりも優れるだけでなく、オプション販売日と成熟度の間に生じた真の資産パスをヘッジする場合、DRLエージェントはより良い結果が得られる。 このようなことから,本研究では,米国におけるオプションヘッジに適したDRLエージェントを初めて提示するだけでなく,実世界のシナリオにおけるBSデルタ法に対するDRLエージェントの最適性も示唆している。 最後に,本研究ではモデルに依存しないチェビシェフ補間法を用いて,確率的ボラティリティモデルを用いた場合のDRLエージェントのオプション価格設定を行う。

This article leverages deep reinforcement learning (DRL) to hedge American put options, utilizing the deep deterministic policy gradient (DDPG) method. The agents are first trained and tested with Geometric Brownian Motion (GBM) asset paths and demonstrate superior performance over traditional strategies like the Black-Scholes (BS) Delta, particularly in the presence of transaction costs. To assess the real-world applicability of DRL hedging, a second round of experiments uses a market calibrated stochastic volatility model to train DRL agents. Specifically, 80 put options across 8 symbols are collected, stochastic volatility model coefficients are calibrated for each symbol, and a DRL agent is trained for each of the 80 options by simulating paths of the respective calibrated model. Not only do DRL agents outperform the BS Delta method when testing is conducted using the same calibrated stochastic volatility model data from training, but DRL agents achieves better results when hedging the true asset path that occurred between the option sale date and the maturity. As such, not only does this study present the first DRL agents tailored for American put option hedging, but results on both simulated and empirical market testing data also suggest the optimality of DRL agents over the BS Delta method in real-world scenarios. Finally, note that this study employs a model-agnostic Chebyshev interpolation method to provide DRL agents with option prices at each time step when a stochastic volatility model is used, thereby providing a general framework for an easy extension to more complex underlying asset processes.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# 拡散モデルによる形状条件付き人体運動生成

Shape Conditioned Human Motion Generation with Diffusion Model ( http://arxiv.org/abs/2405.06778v1 )

ライセンス: Link先を確認
Kebing Xue, Hyewon Seo, (参考訳) 人の動き合成はコンピュータグラフィックスとコンピュータビジョンにおいて重要な課題である。 テキスト、アクションクラス、オーディオなどの様々な条件信号に注目して生成プロセスを導く一方で、既存のほとんどの手法では、スケルトンベースのポーズ表現を使用して、レンダリング可能なメッシュを生成するためにスキンを追加する必要がある。 人間の動きが骨、関節、筋肉の複雑な相互作用であることを考えると、生成のための骨格のみを考えると、その固有の相互依存を無視し、生成された結果のばらつきと精度を制限できる。 この問題に対処するために,特定の目標メッシュ上に条件付けされたメッシュ形式での移動列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。 SMDでは、入力メッシュをグラフラプラシアンを用いてスペクトル係数に変換し、メッシュを効率的に表現する。 その後、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。 広汎な実験的評価から,SMDは鮮明でリアルな動きを生み出すだけでなく,テクスト・トゥ・ムーブメントやアクション・トゥ・モーション・タスクにおいて,最先端の手法と比較して競争力を発揮することが示唆された。

Human motion synthesis is an important task in computer graphics and computer vision. While focusing on various conditioning signals such as text, action class, or audio to guide the generation process, most existing methods utilize skeleton-based pose representation, requiring additional skinning to produce renderable meshes. Given that human motion is a complex interplay of bones, joints, and muscles, considering solely the skeleton for generation may neglect their inherent interdependency, which can limit the variability and precision of the generated results. To address this issue, we propose a Shape-conditioned Motion Diffusion model (SMD), which enables the generation of motion sequences directly in mesh format, conditioned on a specified target mesh. In SMD, the input meshes are transformed into spectral coefficients using graph Laplacian, to efficiently represent meshes. Subsequently, we propose a Spectral-Temporal Autoencoder (STAE) to leverage cross-temporal dependencies within the spectral domain. Extensive experimental evaluations show that SMD not only produces vivid and realistic motions but also achieves competitive performance in text-to-motion and action-to-motion tasks when compared to state-of-the-art methods.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# 対向訓練を伴わない深部MDD勾配流

Deep MMD Gradient Flow without adversarial training ( http://arxiv.org/abs/2405.06780v1 )

ライセンス: Link先を確認
Alexandre Galashov, Valentin de Bortoli, Arthur Gretton, (参考訳) 最大平均離散値 (MMD) の雑音適応ワッサースタイン勾配により粒子の勾配場が与えられるように, 初期分布から目標分布へ粒子を移動させることにより生成モデルを生成するための勾配流法を提案する。 雑音適応型MDDは、拡散確率モデルの雑音化において一般的に用いられる前方拡散過程によって得られる雑音のレベルが増大することにより、データ分布を劣化させる訓練を行う。 その結果,Diffusion-MMD-Gradient Flow (DMMD) と呼ばれるMDDグラディエントフローが一般化された。 分岐訓練はGAN(Generative Adversarial Networks)における差別者訓練と関係があるが、敵の訓練は不要である。 CIFAR10, MNIST, CELEB-A (64 x64) と LSUN Church (64 x64) の非条件画像生成における競合的経験的性能を得る。 さらに,MDD が KL 分岐の下位境界に置き換わる場合のアプローチの有効性を示す。

We propose a gradient flow procedure for generative modeling by transporting particles from an initial source distribution to a target distribution, where the gradient field on the particles is given by a noise-adaptive Wasserstein Gradient of the Maximum Mean Discrepancy (MMD). The noise-adaptive MMD is trained on data distributions corrupted by increasing levels of noise, obtained via a forward diffusion process, as commonly used in denoising diffusion probabilistic models. The result is a generalization of MMD Gradient Flow, which we call Diffusion-MMD-Gradient Flow or DMMD. The divergence training procedure is related to discriminator training in Generative Adversarial Networks (GAN), but does not require adversarial training. We obtain competitive empirical performance in unconditional image generation on CIFAR10, MNIST, CELEB-A (64 x64) and LSUN Church (64 x 64). Furthermore, we demonstrate the validity of the approach when MMD is replaced by a lower bound on the KL divergence.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# GraphRelate3D:オブジェクト間関係グラフを用いたコンテキスト依存型3Dオブジェクト検出

GraphRelate3D: Context-Dependent 3D Object Detection with Inter-Object Relationship Graphs ( http://arxiv.org/abs/2405.06782v1 )

ライセンス: Link先を確認
Mingyu Liu, Ekim Yurtsever, Marc Brede, Jun Meng, Walter Zimmer, Xingcheng Zhou, Bare Luka Zagar, Yuning Cui, Alois Knoll, (参考訳) 正確な3Dオブジェクト検出は、自動運転車の運転安全性を確保するために重要である。 近年,最先端の2段式3次元物体検出器は有望な性能を示した。 しかし、これらの手法は個々の提案を洗練させ、近隣の提案間のオブジェクト関係におけるリッチな文脈情報を無視する。 本研究では,グラフ生成器とグラフニューラルネットワーク(GNN)からなるオブジェクト関係モジュールを導入し,特定のパターンから空間情報を学習して3次元物体検出を改善する。 具体的には、グラフ生成器を介してフレーム内の提案に基づいてオブジェクト間関係グラフを作成し、各提案を隣の提案と接続する。 その後、GNNモジュールは生成されたグラフからエッジ特徴を抽出し、キャプチャされたエッジ特徴で提案特徴を反復的に洗練する。 最終的に、改良された特徴を検出ヘッドへの入力として利用し、検出結果を得る。 提案手法は,KITTI検証セットにおけるPV-RCNNのベースラインを,軽度,中等度,難易度でそれぞれ0.82%,0.74%,0.58%改善する。 さらに,本手法は,テストサーバ上の中等度,硬度のBEV APの下で,ベースラインを1%以上上回る性能を示した。

Accurate and effective 3D object detection is critical for ensuring the driving safety of autonomous vehicles. Recently, state-of-the-art two-stage 3D object detectors have exhibited promising performance. However, these methods refine proposals individually, ignoring the rich contextual information in the object relationships between the neighbor proposals. In this study, we introduce an object relation module, consisting of a graph generator and a graph neural network (GNN), to learn the spatial information from certain patterns to improve 3D object detection. Specifically, we create an inter-object relationship graph based on proposals in a frame via the graph generator to connect each proposal with its neighbor proposals. Afterward, the GNN module extracts edge features from the generated graph and iteratively refines proposal features with the captured edge features. Ultimately, we leverage the refined features as input to the detection head to obtain detection results. Our approach improves upon the baseline PV-RCNN on the KITTI validation set for the car class across easy, moderate, and hard difficulty levels by 0.82%, 0.74%, and 0.58%, respectively. Additionally, our method outperforms the baseline by more than 1% under the moderate and hard levels BEV AP on the test server.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# BLIP:デジタル技術の望ましくない結果の探索を支援する

BLIP: Facilitating the Exploration of Undesirable Consequences of Digital Technologies ( http://arxiv.org/abs/2405.06783v1 )

ライセンス: Link先を確認
Rock Yuren Pang, Sebastin Santy, René Just, Katharina Reinecke, (参考訳) デジタル技術は社会を肯定的に変えてきたが、デザインや開発の際には望ましくない結果がもたらされた。 我々は、過去の望ましくない結果に対する洞察は、研究者や実践者が意識を高め、潜在的に有害な影響を予測するのに役立つと仮定する。 この仮定をテストするために,オンライン記事から現実の望ましくない技術結果を取り出すシステムBLIPを導入し,それらを要約して分類し,インタラクティブなWebベースインタフェースで提示する。 コンピュータサイエンス分野の15人の研究者による2つのユーザスタディにおいて、BLIPは、事前の知識やオンライン検索に頼らずにリストアップできる望ましくない結果の数と多様性を大幅に増加させた。 さらにBLIPは、進行中のプロジェクトに関連する望ましくない結果の特定を支援し、"考えもしなかった"望ましくない結果に気付き、テクノロジに関する自身の経験を反映するように促した。

Digital technologies have positively transformed society, but they have also led to undesirable consequences not anticipated at the time of design or development. We posit that insights into past undesirable consequences can help researchers and practitioners gain awareness and anticipate potential adverse effects. To test this assumption, we introduce BLIP, a system that extracts real-world undesirable consequences of technology from online articles, summarizes and categorizes them, and presents them in an interactive, web-based interface. In two user studies with 15 researchers in various computer science disciplines, we found that BLIP substantially increased the number and diversity of undesirable consequences they could list in comparison to relying on prior knowledge or searching online. Moreover, BLIP helped them identify undesirable consequences relevant to their ongoing projects, made them aware of undesirable consequences they "had never considered," and inspired them to reflect on their own experiences with technology.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# バイオメディカルヘルスケアに向けたフェデレーションモデルにおけるオープンチャレンジと機会

Open Challenges and Opportunities in Federated Foundation Models Towards Biomedical Healthcare ( http://arxiv.org/abs/2405.06784v1 )

ライセンス: Link先を確認
Xingyu Li, Lu Peng, Yuping Wang, Weihua Zhang, (参考訳) 本研究は, 人工知能における基礎モデル(FM)の変容的影響を考察し, 生物医学研究の進展に向け, 連邦学習(FL)と統合することに焦点を当てた。 ChatGPT、LLaMa、CLIPなどの基盤モデルは、教師なし事前トレーニング、自己教師付き学習、指示された微調整、人間からのフィードバックからの強化学習など、膨大なデータセットでトレーニングされている。 これらのモデルは、コヒーレントテキストや現実的な画像を生成する能力を持ち、臨床報告、診断画像、マルチモーダル患者相互作用などの多様なデータフォームの処理を必要とする生体医学的応用に不可欠である。 FLをこれらの洗練されたモデルに組み込むことは、機密性の高い医療データのプライバシーを守りながら、分析能力を活用するという有望な戦略を示す。 このアプローチは、医療診断やパーソナライズされた治療におけるFMの能力を向上するだけでなく、医療におけるデータのプライバシとセキュリティに関する重要な懸念にも対処する。 本調査では,FMのフェデレーション・セッティングにおける現在の応用を概観し,課題を明らかにし,FMのスケーリング,データの多様性管理,FLフレームワーク内の通信効率の向上など,今後の研究方向性を明らかにする。 目的は、FMとFLの融合の可能性についてさらなる研究を奨励することであり、医療革新の基盤となる。

This survey explores the transformative impact of foundation models (FMs) in artificial intelligence, focusing on their integration with federated learning (FL) for advancing biomedical research. Foundation models such as ChatGPT, LLaMa, and CLIP, which are trained on vast datasets through methods including unsupervised pretraining, self-supervised learning, instructed fine-tuning, and reinforcement learning from human feedback, represent significant advancements in machine learning. These models, with their ability to generate coherent text and realistic images, are crucial for biomedical applications that require processing diverse data forms such as clinical reports, diagnostic images, and multimodal patient interactions. The incorporation of FL with these sophisticated models presents a promising strategy to harness their analytical power while safeguarding the privacy of sensitive medical data. This approach not only enhances the capabilities of FMs in medical diagnostics and personalized treatment but also addresses critical concerns about data privacy and security in healthcare. This survey reviews the current applications of FMs in federated settings, underscores the challenges, and identifies future research directions including scaling FMs, managing data diversity, and enhancing communication efficiency within FL frameworks. The objective is to encourage further research into the combined potential of FMs and FL, laying the groundwork for groundbreaking healthcare innovations.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# SAM3D:セグメンションモデルを用いた3次元医用画像におけるゼロショットセミオートマチックセグメンテーション

SAM3D: Zero-Shot Semi-Automatic Segmentation in 3D Medical Images with the Segment Anything Model ( http://arxiv.org/abs/2405.06786v1 )

ライセンス: Link先を確認
Trevor J. Chan, Aarush Sahni, Jie Li, Alisha Luthra, Amy Fang, Alison Pouch, Chamith S. Rajapakse, (参考訳) SAM3Dは,既存のセグメンテーションモデル上に構築された3次元画像の半自動ゼロショットセグメンテーションのための新しいアプローチである。 我々は,非直交軸に沿った体積スライシング,3次元の効率的なプロンプト,事前訓練されたSAMを用いたスライスワイズワイズ推論,3次元の再構成と精細化という4段階の戦略により,高速かつ正確な3次元画像分割を実現する。 画像モダリティと解剖学的構造に基づいてSAM3Dの性能を定性的に評価し,脳MRIにおける体CTおよび腫瘍の特定の臓器のパフォーマンスを定量的に評価した。 ユーザが目に見えないデータの3Dセグメンテーションを素早く作成し、手入力を劇的に減らすことで、手術計画や教育、診断画像、科学研究を支援することができる。

We introduce SAM3D, a new approach to semi-automatic zero-shot segmentation of 3D images building on the existing Segment Anything Model. We achieve fast and accurate segmentations in 3D images with a four-step strategy comprising: volume slicing along non-orthogonal axes, efficient prompting in 3D, slice-wise inference using the pretrained SAM, and recoposition and refinement in 3D. We evaluated SAM3D performance qualitatively on an array of imaging modalities and anatomical structures and quantify performance for specific organs in body CT and tumors in brain MRI. By enabling users to create 3D segmentations of unseen data quickly and with dramatically reduced manual input, these methods have the potential to aid surgical planning and education, diagnostic imaging, and scientific research.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# 量子文脈性の計算テストと、さらに単純な量子性の証明

A computational test of quantum contextuality, and even simpler proofs of quantumness ( http://arxiv.org/abs/2405.06787v1 )

ライセンス: Link先を確認
Atul Singh Arora, Kishor Bharti, Alexandru Cojocaru, Andrea Coladangelo, (参考訳) ベル非局所性(英: Bell non-locality)は、量子力学の基本的な特徴であり、"空間的に分離された"量子システム上で測定された値は、所定の値を明らかにすることが理解できない相関を示すことができる。 これは「量子文脈性(quantum contextuality)」というより一般的な現象の特別な場合であり、そのような相関は、測定が必ずしも別の量子系上ではなく単に「互換」(すなわち可換性)である場合でも生じる。 重要なことに、どの非局所ゲームでも、2つ以上のデバイスの「空間的分離」を活用することで量子上の優位性を示す実験(実際、近年はいくつかの実験が成功している)が得られているが、これは量子文脈性には当てはまらない:そのような実験の文脈性類似性を見つけることは、量子力学の基礎における中心的なオープンな問題の一つである。 本研究では,任意の文脈性ゲームが単一量子デバイスを含む操作的「文脈性テスト」にコンパイル可能であることを示す。 我々の研究はKalai et al(STOC '23)の最近の研究に触発され、任意の非ローカルゲームが単一のデバイスで古典的な量子優位性テストに変換される。 彼らの研究の中心的な考え方は、暗号を使って単一の量子デバイスのサブシステム内で空間的分離を強制することである。 我々の研究は、暗号を用いて「時間的分離」、すなわちシーケンシャルな測定間の通信を制限していると見なすことができる。 文脈性を超えて、我々は「量子性の保護」を設計するために、我々の知識の限りなく、これまでの文献で提案されているものよりも間違いなくシンプルである、という考え方を採用しています。

Bell non-locality is a fundamental feature of quantum mechanics whereby measurements performed on "spatially separated" quantum systems can exhibit correlations that cannot be understood as revealing predetermined values. This is a special case of the more general phenomenon of "quantum contextuality", which says that such correlations can occur even when the measurements are not necessarily on separate quantum systems, but are merely "compatible" (i.e. commuting). Crucially, while any non-local game yields an experiment that demonstrates quantum advantage by leveraging the "spatial separation" of two or more devices (and in fact several such demonstrations have been conducted successfully in recent years), the same is not true for quantum contextuality: finding the contextuality analogue of such an experiment is arguably one of the central open questions in the foundations of quantum mechanics. In this work, we show that an arbitrary contextuality game can be compiled into an operational "test of contextuality" involving a single quantum device, by only making the assumption that the device is computationally bounded. Our work is inspired by the recent work of Kalai et al. (STOC '23) that converts any non-local game into a classical test of quantum advantage with a single device. The central idea in their work is to use cryptography to enforce spatial separation within subsystems of a single quantum device. Our work can be seen as using cryptography to enforce "temporal separation", i.e. to restrict communication between sequential measurements. Beyond contextuality, we employ our ideas to design a "proof of quantumness" that, to the best of our knowledge, is arguably even simpler than the ones proposed in the literature so far.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# 医用画像翻訳のための自己整合再帰拡散ブリッジ

Self-Consistent Recursive Diffusion Bridge for Medical Image Translation ( http://arxiv.org/abs/2405.06789v1 )

ライセンス: Link先を確認
Fuat Arslan, Bilal Kabas, Onat Dalmaz, Muzaffer Ozbey, Tolga Çukur, (参考訳) ディノイング拡散モデル (DDM) は, 対向モデルよりも訓練安定性が向上し, 医用画像翻訳において近年注目を集めている。 DDMは多段階の復調変換を学習し、ランダムなガウスノイズ画像を目標モダリティ画像に漸進的にマッピングし、ソースモダリティ画像から定常的なガイダンスを受信する。 このデノゲーション変換はタスク関連ソース-ターゲット変換とは大きく異なるため、DDMはソース-モダリティガイダンスの弱さに悩まされる可能性がある。 本稿では,医用画像翻訳の性能向上を目的とした自己整合再帰拡散ブリッジ(SelfRDB)を提案する。 DDMとは異なり、SelfRDBは、それぞれターゲットイメージとソースイメージに基づいて定義された開始点と終了点を備えた、新しいフォワードプロセスを採用している。 プロセス全体にわたる中間画像サンプルは、平均値が終端点の凸結合としてとられ、加法ノイズからのばらつきで正規分布を介して表現される。 プロセスの中間点におけるゼロ分散と高分散を規定する正規拡散ブリッジとは違って,一般化性能の向上と2つのモード間の情報伝達を容易にするために,終点への分散を単調に増大させる新しいノイズスケジューリングを提案する。 各逆ステップにおけるサンプリング精度をさらに高めるために,ネットワークが自己整合性解に収束するまで,対象画像の過渡推定を再帰的に生成する新しいサンプリング手順を提案する。 マルチコントラストMRIおよびMRI-CT翻訳における包括的解析は、SelfRDBが競合する手法に対して優れた性能を提供することを示している。

Denoising diffusion models (DDM) have gained recent traction in medical image translation given improved training stability over adversarial models. DDMs learn a multi-step denoising transformation to progressively map random Gaussian-noise images onto target-modality images, while receiving stationary guidance from source-modality images. As this denoising transformation diverges significantly from the task-relevant source-to-target transformation, DDMs can suffer from weak source-modality guidance. Here, we propose a novel self-consistent recursive diffusion bridge (SelfRDB) for improved performance in medical image translation. Unlike DDMs, SelfRDB employs a novel forward process with start- and end-points defined based on target and source images, respectively. Intermediate image samples across the process are expressed via a normal distribution with mean taken as a convex combination of start-end points, and variance from additive noise. Unlike regular diffusion bridges that prescribe zero variance at start-end points and high variance at mid-point of the process, we propose a novel noise scheduling with monotonically increasing variance towards the end-point in order to boost generalization performance and facilitate information transfer between the two modalities. To further enhance sampling accuracy in each reverse step, we propose a novel sampling procedure where the network recursively generates a transient-estimate of the target image until convergence onto a self-consistent solution. Comprehensive analyses in multi-contrast MRI and MRI-CT translation indicate that SelfRDB offers superior performance against competing methods.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# 子どもの量子エラー補正

Quantum Error Correction for Kids ( http://arxiv.org/abs/2405.06795v1 )

ライセンス: Link先を確認
Richard A. Wolf, (参考訳) 量子情報の中核的な概念を知るためには、大学まで待つべきではない。 量子情報の概念に早くから触れることによって、人間の偏見を考えると、学習者はフィールドに対するより強い欲求を築き、それに対する直感的なアプローチを開発できる。 本稿では,量子誤り訂正における中心概念の1つ,安定化形式論(stabiliser formalism)に対する直感的なガミフィケーション手法を提案する。

No one should wait until college to get acquainted with core concepts of quantum information. Given the human bias of favouring the familiar over the unknown, early exposure to concepts of quantum information helps learners build stronger appetence for the field, as well as allowing them to develop an intuitive approach to it. In this work, I present an intuitive gamified approach to one of the core concepts in quantum error correction: the stabiliser formalism.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# LLMで作ったブラックボックスの解説は、逆向きに役に立つ

LLM-Generated Black-box Explanations Can Be Adversarially Helpful ( http://arxiv.org/abs/2405.06800v1 )

ライセンス: Link先を確認
Rohan Ajwani, Shashidhar Reddy Javaji, Frank Rudzicz, Zining Zhu, (参考訳) 大規模言語モデル(LLM)は,デジタルアシスタントとして機能することで,複雑な問題の解決と理解を支援する重要なツールになりつつある。 LLMは、これらの問題の入力と出力のみを与えられた場合、すなわち `black-box'' アプローチで、説得力のある説明を生成することができる。 しかし、我々の研究はこのアプローチに結びついている隠れたリスクを明らかにし、それを*逆助力(adversarial helpness)*と呼ぶ。 LLMの説明が間違った答えを正しく見せると、これは起こります。 本稿では,この問題が人間だけでなく,LLM評価者にも影響を及ぼすことを示す。 より深く掘り下げて、LLMが採用する主要な説得戦略を特定し、検証する。 以上の結果から,これらのモデルでは,質問の再フレーミング,信頼度の向上,ミスリードした回答を信頼できる光で表現するためのチェリーピッキングエビデンスなどの戦略が採用されていることが明らかとなった。 LLMが逆向きに有用な説明を生成する際に複雑な構造的知識をナビゲートできるかどうかを調べるため、グラフをナビゲートして特別なタスクを作成する。 一部のLSMは、単純なグラフに沿った代替経路を見つけることができず、それらの誤解を招く説明は、複雑な知識を用いた論理的推論によってのみ生成されるものではないことを示唆している。 これらの結果はブラックボックスの説明設定の限界に光を当てた。 LLMを安全に使用するためのアドバイスを提供する。

Large Language Models (LLMs) are becoming vital tools that help us solve and understand complex problems by acting as digital assistants. LLMs can generate convincing explanations, even when only given the inputs and outputs of these problems, i.e., in a ``black-box'' approach. However, our research uncovers a hidden risk tied to this approach, which we call *adversarial helpfulness*. This happens when an LLM's explanations make a wrong answer look right, potentially leading people to trust incorrect solutions. In this paper, we show that this issue affects not just humans, but also LLM evaluators. Digging deeper, we identify and examine key persuasive strategies employed by LLMs. Our findings reveal that these models employ strategies such as reframing the questions, expressing an elevated level of confidence, and cherry-picking evidence to paint misleading answers in a credible light. To examine if LLMs are able to navigate complex-structured knowledge when generating adversarially helpful explanations, we create a special task based on navigating through graphs. Some LLMs are not able to find alternative paths along simple graphs, indicating that their misleading explanations aren't produced by only logical deductions using complex knowledge. These findings shed light on the limitations of black-box explanation setting. We provide some advice on how to use LLMs as explainers safely.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# 放射線医学レポートの要約と印象

Summarizing Radiology Reports Findings into Impressions ( http://arxiv.org/abs/2405.06802v1 )

ライセンス: Link先を確認
Raul Salles de Padua, Imran Qureshi, (参考訳) 患者の手引きとトリアージは、医療の基本的な2つの問題である。 多くの場合、医師は複雑な発見を辛抱強く要約し、専門家と効率的にコミュニケーションし、どの患者に最も緊急な症例があるかを素早く判断しなければならない。 これらの課題を追求するために,(1)医学的データ増強のための新しい手法を用いた最先端の放射線学レポート要約性能モデル,(3)モデルの限界と放射線学知識の獲得に関する分析を行った。 また、MIMIC CXRデータセット上で開発された将来のモデルのためのデータ処理パイプラインも提供する。 我々の最高の性能モデルは、58.75/100 ROUGE-L F1の細調整されたBERT-to-BERTエンコーダであり、より高度な注意機構を持つ特別なチェックポイントよりも優れていた。 本研究におけるこれらの側面について検討する。

Patient hand-off and triage are two fundamental problems in health care. Often doctors must painstakingly summarize complex findings to efficiently communicate with specialists and quickly make decisions on which patients have the most urgent cases. In pursuit of these challenges, we present (1) a model with state-of-art radiology report summarization performance using (2) a novel method for augmenting medical data, and (3) an analysis of the model limitations and radiology knowledge gain. We also provide a data processing pipeline for future models developed on the the MIMIC CXR dataset. Our best performing model was a fine-tuned BERT-to-BERT encoder-decoder with 58.75/100 ROUGE-L F1, which outperformed specialized checkpoints with more sophisticated attention mechanisms. We investigate these aspects in this work.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# SATD識別と分類における大規模言語モデルの有効性に関する実証的研究

An Empirical Study on the Effectiveness of Large Language Models for SATD Identification and Classification ( http://arxiv.org/abs/2405.06806v1 )

ライセンス: Link先を確認
Mohammad Sadegh Sheikhaei, Yuan Tian, Shaowei Wang, Bowen Xu, (参考訳) Self-Admitted Technical Debt (SATD)は、コードコメントやその他のプロジェクトリソースに文書化されたソフトウェア開発における最適な選択を強調する概念で、ソフトウェアシステムの保守性と進化に課題を提起する。 大規模言語モデル(LLM)は、特にソフトウェアテキスト生成タスクにおいて、幅広いソフトウェアタスクにおいて顕著な効果を示している。 しかしながら、SATDに関連するタスクにおけるそれらの効果はいまだ研究されていない。 本稿では,SATDの識別と分類におけるLCMの有効性について検討する。 両タスクにおいて、より最近のLLM、特にFlan-T5ファミリの使用によるパフォーマンス向上を、様々な共通利用設定で検討する。 以上の結果から,SATDの同定では,全ての微調整LDMが既存の非LLMベースライン,すなわちCNNモデルよりも優れており,F1スコアは4.4%から7.2%向上していることがわかった。 SATD分類タスクでは、我々の最大の微調整モデルであるFlan-T5-XLがまだパフォーマンスをリードする一方で、CNNモデルは6つのLLMのうち4つを超える競争結果を示した。 また,最大となるFlan-T5モデルであるFlan-T5-XXLが,SATD識別のためのゼロショット・インコンテキスト・ラーニング(ICL)アプローチで使用される場合,従来のアプローチと競合する結果が得られるが,微調整LLMよりも6.4%から9.2%悪い結果が得られた。 SATD分類では、例とカテゴリ記述をプロンプトに組み込んだ少数ショットICLアプローチがゼロショットアプローチより優れており、細調整されたFlan-T5モデルよりも優れている。 さらに、SATD分類タスクに周辺コードなどの文脈情報を組み込むことにより、より大規模な微調整LDMによる性能向上が可能であることを示す。

Self-Admitted Technical Debt (SATD), a concept highlighting sub-optimal choices in software development documented in code comments or other project resources, poses challenges in the maintainability and evolution of software systems. Large language models (LLMs) have demonstrated significant effectiveness across a broad range of software tasks, especially in software text generation tasks. Nonetheless, their effectiveness in tasks related to SATD is still under-researched. In this paper, we investigate the efficacy of LLMs in both identification and classification of SATD. For both tasks, we investigate the performance gain from using more recent LLMs, specifically the Flan-T5 family, across different common usage settings. Our results demonstrate that for SATD identification, all fine-tuned LLMs outperform the best existing non-LLM baseline, i.e., the CNN model, with a 4.4% to 7.2% improvement in F1 score. In the SATD classification task, while our largest fine-tuned model, Flan-T5-XL, still led in performance, the CNN model exhibited competitive results, even surpassing four of six LLMs. We also found that the largest Flan-T5 model, i.e., Flan-T5-XXL, when used with a zero-shot in-context learning (ICL) approach for SATD identification, provides competitive results with traditional approaches but performs 6.4% to 9.2% worse than fine-tuned LLMs. For SATD classification, few-shot ICL approach, incorporating examples and category descriptions in prompts, outperforms the zero-shot approach and even surpasses the fine-tuned smaller Flan-T5 models. Moreover, our experiments demonstrate that incorporating contextual information, such as surrounding code, into the SATD classification task enables larger fine-tuned LLMs to improve their performance.
翻訳日:2024-05-14 20:05:32 公開日:2024-05-10
# NL2Bashの処理実行に基づく評価

Tackling Execution-Based Evaluation for NL2Bash ( http://arxiv.org/abs/2405.06807v1 )

ライセンス: Link先を確認
Ngoc Phuoc An Vo, Brent Paulovicks, Vadim Sheinin, (参考訳) 近年のLarge Language Models (LLMs) の発展に伴い、自然言語から異なるプログラミング言語(コード生成)に翻訳する作業は、異なるドメインでの幅広い応用において大きな注目を集めている。 特に、Bash(NL2Bash)用のコード生成は、パフォーマンス監視、コンパイル、システム管理、システム診断など、さまざまなタスクを自動化するBashスクリプトを生成するために広く使用されている。 コード生成の他に、どんなアプリケーションにも使用する前に、合成コードを検証することが重要である。 直接的(実行評価)と間接的(正確な/部分一致、BLEUスコア)のバリデーションの異なる方法が提案されている。 これらのうち、実行ベース評価(EE)は、システムにおけるモデル予測の実行出力と期待出力を比較することで、予測されたコードを検証することができる。 しかし,このようなNL2Bashの実行ベース評価システムの設計と実装は簡単な作業ではない。 本稿では,NL2Bashの実行に基づく評価手法を提案する。 我々は、NL2Bashで人気のあるLLMを評価するために、50のプロンプトを作成します。 我々はまた、異なるLLMによって生成された、構文的に異なるが意味的に等価なBashスクリプトや、構文的に正しいが、セマンティックに正しくないBashスクリプト、それらを正しくキャプチャして処理する方法など、EEのいくつかの利点と課題を分析します。

Given recent advancement of Large Language Models (LLMs), the task of translating from natural language prompts to different programming languages (code generation) attracts immense attention for wide application in different domains. Specially code generation for Bash (NL2Bash) is widely used to generate Bash scripts for automating different tasks, such as performance monitoring, compilation, system administration, system diagnostics, etc. Besides code generation, validating synthetic code is critical before using them for any application. Different methods for code validation are proposed, both direct (execution evaluation) and indirect validations (i.e. exact/partial match, BLEU score). Among these, Execution-based Evaluation (EE) can validate the predicted code by comparing the execution output of model prediction and expected output in system. However, designing and implementing such an execution-based evaluation system for NL2Bash is not a trivial task. In this paper, we present a machinery for execution-based evaluation for NL2Bash. We create a set of 50 prompts to evaluate some popular LLMs for NL2Bash. We also analyze several advantages and challenges of EE such as syntactically different yet semantically equivalent Bash scripts generated by different LLMs, or syntactically correct but semantically incorrect Bash scripts, and how we capture and process them correctly.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# 金融規制解釈における大規模言語モデル

Large Language Model in Financial Regulatory Interpretation ( http://arxiv.org/abs/2405.06808v1 )

ライセンス: Link先を確認
Zhiyu Cao, Zachary Feinstein, (参考訳) 本研究では、複雑な金融規制を解釈するための分析ツールとして、LLM(Large Language Models)の革新的利用について検討する。 第一の目的は、動詞を蒸留し、バーゼルIIIの資本要件規則のような複雑な規制文書を、後に実行可能なコードに変換できる簡潔な数学的枠組みに導く効果的なプロンプトを設計することである。 この新たなアプローチは、グローバル金融機関の金融報告・リスクマネジメントシステムにおける規制委任事項の実施を円滑化することを目的としている。 各種LLMの性能評価のためのケーススタディを行い, GPT-4は, 必要な情報処理や収集, 数学的計算の実行において, 他のモデルよりも優れていることを示した。 ケーススタディでは、固定所得、株式、通貨ペア、商品を含む資産保有率の数値シミュレーションを利用して、LLMがバーゼルIIIの資本充実要件をどのように効果的に実施できるかを実証した。

This study explores the innovative use of Large Language Models (LLMs) as analytical tools for interpreting complex financial regulations. The primary objective is to design effective prompts that guide LLMs in distilling verbose and intricate regulatory texts, such as the Basel III capital requirement regulations, into a concise mathematical framework that can be subsequently translated into actionable code. This novel approach aims to streamline the implementation of regulatory mandates within the financial reporting and risk management systems of global banking institutions. A case study was conducted to assess the performance of various LLMs, demonstrating that GPT-4 outperforms other models in processing and collecting necessary information, as well as executing mathematical calculations. The case study utilized numerical simulations with asset holdings -- including fixed income, equities, currency pairs, and commodities -- to demonstrate how LLMs can effectively implement the Basel III capital adequacy requirements.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# CT画像を用いた脳内出血の迅速かつ正確な分類のためのデュアルタスク・ビジョン・トランスフォーマ

Dual-Task Vision Transformer for Rapid and Accurate Intracerebral Hemorrhage Classification on CT Images ( http://arxiv.org/abs/2405.06814v1 )

ライセンス: Link先を確認
Jialiang Fan, Guoyu Lu, Xinhui Fan, (参考訳) 脳内出血 (ICH) は、脳血管の破裂によって引き起こされる重篤で急激な医学的症状であり、脳組織に永続的な損傷を与え、しばしば機能障害や死亡を引き起こす。 ICHの診断と解析は、通常、脳のCT画像に頼っている。 ICH 条件の緊急性を考えると,早期治療は極めて重要である。 しかし、ICHCT画像の複雑さと専門医の頻繁な不足は重要な課題である。 そこで我々は、出血位置、すなわちDeep、Subcortical、Lobarの3種類のICH画像分類とICH画像分類のためのデータセットを構築した。 さらに,ICH画像の自動分類と診断のためのデュアルタスク・ビジョン・トランスフォーマ (DTViT) を提案する。 このニューラルネットワークは、ViTのエンコーダを利用して、CT画像からの特徴抽出に注意機構を用いる。 ネットワーク内に2つの多層認識(MLP)に基づくデコーダを組み込んで,ICHの存在を同時に同定し,3種類の出血部位を分類した。 実験の結果,提案するマルチクラス化ネットワークは実世界のテストデータセット上で良好に動作することがわかった。 この研究のコードとデータセットは、 https://github.com/Jialiangfan/ICH-classification.comで論文の受理時に公開される。

Intracerebral hemorrhage (ICH) is a severe and sudden medical condition caused by the rupture of blood vessels in the brain, leading to permanent damage to brain tissue and often resulting in functional disabilities or death in patients. Diagnosis and analysis of ICH typically rely on brain CT imaging. Given the urgency of ICH conditions, early treatment is crucial, necessitating rapid analysis of CT images to formulate tailored treatment plans. However, the complexity of ICH CT images and the frequent scarcity of specialist radiologists pose significant challenges. Therefore, we built a dataset for ICH and normal classification and three types of ICH image classification based on the hemorrhage location, i.e., Deep, Subcortical, and Lobar. In addition, we propose a dual-task vision transformer (DTViT) for the automated classification and diagnosis of ICH images. This neural network utilizes the encoder from ViT, employing attention mechanisms for feature extraction from CT images. We incorporated two multilayer perception (MLP)-based decoders within the network to simultaneously identify the presence of ICH and classify three types of hemorrhage locations. Experimental results demonstrate that our proposed multi-classification network performs well on the built real-world test dataset. The code and dataset for this study will be made publicly available upon paper acceptance at: https://github.com/Jialiangfan/ICH-classification.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# 非定常領域一般化:理論とアルゴリズム

Non-stationary Domain Generalization: Theory and Algorithm ( http://arxiv.org/abs/2405.06816v1 )

ライセンス: Link先を確認
Thai-Hoang Pham, Xueru Zhang, Ping Zhang, (参考訳) 機械学習の最近の進歩は、独立的で同一に分散された(IID)データから学ぶことに成功していることを示しているが、オープンワールドにおけるアウト・オブ・ディストリビューション(OOD)データに対して脆弱である。 ドメイン一般化(Domain Generalization, DG)は、そのような問題に対処し、複数のソースドメインからモデルを学ぶことを目的としている。 既存のDGの研究は、主に均質なソースドメインを持つ定常的な設定に焦点を当てている。 しかし、多くの応用において、ドメインは特定の方向(例えば時間、空間)に沿って進化することがある。 このような非定常パターンを考慮しなければ、既存の手法で訓練されたモデルはOODデータを一般化できない。 本稿では,非定常環境における領域一般化について検討する。 まず,環境非定常性がモデル性能に及ぼす影響について検討し,対象領域におけるモデル誤差の理論的上限を確立する。 そこで本研究では,非定常パターンを利用した適応不変表現学習に基づく新しいアルゴリズムを提案する。 合成データと実データの両方の実験により提案アルゴリズムが検証される。

Although recent advances in machine learning have shown its success to learn from independent and identically distributed (IID) data, it is vulnerable to out-of-distribution (OOD) data in an open world. Domain generalization (DG) deals with such an issue and it aims to learn a model from multiple source domains that can be generalized to unseen target domains. Existing studies on DG have largely focused on stationary settings with homogeneous source domains. However, in many applications, domains may evolve along a specific direction (e.g., time, space). Without accounting for such non-stationary patterns, models trained with existing methods may fail to generalize on OOD data. In this paper, we study domain generalization in non-stationary environment. We first examine the impact of environmental non-stationarity on model performance and establish the theoretical upper bounds for the model error at target domains. Then, we propose a novel algorithm based on adaptive invariant representation learning, which leverages the non-stationary pattern to train a model that attains good performance on target domains. Experiments on both synthetic and real data validate the proposed algorithm.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# ガーナのNLPランドスケープ(動画)

The Ghanaian NLP Landscape: A First Look ( http://arxiv.org/abs/2405.06818v1 )

ライセンス: Link先を確認
Sheriff Issaka, Zhaoyi Zhang, Mihir Heda, Keyi Wang, Yinka Ajibola, Ryan DeMar, Xuefeng Du, (参考訳) グローバル言語の3分の1はアフリカ語であるが、人工知能(AI)ではアフリカ語が極端に不足しており、言語多様性と文化遺産を脅かしている。 特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。 本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査を開拓し、手法、データセット、テクニックを同定する。 さらに、研究者のアクセシビリティ向上を目的として、課題、ベストプラクティス、今後の方向性を概説した詳細なロードマップを作成します。 この研究はガーナのNLP研究の基礎資料として機能し、グローバルな言語多様性をAI開発に統合するための重要な必要性を浮き彫りにしている。

Despite comprising one-third of global languages, African languages are critically underrepresented in Artificial Intelligence (AI), threatening linguistic diversity and cultural heritage. Ghanaian languages, in particular, face an alarming decline, with documented extinction and several at risk. This study pioneers a comprehensive survey of Natural Language Processing (NLP) research focused on Ghanaian languages, identifying methodologies, datasets, and techniques employed. Additionally, we create a detailed roadmap outlining challenges, best practices, and future directions, aiming to improve accessibility for researchers. This work serves as a foundational resource for Ghanaian NLP research and underscores the critical need for integrating global linguistic diversity into AI development.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# 医用材料の自動ソーティング・マッピング・定量化のための同期物体検出

Synchronized Object Detection for Autonomous Sorting, Mapping, and Quantification of Medical Materials ( http://arxiv.org/abs/2405.06821v1 )

ライセンス: Link先を確認
Federico Zocco, Daniel Lake, Shahin Rahimifard, (参考訳) 循環経済のパラダイムは、物質供給の不確実性と廃棄物の発生の両方を減らすソリューションとして関心を集めている。 主な課題の1つは、一般に測定されていないものは効果的に管理できないため、材料を監視することである。 本稿では,リアルタイム同期物体検出手法を提案する。 データセット、コード、デモビデオが公開されている。

The circular economy paradigm is gaining interest as a solution to reduce both material supply uncertainties and waste generation. One of the main challenges is monitoring materials, since in general, something that is not measured cannot be effectively managed. In this paper, we propose real-time synchronized object detection to enable, at the same time, autonomous sorting, mapping, and quantification of end-of-life medical materials. Dataset, code, and demo videos are publicly available.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# MH-pFLID:医療データ分析のための注入・蒸留によるモデル不均一な個別化学習

MH-pFLID: Model Heterogeneous personalized Federated Learning via Injection and Distillation for Medical Data Analysis ( http://arxiv.org/abs/2405.06822v1 )

ライセンス: Link先を確認
Luyuan Xie, Manqing Lin, Tianyu Luan, Cong Li, Yuejian Fang, Qingni Shen, Zhonghai Wu, (参考訳) フェデレートラーニングは、局所的なデータアクセスを必要とせず、グローバルモデルをトレーニングするための医療アプリケーションで広く使われている。 しかし、クライアント間で異なる計算能力とネットワークアーキテクチャ(システム不均一性)は、非独立かつ同一に分散された(非IID)データから情報を効果的に集約する上で重要な課題を生じさせる。 知識蒸留を用いた現在の連合学習手法は、公開データセットを必要とし、プライバシとデータ収集の問題を提起する。 さらに、これらのデータセットは、ハードウェア条件が限られた医療機関にとって負担となる、ローカルコンピューティングとストレージリソースの追加を必要とする。 本稿では,MH-pFLID(MH-pFLID)を用いた新しいフェデレーション学習パラダイムであるモデルヘテロジニシャルパーソナライズされたフェデレーション学習を提案する。 我々のフレームワークは、各クライアントから情報を集めるために集中した情報を運ぶ軽量なメッセンジャーモデルを活用している。 また,メッセンジャーモデルから情報を受信・送信するための受信モジュールと送信モジュールのセットを開発し,その情報を効率よく注入・蒸留できるようにした。

Federated learning is widely used in medical applications for training global models without needing local data access. However, varying computational capabilities and network architectures (system heterogeneity), across clients pose significant challenges in effectively aggregating information from non-independently and identically distributed (non-IID) data. Current federated learning methods using knowledge distillation require public datasets, raising privacy and data collection issues. Additionally, these datasets require additional local computing and storage resources, which is a burden for medical institutions with limited hardware conditions. In this paper, we introduce a novel federated learning paradigm, named Model Heterogeneous personalized Federated Learning via Injection and Distillation (MH-pFLID). Our framework leverages a lightweight messenger model that carries concentrated information to collect the information from each client. We also develop a set of receiver and transmitter modules to receive and send information from the messenger model, so that the information could be injected and distilled with efficiency.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# PLeak: 大規模言語モデルアプリケーションに対する攻撃を急襲

PLeak: Prompt Leaking Attacks against Large Language Model Applications ( http://arxiv.org/abs/2405.06823v1 )

ライセンス: Link先を確認
Bo Hui, Haolin Yuan, Neil Gong, Philippe Burlina, Yinzhi Cao, (参考訳) 大きな言語モデル(LLM)は、LLMアプリケーションと呼ばれる多くの下流アプリケーションと異なる自然言語処理タスクを備えた新しいエコシステムを実現する。 LLMアプリケーションの機能と性能はシステムプロンプトに大きく依存しており、どのタスクを実行するかをバックエンドのLCMに指示する。 したがって、LLMアプリケーション開発者は、しばしばその知的財産を保護するためにシステムプロンプトを秘密にしておく。 結果として、プロンプトリークと呼ばれる自然な攻撃は、LLMアプリケーションからシステムプロンプトを盗み、開発者の知的財産権を侵害する。 既存の即時リーク攻撃は主に手作業によるクエリに依存しており、有効性は限られている。 本稿では, PLeak と呼ばれる新しいクローズドボックスプロンプトリーク攻撃フレームワークを設計し, 攻撃者がLLMアプリケーションに送信すると, その応答が独自のシステムプロンプトを示すように, 対向クエリを最適化する。 このような逆クエリを最適化問題として定式化し、勾配法を略して解決する。 我々のキーとなる考え方は、システムのプロンプトに対する逆クエリを漸進的に最適化することで最適化の目標を分解することである。 我々はPLeakをオフライン設定と現実世界のLLMアプリケーションの両方で評価する。 以上の結果から,PLeakはシステムプロンプトを効果的にリークし,クエリを手動でキュレートするベースラインだけでなく,既存のjailbreak攻撃から修正および適応する最適化されたクエリでベースラインを著しく上回ることを示す。 われわれは責任を持って問題をPoeに報告し、まだ回答を待っている。 私たちの実装はこのリポジトリで利用可能です。

Large Language Models (LLMs) enable a new ecosystem with many downstream applications, called LLM applications, with different natural language processing tasks. The functionality and performance of an LLM application highly depend on its system prompt, which instructs the backend LLM on what task to perform. Therefore, an LLM application developer often keeps a system prompt confidential to protect its intellectual property. As a result, a natural attack, called prompt leaking, is to steal the system prompt from an LLM application, which compromises the developer's intellectual property. Existing prompt leaking attacks primarily rely on manually crafted queries, and thus achieve limited effectiveness. In this paper, we design a novel, closed-box prompt leaking attack framework, called PLeak, to optimize an adversarial query such that when the attacker sends it to a target LLM application, its response reveals its own system prompt. We formulate finding such an adversarial query as an optimization problem and solve it with a gradient-based method approximately. Our key idea is to break down the optimization goal by optimizing adversary queries for system prompts incrementally, i.e., starting from the first few tokens of each system prompt step by step until the entire length of the system prompt. We evaluate PLeak in both offline settings and for real-world LLM applications, e.g., those on Poe, a popular platform hosting such applications. Our results show that PLeak can effectively leak system prompts and significantly outperforms not only baselines that manually curate queries but also baselines with optimized queries that are modified and adapted from existing jailbreaking attacks. We responsibly reported the issues to Poe and are still waiting for their response. Our implementation is available at this repository: https://github.com/BHui97/PLeak.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# G-FARS:3次元部分グルーピングのためのグラディエントフィールド型自動回帰サンプリング

G-FARS: Gradient-Field-based Auto-Regressive Sampling for 3D Part Grouping ( http://arxiv.org/abs/2405.06828v1 )

ライセンス: Link先を確認
Junfeng Cheng, Tania Stathaki, (参考訳) 本稿では「3D部分グループ化」という新しい課題を提案する。 様々な形状から散らばった部分を含む混合集合が存在すると仮定する。 このタスクは、全ての部品のあらゆる組み合わせを見つけるアルゴリズムを必要とする。 この課題に対処するため、我々は3D部分グループ化タスクに特化した、G-FARS(Gradient Field-based Auto-Regressive Smpling framework)を提案する。 本フレームワークでは,条件が与えられた混合部分集合である部分選択の観点から,ログ条件確率密度の勾配を学習するために,勾配場に基づく選択グラフニューラルネットワーク(GNN)を設計する。 この革新的なアプローチは、勾配場に基づく選択GNNを通じて実装され、入力のすべての部分間の複雑な関係を効果的にキャプチャする。 学習プロセスが完了すると、このフレームワークは、訓練された勾配場に基づくGNNが獲得した知識を活用して、混合部分集合からそれらを反復的に選択することで、自律的に3D部品をグループ化することができる。 私たちのコードは、https://github.com/J-F-Cheng/G-FARS-3DPartGrouping.comで利用可能です。

This paper proposes a novel task named "3D part grouping". Suppose there is a mixed set containing scattered parts from various shapes. This task requires algorithms to find out every possible combination among all the parts. To address this challenge, we propose the so called Gradient Field-based Auto-Regressive Sampling framework (G-FARS) tailored specifically for the 3D part grouping task. In our framework, we design a gradient-field-based selection graph neural network (GNN) to learn the gradients of a log conditional probability density in terms of part selection, where the condition is the given mixed part set. This innovative approach, implemented through the gradient-field-based selection GNN, effectively captures complex relationships among all the parts in the input. Upon completion of the training process, our framework becomes capable of autonomously grouping 3D parts by iteratively selecting them from the mixed part set, leveraging the knowledge acquired by the trained gradient-field-based selection GNN. Our code is available at: https://github.com/J-F-Cheng/G-FARS-3DPartGrouping.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# 悪質な拡張からクッキーを守るブラウザ制御に向けて

Towards Browser Controls to Protect Cookies from Malicious Extensions ( http://arxiv.org/abs/2405.06830v1 )

ライセンス: Link先を確認
Liam Tyler, Ivan De Oliveira Nunes, (参考訳) クッキーは、Webのステート管理メカニズムを提供し、認証、ユーザのセッションIDの保存、その後の要求での資格情報の交換によく使用される。 これらの‘セッションクッキー’は、Session HijackingやFixationのような、ユーザアカウントへの不正アクセスを盗もうとする攻撃の貴重なターゲットである。 SecureやHttpOnly cookieなどの複数のコントロールはクッキーアクセシビリティを制限し、ネットワークや悪意のあるWebサイトからの攻撃を効果的に緩和する。 拡張は、複数の特権APIにアクセスするサードパーティのHTML/JavaScriptアドオンであり、一度に複数のWebサイトで実行できる。 残念ながら、これはセッションクッキーへのアクセスを制限しない悪意のある/コンパイルされた拡張を提供することができる。 本研究ではまず,これらの'risky' API(クッキーの修正や盗難を可能にするもの)を用いて,拡張の頻度を評価する研究を行い,現在数億のユーザが使用していることを確認する。 そこで我々は,悪質なエクステンションからクッキーを保護する2つの新しいクッキー属性(BrowserOnlyとTracked)に基づいたブラウザ制御を提案する。 BrowserOnly属性は、クッキーへのアクセスを完全に拡張から防ぐ。 有効ではあるが、すべてのクッキーがアクセスできないわけではない。 Tracked属性を持つクッキーは引き続きアクセス可能であり、単一のブラウザに結び付けられ、拡張によって行われた変更を記録する。 これにより、盗まれた追跡クッキーは元のブラウザ以外では使用不能になり、サーバは変更を検証できる。 これらの機能の実用性を実証するために、CREAM (Cookie Restrictions for Extension Abuse Mitigation): これらのコントロールを実現するChromiumの修正版を実装した。 本評価は,Cookieを悪質な拡張から効果的に保護し,実行時のオーバーヘッドを小さく抑えていることを示す。

Cookies provide a state management mechanism for the web and are often used for authentication, storing a user's session ID, and replacing their credentials in subsequent requests. These ``session cookies'' are valuable targets of attacks such as Session Hijacking and Fixation that attempt to steal them and gain unauthorized access to user accounts. Multiple controls such as the Secure and HttpOnly cookie attributes restrict cookie accessibility, effectively mitigating attacks from the network or malicious websites, but often ignoring untrusted extensions within the user's browser. Extensions are third-party HTML/JavaScript add-ons with access to several privileged APIs and can run on multiple websites at once. Unfortunately, this can provide malicious/compromised extensions with unrestricted access to session cookies. In this work, we first conduct a study assessing the prevalence of extensions with these ``risky'' APIs (i.e., those enabling cookie modification and theft) and find that they are currently used by hundreds of millions of users. Motivated by this, we propose browser controls based on two new cookie attributes that protect cookies from malicious extensions: BrowserOnly and Tracked. The BrowserOnly attribute prevents accessing cookies from extensions altogether. While effective, not all cookies can be inaccessible. Cookies with the Tracked attribute remain accessible, are tied to a single browser, and record any modifications made by extensions. Thus, stolen Tracked cookies become unusable outside their original browser and servers can verify any modifications. To demonstrate these features' practicality, we implement CREAM (Cookie Restrictions for Extension Abuse Mitigation): a modified version of Chromium realizing these controls. Our evaluation indicates that CREAM controls effectively protect cookies from malicious extensions while incurring small run-time overheads.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# Sparkplugを使ったJavaScriptの衝突テスト

Concolic Testing of JavaScript using Sparkplug ( http://arxiv.org/abs/2405.06832v1 )

ライセンス: Link先を確認
Zhe Li, Fei Xie, (参考訳) JavaScriptはWebやサーバアプリケーションで広く使われており、機密データを扱う。 JSテストメソッドは、他の言語に遅れている。 JSのInsitu Concolic Testingは有効だが、遅く、複雑である。 本稿では,V8 Sparkplugのベースラインコンパイラと,LLVM IR変換への組立のためのリミルライブラリによるトレースを改良する。 160のNode.jsライブラリの評価は、in-situメソッドよりもはるかに少ない時間で、カバー範囲とバグ検出に匹敵する。

JavaScript is prevalent in web and server apps, handling sensitive data. JS testing methods lag behind other languages. Insitu concolic testing for JS is effective but slow and complex. Our method enhances tracing with V8 Sparkplug baseline compiler and remill libraries for assembly to LLVM IR conversion. Evaluation on 160 Node.js libraries reveals comparable coverage and bug detection in significantly less time than the in-situ method.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# MLOpsのためのコード適応を自動化する - LLMのベンチマーク研究

Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs ( http://arxiv.org/abs/2405.06835v1 )

ライセンス: Link先を確認
Harsh Patel, Buvaneswari A. Ramanan, Manzoor A. Khan, Thomas Williams, Brian Friedman, Lawrence Drabeck, (参考訳) 本稿では,機械学習操作(MLOps)機能をMLトレーニングコードベースに組み込むための,現行のLarge Language Modelsの可能性について検討する。 各種MLOps機能の自動実行におけるOpenAI(gpt-3.5-turbo)とWizardCoder(オープンソース,15Bパラメータ)モデルの性能評価を行った。 1) 既存のコードサンプルをMLflowやWeights & Biasesといったコンポーネント固有のMLOps機能に適応させ、実験追跡やハイパーパラメータ最適化のためのOptuna、(2) MLOps機能のあるコンポーネントから別のコンポーネント、例えば既存のGitPythonライブラリベースのバージョン管理コードをData Version Controlライブラリベースに変換するタスクを実行する。 また、翻訳タスクを遂行しながら、コンポーネントのAPIドキュメントを参照として理解するために、LCMを教える3つの異なるアプローチを提案する。 我々の評価では、gpt-3.5-turboモデルは、モデル最適化におけるPass@3の精度(WizardCoderの0%よりも55%)、実験追跡(WizardCoderの62.5%より100%)、モデル登録(WizardCoderの42%より92%)、ハイパーパラメータ最適化(WizardCoderの58%より83%)などにおいて、可能な限りの環境でWizardCoderよりも優れており、複雑なMLOpsタスクにおいて優れたコード適応性性能を示している。

This paper explores the possibilities of the current generation of Large Language Models for incorporating Machine Learning Operations (MLOps) functionalities into ML training code bases. We evaluate the performance of OpenAI (gpt-3.5-turbo) and WizardCoder (open-source, 15B parameters) models on the automated accomplishment of various MLOps functionalities in different settings. We perform a benchmarking study that assesses the ability of these models to: (1) adapt existing code samples (Inlining) with component-specific MLOps functionality such as MLflow and Weights & Biases for experiment tracking, Optuna for hyperparameter optimization etc., and (2) perform the task of Translation from one component of an MLOps functionality to another, e.g., translating existing GitPython library based version control code to Data Version Control library based. We also propose three different approaches that involve teaching LLMs to comprehend the API documentation of the components as a reference while accomplishing the Translation tasks. In our evaluations, the gpt-3.5-turbo model significantly outperforms WizardCoder by achieving impressive Pass@3 accuracy in model optimization (55% compared to 0% by WizardCoder), experiment tracking (100%, compared to 62.5% by WizardCoder), model registration (92% compared to 42% by WizardCoder) and hyperparameter optimization (83% compared to 58% by WizardCoder) on average, in their best possible settings, showcasing its superior code adaptability performance in complex MLOps tasks.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# 言語モデルファインチューニング型強化学習による目標分子生成の改善

Improving Targeted Molecule Generation through Language Model Fine-Tuning Via Reinforcement Learning ( http://arxiv.org/abs/2405.06836v1 )

ライセンス: Link先を確認
Salma J. Ahmed, Mustafa A. Elattar, (参考訳) 新しい薬の開発は手間がかかり費用もかかるため、幅広い時間的投資を必要としている。 本研究では,特定のタンパク質を標的とした薬物を設計する言語モデルの能力を活用する,革新的なデノボ創薬戦略を提案する。 PPO(Proximal Policy Optimization)を利用した強化学習(Reinforcement Learning, RL)フレームワークを応用し, タンパク質標的に適合する薬剤を生産するためのポリシーを改良する。 本手法は, 薬物-標的相互作用と分子的妥当性を考慮した複合報酬関数を統合する。 RLの微調整により, 分子効率, 相互作用効率, 臨界化学的特性の顕著な改善, 薬物類似性の定量評価65.37, 分子量321.55, およびオクタノール-水分配係数4.47が得られた。 さらに、生成した薬物のうち、新規性は0.041\%に留まる。

Developing new drugs is laborious and costly, demanding extensive time investment. In this study, we introduce an innovative de-novo drug design strategy, which harnesses the capabilities of language models to devise targeted drugs for specific proteins. Employing a Reinforcement Learning (RL) framework utilizing Proximal Policy Optimization (PPO), we refine the model to acquire a policy for generating drugs tailored to protein targets. Our method integrates a composite reward function, combining considerations of drug-target interaction and molecular validity. Following RL fine-tuning, our approach demonstrates promising outcomes, yielding notable improvements in molecular validity, interaction efficacy, and critical chemical properties, achieving 65.37 for Quantitative Estimation of Drug-likeness (QED), 321.55 for Molecular Weight (MW), and 4.47 for Octanol-Water Partition Coefficient (logP), respectively. Furthermore, out of the generated drugs, only 0.041\% do not exhibit novelty.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# MEIC: LLMを用いたRTLデバッグ自動化の再考

MEIC: Re-thinking RTL Debug Automation using LLMs ( http://arxiv.org/abs/2405.06840v1 )

ライセンス: Link先を確認
Ke Xu, Jialin Sun, Yuchen Hu, Xinwei Fang, Weiwei Shan, Xi Wang, Zhe Jiang, (参考訳) コードデバッグ(例えば、CとPython)のためのLLM(Large Language Models)のデプロイは、複雑な概念を理解し解釈する能力から恩恵を受けています。 しかし、半導体業界では、RTL(Regession Transfer Level)コードのデバッグにLLMを利用することは、トレーニングセットにおけるRTL固有のデータの不足のため、依然として不十分である。 この研究は、新しいフレームワークであるMake each Iteration Count (MEIC)を導入し、プロンプトエンジニアリング、モデルチューニング、モデルトレーニングに大きく依存する従来の一発のLLMベースのデバッグ手法とは対照的である。 MEICは、RTLコードデバッグにおけるLLMの制限を克服するために反復的なプロセスでLLMを利用し、LLM操作に固有の不確実性を効果的に管理し、構文と関数のエラーを識別および修正するのに適している。 フレームワークを評価するため、178の共通RTLプログラミングエラーからなるオープンソースデータセットを提供する。 実験の結果,提案したデバッグフレームワークは,構文エラーの93%,関数エラーの78%,デバッグプロセスの48倍の高速化を実現している。 リポジトリ。 https://anonymous.4open.science/r/Verilog-Auto-Debug-6E7F/

The deployment of Large Language Models (LLMs) for code debugging (e.g., C and Python) is widespread, benefiting from their ability to understand and interpret intricate concepts. However, in the semiconductor industry, utilising LLMs to debug Register Transfer Level (RTL) code is still insufficient, largely due to the underrepresentation of RTL-specific data in training sets. This work introduces a novel framework, Make Each Iteration Count (MEIC), which contrasts with traditional one-shot LLM-based debugging methods that heavily rely on prompt engineering, model tuning, and model training. MEIC utilises LLMs in an iterative process to overcome the limitation of LLMs in RTL code debugging, which is suitable for identifying and correcting both syntax and function errors, while effectively managing the uncertainties inherent in LLM operations. To evaluate our framework, we provide an open-source dataset comprising 178 common RTL programming errors. The experimental results demonstrate that the proposed debugging framework achieves fix rate of 93% for syntax errors and 78% for function errors, with up to 48x speedup in debugging processes when compared with experienced engineers. The Repo. of dataset and code: https://anonymous.4open.science/r/Verilog-Auto-Debug-6E7F/.
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# ギャップのブリッジ:公正かつ一貫性のある影響分析に向けたプロトコル

Bridging the Gap: Protocol Towards Fair and Consistent Affect Analysis ( http://arxiv.org/abs/2405.06841v1 )

ライセンス: Link先を確認
Guanyu Hu, Eleni Papadopoulou, Dimitrios Kollias, Paraskevi Tzouveli, Jie Wei, Xinyu Yang, (参考訳) 日々の生活における機械学習アルゴリズムの統合の増加は、その展開における公平性と公平性の重要性を浮き彫りにしている。 これらの技術が意思決定において重要な役割を担っているため、年齢、性別、人種など、様々なサブ人口集団の偏見に対処することが最重要である。 生理学、心理学、機械学習の交差点における自動影響分析は、大きな発展を遂げた。 しかし、既存のデータベースと方法論は均一性に欠けており、バイアスのある評価につながっている。 この研究は、6つの感情的なデータベースを分析し、属性を注釈付けし、データベース分割のための共通のプロトコルを提案することで、これらの問題に対処する。 評価において公平さに重点を置いている。 ベースラインと最先端の手法による大規模な実験は、これらの変化の影響を示し、事前評価の不十分さを明らかにしている。 この結果は、分析研究に影響を及ぼす上で、人口統計学的属性を考慮することの重要性を浮き彫りにし、より公平な方法論の基礎を提供する。 私たちのアノテーション、コード、事前訓練済みモデルは、https://github.com/dkollias/Fair-Consistent-Affect-Analysisで利用可能です。

The increasing integration of machine learning algorithms in daily life underscores the critical need for fairness and equity in their deployment. As these technologies play a pivotal role in decision-making, addressing biases across diverse subpopulation groups, including age, gender, and race, becomes paramount. Automatic affect analysis, at the intersection of physiology, psychology, and machine learning, has seen significant development. However, existing databases and methodologies lack uniformity, leading to biased evaluations. This work addresses these issues by analyzing six affective databases, annotating demographic attributes, and proposing a common protocol for database partitioning. Emphasis is placed on fairness in evaluations. Extensive experiments with baseline and state-of-the-art methods demonstrate the impact of these changes, revealing the inadequacy of prior assessments. The findings underscore the importance of considering demographic attributes in affect analysis research and provide a foundation for more equitable methodologies. Our annotations, code and pre-trained models are available at: https://github.com/dkollias/Fair-Consistent-Affect-Analysis
翻訳日:2024-05-14 19:55:18 公開日:2024-05-10
# BitVMX:Bitcoin上でのユニバーサル計算のためのCPU

BitVMX: A CPU for Universal Computation on Bitcoin ( http://arxiv.org/abs/2405.06842v1 )

ライセンス: Link先を確認
Sergio Demian Lerner, Ramon Amela, Shreemoy Mishra, Martin Jonas, Javier Álvarez Cid-Fuentes, (参考訳) BitVMXは、BitVMで導入されたチャレンジレスポンスゲームに基づいて、Bitcoin上で任意のプログラムを楽観的に実行する仮想CPUの新しい設計である。 BitVM1と同様に、Bitcoinスクリプトで検証される汎用CPUを作成します。 私たちの設計ではRISC-VやMIPSといった共通アーキテクチャをサポートしています。 私たちの最先端への貢献は、プログラムトレースのハッシュチェーン、メモリマップされたレジスタ、新しいチャレンジ-レスポンスプロトコルを使用する設計です。 参加者間の認証通信を可能にする手段として,新しいメッセージリンクプロトコルを提案する。 このプロトコルは、トランザクション間で状態を共有することによってステートフルなスマートコントラクトをエミュレートする。 これは、事前署名されたトランザクションのグラフを使用して、チャレンジ-レスポンスインタラクションをサポートする検証ゲームの基礎を提供する。 問題が発生した場合、プログラムトレースのハッシュチェーンは選択された事前署名されたトランザクションで使用され($n$-ary search)、計算におけるエラーの正確な性質を回復する。 BitVM1とは異なり、我々のアプローチはCPU命令やメモリワードのためのMerkleツリーの作成を必要としない。 また、署名の割り当てにも依存していない。 これらの違いは、BitVM1に関連する複雑さを回避し、BitVMXをBitVM2の魅力的な代替品にするのに役立つ。 我々のアプローチは非常に柔軟で、BitVMXはトランザクションコストとラウンドの複雑さ、証明コストと検証コスト、プリ計算とラウンドの複雑さのバランスをとるためにインスタンス化できます。

BitVMX is a new design for a virtual CPU to optimistically execute arbitrary programs on Bitcoin based on a challenge response game introduced in BitVM. Similar to BitVM1 we create a general-purpose CPU to be verified in Bitcoin script. Our design supports common architectures, such as RISC-V or MIPS. Our main contribution to the state of the art is a design that uses hash chains of program traces, memory mapped registers, and a new challenge-response protocol. We present a new message linking protocol as a means to allow authenticated communication between the participants. This protocol emulates stateful smart contracts by sharing state between transactions. This provides a basis for our verification game which uses a graph of pre-signed transactions to support challenge-response interactions. In case of a dispute, the hash chain of program trace is used with selective pre-signed transactions to locate (via $n$-ary search) and then recover the precise nature of errors in the computation. Unlike BitVM1, our approach does not require the creation of Merkle trees for CPU instructions or memory words. Additionally, it does not rely on signature equivocations. These differences help avoid complexities associated with BitVM1 and make BitVMX a compelling alternative to BitVM2. Our approach is quite flexible, BitVMX can be instantiated to balance transaction cost vs round complexity, prover cost vs verifier cost, and precomputations vs round complexity.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# U(3)結合と再結合係数の新しい評価法

New Procedure for Evaluation of U(3) Coupling and Recoupling Coefficients ( http://arxiv.org/abs/2405.06843v1 )

ライセンス: Link先を確認
Phong Dang, Jerry P. Draayer, Feng Pan, Kevin S. Becker, (参考訳) 2つの群-部分群鎖におけるU(3)のウィグナー結合係数とラカフ再結合係数を簡易に計算する方法について述べる。 標準的U(3)->U(2)->U(1)カップリング係数は、U(3)対称性を尊重する任意の系に適用できるが、U(3)->SO(3)カップリング係数は核構造研究により特異的である。 この新たな手法は、1973年のドライヤーと秋山の定式化で用いられた二項係数と交互和の使用を妨げ、要求された結果のより高速で正確な出力を提供する。 外積の分解はアルネ・アレクサンドル・アルによって提唱された U(3) 生成体の零空間の概念に基づいており、一方角運動量部分群鎖の内積は SO(3) 昇降作用素の零空間の次元から得られる。 この新しい方法論に基づいて構築されたC++ライブラリは、このようなプログラムの管理と配布を専門とする補完的なジャーナルに掲載される。

A simple method to calculate Wigner coupling coefficients and Racah recoupling coefficients for U(3) in two group-subgroup chains is presented. While the canonical U(3)->U(2)->U(1) coupling and recoupling coefficients are applicable to any system that respects U(3) symmetry, the U(3)->SO(3) coupling coefficients are more specific to nuclear structure studies. This new procedure precludes the use of binomial coefficients and alternating sums which were used in the 1973 formulation of Draayer and Akiyama, and hence provides faster and more accurate output of requested results. The resolution of the outer multiplicity is based on the null space concept of the U(3) generators proposed by Arne Alex et al., whereas the inner multiplicity in the angular momentum subgroup chain is obtained from the dimension of the null space of the SO(3) raising operator. A C++ library built on this new methodology will be published in a complementary journal that specializes in the management and distribution of such programs.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# CasCalib: スパース非同期カメラからのモーションキャプチャのためのカスケードキャリブレーション

CasCalib: Cascaded Calibration for Motion Capture from Sparse Unsynchronized Cameras ( http://arxiv.org/abs/2405.06845v1 )

ライセンス: Link先を確認
James Tang, Shashwat Suri, Daniel Ajisafe, Bastian Wandt, Helge Rhodin, (参考訳) オフザシェルフ3次元ポーズ推定器を用いた単眼画像から3次元人間のポーズを推定できるようになった。 しかし、多くの実用的な応用には、マルチビューキューとカメラキャリブレーションが必要な、きめ細かい絶対ポーズ情報が必要である。 このようなマルチビュー記録は、手動キャリブレーションが必要であり、専用ハードウェアを使用する場合、高価であるため、面倒である。 私たちのゴールは、時間同期を含む完全自動化と、固有のカメラキャリブレーションと、外部カメラキャリブレーションです。 これは、現場の人物を校正対象とする。 既存のメソッドは同期かキャリブレーションのみを扱うか、前者のどちらかを入力とするか、あるいは大きな制限を持つ。 共通の制限は、単一の人物のみを考慮し、対応を見つけるのを容易にすることである。 我々は,高次元時間とキャリブレーション空間を部分空間のカスケードに分割することで,この一般化を実現する。 その結果は、科学的な応用を可能にするためにリリースした、使いやすく、柔軟で、堅牢なモーションキャプチャーツールボックスで、多様なマルチビューベンチマークで示しています。 プロジェクトウェブサイト: https://github.com/jamestang1998/CasCalib

It is now possible to estimate 3D human pose from monocular images with off-the-shelf 3D pose estimators. However, many practical applications require fine-grained absolute pose information for which multi-view cues and camera calibration are necessary. Such multi-view recordings are laborious because they require manual calibration, and are expensive when using dedicated hardware. Our goal is full automation, which includes temporal synchronization, as well as intrinsic and extrinsic camera calibration. This is done by using persons in the scene as the calibration objects. Existing methods either address only synchronization or calibration, assume one of the former as input, or have significant limitations. A common limitation is that they only consider single persons, which eases correspondence finding. We attain this generality by partitioning the high-dimensional time and calibration space into a cascade of subspaces and introduce tailored algorithms to optimize each efficiently and robustly. The outcome is an easy-to-use, flexible, and robust motion capture toolbox that we release to enable scientific applications, which we demonstrate on diverse multi-view benchmarks. Project website: https://github.com/jamestang1998/CasCalib.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# Dominion: AI研究の新たなフロンティア

Dominion: A New Frontier for AI Research ( http://arxiv.org/abs/2405.06846v1 )

ライセンス: Link先を確認
Danny Halawi, Aron Sarmasi, Siena Saltzen, Joshua McCoy, (参考訳) 近年、機械学習のアプローチは劇的な進歩を遂げ、Go、Atari、ポーカーの変種で超人的パフォーマンスを達成した。 これらのゲームやそれ以前のゲームは、テストベッドとしてだけでなく、AI研究の境界を押し進めるのにも役立っている。 この伝統を継続して、テーブルトップゲームであるDominionを検証し、次世代強化学習(RL)アルゴリズムのベンチマークとして機能するのに適した性質について論じる。 また、Dominion Online Webサーバ上で経験豊富なプレイヤーがプレイする2000,000以上のDominionのゲームコレクションであるDominion Online Datasetを提示する。 最後に,従来の手法を駆使して一般的なヒューリスティックなボットを倒し,これまで最強だったProvincialと競合する性能を示すRLベースラインボットを紹介する。

In recent years, machine learning approaches have made dramatic advances, reaching superhuman performance in Go, Atari, and poker variants. These games, and others before them, have served not only as a testbed but have also helped to push the boundaries of AI research. Continuing this tradition, we examine the tabletop game Dominion and discuss the properties that make it well-suited to serve as a benchmark for the next generation of reinforcement learning (RL) algorithms. We also present the Dominion Online Dataset, a collection of over 2,000,000 games of Dominion played by experienced players on the Dominion Online webserver. Finally, we introduce an RL baseline bot that uses existing techniques to beat common heuristic-based bots, and shows competitive performance against the previously strongest bot, Provincial.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# ISR: Invertible Symbolic Regression

ISR: Invertible Symbolic Regression ( http://arxiv.org/abs/2405.06848v1 )

ライセンス: Link先を確認
Tony Tohme, Mohammad Javad Khojasteh, Mohsen Sadr, Florian Meyer, Kamal Youcef-Toumi, (参考訳) Invertible Symbolic Regression (ISR)法を提案する。 これは、可逆写像(またはアーキテクチャ)を介して、与えられたデータセットの入力と出力の間の分析的関係を生成する機械学習技術である。 Invertible Neural Networks (INNs) と EQL (Equation Learner) の原理を自然に組み合わせ、関数学習のためのニューラルネットワークに基づくシンボリックアーキテクチャを提案する。 特に、INNのアフィンカップリングブロックをシンボリック・フレームワークに変換し、エンドツーエンドで微分可能なシンボリック・インバータブル・アーキテクチャにより、効率的な勾配学習を実現する。 提案したISRフレームワークは、正規化を促進するスパーシティにも依存しており、簡潔で解釈不能な表現の発見を可能にする。 ISRは密度推定タスクの(象徴的な)正規化フローとして機能することを示す。 さらに,その逆問題に対する実用的適用性を強調し,特に音響信号から海底パラメータの後方分布を推定することを目的とした海洋学におけるジオアコースティック・インバージョン問題について述べる。

We introduce an Invertible Symbolic Regression (ISR) method. It is a machine learning technique that generates analytical relationships between inputs and outputs of a given dataset via invertible maps (or architectures). The proposed ISR method naturally combines the principles of Invertible Neural Networks (INNs) and Equation Learner (EQL), a neural network-based symbolic architecture for function learning. In particular, we transform the affine coupling blocks of INNs into a symbolic framework, resulting in an end-to-end differentiable symbolic invertible architecture that allows for efficient gradient-based learning. The proposed ISR framework also relies on sparsity promoting regularization, allowing the discovery of concise and interpretable invertible expressions. We show that ISR can serve as a (symbolic) normalizing flow for density estimation tasks. Furthermore, we highlight its practical applicability in solving inverse problems, including a benchmark inverse kinematics problem, and notably, a geoacoustic inversion problem in oceanography aimed at inferring posterior distributions of underlying seabed parameters from acoustic signals.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# GreedyViG: 効率的なビジョンGNNのための動的軸グラフ構築

GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs ( http://arxiv.org/abs/2405.06849v1 )

ライセンス: Link先を確認
Mustafa Munir, William Avery, Md Mostafijur Rahman, Radu Marculescu, (参考訳) ビジョングラフニューラルネットワーク(ViG)は、コンピュータビジョンの探索のための新しい道を提供する。 ViGsの主なボトルネックは、グラフ構築に使用される非効率なk-アネレスト隣り(KNN)演算である。 そこで本研究では,画像内のグラフ接続数を制限するため,KNNよりも効率的な動的軸グラフ構築法である動的軸グラフ構築法(DAGC)を提案する。 さらに,DAGCを用いた新しいCNN-GNNアーキテクチャであるGreedyViGを提案する。 GreedyViGは、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションタスクにおいて、精度、GMAC、パラメータの点で既存のViG、CNN、ViTアーキテクチャを上回っている。 我々の最小モデルであるGreedyViG-Sは、ImageNet-1Kで81.1%、Vision GNNより2.9%、Vision HyperGraph Neural Network (ViHGNN)より2.2%、GMACが少なく、パラメータも類似している。 我々の最大のモデルであるGreedyViG-Bは83.9%のトップ1の精度で、Vision GNNより0.2%高く、パラメータは66.6%減少し、GMACは69%減少している。 GreedyViG-Bは、パラメータが67.3%減少し、GMACが71.3%減少するViHGNNと同じ精度を得る。 我々の研究によると、ハイブリッドCNN-GNNアーキテクチャは、効率的なモデル設計のための新しい道を提供するだけでなく、現在の最先端モデルの性能を上回ることができる。

Vision graph neural networks (ViG) offer a new avenue for exploration in computer vision. A major bottleneck in ViGs is the inefficient k-nearest neighbor (KNN) operation used for graph construction. To solve this issue, we propose a new method for designing ViGs, Dynamic Axial Graph Construction (DAGC), which is more efficient than KNN as it limits the number of considered graph connections made within an image. Additionally, we propose a novel CNN-GNN architecture, GreedyViG, which uses DAGC. Extensive experiments show that GreedyViG beats existing ViG, CNN, and ViT architectures in terms of accuracy, GMACs, and parameters on image classification, object detection, instance segmentation, and semantic segmentation tasks. Our smallest model, GreedyViG-S, achieves 81.1% top-1 accuracy on ImageNet-1K, 2.9% higher than Vision GNN and 2.2% higher than Vision HyperGraph Neural Network (ViHGNN), with less GMACs and a similar number of parameters. Our largest model, GreedyViG-B obtains 83.9% top-1 accuracy, 0.2% higher than Vision GNN, with a 66.6% decrease in parameters and a 69% decrease in GMACs. GreedyViG-B also obtains the same accuracy as ViHGNN with a 67.3% decrease in parameters and a 71.3% decrease in GMACs. Our work shows that hybrid CNN-GNN architectures not only provide a new avenue for designing efficient models, but that they can also exceed the performance of current state-of-the-art models.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# 文脈情報を用いたニューラル多様体の非線形分類

Nonlinear classification of neural manifolds with contextual information ( http://arxiv.org/abs/2405.06851v1 )

ライセンス: Link先を確認
Francesca Mignacco, Chi-Ning Chou, SueYeon Chung, (参考訳) ニューラルネットワークが分散表現を通じて情報を効率的に処理する方法を理解することは、神経科学と機械学習のインターフェースにおける根本的な課題である。 近年,ニューラル表現の統計的および幾何学的特性を,タスク実装の集団レベル力学記述子として分析している。 特に、群幾何学とニューラル多様体の分離性を結びつける有望な枠組みとして、多様体のキャパシティが出現している。 しかし、この計量は線形読み出しに限られている。 本稿では、文脈入力情報を活用することにより、この制限を克服する理論的枠組みを提案する。 我々は、多様体幾何学と文脈相関に依存する文脈依存キャパシティの正確な式を導出し、それを合成データと実データで検証する。 我々のフレームワークの表現性の向上は、階層階層の初期段階のディープネットワークにおける表現アンハングメントをキャプチャするが、以前は分析にはアクセスできない。 文脈依存の非線形性は、ニューラルネットワークにおいてユビキタスであるので、我々のデータ駆動的、理論的に基礎付けられたアプローチは、スケール、データセット、モデルにわたる文脈依存の計算を解明することを約束します。

Understanding how neural systems efficiently process information through distributed representations is a fundamental challenge at the interface of neuroscience and machine learning. Recent approaches analyze the statistical and geometrical attributes of neural representations as population-level mechanistic descriptors of task implementation. In particular, manifold capacity has emerged as a promising framework linking population geometry to the separability of neural manifolds. However, this metric has been limited to linear readouts. Here, we propose a theoretical framework that overcomes this limitation by leveraging contextual input information. We derive an exact formula for the context-dependent capacity that depends on manifold geometry and context correlations, and validate it on synthetic and real data. Our framework's increased expressivity captures representation untanglement in deep networks at early stages of the layer hierarchy, previously inaccessible to analysis. As context-dependent nonlinearity is ubiquitous in neural systems, our data-driven and theoretically grounded approach promises to elucidate context-dependent computation across scales, datasets, and models.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# 相互作用型多重励起系における量子状態伝達

Quantum State Transfer in Interacting, Multiple-Excitation Systems ( http://arxiv.org/abs/2405.06853v1 )

ライセンス: Link先を確認
Alexander Yue, Rubem Mondaini, Qiujiang Guo, Richard T. Scalettar, (参考訳) 量子状態伝達(QST)は、あるネットワーク内のあるノードから別のノードへの量子情報のコヒーレントな通過を記述する。 QSTの実験は多種多様なプラットフォームにまたがって行われ、現在、数百ナノ秒の時間に最大数十のノードをまたがる輸送を報告している。 理論的な研究は、与えられた(エルミート)格子ハミルトンに付随するロスレス時間進化と、損失を許容するマスター方程式に基づく方法の両方を研究する。 本稿では,高忠実度QSTを与えるハミルトニアンの発見を可能にするモンテカルロ法について述べる。 我々は、光共振器・エミッタアレイの結合に適する測地線における我々のアプローチをベンチマークし、伝導帯に結合した局在軌道の凝縮物質ハミルトニアンの接続について議論する。 その結果生まれたJaynes-Cummings-Hubbardと周期的なAndersonモデルは、原則として、効率的なQSTを提供するための適切なハードウェアで設計することができる。

Quantum state transfer (QST) describes the coherent passage of quantum information from one node in a network to another. Experiments on QST span a diverse set of platforms and currently report transport across up to tens of nodes in times of several hundred nanoseconds with fidelities that can approach 90% or more. Theoretical studies examine both the lossless time evolution associated with a given (Hermitian) lattice Hamiltonian and methods based on the master equation that allows for losses. In this paper, we describe Monte Carlo techniques which enable the discovery of a Hamiltonian that gives high-fidelity QST. We benchmark our approach in geometries appropriate to coupled optical cavity-emitter arrays and discuss connections to condensed matter Hamiltonians of localized orbitals coupled to conduction bands. The resulting Jaynes-Cummings-Hubbard and periodic Anderson models can, in principle, be engineered in appropriate hardware to give efficient QST.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# 個々のニューロンに対する線形説明法

Linear Explanations for Individual Neurons ( http://arxiv.org/abs/2405.06855v1 )

ライセンス: Link先を確認
Tuomas Oikarinen, Tsui-Wei Weng, (参考訳) 近年、ニューラルネットワークの内部動作を理解するために多くの手法が開発され、多くの場合、モデル内の個々のニューロンの機能を記述することによって記述されている。 しかしながら、これらの方法は通常、ニューロンの最も高い活性化を説明することのみに焦点を当てる。 本稿では、これが十分ではないことを示し、最も高い活性化範囲がニューロンの因果効果のごく一部にしか寄与しないことを示す。 さらに、低いアクティベーションを引き起こす入力は、しばしば非常に異なるものであり、高いアクティベーションを見るだけでは確実に予測できない。 そこで我々は,ニューロンを概念の線形結合として理解し,これらの線形説明を効率的に生成する方法を提案する。 さらに,視覚条件下でのニューロンの活性化を予測するシミュレーションを用いて,記述品質を自動的に評価する方法を示す。

In recent years many methods have been developed to understand the internal workings of neural networks, often by describing the function of individual neurons in the model. However, these methods typically only focus on explaining the very highest activations of a neuron. In this paper we show this is not sufficient, and that the highest activation range is only responsible for a very small percentage of the neuron's causal effect. In addition, inputs causing lower activations are often very different and can't be reliably predicted by only looking at high activations. We propose that neurons should instead be understood as a linear combination of concepts, and develop an efficient method for producing these linear explanations. In addition, we show how to automatically evaluate description quality using simulation, i.e. predicting neuron activations on unseen inputs in vision setting.
翻訳日:2024-05-14 19:44:41 公開日:2024-05-10
# 二分決定木の別の表現法--数学的デモンストレーション

Yet Another Representation of Binary Decision Trees: A Mathematical Demonstration ( http://arxiv.org/abs/2101.07077v7 )

ライセンス: Link先を確認
Jinxiong Zhang, (参考訳) 決定木はサイクルのない単純な計算グラフのように見え、葉ノードだけが出力値を指定し、非終端ノードがテストや分割条件を指定する。 数値的な観点から、計算グラフの言語で決定木を表現する。 非終端ノードのビットベクトルに基づいて、決定木のテストフェーズ、トラバースフェーズ、予測フェーズを明示的にパラメータ化する。 後述するように、決定木は何らかの意味で浅いバイナリネットワークである。 特に,木トラバーサルを数値的手法で実装するビットベクター行列を導入し,論理的「AND」演算を算術演算に変換する。 そして、この数値表現を適用して、様々な決定木を概念として拡張・統一する。

A decision tree looks like a simple computational graph without cycles, where only the leaf nodes specify the output values and the non-terminals specify their tests or split conditions. From the numerical perspective, we express decision trees in the language of computational graph. We explicitly parameterize the test phase, traversal phase and prediction phase of decision trees based on the bitvectors of non-terminal nodes. As shown later, the decision tree is a shallow binary network in some sense. Especially, we introduce the bitvector matrix to implement the tree traversal in numerical approach, where the core is to convert the logical `AND' operation to arithmetic operations. And we apply this numerical representation to extend and unify diverse decision trees in concept.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# 決定機械:決定木の拡張

Decision Machines: An Extension of Decision Trees ( http://arxiv.org/abs/2101.11347v2 )

ライセンス: Link先を確認
Jinxiong Zhang, (参考訳) 決定木に基づいて表データの処理は効率的である。 従来の決定木成長法は、しばしば、その欲望的な性質のために、最適木となる。 その固有の構造は、決定木を並列に実装するハードウェアの選択肢を制限する。 ここでは、これらの欠陥を克服するためのバイナリ決定ツリーのコンパクト表現を紹介します。 本稿では,二分決定木に対する二分テストに対する予測の依存性を明示的に定式化し,入力サンプルを根から適切な葉ノードへ誘導する関数を構築する。 この定式化に基づいて、二分決定木の新しい解釈を導入する。 そして、この定式化を連続関数で近似する。 最後に,決定木をモデル結合法として解釈する。 そこで本研究では,いくつかの学習手法を統合するための選択予測手法を提案する。

Based on decision trees, it is efficient to handle tabular data. Conventional decision tree growth methods often result in suboptimal trees because of their greedy nature. Their inherent structure limits the options of hardware to implement decision trees in parallel. Here is a compact representation of binary decision trees to overcome these deficiencies. We explicitly formulate the dependence of prediction on binary tests for binary decision trees and construct a function to guide the input sample from the root to the appropriate leaf node. And based on this formulation we introduce a new interpretation of binary decision trees. Then we approximate this formulation via continuous functions. Finally, we interpret the decision tree as a model combination method. And we propose the selection-prediction scheme to unify a few learning methods.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# 医用自動符号化における深層学習の統一的検討

A Unified Review of Deep Learning for Automated Medical Coding ( http://arxiv.org/abs/2201.02797v5 )

ライセンス: Link先を確認
Shaoxiong Ji, Wei Sun, Xiaobo Li, Hang Dong, Ara Taalas, Yijia Zhang, Honghan Wu, Esa Pitkänen, Pekka Marttinen, (参考訳) 医療の運用と提供に不可欠な医療コードの自動作成は、臨床文書から医療コードを予測することによって、構造化されていないデータを管理可能にする。 近年のディープラーニングと自然言語処理の進歩がこの課題に広く応用されている。 しかし、ディープラーニングベースの医療コーディングでは、ニューラルネットワークアーキテクチャの設計の統一的なビューが欠如している。 本稿では,医学的コーディングモデルの構築ブロックを総合的に理解するための統一的なフレームワークを提案し,提案フレームワークに基づく最近の高度なモデルを要約する。 統合されたフレームワークは、テキスト特徴抽出のためのエンコーダモジュール、ディープエンコーダアーキテクチャを構築するためのメカニズム、隠れた表現を医療コードに変換するデコーダモジュール、補助情報の使用の4つの主要コンポーネントに分解する。 最後に、ベンチマークと実世界の利用について紹介し、主要な研究課題と今後の方向性について論じる。

Automated medical coding, an essential task for healthcare operation and delivery, makes unstructured data manageable by predicting medical codes from clinical documents. Recent advances in deep learning and natural language processing have been widely applied to this task. However, deep learning-based medical coding lacks a unified view of the design of neural network architectures. This review proposes a unified framework to provide a general understanding of the building blocks of medical coding models and summarizes recent advanced models under the proposed framework. Our unified framework decomposes medical coding into four main components, i.e., encoder modules for text feature extraction, mechanisms for building deep encoder architectures, decoder modules for transforming hidden representations into medical codes, and the usage of auxiliary information. Finally, we introduce the benchmarks and real-world usage and discuss key research challenges and future directions.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# 幾何認識整合性トレーニングによる半教師付き医用画像分割

Semi-supervised Medical Image Segmentation via Geometry-aware Consistency Training ( http://arxiv.org/abs/2202.06104v2 )

ライセンス: Link先を確認
Zihang Liu, Chunhui Zhao, (参考訳) 医用画像セグメンテーションのための教師付き深層学習法の性能はラベル付きデータの不足によって制限されることが多い。 有望な研究方向として、半教師付き学習は、未ラベルのデータ情報を活用して学習プロセスを支援することで、このジレンマに対処する。 本稿では,整合性に基づく医用画像セグメンテーションのための新しい幾何学的半教師付き学習フレームワークを提案する。 本研究では, 対象境界付近に, 分割困難な領域が存在することを考慮し, グローバルな幾何学的情報を学習するための補助的予測タスクを導入する。 幾何的制約に基づいて、曖昧な境界領域は、ラベル付きデータとラベルなしデータの両方をよりうまく活用するために、指数関数的に重み付けされたモデルトレーニング戦略によって強調される。 さらに、異なる視点からのセグメンテーションを行い、予測の不確実性を低減するために、デュアルビューネットワークが設計されている。 提案手法は, パブリック左心房ベンチマークデータセットを用いて評価し, 10%のラベル付き画像では8.7%, 20%のラベル付き画像では4.3%, 完全教師付き手法では8.7%改善した。 一方、我々のフレームワークは6つの最先端の半教師付きセグメンテーション法より優れている。

The performance of supervised deep learning methods for medical image segmentation is often limited by the scarcity of labeled data. As a promising research direction, semi-supervised learning addresses this dilemma by leveraging unlabeled data information to assist the learning process. In this paper, a novel geometry-aware semi-supervised learning framework is proposed for medical image segmentation, which is a consistency-based method. Considering that the hard-to-segment regions are mainly located around the object boundary, we introduce an auxiliary prediction task to learn the global geometric information. Based on the geometric constraint, the ambiguous boundary regions are emphasized through an exponentially weighted strategy for the model training to better exploit both labeled and unlabeled data. In addition, a dual-view network is designed to perform segmentation from different perspectives and reduce the prediction uncertainty. The proposed method is evaluated on the public left atrium benchmark dataset and improves fully supervised method by 8.7% in Dice with 10% labeled images, while 4.3% with 20% labeled images. Meanwhile, our framework outperforms six state-of-the-art semi-supervised segmentation methods.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# 動作条件付き触覚予測:スリップ予測のケーススタディ

Action Conditioned Tactile Prediction: case study on slip prediction ( http://arxiv.org/abs/2205.09430v2 )

ライセンス: Link先を確認
Willow Mandil, Kiyanoush Nazari, Amir Ghalamzan E, (参考訳) 触覚予測モデルは、ロボットプッシュ、ロボットグルーピング、スリップ回避、手動操作など、いくつかのロボット操作タスクで有用である。 しかし,触覚予測モデルはほとんどが画像ベースの触覚センサとして研究されており,最高の動作モデルを示す比較研究は行われていない。 本稿では,実世界の物理ロボットインタラクションタスクにおいて,触覚信号を予測するためのデータ駆動型動作条件付きモデルについて紹介する。 我々は、最先端の予測モデルの解析とテストが難しい磁気式触覚センサと、現存する唯一の美味しい触覚予測モデルを使用する。 これらのモデルの性能と提案モデルの性能を比較した。 実世界のロボット操作作業の51,000個の触覚フレームを含む触覚対応データセットを,11個の平滑な家庭用物体を用いて比較検討した。 実験の結果,定性的,定量的,すべり予測スコアの観点から,触覚予測モデルの優位性を示した。

Tactile predictive models can be useful across several robotic manipulation tasks, e.g. robotic pushing, robotic grasping, slip avoidance, and in-hand manipulation. However, available tactile prediction models are mostly studied for image-based tactile sensors and there is no comparison study indicating the best performing models. In this paper, we presented two novel data-driven action-conditioned models for predicting tactile signals during real-world physical robot interaction tasks (1) action condition tactile prediction and (2) action conditioned tactile-video prediction models. We use a magnetic-based tactile sensor that is challenging to analyse and test state-of-the-art predictive models and the only existing bespoke tactile prediction model. We compare the performance of these models with those of our proposed models. We perform the comparison study using our novel tactile-enabled dataset containing 51,000 tactile frames of a real-world robotic manipulation task with 11 flat-surfaced household objects. Our experimental results demonstrate the superiority of our proposed tactile prediction models in terms of qualitative, quantitative and slip prediction scores.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# 特異値分解に基づくソフトウェアシステムテストケース選択アルゴリズムの並列化

Parallelization of Software Systems Test Case Selection Algorithm Based on Singular Value Decomposition ( http://arxiv.org/abs/2206.05494v3 )

ライセンス: Link先を確認
Mahdi Movahedian Moghaddam, (参考訳) ソフトウェアシステムの開発において、システムのある部分の変更は、システムの他の部分の望ましくない変更につながる可能性がある。 これらの影響を受ける部分はシステムパフォーマンスに干渉する可能性があるため、回帰テストはこれらの障害に対処するために使用される。 本試験はこれらの異常を予防するためにこれらの区間を再測定することを目的としているが、再検査のためにこれらの区間を特定することは困難である。 システム機能の特異値分解に基づくソフトウェアシステムの変更をクラスタ化して,新たな変更時にこれらの部分を特定することで,テストの再実行を可能にします。 高速化のために,共有メモリシステム上で並列に計算を行い,ソフトウェアシステムの規模を拡大することで,最適な解が得られるようにした。

When developing a software system, a change in one part of the system may lead to unwanted changes in other parts of the system. These affected parts may interfere with system performance, so regression testing is used to deal with these disorders. This test seeks to re-measure these sections to prevent these abnormalities, but it is difficult to identify these sections for re-examination. We try to cluster the changes of our software system based on the system functions by singular value decomposition, to be able to use to identify these parts during a new change, to perform the test again. In order to increase speedup, our calculations were performed in parallel on shared memory systems so that by increasing the scale of software systems, an optimal answer could be obtained.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# ルールベースモデルから大規模言語モデルへのオープン情報抽出に関する調査

A Survey on Open Information Extraction from Rule-based Model to Large Language Model ( http://arxiv.org/abs/2208.08690v6 )

ライセンス: Link先を確認
Pai Liu, Wenyang Gao, Wenjie Dong, Lin Ai, Ziwei Gong, Songfang Huang, Zongsheng Li, Ehsan Hoque, Julia Hirschberg, Yue Zhang, (参考訳) オープン情報抽出(OpenIE)は、構造化されていないテキストから構造化情報を引き出すための重要なNLPタスクであり、関係タイプやドメインによって制限されない。 本調査では,2007年から2024年にかけてのOpenIE技術の概観を概説し,前回の調査で欠落した時系列的視点を強調した。 近年の技術の進歩に合わせて,OpenIEにおけるタスク設定の進化を考察する。 この記事では、OpenIEアプローチをルールベース、ニューラル、トレーニング済みの大規模言語モデルに分類し、時系列フレームワーク内でそれぞれについて議論する。 さらに、現在使用されている一般的なデータセットと評価指標も強調する。 この広範なレビューに基づいて、本論文は、データセット、情報ソース、出力フォーマット、方法論、評価指標の観点から、将来的な方向性を概説する。

Open Information Extraction (OpenIE) represents a crucial NLP task aimed at deriving structured information from unstructured text, unrestricted by relation type or domain. This survey paper provides an overview of OpenIE technologies spanning from 2007 to 2024, emphasizing a chronological perspective absent in prior surveys. It examines the evolution of task settings in OpenIE to align with the advances in recent technologies. The paper categorizes OpenIE approaches into rule-based, neural, and pre-trained large language models, discussing each within a chronological framework. Additionally, it highlights prevalent datasets and evaluation metrics currently in use. Building on this extensive review, the paper outlines potential future directions in terms of datasets, information sources, output formats, methodologies, and evaluation metrics.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# 両部一致におけるグループフェアネスの誤記による個人フェアネス -全部を近似する一つの枠組み-

Individual Fairness under Varied Notions of Group Fairness in Bipartite Matching - One Framework to Approximate Them All ( http://arxiv.org/abs/2208.09951v4 )

ライセンス: Link先を確認
Atasi Panda, Anand Louis, Prajakta Nimbhorkar, (参考訳) 本研究では,群と個体の公正性の制約を満たすプラットフォームへの項目の確率的割り当てについて検討する。 各項目は特定のグループに属し、プラットフォーム上での優先順序を持つ。 各プラットフォームは、グループごとに割り当てられるアイテムの数を制限することで、グループフェアネスを強制する。 群フェアネスの制約を満たす最適解が複数存在するかもしれないが、これはアイテムの選好を無視している。 提案手法では, ランダムなマッチングを実現するために, 「両世界のフェアネスのベスト」 な解を探索する。 したがって、各項目が上位選択の1つに一致する「高い」確率を持つ「群フェア」マッチングに対して「確率的個性公正」分布を求める。 この分布は元アンティー・グループフェアでもある。 ユーザーは自分の要求に合うようにフェアネスの制約をカスタマイズできる。 最初の結果は,「グループフェア」マッチングの分布を計算する多項式時間アルゴリズムであり,各フェアネス制約がほぼ満たされ,マッチングの期待サイズがOPTに近くなる。 実世界のデータセットでこれを実証的にテストします。 本稿では,グループフェアネスと個別フェアネストレードオフのバランスをとるために,多項式時間ビクテリア近似アルゴリズムを2つ提案する。 解群に対しては、さらに低い 'group fairness' 境界に適応する正確な多項式時間アルゴリズムを提供する。 モデルを拡張して、'maxmin group fairness'、'mindom group fairness'、'mindom group fairness'、および'mindom group fairness'を網羅し、支配的群の表現を減らした。 >

We study the probabilistic assignment of items to platforms that satisfies both group and individual fairness constraints. Each item belongs to specific groups and has a preference ordering over platforms. Each platform enforces group fairness by limiting the number of items per group that can be assigned to it. There could be multiple optimal solutions that satisfy the group fairness constraints, but this alone ignores item preferences. Our approach explores a `best of both worlds fairness' solution to get a randomized matching, which is ex-ante individually fair and ex-post group-fair. Thus, we seek a `probabilistic individually fair' distribution over `group-fair' matchings where each item has a `high' probability of matching to one of its top choices. This distribution is also ex-ante group-fair. Users can customize fairness constraints to suit their requirements. Our first result is a polynomial-time algorithm that computes a distribution over `group-fair' matchings such that the individual fairness constraints are approximately satisfied and the expected size of a matching is close to OPT. We empirically test this on real-world datasets. We present two additional polynomial-time bi-criteria approximation algorithms that users can choose from to balance group fairness and individual fairness trade-offs. For disjoint groups, we provide an exact polynomial-time algorithm adaptable to additional lower `group fairness' bounds. Extending our model, we encompass `maxmin group fairness,' amplifying underrepresented groups, and `mindom group fairness,' reducing the representation of dominant groups.'
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# ハード負のサンプルを用いた教師付きコントラスト学習

Supervised Contrastive Learning with Hard Negative Samples ( http://arxiv.org/abs/2209.00078v2 )

ライセンス: Link先を確認
Ruijie Jiang, Thuan Nguyen, Prakash Ishwar, Shuchin Aeron, (参考訳) InfoNCE損失などの適切な損失関数の最小化により、コントラッシブラーニング(CL)は、埋め込み空間から遠く離れた負のサンプルを押しながら、互いに近い正のサンプルを引いて有用な表現関数を学習する。 正のサンプルは、典型的には「ラベル保存」(label-serving)拡張、すなわち、与えられたダタムまたはアンカーのドメイン固有の変換を用いて作成される。 クラス情報がない場合、教師なしCL(UCL)では、正のサンプルは通常、データセット全体にわたって予め設定された負のサンプリング分布からアンカーからランダムに独立に選択される。 これはUCLのクラス衝突につながる。 Supervised CL (SCL) は、アンカーとラベルが異なるサンプルに対して負のサンプリング分布を条件にすることで、このクラス衝突を回避する。 UCLをさらに強化する有効な方法として示されているハードUCL(H-UCL)において、負のサンプリング分布は、硬化関数を用いて、アンカーに近い試料に向かって条件的に傾いている。 そこで本論文では, ハードSCL(H-SCL) {wherein} クラス条件付き負サンプリング分布 {is tilted} をハードニング関数を介して提案する。 シミュレーションの結果,SCL上でのH-SCLの有用性を実証した。 解析的に、アンカー毎の無限負のサンプルの極限と適切な仮定において、 {H-SCL損失} は {H-UCL損失} によって上界となり、ラベル情報がない場合の H-UCL {for control} H-SCL損失の正当性を示す。 いくつかのデータセットの実験を通して、仮定と、H-UCLとH-SCL損失の間の不等式を検証した。 また,UCL損失によるH-SCL損失の低減を図り,H-SCL損失の制御におけるUCLの限界効果を示す。

Through minimization of an appropriate loss function such as the InfoNCE loss, contrastive learning (CL) learns a useful representation function by pulling positive samples close to each other while pushing negative samples far apart in the embedding space. The positive samples are typically created using "label-preserving" augmentations, i.e., domain-specific transformations of a given datum or anchor. In absence of class information, in unsupervised CL (UCL), the negative samples are typically chosen randomly and independently of the anchor from a preset negative sampling distribution over the entire dataset. This leads to class-collisions in UCL. Supervised CL (SCL), avoids this class collision by conditioning the negative sampling distribution to samples having labels different from that of the anchor. In hard-UCL (H-UCL), which has been shown to be an effective method to further enhance UCL, the negative sampling distribution is conditionally tilted, by means of a hardening function, towards samples that are closer to the anchor. Motivated by this, in this paper we propose hard-SCL (H-SCL) {wherein} the class conditional negative sampling distribution {is tilted} via a hardening function. Our simulation results confirm the utility of H-SCL over SCL with significant performance gains {in downstream classification tasks.} Analytically, we show that {in the} limit of infinite negative samples per anchor and a suitable assumption, the {H-SCL loss} is upper bounded by the {H-UCL loss}, thereby justifying the utility of H-UCL {for controlling} the H-SCL loss in the absence of label information. Through experiments on several datasets, we verify the assumption as well as the claimed inequality between H-UCL and H-SCL losses. We also provide a plausible scenario where H-SCL loss is lower bounded by UCL loss, indicating the limited utility of UCL in controlling the H-SCL loss.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# 決定木トラバーサルの再考

Rethink Decision Tree Traversal ( http://arxiv.org/abs/2209.04825v3 )

ライセンス: Link先を確認
Jinxiong Zhang, (参考訳) 本稿では,行列計算の言語における二分決定木トラバーサルの実装方法について述べる。 我々の主な貢献は、決定木の階層構造の新しい行列表現に基づく二分木トラバーサルの等価アルゴリズムを提案することである。 私たちのキーとなるアイデアは、内部積探索の最大化によるバイナリ決定ツリーの移動です。 我々は、再帰的トラバースのない決定木メソッドを実装するだけでなく、木ベースのメソッドのパーティショニングの性質を掘り下げる。

We will show how to implement binary decision tree traversal in the language of matrix computation. Our main contribution is to propose some equivalent algorithms of binary tree traversal based on a novel matrix representation of the hierarchical structure of the decision tree. Our key idea is to travel the binary decision tree by maximum inner product search. We not only implement decision tree methods without the recursive traverse but also delve into the partitioning nature of tree-based methods.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# ディープサイン検索によるDCT画像符号化における符号情報圧縮

Compressing Sign Information in DCT-based Image Coding via Deep Sign Retrieval ( http://arxiv.org/abs/2209.10712v2 )

ライセンス: Link先を確認
Kei Suzuki, Chihiro Tsutake, Keita Takahashi, Toshiaki Fujii, (参考訳) 離散コサイン変換(DCT)係数の符号情報を圧縮することは、符号の等価性に起因する画像符号化方式における難解な問題である。 この難しさを克服するために,手話検索と呼ばれる手話情報に対する効率的な圧縮手法を提案する。 この方法は、離散フーリエ変換係数の位相情報をその大きさから求める古典的な信号復元問題である位相探索に着想を得たものである。 全てのDCT係数の符号情報はエンコーダのビットストリームから除外され、この符号検索手法によりデコーダで補完される。 実験により,提案手法は,符号のビット量や計算コストにおいて,従来の手法よりも優れていたことを示す。 私たちのメソッドはPython言語で実装されており、https://github.com/ctsutake/dsr.comから利用可能です。

Compressing the sign information of discrete cosine transform (DCT) coefficients is an intractable problem in image coding schemes due to the equiprobable characteristics of the signs. To overcome this difficulty, we propose an efficient compression method for the sign information called "sign retrieval." This method is inspired by phase retrieval, which is a classical signal restoration problem of finding the phase information of discrete Fourier transform coefficients from their magnitudes. The sign information of all DCT coefficients is excluded from a bitstream at the encoder and is complemented at the decoder through our sign retrieval method. We show through experiments that our method outperforms previous ones in terms of the bit amount for the signs and computation cost. Our method, implemented in Python language, is available from https://github.com/ctsutake/dsr.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# DYST (Did You See That?): それまでのデータを表示できる、増幅されたカバーチャネル

DYST (Did You See That?): An Amplified Covert Channel That Points To Previously Seen Data ( http://arxiv.org/abs/2212.11850v3 )

ライセンス: Link先を確認
Steffen Wendzel, Tobias Schmidbauer, Sebastian Zillien, Jörg Keller, (参考訳) 隠蔽チャネルは、ステルスなマルウェア通信からジャーナリストによる秘密情報の交換まで、多様体の敵と合法的なシナリオを可能にするステルスな通信チャネルである。 DYSTは,新しい隠蔽チャネル増幅パラダイムとともに,歴史隠蔽チャネルと呼ぶ新しい種類の隠蔽チャネルを示す。 これまで説明したすべての秘密チャンネルは、一見正当なフローを作るか、サードパーティのフローを変更する必要がある。 対照的に、ヒストリーカバーチャネルは、通常のネットワークノードによって生成された、変更されていない正当なトラフィックを指して通信することができる。 秘密通信プロセスの無視可能な部分だけが、秘密チャンネルの送信者による実際の秘密チャンネル情報の転送を必要とする。 この情報は異なるプロトコル/チャネルを介して送信することができる。 これにより、シークレットチャネルのメッセージサイズ、すなわち、交換される全体的なシークレットデータに関連して、シークレットチャネルの送信者によって、実際に転送されたシークレットデータの分数を最小化できる。 さらに,隠蔽チャネルに対する現在の分類を拡張して,履歴チャネルの分類方法を示す。 履歴隠蔽チャネルを実現できる複数のシナリオを記述し、これらのチャネルの特性を分析し、それらの構成をどのように最適化できるかを示す。

Covert channels are stealthy communication channels that enable manifold adversary and legitimate scenarios, ranging from stealthy malware communications to the exchange of confidential information by journalists. We present DYST, which represents a new class of covert channels we call history covert channels jointly with the new paradigm of covert channel amplification. All covert channels described until now need to craft seemingly legitimate flows or need to modify third-party flows, mimicking unsuspicious behavior. In contrast, history covert channels can communicate by pointing to unaltered legitimate traffic created by regular network nodes. Only a negligible fraction of the covert communication process requires the transfer of actual covert channel information by the covert channel's sender. This information can be sent through different protocols/channels. This allows an amplification of the covert channel's message size, i.e., minimizing the fraction of actually transferred secret data by a covert channel's sender in relation to the overall secret data being exchanged. Further, we extend the current taxonomy for covert channels to show how history channels can be categorized. We describe multiple scenarios in which history covert channels can be realized, analyze the characteristics of these channels, and show how their configuration can be optimized.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-10
# レスポンデントがこれ以上気にいらないとき:不注意応答の開始を識別する

When Respondents Don't Care Anymore: Identifying the Onset of Careless Responding ( http://arxiv.org/abs/2303.07167v2 )

ライセンス: Link先を確認
Max Welz, Andreas Alfons, (参考訳) 行動科学や組織科学のアンケートは長引く傾向にあり、数百項目からなる調査は例外ではなく標準である。 しかし、文献では、アンケートが長引くほど、参加者が関心を失い、不注意に反応し始める確率が高いことが示唆されている。 その結果、長期にわたる調査では、多くの参加者が不注意な反応をし、内部の妥当性に大きな脅威をもたらす可能性がある。 参加者毎に不注意応答(またはその欠如)の開始を識別する新しい手法を提案する。 これは、不整合や不変性などの不注意が現れる可能性のある複数の次元の複合的な測定に基づいている。 いずれの次元においても構造的破壊は不注意を示す可能性があるため, 提案手法は, 組み合わせた測定結果に沿った変化点の証拠を探索する。 非常に柔軟で、機械学習に基づいており、その性能に関する統計的保証を提供する。 調査結果から,不注意回答の頻度に関する基礎的な調査から得られたデータから,調査結果の一部に不注意であった回答者の存在により,報告された頻度が著しく過小評価されている可能性が示唆された。 シミュレーション実験において,提案手法は不注意の発症を正確に同定し,不注意と注意深い回答者の識別を良好に行い,不注意な回答者が多数いる場合でも,不注意な応答のタイプを多種多様に捉えていることがわかった。 さらに、我々は、アクセシビリティを高め、経験的研究者による採用を促進するために、無料で利用可能なオープンソースソフトウェアを提供している。

Questionnaires in the behavioral and organizational sciences tend to be lengthy: survey measures comprising hundreds of items are the norm rather than the exception. However, literature suggests that the longer a questionnaire takes, the higher the probability that participants lose interest and start responding carelessly. Consequently, in long surveys a large number of participants may engage in careless responding, posing a major threat to internal validity. We propose a novel method for identifying the onset of careless responding (or an absence thereof) for each participant. It is based on combined measurements of multiple dimensions in which carelessness may manifest, such as inconsistency and invariability. Since a structural break in either dimension is potentially indicative of carelessness, the proposed method searches for evidence for changepoints along the combined measurements. It is highly flexible, based on machine learning, and provides statistical guarantees on its performance. An empirical application on data from a seminal study on the incidence of careless responding reveals that the reported incidence has likely been substantially underestimated due to the presence of respondents that were careless for only parts of the questionnaire. In simulation experiments, we find that the proposed method achieves high reliability in correctly identifying carelessness onset, discriminates well between careless and attentive respondents, and captures a variety of careless response types, even when a large number of careless respondents are present. Furthermore, we provide freely available open source software to enhance accessibility and facilitate adoption by empirical researchers.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# 置換同期のための新しい最適スペクトル法

A Novel and Optimal Spectral Method for Permutation Synchronization ( http://arxiv.org/abs/2303.12051v2 )

ライセンス: Link先を確認
Duc Nguyen, Anderson Ye Zhang, (参考訳) 置換同期はコンピュータ科学において重要な問題であり、多くのコンピュータビジョンタスクの重要なステップを構成する。 目標は、雑音と不完全なペアワイズ測定から$n$潜在置換を回復することである。 近年、スペクトル法は、その単純さと計算効率により人気が高まっている。 スペクトル法では、データ行列の先頭の固有空間$U$とそのブロックサブマトリクス$U_1,U_2,\ldots,U_n$を用いて置換を回復する。 本稿では,新しい,統計的に最適なスペクトルアルゴリズムを提案する。 $\{U_jU_1^\top\}_{j\geq 2}$を使用する既存の方法とは異なり、我々の手法はすべてのブロックサブマトリクスから有用な情報を集約してアンカー行列$M$を構築し、$\{U_jM^\top\}_{j\geq 1}$を介して潜在置換を推定する。 この修正は、U_1$の繰り返し使用による既存のメソッドの重大な制限を克服し、数値性能が向上する。 提案手法の最適性を確立するため,細粒度スペクトル解析を行い,最小値と一致する急激な指数誤差を求める。

Permutation synchronization is an important problem in computer science that constitutes the key step of many computer vision tasks. The goal is to recover $n$ latent permutations from their noisy and incomplete pairwise measurements. In recent years, spectral methods have gained increasing popularity thanks to their simplicity and computational efficiency. Spectral methods utilize the leading eigenspace $U$ of the data matrix and its block submatrices $U_1,U_2,\ldots, U_n$ to recover the permutations. In this paper, we propose a novel and statistically optimal spectral algorithm. Unlike the existing methods which use $\{U_jU_1^\top\}_{j\geq 2}$, ours constructs an anchor matrix $M$ by aggregating useful information from all of the block submatrices and estimates the latent permutations through $\{U_jM^\top\}_{j\geq 1}$. This modification overcomes a crucial limitation of the existing methods caused by the repetitive use of $U_1$ and leads to an improved numerical performance. To establish the optimality of the proposed method, we carry out a fine-grained spectral analysis and obtain a sharp exponential error bound that matches the minimax rate.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# 統計的学習における適応ワッサースタイン分布ロバスト推定器

Adjusted Wasserstein Distributionally Robust Estimator in Statistical Learning ( http://arxiv.org/abs/2303.15579v3 )

ライセンス: Link先を確認
Yiling Xie, Xiaoming Huo, (参考訳) 本稿では,統計学習におけるWDRO(Wsserstein distributionally robust)推定器の非線形変換に基づく,調整されたWasserstein distributionally robust estimatorを提案する。 古典的なWDRO推定器は漸近的に偏りがあり、調整されたWDRO推定器は漸近的に偏りがなく、漸近的に平均二乗誤差が小さくなる。 さらに, ある条件下では, 提案手法は漸近偏差推定器を脱バイアスする一般的な原理を提供する。 具体的には、ロジスティック回帰、線形回帰、ポアソン回帰を含む一般化線形モデルにおいて、調整されたWDRO推定器がどのように開発されたかを検討する。 数値実験は、古典的な推定器よりも調整された推定器の実用的な性能を実証する。

We propose an adjusted Wasserstein distributionally robust estimator -- based on a nonlinear transformation of the Wasserstein distributionally robust (WDRO) estimator in statistical learning. The classic WDRO estimator is asymptotically biased, while our adjusted WDRO estimator is asymptotically unbiased, resulting in a smaller asymptotic mean squared error. Further, under certain conditions, our proposed adjustment technique provides a general principle to de-bias asymptotically biased estimators. Specifically, we will investigate how the adjusted WDRO estimator is developed in the generalized linear model, including logistic regression, linear regression, and Poisson regression. Numerical experiments demonstrate the favorable practical performance of the adjusted estimator over the classic one.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# Phylo2Vec:バイナリツリーのベクトル表現

Phylo2Vec: a vector representation for binary trees ( http://arxiv.org/abs/2304.12693v3 )

ライセンス: Link先を確認
Matthew J Penn, Neil Scheidwasser, Mark P Khurana, David A Duchêne, Christl A Donnelly, Samir Bhatt, (参考訳) 生物学的データから推定される2つの系統樹は、進化単位間の共有の歴史を理解する中心である。 しかし、木内の潜伏ノードの配置を推定することはNPハードであり、計算コストがかかる。 最先端の手法は、木探索のために慎重に設計されたヒューリスティックに依存している。 これらのメソッドは、さまざまなデータ構造を使用して、容易に操作できる(オブジェクト指向プログラミング言語のクラスなど)。 本稿では,系統樹を操作および表現するための統一的なアプローチとして機能する系統樹の相同的エンコーディングであるPhylo2Vecを紹介する。 Phylo2Vecは、$n$の葉を持つ任意の二分木を長さ$n-1$のユニークな整数ベクトルにマッピングする。 Phylo2Vecの利点は4つある。 一 速い樹木の採集 (ii)ニューミック文字列と比較して圧縮木表現 三 二つの二分木が位相的に同一であるときの迅速かつ曖昧な検証及び iv) 非常に大きな又は小さなジャンプで木の空間を横断する体系的な能力。 概念実証として,Phylo2Vecを実世界の5つのデータセットの最大推定に使用し,単純なヒルクライミングに基づく最適化スキームがランダムから最適木へのツリー空間の広さを効率的にトラバース可能であることを示す。

Binary phylogenetic trees inferred from biological data are central to understanding the shared history among evolutionary units. However, inferring the placement of latent nodes in a tree is NP-hard and thus computationally expensive. State-of-the-art methods rely on carefully designed heuristics for tree search. These methods use different data structures for easy manipulation (e.g., classes in object-oriented programming languages) and readable representation of trees (e.g., Newick-format strings). Here, we present Phylo2Vec, a parsimonious encoding for phylogenetic trees that serves as a unified approach for both manipulating and representing phylogenetic trees. Phylo2Vec maps any binary tree with $n$ leaves to a unique integer vector of length $n-1$. The advantages of Phylo2Vec are fourfold: i) fast tree sampling, (ii) compressed tree representation compared to a Newick string, iii) quick and unambiguous verification if two binary trees are identical topologically, and iv) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill-climbing-based optimisation scheme can efficiently traverse the vastness of tree space from a random to an optimal tree.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# 高次元におけるKochen-Specker文脈集合の生成 : 次元にスケールしない次元アップスケーリングとその応用

Generation of Kochen-Specker contextual sets in higher dimensions by dimensional upscaling whose complexity does not scale with dimension and their applications ( http://arxiv.org/abs/2305.08267v2 )

ライセンス: Link先を確認
Mladen Pavicic, Mordecai Waegell, (参考訳) 近年、文脈集合、特にKochen-Specker (KS) 集合の高次元での取り扱いは、理論的にも実験的にも、ますます注目されている。 しかし、それらの生成法は多様であり、一般にすべての次元や指数複雑性に当てはまらない。 そこで我々は,次元を拡大しない次元アップスケーリング法を設計する。 原理の証明として、最大27次元空間で管理可能なサイズのKSマスター集合を生成し、32次元以上に達することを示す。 これらのマスター集合から、より小さなKS集合の総数を得る。 より高次元のKS集合を扱う3種類の応用について論じる。 我々は、非同型 KS 集合の大きな族を利用する量子情報処理における KS 集合の他の応用を予想する。

Recently, handling of contextual sets, in particular Kochen-Specker (KS) sets, in higher dimensions has been given an increasing attention, both theoretically and experimentally. However, methods of their generation are diverse, not generally applicable in every dimension, and of exponential complexity. Therefore, we design a dimensional upscaling method, whose complexity does not scale with dimension. As a proof of principle we generate manageable-sized KS master sets in up to 27 dimensional spaces and show that well over 32 dimensions can be reached. From these master sets we obtain an ample number of smaller KS sets. We discuss three kinds of applications that work with KS sets in higher dimensions. We anticipate other applications of KS sets for quantum information processing that make use of large families of nonisomorphic KS sets.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# CL-MRI : 自己監督型コントラスト学習によるアンダーサンプルMRIの精度向上

CL-MRI: Self-Supervised Contrastive Learning to Improve the Accuracy of Undersampled MRI Reconstruction ( http://arxiv.org/abs/2306.00530v2 )

ライセンス: Link先を確認
Mevan Ekanayake, Zhifeng Chen, Mehrtash Harandi, Gary Egan, Zhaolin Chen, (参考訳) 磁気共鳴イメージング(MRI)では、画像の取得は、画像の品質を犠牲にしてスキャンプロセスを加速するために、測定領域でアンサンプされることが多い。 しかし, 画像品質は診断精度に影響を与える重要な要因であり, アンサンプ測定による高画質画像再構成が重要な研究領域となっている。 近年、深層学習(DL)法がMRI再建の最先端として登場し、一般的には深層ニューラルネットワークが、アンサンプされたMRI画像をデータ駆動プロセスを通じて高品質なMRI画像に変換する。 それにもかかわらず, 診断に必要な高基準を満たすため, 画像ノイズを除去し, DLMRIのアンサンプ化を改善するための明確な, 重要な余地がある。 本稿では, コントラスト学習を用いた自己教師型事前訓練手法を導入し, DLMRI再構成の精度を向上する。 我々は、コントラスト学習を用いて、MRI画像表現を潜時空間に変換し、異なるアンサンプ表現間の相互情報を最大化し、下流DL再構成モデルの入力における情報内容の最適化を行う。 本実験は, 定量的かつ定性的に, 様々な加速度因子およびデータセットの再構成精度を向上することを示した。 さらに, 計測ノイズ, 異なるk空間サンプリングパターン, 病理異常などの逆向き条件下でのフレームワークの頑健性を検証するとともに, 解剖学的に全く異なるMRIデータセット上での移動学習能力を検証した。 さらに,提案したMRIの相対学習潜在空間の特性を可視化し,解析する実験を行った。

In Magnetic Resonance Imaging (MRI), image acquisitions are often undersampled in the measurement domain to accelerate the scanning process, at the expense of image quality. However, image quality is a crucial factor that influences the accuracy of clinical diagnosis; hence, high-quality image reconstruction from undersampled measurements has been a key area of research. Recently, deep learning (DL) methods have emerged as the state-of-the-art for MRI reconstruction, typically involving deep neural networks to transform undersampled MRI images into high-quality MRI images through data-driven processes. Nevertheless, there is clear and significant room for improvement in undersampled DL MRI reconstruction to meet the high standards required for clinical diagnosis, in terms of eliminating aliasing artifacts and reducing image noise. In this paper, we introduce a self-supervised pretraining procedure using contrastive learning to improve the accuracy of undersampled DL MRI reconstruction. We use contrastive learning to transform the MRI image representations into a latent space that maximizes mutual information among different undersampled representations and optimizes the information content at the input of the downstream DL reconstruction models. Our experiments demonstrate improved reconstruction accuracy across a range of acceleration factors and datasets, both quantitatively and qualitatively. Furthermore, our extended experiments validate the proposed framework's robustness under adversarial conditions, such as measurement noise, different k-space sampling patterns, and pathological abnormalities, and also prove the transfer learning capabilities on MRI datasets with completely different anatomy. Additionally, we conducted experiments to visualize and analyze the properties of the proposed MRI contrastive learning latent space.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# 自己監督型コントラスト学習における動的スケール温度

Dynamically Scaled Temperature in Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2308.01140v2 )

ライセンス: Link先を確認
Siladittya Manna, Soumitri Chattopadhyay, Rakesh Dey, Saumik Bhattacharya, Umapada Pal, (参考訳) SimCLRやMoCoなどの現代の自己監督型コントラストアルゴリズムでは、2つの意味論的に類似したサンプル間のアトラクションのバランスと、異なるクラスの2つのサンプル間の反発は、主にハードネガティブなサンプルの存在によって影響を受ける。 InfoNCEの損失は、硬度に基づいて罰則を課すことが示されているが、温度ハイパーパラメータは、罰則を規制する鍵であり、均一性と寛容の間のトレードオフである。 本研究では,特徴空間におけるサンプルの分布を効果的に最適化するために,コサイン類似性に依存した温度スケーリング関数を提案することで,自己教師型学習におけるInfoNCE損失の改善に焦点をあてる。 また,このような動的スケール温度関数の構築を支援する数学的解析も提供する。 実験的な証拠は、提案フレームワークが損失ベースのSSLアルゴリズムよりも優れていることを示している。

In contemporary self-supervised contrastive algorithms like SimCLR, MoCo, etc., the task of balancing attraction between two semantically similar samples and repulsion between two samples of different classes is primarily affected by the presence of hard negative samples. While the InfoNCE loss has been shown to impose penalties based on hardness, the temperature hyper-parameter is the key to regulating the penalties and the trade-off between uniformity and tolerance. In this work, we focus our attention on improving the performance of InfoNCE loss in self-supervised learning by proposing a novel cosine similarity dependent temperature scaling function to effectively optimize the distribution of the samples in the feature space. We also provide mathematical analyses to support the construction of such a dynamically scaled temperature function. Experimental evidence shows that the proposed framework outperforms the contrastive loss-based SSL algorithms.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# ディープラーニングの校正:現状調査

Calibration in Deep Learning: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2308.01222v3 )

ライセンス: Link先を確認
Cheng Wang, (参考訳) ディープニューラルネットワークのキャリブレーションは、安全クリティカルなアプリケーションにおいて、信頼性が高く堅牢なAIシステムを構築する上で重要な役割を果たす。 近年の研究では、予測能力の高い現代のニューラルネットワークは、キャリブレーションが不十分であり、信頼性の低いモデル予測を生成することが示されている。 深層学習モデルは様々なベンチマークで顕著な性能を発揮するが、モデルの校正と信頼性の研究は比較的過小評価されている。 理想的なディープモデルは高い予測性能を持つだけでなく、十分なキャリブレーションも必要である。 深層モデルの校正における最近の進歩がいくつかある。 本調査では,モデルキャリブレーションを行うための最先端のキャリブレーション手法とその原理について概説する。 まず、モデルの校正の定義から始め、モデルの誤校正の根本原因を説明します。 そして、この側面を計測できる重要な指標を紹介します。 次に、大まかに分類したキャリブレーション法を、ポストホックキャリブレーション、正規化法、不確実性推定、合成法という4つのカテゴリに分類した。 また、大規模モデルの校正、特に大規模言語モデル(LLM)の最近の進歩についても取り上げる。 最後に、いくつかのオープンな問題、課題、潜在的な方向性について議論する。

Calibrating deep neural models plays an important role in building reliable, robust AI systems in safety-critical applications. Recent work has shown that modern neural networks that possess high predictive capability are poorly calibrated and produce unreliable model predictions. Though deep learning models achieve remarkable performance on various benchmarks, the study of model calibration and reliability is relatively underexplored. Ideal deep models should have not only high predictive performance but also be well calibrated. There have been some recent advances in calibrating deep models. In this survey, we review the state-of-the-art calibration methods and their principles for performing model calibration. First, we start with the definition of model calibration and explain the root causes of model miscalibration. Then we introduce the key metrics that can measure this aspect. It is followed by a summary of calibration methods that we roughly classify into four categories: post-hoc calibration, regularization methods, uncertainty estimation, and composition methods. We also cover recent advancements in calibrating large models, particularly large language models (LLMs). Finally, we discuss some open issues, challenges, and potential directions.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# 正当性と最適性:正規表現推論問題

Correct and Optimal: the Regular Expression Inference Challenge ( http://arxiv.org/abs/2308.07899v2 )

ライセンス: Link先を確認
Mojtaba Valizadeh, Philip John Gorinski, Ignacio Iacobacci, Martin Berger, (参考訳) コード/言語モデリングの課題として正規表現推論(REI)を提案する。 REIは教師付き機械学習(ML)およびプログラム最適化タスクであり、例から最小限の正規表現を見つける問題を引き起こす:$P$と$N$の文字列の有限セットとコスト関数$ Cost(\cdot)$が与えられたとき、そのタスクは$P$の全文字列を受け付け、$N$のすべての文字列を拒否する式$r$を生成する。 REIには、課題としてのアドバンテージがあります。 (i)正規表現は、よく知られ、広く使用され、コードの自然な理想化である。 (II)REIの漸近的最悪のケースの複雑さはよく理解されています。 (iii)REIには、容易に理解できるパラメータ(例えば$P$や$N$の濃度、例の文字列長、コスト関数)がいくつかあります。 (4)REIは、最適化に重点を置いており、ディープラーニングベースのMLでは未解決の問題である。 近年,プログラム合成技術を用いたREIソルバがGPU上に実装されている。 これにより、複雑なREIインスタンスに対して、最小限の正規表現を高速に生成できるようになった。 この進歩に基づいて、最初の大規模なREIデータセットを生成し、公開し、いくつかの初期ヒューリスティックおよび機械学習ベースラインを考案し、評価する。 私たちはコミュニティに、REI問題を解決するためのMLメソッドの参加と探索を依頼します。 私たちはREIの進歩が直接コード/言語モデリングの進歩に繋がると信じています。

We propose regular expression inference (REI) as a challenge for code/language modelling, and the wider machine learning community. REI is a supervised machine learning (ML) and program optimisation task, and poses the problem of finding minimal regular expressions from examples: Given two finite sets of strings $P$ and $N$ and a cost function $cost(\cdot)$, the task is to generate an expression $r$ that accepts all strings in $P$ and rejects all strings in $N$, while no other such expression $r'$ exists with $cost(r')<cost(r)$. REI has advantages as a challenge problem: (i) regular expressions are well-known, widely used, and a natural idealisation of code; (ii) REI's asymptotic worst-case complexity is well understood; (iii) REI has a small number of easy to understand parameters (e.g. $P$ or $N$ cardinality, string lengths of examples, or the cost function); this lets us easily finetune REI-hardness; (iv) REI, with its emphasis on optimisation, is an unsolved problem for deep learning based ML. Recently, an REI solver was implemented on GPUs, using program synthesis techniques. This enabled, for the first time, fast generation of minimal regular expressions for complex REI instances. Building on this advance, we generate and publish the first large-scale datasets for REI, and devise and evaluate several initial heuristic and machine learning baselines. We invite the community to participate and explore ML methods that learn to solve REI problems. We believe that progress in REI directly translates to progress in code/language modelling.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-10
# 決定図を用いた量子回路の前方・後方拘束バイシミュレーション

Forward and Backward Constrained Bisimulations for Quantum Circuits using Decision Diagrams ( http://arxiv.org/abs/2308.09510v6 )

ライセンス: Link先を確認
Lukas Burgholzer, Antonio Jiménez-Pastor, Kim G. Larsen, Mirco Tribastone, Max Tschaikowski, Robert Wille, (参考訳) 量子回路を量子コンピュータでシミュレーションする効率的な手法は、量子ビット数で問題の大きさが指数関数的に大きくなるため、解析に不可欠である。 ここでは、マルコフ連鎖や常微分方程式のような(古典的)確率的および決定論的システムにおいて、確立された手法の確立されたクラスであるバイシミュレーションに基づくラッピング法について検討する。 フォワード制約ビシミュレーション(Forward constrained bisimulation)は、関心の線形部分空間上に投影される量子計測を正確に保存する低次元モデルである。 後方制約ビシミュレーションは、回路入力を含む部分空間で有効である還元を与え、そこから回路結果を完全に復元することができる。 この2つの概念に関する双対性の結果を用いて、両ケースで最も粗い還元をもたらす制約ビシミュレーションを計算するアルゴリズムを提案する。 応用として、探索、最適化、分解のためのよく知られた量子アルゴリズムに対して、還元状態空間のサイズに関する理論的境界を提供する。 プロトタイプ実装を用いて,ベンチマークのセットに対する大幅な削減を報告した。 特に, 制約バイシミュレーションにより, 決定図に基づく量子回路シミュレーションを桁違いに高速化し, 実質的な相乗効果が得られることを示す。

Efficient methods for the simulation of quantum circuits on classic computers are crucial for their analysis due to the exponential growth of the problem size with the number of qubits. Here we study lumping methods based on bisimulation, an established class of techniques that has been proven successful for (classic) stochastic and deterministic systems such as Markov chains and ordinary differential equations. Forward constrained bisimulation yields a lower-dimensional model which exactly preserves quantum measurements projected on a linear subspace of interest. Backward constrained bisimulation gives a reduction that is valid on a subspace containing the circuit input, from which the circuit result can be fully recovered. We provide an algorithm to compute the constraint bisimulations yielding coarsest reductions in both cases, using a duality result relating the two notions. As applications, we provide theoretical bounds on the size of the reduced state space for well-known quantum algorithms for search, optimization, and factorization. Using a prototype implementation, we report significant reductions on a set of benchmarks. In particular, we show that constrained bisimulation can boost decision-diagram-based quantum circuit simulation by several orders of magnitude, allowing thus for substantial synergy effects.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# PoseGraphNet++: オリエンテーション推定による3Dヒューマンポース強化

PoseGraphNet++: Enriching 3D Human Pose with Orientation Estimation ( http://arxiv.org/abs/2308.11440v2 )

ライセンス: Link先を確認
Soubarna Banik, Edvard Avagyan, Sayantan Auddy, Alejandro Mendoza Gracia, Alois Knoll, (参考訳) 既存の骨格に基づく人間のポーズ推定法は関節位置のみを予測する。 骨回転のヨーとピッチは関節の位置から導かれるが、骨軸周りのロールは未解決のままである。 In this present PoseGraphNet++, a novel 2D-to-3D lifting Graph Convolution Network that predicts the complete human pose in 3D including joint position and bone orientations。 関節と骨の特徴を利用するために,結節と縁の畳み込みを併用する。 位置と回転の計測値を用いて,複数のデータセットからモデルを評価する。 PGN++はHuman3.6Mベンチマークの最先端(SoA)と同等に動作する。 一般化実験では、SoAの位置と向きを一致させ、現在のSoAよりもバランスの取れた性能を示す。 PGN++は関節と骨の相互関係を利用して,Ablationの結果に示すように,SB{improved>位置予測を著しく向上させる。

Existing skeleton-based 3D human pose estimation methods only predict joint positions. Although the yaw and pitch of bone rotations can be derived from joint positions, the roll around the bone axis remains unresolved. We present PoseGraphNet++ (PGN++), a novel 2D-to-3D lifting Graph Convolution Network that predicts the complete human pose in 3D including joint positions and bone orientations. We employ both node and edge convolutions to utilize the joint and bone features. Our model is evaluated on multiple datasets using both position and rotation metrics. PGN++ performs on par with the state-of-the-art (SoA) on the Human3.6M benchmark. In generalization experiments, it achieves the best results in position and matches the SoA in orientation, showcasing a more balanced performance than the current SoA. PGN++ exploits the mutual relationship of joints and bones resulting in significantly \SB{improved} position predictions, as shown by our ablation results.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# ドメイン一般化のためのマルチスケール・マルチ層コントラスト学習

Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization ( http://arxiv.org/abs/2308.14418v5 )

ライセンス: Link先を確認
Aristotelis Ballas, Christos Diou, (参考訳) 過去10年間、ディープニューラルネットワークは、学界と産業の両方において、コンピュータビジョンの問題において、急速な進歩と重要な成果をもたらしてきた。 しかし、その成功にもかかわらず、最先端の画像分類アプローチは、多くの現実世界のアプリケーションで要求されるように、これまで見えなかった視覚的コンテキストにおいて、うまく一般化できない。 本稿では,この領域一般化(DG)問題に着目し,ネットワークの多層およびマルチスケール表現を活用することにより,深層畳み込みニューラルネットワークの一般化能力を向上させることができると論じる。 本稿では,低レベルの特徴と高レベルの特徴を複数スケールで組み合わせることで,画像分類器の領域一般化の実現を目的としたフレームワークを提案する。 さらに,ロバストな表現学習をさらに促進するために,抽出した表現を分散シフトの下で不変のままに抑えることを目的とした,コントラスト学習にインスパイアされた新たな目的関数を提案する。 PACS, VLCS, Office-Home, NICOの領域一般化データセットを用いて, 本手法の有効性を実証する。 広範な実験を通して、我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。

During the past decade, deep neural networks have led to fast-paced progress and significant achievements in computer vision problems, for both academia and industry. Yet despite their success, state-of-the-art image classification approaches fail to generalize well in previously unseen visual contexts, as required by many real-world applications. In this paper, we focus on this domain generalization (DG) problem and argue that the generalization ability of deep convolutional neural networks can be improved by taking advantage of multi-layer and multi-scaled representations of the network. We introduce a framework that aims at improving domain generalization of image classifiers by combining both low-level and high-level features at multiple scales, enabling the network to implicitly disentangle representations in its latent space and learn domain-invariant attributes of the depicted objects. Additionally, to further facilitate robust representation learning, we propose a novel objective function, inspired by contrastive learning, which aims at constraining the extracted representations to remain invariant under distribution shifts. We demonstrate the effectiveness of our method by evaluating on the domain generalization datasets of PACS, VLCS, Office-Home and NICO. Through extensive experimentation, we show that our model is able to surpass the performance of previous DG methods and consistently produce competitive and state-of-the-art results in all datasets
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# 適応型クルーズ制御系のパラメータ学習のための物理インスピレーションニューラルネットワーク

Physics-inspired Neural Networks for Parameter Learning of Adaptive Cruise Control Systems ( http://arxiv.org/abs/2309.01211v2 )

ライセンス: Link先を確認
Theocharis Apostolakis, Konstantinos Ampountolas, (参考訳) 本稿では,自動車産業におけるアクセプティブ・クルーズ・コントロール(ACC)システムのパラメータを学習するための物理インスパイアされたニューラルネットワーク(PiNN)を提案し,開発する。 プロプライエタリな制御ロジックと未開示パラメータを持つストックACCシステムのコア機能をエミュレートするために、CTHP(Constant Time-headway Policy)を採用する。 多層人工ニューラルネットワークを普遍近似器として活用し、開発したPiNNはACC搭載車両の縦方向ダイナミクスの代理モデルとして機能し、CTHPの未知のパラメータを効率的に学習する。 PiNNは、物理法則を直接学習プロセスに統合することを可能にする。 PNNが未知のACCパラメータを推測する能力は、小隊形成におけるACC導入車両の空間ギャップと相対速度の合成データと高忠実な実験データの両方を用いて慎重に評価される。 この結果は、異なる自動車メーカーのストックACCシステムの未知の設計パラメータを学習する上で、提案するPiNNの優れた予測能力を示している。 PNNから得られたACCモデルパラメータの集合は、3つの実験キャンペーンで検討された車両のACC系が$\mathcal{L}_2$でも$\mathcal{L}_\infty$strongでも安定でもないことを明らかにした。

This paper proposes and develops a physics-inspired neural network (PiNN) for learning the parameters of commercially implemented adaptive cruise control (ACC) systems in automotive industry. To emulate the core functionality of stock ACC systems, which have proprietary control logic and undisclosed parameters, the constant time-headway policy (CTHP) is adopted. Leveraging the multi-layer artificial neural networks as universal approximators, the developed PiNN serves as a surrogate model for the longitudinal dynamics of ACC-engaged vehicles, efficiently learning the unknown parameters of the CTHP. The PiNNs allow the integration of physical laws directly into the learning process. The ability of the PiNN to infer the unknown ACC parameters is meticulously assessed using both synthetic and high-fidelity empirical data of space-gap and relative velocity involving ACC-engaged vehicles in platoon formation. The results have demonstrated the superior predictive ability of the proposed PiNN in learning the unknown design parameters of stock ACC systems from different car manufacturers. The set of ACC model parameters obtained from the PiNN revealed that the stock ACC systems of the considered vehicles in three experimental campaigns are neither $\mathcal{L}_2$ nor $\mathcal{L}_\infty$ string stable.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# CaveSeg:自律型水中洞窟探査のための深部セマンティックセグメンテーションとシーンパーシング

CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration ( http://arxiv.org/abs/2309.11038v6 )

ライセンス: Link先を確認
A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis, (参考訳) 本稿では,水中洞窟におけるAUVナビゲーションのためのセマンティックセグメンテーションとシーン解析のための最初のビジュアル学習パイプラインであるCaveSegを紹介する。 水中洞窟シーンのセマンティックセマンティックセグメンテーションのための包括的データセットを作成し,注釈付きトレーニングデータの不足に対処する。 重要なナビゲーションマーカー(例えば洞窟線、矢印)、障害物(例えば地上平面と頭上層)、スキューバダイバー、サーボのためのオープンエリアのためのピクセルアノテーションが含まれている。 米国、メキシコ、スペインの洞窟システムに関する総合的なベンチマーク分析を通じて、水中洞窟環境の高速なセマンティック・シーン解析のために、CaveSegに基づく堅牢な深部視覚モデルを開発することができることを示した。 特に,計算的に軽量で,リアルタイムに近い実行が可能なトランスフォーマーモデルを構築し,最先端性能を実現する。 最後に,水中洞窟内におけるAUVによる視覚サーボのためのセマンティックセグメンテーションの設計選択と意義について検討する。 提案されたモデルとベンチマークデータセットは、自律型水中洞窟探査とマッピングにおける将来の研究の有望な機会を開く。

In this paper, we present CaveSeg - the first visual learning pipeline for semantic segmentation and scene parsing for AUV navigation inside underwater caves. We address the problem of scarce annotated training data by preparing a comprehensive dataset for semantic segmentation of underwater cave scenes. It contains pixel annotations for important navigation markers (e.g. caveline, arrows), obstacles (e.g. ground plane and overhead layers), scuba divers, and open areas for servoing. Through comprehensive benchmark analyses on cave systems in USA, Mexico, and Spain locations, we demonstrate that robust deep visual models can be developed based on CaveSeg for fast semantic scene parsing of underwater cave environments. In particular, we formulate a novel transformer-based model that is computationally light and offers near real-time execution in addition to achieving state-of-the-art performance. Finally, we explore the design choices and implications of semantic segmentation for visual servoing by AUVs inside underwater caves. The proposed model and benchmark dataset open up promising opportunities for future research in autonomous underwater cave exploration and mapping.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# 十分かつ必要な原因の確率による不変学習

Invariant Learning via Probability of Sufficient and Necessary Causes ( http://arxiv.org/abs/2309.12559v5 )

ライセンス: Link先を確認
Mengyue Yang, Zhen Fang, Yonggang Zhang, Yali Du, Furui Liu, Jean-Francois Ton, Jianhong Wang, Jun Wang, (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、一般にテスト分布が未知であり、トレーニングとは異なる、野生のモデルの学習には不可欠である。 因果関係から導かれる最近の手法は、OODの一般化を実現する大きな可能性を示している。 しかし、既存の方法は主に原因の不変性に焦点を合わせ、主に \textit{sufficiency} と \textit{necessity} の条件の性質を見下ろしている。 すなわち、必要だが不十分な原因(機能)は分布シフトに不変であるが、精度は必要ではないかもしれない。 対照的に、十分な不必要な原因(機能)は特定のデータによく適合する傾向があるが、新しいドメインに適応するリスクがある。 十分かつ必要な原因に関する情報を収集するために、我々は、必要かつ十分な原因であるかどうかを示す古典的な概念、充足確率と必要原因(PNS)を用いる。 PNS と OOD の一般化を関連付けるために,我々は PNS リスクを提案し,高い PNS 値で表現を学習するアルゴリズムを定式化する。 理論的には, PNSリスクの一般化可能性を分析し, 証明する。 合成および実世界のベンチマーク実験により,提案手法の有効性が示された。 実装の詳細はGitHubリポジトリで確認できる。

Out-of-distribution (OOD) generalization is indispensable for learning models in the wild, where testing distribution typically unknown and different from the training. Recent methods derived from causality have shown great potential in achieving OOD generalization. However, existing methods mainly focus on the invariance property of causes, while largely overlooking the property of \textit{sufficiency} and \textit{necessity} conditions. Namely, a necessary but insufficient cause (feature) is invariant to distribution shift, yet it may not have required accuracy. By contrast, a sufficient yet unnecessary cause (feature) tends to fit specific data well but may have a risk of adapting to a new domain. To capture the information of sufficient and necessary causes, we employ a classical concept, the probability of sufficiency and necessary causes (PNS), which indicates the probability of whether one is the necessary and sufficient cause. To associate PNS with OOD generalization, we propose PNS risk and formulate an algorithm to learn representation with a high PNS value. We theoretically analyze and prove the generalizability of the PNS risk. Experiments on both synthetic and real-world benchmarks demonstrate the effectiveness of the proposed method. The details of the implementation can be found at the GitHub repository: https://github.com/ymy4323460/CaSN.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# 大規模言語モデルによるユーザインテント分類の生成、検証、適用

Using Large Language Models to Generate, Validate, and Apply User Intent Taxonomies ( http://arxiv.org/abs/2309.13063v3 )

ライセンス: Link先を確認
Chirag Shah, Ryen W. White, Reid Andersen, Georg Buscher, Scott Counts, Sarkar Snigdha Sarathi Das, Ali Montazer, Sathish Manivannan, Jennifer Neville, Xiaochuan Ni, Nagu Rangan, Tara Safavi, Siddharth Suri, Mengting Wan, Leijie Wang, Longqi Yang, (参考訳) ログデータは、ユーザーがWeb検索サービスとどのようにやりとりするか、何を望んでいるか、そしてどれだけ満足しているかに関する貴重な情報を明らかにすることができる。 しかし、特にAI駆動チャットのような新しい形式のWeb検索では、ログデータにおけるユーザの意図を分析することは容易ではない。 ログデータからユーザの意図を理解するためには、それらの多様性とダイナミクスをキャプチャする意味のあるカテゴリをラベル付けする方法が必要です。 既存の手法は手動または機械学習によるラベリングに依存しており、大規模でダイナミックなデータセットには高価か柔軟性がない。 本稿では,ユーザ意図に対するリッチで関連する概念や記述,例を生成可能な,大規模言語モデル(LLM)を用いた新しいソリューションを提案する。 しかし,LSMを用いてユーザ意図の分類を作成し,ログ解析に適用することは,(1)分類が外部に検証されていないこと,(2)望ましくないフィードバックループが存在すること,の2つの主な理由から問題となる。 そこで本研究では,LLMによる分類の質を検証するため,人間の専門家と評価者による新たな方法論を提案する。 また,LLMとHuman-in-the-loopを併用したエンド・ツー・エンドのパイプラインを用いて,ログデータにおけるユーザ意図分析のためのラベルの生成,洗練,適用を行う。 我々は,Microsoft Bingの商用検索エンジンからの検索とチャットログから,ユーザ意図に対する新たな洞察を明らかにすることで,その効果を実証する。 提案手法の新規性は、目的駆動型ユーザ意図分類を強力な検証で生成する方法に起因している。 この方法は、意図的な研究から方法論的および実践的なボトルネックを取り除くのに役立つだけでなく、合理的な人間の努力でスケーラブルで適応可能な方法で他の種類の分類を生成、検証、適用するための新しい枠組みを提供する。

Log data can reveal valuable information about how users interact with Web search services, what they want, and how satisfied they are. However, analyzing user intents in log data is not easy, especially for emerging forms of Web search such as AI-driven chat. To understand user intents from log data, we need a way to label them with meaningful categories that capture their diversity and dynamics. Existing methods rely on manual or machine-learned labeling, which are either expensive or inflexible for large and dynamic datasets. We propose a novel solution using large language models (LLMs), which can generate rich and relevant concepts, descriptions, and examples for user intents. However, using LLMs to generate a user intent taxonomy and apply it for log analysis can be problematic for two main reasons: (1) such a taxonomy is not externally validated; and (2) there may be an undesirable feedback loop. To address this, we propose a new methodology with human experts and assessors to verify the quality of the LLM-generated taxonomy. We also present an end-to-end pipeline that uses an LLM with human-in-the-loop to produce, refine, and apply labels for user intent analysis in log data. We demonstrate its effectiveness by uncovering new insights into user intents from search and chat logs from the Microsoft Bing commercial search engine. The proposed work's novelty stems from the method for generating purpose-driven user intent taxonomies with strong validation. This method not only helps remove methodological and practical bottlenecks from intent-focused research, but also provides a new framework for generating, validating, and applying other kinds of taxonomies in a scalable and adaptable way with reasonable human effort.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# SAMから学ぶ: 正規化によるSim2Real適応の基礎モデル

Learning from SAM: Harnessing a Foundation Model for Sim2Real Adaptation by Regularization ( http://arxiv.org/abs/2309.15562v3 )

ライセンス: Link先を確認
Mayara E. Bonani, Max Schwarz, Sven Behnke, (参考訳) ドメイン適応は特にロボティクスアプリケーションにおいて重要であり、ターゲットとなるドメイントレーニングデータは通常不足しており、アノテーションは入手するのにコストがかかる。 本稿では、アノテートされたソースドメインデータ(例えば、合成生成)が利用可能であるが、対象ドメインデータは、完全にアノテートされていないシナリオに対する自己教師型ドメイン適応手法を提案する。 本手法は意味的セグメンテーションタスクを対象とし,セグメンテーション基盤モデル(セグメンテーション任意のモデル)を用いて無注釈データのセグメンテーション情報を取得する。 我々は,非教師付き局所特徴学習の最近の進歩から着想を得て,対象領域における特徴表現を正規化するための検出セグメント上の不変分散損失を提案する。 重要なのは、この損失構造とネットワークアーキテクチャは、Segment Anythingが生成した重複セグメントとオーバーセグメンテーションを扱うことができる。 提案手法は,YCB-Video と HomebrewedDB のデータセットに対して有効であり,実際のアノテーションでトレーニングしたネットワークであっても,先行作業や YCB-Video よりも優れていることを示す。 さらに、モデルアブレーションによる洞察を提供し、カスタムロボットアプリケーションへの適用性を示す。

Domain adaptation is especially important for robotics applications, where target domain training data is usually scarce and annotations are costly to obtain. We present a method for self-supervised domain adaptation for the scenario where annotated source domain data (e.g. from synthetic generation) is available, but the target domain data is completely unannotated. Our method targets the semantic segmentation task and leverages a segmentation foundation model (Segment Anything Model) to obtain segment information on unannotated data. We take inspiration from recent advances in unsupervised local feature learning and propose an invariance-variance loss over the detected segments for regularizing feature representations in the target domain. Crucially, this loss structure and network architecture can handle overlapping segments and oversegmentation as produced by Segment Anything. We demonstrate the advantage of our method on the challenging YCB-Video and HomebrewedDB datasets and show that it outperforms prior work and, on YCB-Video, even a network trained with real annotations. Additionally, we provide insight through model ablations and show applicability to a custom robotic application.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# レイヤーコード

Layer Codes ( http://arxiv.org/abs/2309.16503v2 )

ライセンス: Link先を確認
Dominic J. Williamson, Nouédyn Baspin, (参考訳) 曲面符号は、2次元局所性の制約の下で、物理量子ビットの数と最適にスケールする符号パラメータを持つ2次元トポロジー符号である。 3次元では、類似の単純かつ最適なコードは以前は知られていなかった。 本稿では,安定化器符号を入力として,関連する符号パラメータを持つ3次元トポロジー符号を出力として生成する構成を提案する。 出力符号は1次元接合に沿って結合された表面コードの層によって形成されるトポロジカル欠陥ネットワークであり、最大安定化器チェックウェイトは6である。 入力が良好な低密度パリティチェック符号の族である場合、出力は最適なスケーリングコードパラメータと多項式エネルギー障壁を持つ3次元トポロジー符号である。

The surface code is a two-dimensional topological code with code parameters that scale optimally with the number of physical qubits, under the constraint of two-dimensional locality. In three spatial dimensions an analogous simple yet optimal code was not previously known. Here, we introduce a construction that takes as input a stabilizer code and produces as output a three-dimensional topological code with related code parameters. The output codes have the special structure of being topological defect networks formed by layers of surface code joined along one-dimensional junctions, with a maximum stabilizer check weight of six. When the input is a family of good low-density parity-check codes, the output is a three-dimensional topological code with optimal scaling code parameters and a polynomial energy barrier.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-10
# 近接場におけるメッシュ回復のためのマルチモーダルアクティブ計測

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity ( http://arxiv.org/abs/2310.08116v2 )

ライセンス: Link先を確認
Takahiro Maeda, Keisuke Takeshita, Kazuhito Tanaka, (参考訳) 物理的人間-ロボット相互作用(pHRI)では、ロボットは対象者の正確な身体姿勢を推定する必要がある。 しかし、これらのpHRIシナリオでは、対象者が物理的相互作用のためにロボットの近くにいなければならないため、搭載カメラで対象者の身体を完全に観察することはできない。 この近さは重度の乱れと閉塞をもたらし、結果として人間のポーズ推定の精度が低下する。 そこで本研究では,2次元LiDARなどのタッチ・レンジセンサを備えたカメラのアクティブな計測・センサ融合フレームワークを提案する。 触覚と測位センサーの計測は少ないが、人体部分の局所化には信頼性があり、有益な方法である。 アクティブな計測プロセスでは、カメラの視点とセンサーの配置を動的に最適化し、高い推定不確かさで身体部分を測定する。 センサ融合過程において, センサの計測値がカメラによる推定値よりも信頼性が高いことを前提として, 推定されたポーズを計測点に向けて整列させることにより, センサ計測値をカメラによる推定ポーズに融合させる。 提案手法は, 模擬能動測定を用いた標準閉塞ベンチマークにおいて, 従来手法よりも優れた性能を示した。 さらに,本手法は,毛布による閉塞などの実用的制約があっても,実際のロボットを用いて人間のポーズを確実に推定する。

For physical human-robot interactions (pHRI), a robot needs to estimate the accurate body pose of a target person. However, in these pHRI scenarios, the robot cannot fully observe the target person's body with equipped cameras because the target person must be close to the robot for physical interaction. This closeness leads to severe truncation and occlusions and thus results in poor accuracy of human pose estimation. For better accuracy in this challenging environment, we propose an active measurement and sensor fusion framework of the equipped cameras with touch and ranging sensors such as 2D LiDAR. Touch and ranging sensor measurements are sparse, but reliable and informative cues for localizing human body parts. In our active measurement process, camera viewpoints and sensor placements are dynamically optimized to measure body parts with higher estimation uncertainty, which is closely related to truncation or occlusion. In our sensor fusion process, assuming that the measurements of touch and ranging sensors are more reliable than the camera-based estimations, we fuse the sensor measurements to the camera-based estimated pose by aligning the estimated pose towards the measured points. Our proposed method outperformed previous methods on the standard occlusion benchmark with simulated active measurement. Furthermore, our method reliably estimated human poses using a real robot even with practical constraints such as occlusion by blankets.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# 動的ニューラルネットワークの連立学習と推論 : JEI-DNN

Jointly-Learned Exit and Inference for a Dynamic Neural Network : JEI-DNN ( http://arxiv.org/abs/2310.09163v2 )

ライセンス: Link先を確認
Florence Regol, Joud Chataoui, Mark Coates, (参考訳) 大規模な事前学習モデルと微調整が組み合わさって、機械学習における支配的なアーキテクチャとして徐々に確立されつつある。 これらのモデルは印象的な性能を提供するが、その実践的応用は、推論毎に必要となるリソースの禁止量によって制限されることが多い。 早期排他的動的ニューラルネットワーク(EDNN)は、モデルが中間層(早期排他層)から予測の一部を行えるようにすることでこの問題を回避する。 EDNNアーキテクチャのトレーニングは、初期出力決定を制御するゲーティング機構(GM)と中間表現からの推論を実行する中間推論モジュール(IM)の2つのコンポーネントで構成されるため、難しい。 その結果、既存のほとんどのアプローチは、ゲーティングメカニズムのしきい値のしきい値に頼り、基盤となるバックボーンネットワークと推論モジュールを改善しようとしている。 このアプローチは成功したが、根本的な欠点は2つある。 1)GMとIMはトレーニング中に分離され、列車試験ミスマッチにつながる。 2)閾値ゲーティング機構は,予測確率に正のバイアスをもたらすため,不確実性情報を容易に抽出することが困難である。 これら2つのモジュールを接続する新しいアーキテクチャを提案する。 これにより、分類データセットのパフォーマンスが大幅に向上し、不確実性評価機能が改善される。

Large pretrained models, coupled with fine-tuning, are slowly becoming established as the dominant architecture in machine learning. Even though these models offer impressive performance, their practical application is often limited by the prohibitive amount of resources required for every inference. Early-exiting dynamic neural networks (EDNN) circumvent this issue by allowing a model to make some of its predictions from intermediate layers (i.e., early-exit). Training an EDNN architecture is challenging as it consists of two intertwined components: the gating mechanism (GM) that controls early-exiting decisions and the intermediate inference modules (IMs) that perform inference from intermediate representations. As a result, most existing approaches rely on thresholding confidence metrics for the gating mechanism and strive to improve the underlying backbone network and the inference modules. Although successful, this approach has two fundamental shortcomings: 1) the GMs and the IMs are decoupled during training, leading to a train-test mismatch; and 2) the thresholding gating mechanism introduces a positive bias into the predictive probabilities, making it difficult to readily extract uncertainty information. We propose a novel architecture that connects these two modules. This leads to significant performance improvements on classification datasets and enables better uncertainty characterization capabilities.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# 補間から外挿へ:算数変換器の完全長一般化

From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers ( http://arxiv.org/abs/2310.11984v3 )

ライセンス: Link先を確認
Shaoxiong Duan, Yining Shi, Wei Xu, (参考訳) 本稿では,加法やパリティといった算術アルゴリズムの学習におけるトランスフォーマーモデルの本質的能力について検討する。 実験と注意分析により、最適な長さの一般化を達成するための重要な要素を多数特定する。 対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。 特に、我々のソリューションは、トランスフォーマーのよく知られた理論的に証明された障害モードであるParityタスクを解く。 次に、適切な注意バイアスを自動的に学習できるキャリブレーションステージであるAttention Bias Calibration(ABC)を導入する。 我々は,ABCを用いて,ある算術課題に対して,前例のないほぼ完全長の一般化を達成できることを実証した。 さらに、ABC は RPE や LoRA と著しく類似していることを示し、より複雑なタスクへの応用の可能性を示している。

In this paper, we investigate the inherent capabilities of transformer models in learning arithmetic algorithms, such as addition and parity. Through experiments and attention analysis, we identify a number of crucial factors for achieving optimal length generalization. We show that transformer models are able to generalize to long lengths with the help of targeted attention biasing. In particular, our solution solves the Parity task, a well-known and theoretically proven failure mode for Transformers. We then introduce Attention Bias Calibration (ABC), a calibration stage that enables the model to automatically learn the proper attention biases, which we show to be connected to mechanisms in relative position encoding. We demonstrate that using ABC, the transformer model can achieve unprecedented near-perfect length generalization on certain arithmetic tasks. In addition, we show that ABC bears remarkable similarities to RPE and LoRA, which may indicate the potential for applications to more complex tasks.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# 構成世界モデルのためのニューロシンボリックグラウンドディング

Neurosymbolic Grounding for Compositional World Models ( http://arxiv.org/abs/2310.12690v2 )

ライセンス: Link先を確認
Atharva Sehgal, Arya Grayeli, Jennifer J. Sun, Swarat Chaudhuri, (参考訳) コンポジション一般化(CompGen)のためのオブジェクト中心の世界モデリングフレームワークであるCosmosを紹介する。 コスモスの背後にある中心的な洞察は、新しい形態のニューロシンボリックグラウンドを使うことである。 具体的には、フレームワークには2つの新しいツールが導入されている。 一 ニューロエンコーダを用いて計算された実ベクトルを用いてシーン内の各実体を表現するニューロシンボリックシーンエンコーディング及びその実体の属性を記述した構成可能なシンボルのベクター (ii)これらの物質を相互作用の学習規則に結合する神経象徴的注意機構。 コスモスは終端から終端の微分可能であり、表現を記号に手動でマッピングする必要がある伝統的なニューロシンボリック法とは異なり、視覚基礎モデルを用いて実体の象徴的属性を計算する。 確立されたブロック処理ドメイン上でCompGenの2つの異なる形式を考慮した評価を通じて,このフレームワークが世界モデリングにおけるCompGenの新たな最先端技術を確立していることを示す。 アーティファクトは、https://trishullab.github.io/cosmos-web/で入手できる。

We introduce Cosmos, a framework for object-centric world modeling that is designed for compositional generalization (CompGen), i.e., high performance on unseen input scenes obtained through the composition of known visual "atoms." The central insight behind Cosmos is the use of a novel form of neurosymbolic grounding. Specifically, the framework introduces two new tools: (i) neurosymbolic scene encodings, which represent each entity in a scene using a real vector computed using a neural encoder, as well as a vector of composable symbols describing attributes of the entity, and (ii) a neurosymbolic attention mechanism that binds these entities to learned rules of interaction. Cosmos is end-to-end differentiable; also, unlike traditional neurosymbolic methods that require representations to be manually mapped to symbols, it computes an entity's symbolic attributes using vision-language foundation models. Through an evaluation that considers two different forms of CompGen on an established blocks-pushing domain, we show that the framework establishes a new state-of-the-art for CompGen in world modeling. Artifacts are available at: https://trishullab.github.io/cosmos-web/
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# 固有ベイズ・クラメール・ラオ境界と共分散行列推定への応用

Intrinsic Bayesian Cramér-Rao Bound with an Application to Covariance Matrix Estimation ( http://arxiv.org/abs/2311.04748v2 )

ライセンス: Link先を確認
Florent Bouchard, Alexandre Renaux, Guillaume Ginolhac, Arnaud Breloy, (参考訳) 本稿では、推定するパラメータがリーマン多様体(リーマン計量で与えられる滑らかな多様体)に存在し、与えられた事前分布に従うような推定問題に対する新たな性能境界を提案する。 この設定において、選択されたリーマン計量は、パラメータ多様体の幾何学と推定誤差測度の本質的な概念を誘導する。 そのような誤差測度のパフォーマンスは、以前は非ベイジアンの場合(未知のパラメータが決定論的であると仮定された場合)に得られ、 \textit{intrinsic} Cram\'er-Rao 境界と呼ばれる。 提示された結果は以下のようになる: \textit{a}) 固有クラム=ラオのベイズ推定フレームワークへの拡張; \textit{b}) 上記の幾何学構造を考慮に入れたヴァン=トレーの不等式(ベイズ的クラム=ラオ境界)の一般化。 第二部では、この形式を利用して、データがガウス分布に従えば共分散行列推定の問題を研究し、その共分散行列は逆ウィッシュアート分布から引き出される。 この問題の性能境界は平均二乗誤差(ユークリッド計量)とエルミート正定行列(アフィン不変計量)の自然リーマン距離の両方に対して得られる。 数値シミュレーションにより、アフィン不変計量を用いて誤差を評価することは、ユークリッド計量を用いて観測されない最大平均二乗誤差推定器と最小平均二乗誤差推定器の興味深い性質を明らかにしている。

This paper presents a new performance bound for estimation problems where the parameter to estimate lies in a Riemannian manifold (a smooth manifold endowed with a Riemannian metric) and follows a given prior distribution. In this setup, the chosen Riemannian metric induces a geometry for the parameter manifold, as well as an intrinsic notion of the estimation error measure. Performance bound for such error measure were previously obtained in the non-Bayesian case (when the unknown parameter is assumed to deterministic), and referred to as \textit{intrinsic} Cram\'er-Rao bound. The presented result then appears either as: \textit{a}) an extension of the intrinsic Cram\'er-Rao bound to the Bayesian estimation framework; \textit{b}) a generalization of the Van-Trees inequality (Bayesian Cram\'er-Rao bound) that accounts for the aforementioned geometric structures. In a second part, we leverage this formalism to study the problem of covariance matrix estimation when the data follow a Gaussian distribution, and whose covariance matrix is drawn from an inverse Wishart distribution. Performance bounds for this problem are obtained for both the mean squared error (Euclidean metric) and the natural Riemannian distance for Hermitian positive definite matrices (affine invariant metric). Numerical simulation illustrate that assessing the error with the affine invariant metric is revealing of interesting properties of the maximum a posteriori and minimum mean square error estimator, which are not observed when using the Euclidean metric.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# 2次元および3次元格子上のブロック拘束スピンモデルの基底状態に対する変分多様体とスカーレッドダイナミクス

Variational manifolds for ground states and scarred dynamics of blockade-constrained spin models on two and three dimensional lattices ( http://arxiv.org/abs/2311.08965v2 )

ライセンス: Link先を確認
Joey Li, Giuliano Giudici, Hannes Pichler, (参考訳) 我々は、Rydberg atom array によって実現されたスピン-1/2系を記述する制約付きモデルの族を研究するために、単純なテンソルネットワーク状態の変分多様体を導入する。 我々の多様体は、任意の空間次元における1点と2点の摂動展開による解析的計算を可能にし、最大3次元での変動エネルギー最小化と変動時間発展に必要な行列要素の効率的な計算を可能にする。 この枠組みを1D, 2D, 3Dの超立方体格子上のPXPモデルに適用し、それぞれの場合において、平衡の格子下対称性を破る量子相転移を示し、平衡から多くの天体の傷を負うことを示す。 我々は,これらの現象を定性的に捉え,格子の次元によって増加する精度で重要な量を予測することを実証し,平均場理論を制約されたスピンモデルへの一般化として解釈できると結論付けた。

We introduce a variational manifold of simple tensor network states for the study of a family of constrained models that describe spin-1/2 systems as realized by Rydberg atom arrays. Our manifold permits analytical calculation via perturbative expansion of one- and two-point functions in arbitrary spatial dimensions and allows for efficient computation of the matrix elements required for variational energy minimization and variational time evolution in up to three dimensions. We apply this framework to the PXP model on the hypercubic lattice in 1D, 2D, and 3D, and show that, in each case, it exhibits quantum phase transitions breaking the sub-lattice symmetry in equilibrium, and hosts quantum many body scars out of equilibrium. We demonstrate that our variational ansatz qualitatively captures all these phenomena and predicts key quantities with an accuracy that increases with the dimensionality of the lattice, and conclude that our method can be interpreted as a generalization of mean-field theory to constrained spin models.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# 機械スーパービジョンへのシフト:自動医用画像分割・分類のための注釈効率の良いセミ・セルフ・スーパービジョン学習

Shifting to Machine Supervision: Annotation-Efficient Semi and Self-Supervised Learning for Automatic Medical Image Segmentation and Classification ( http://arxiv.org/abs/2311.10319v5 )

ライセンス: Link先を確認
Pranav Singh, Raviteja Chukkapalli, Shravan Chaudhari, Luoyao Chen, Mei Chen, Jinqian Pan, Craig Smuda, Jacopo Cirrone, (参考訳) 臨床治療の進歩は、大量の注釈付きデータに依存する教師付き学習技術の限界によって、ますます制限されている。 アノテーションのプロセスは費用がかかるだけでなく、臨床専門家にかなりの時間を要する。 本稿では,S4MI(Self-Supervision and Semi-Supervision for Medical Imaging)パイプラインを導入する。 これらの技術はラベリングを必要としない補助的なタスクに携わり、完全に教師された手法に比べて機械の監督のスケーリングを簡素化する。 本研究は、これらの手法を3つの異なる医用画像データセット上で評価し、分類と分割作業の有効性を評価する。 特に, 自己教師付き学習が, 全ての評価データセットの分類において, 教師付き手法の性能を大幅に上回っていることがわかった。 注目すべきは、半教師付きアプローチはセグメンテーションにおいて優れた結果を示し、全データセットで50%少ないラベルを使用しながら、完全な教師付き手法よりも優れた結果を示したことだ。 科学コミュニティへのコントリビューションへのコミットメントに合わせて、私たちはS4MIコードを公開して、より広範な適用とこれらの手法のさらなる開発を可能にしました。

Advancements in clinical treatment are increasingly constrained by the limitations of supervised learning techniques, which depend heavily on large volumes of annotated data. The annotation process is not only costly but also demands substantial time from clinical specialists. Addressing this issue, we introduce the S4MI (Self-Supervision and Semi-Supervision for Medical Imaging) pipeline, a novel approach that leverages advancements in self-supervised and semi-supervised learning. These techniques engage in auxiliary tasks that do not require labeling, thus simplifying the scaling of machine supervision compared to fully-supervised methods. Our study benchmarks these techniques on three distinct medical imaging datasets to evaluate their effectiveness in classification and segmentation tasks. Notably, we observed that self supervised learning significantly surpassed the performance of supervised methods in the classification of all evaluated datasets. Remarkably, the semi-supervised approach demonstrated superior outcomes in segmentation, outperforming fully-supervised methods while using 50% fewer labels across all datasets. In line with our commitment to contributing to the scientific community, we have made the S4MI code openly accessible, allowing for broader application and further development of these methods.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# 生産環境におけるブリッジングSim2リアルギャップの合成データ生成

Synthetic Data Generation for Bridging Sim2Real Gap in a Production Environment ( http://arxiv.org/abs/2311.11039v2 )

ライセンス: Link先を確認
Parth Rawal, Mrunal Sompura, Wolfgang Hintze, (参考訳) 合成データは、オブジェクト検出、オブジェクトセグメンテーション、および6Dオブジェクトポーズ推定などのコンピュータビジョンアプリケーションにおけるディープニューラルネットワークのトレーニングに最近使用されている。 ここでのドメインのランダム化は、シミュレーションを現実のギャップに還元する上で重要な役割を果たす。 しかし、この一般化は複雑なアセンブリを含む生産環境のような特殊な領域では有効ではないかもしれない。 合成画像で訓練された個々の部品は、はるかに大きな集合体に統合され、それらの部品と区別できず、偽陽性を生じるか、あるいは偽陰性を引き起こすのに十分な部分閉塞となる。 これらのケースではドメイン知識が不可欠であり、合成データの生成中に効果的に考えられた場合、シミュレーションを現実のギャップにブリッジする際の大幅な改善が示される。 本稿では,生産環境における部品および組立部品の合成データ生成手法について述べる。 合成データ生成の基本手順とその各種組み合わせを、製造環境で撮影された画像と比較し、基本手順の組み合わせを用いて最大15%改善した結果を示す。 この方法でシミュレーションを現実のギャップに還元することは、人工知能を用いたロボット支援生産の真の可能性を活用するのに役立つ。

Synthetic data is being used lately for training deep neural networks in computer vision applications such as object detection, object segmentation and 6D object pose estimation. Domain randomization hereby plays an important role in reducing the simulation to reality gap. However, this generalization might not be effective in specialized domains like a production environment involving complex assemblies. Either the individual parts, trained with synthetic images, are integrated in much larger assemblies making them indistinguishable from their counterparts and result in false positives or are partially occluded just enough to give rise to false negatives. Domain knowledge is vital in these cases and if conceived effectively while generating synthetic data, can show a considerable improvement in bridging the simulation to reality gap. This paper focuses on synthetic data generation procedures for parts and assemblies used in a production environment. The basic procedures for synthetic data generation and their various combinations are evaluated and compared on images captured in a production environment, where results show up to 15% improvement using combinations of basic procedures. Reducing the simulation to reality gap in this way can aid to utilize the true potential of robot assisted production using artificial intelligence.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# アクションカスタマイズテキスト・ツー・イメージ生成のためのアンタングル型識別器の学習

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation ( http://arxiv.org/abs/2311.15841v5 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang, (参考訳) 本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。 この課題の目的は、限られたデータから既存の行動を学び、それを見えない人間や動物に一般化することである。 実験結果から,既存の主観的カスタマイズ手法では,行動の代表的な特徴を学習できず,外観を含む文脈的特徴から行動の疎結合に苦慮していることが明らかとなった。 低レベルの特徴の嗜好と高レベルの特徴の絡み合いを克服するため,従来の画像からアクション固有識別子を学習するための逆解析法であるADIを提案する。 ADIはまず、レイヤワイド識別子トークンを導入してセマンティックコンディショニング空間を拡張し、異なる特徴にまたがってインバージョンを分散しながら表現豊かさを増大させる。 そして、アクションに依存しない特徴の逆転を阻止するために、ADIは、構築されたサンプルトリプルから勾配不変性を抽出し、無関係チャネルの更新を隠蔽する。 タスクを包括的に評価するために、さまざまなアクションを含むActionBenchを、慎重に選択されたサンプルとともに提示する。 定量的および定性的な結果から,我々のADIは既存のT2I生成のベースラインより優れていたことが示唆された。 プロジェクトページはhttps://adi-t2i.github.io/ADI.com/。

This study focuses on a novel task in text-to-image (T2I) generation, namely action customization. The objective of this task is to learn the co-existing action from limited data and generalize it to unseen humans or even animals. Experimental results show that existing subject-driven customization methods fail to learn the representative characteristics of actions and struggle in decoupling actions from context features, including appearance. To overcome the preference for low-level features and the entanglement of high-level features, we propose an inversion-based method Action-Disentangled Identifier (ADI) to learn action-specific identifiers from the exemplar images. ADI first expands the semantic conditioning space by introducing layer-wise identifier tokens, thereby increasing the representational richness while distributing the inversion across different features. Then, to block the inversion of action-agnostic features, ADI extracts the gradient invariance from the constructed sample triples and masks the updates of irrelevant channels. To comprehensively evaluate the task, we present an ActionBench that includes a variety of actions, each accompanied by meticulously selected samples. Both quantitative and qualitative results show that our ADI outperforms existing baselines in action-customized T2I generation. Our project page is at https://adi-t2i.github.io/ADI.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# DifFlow3D:拡散モデルによるロバスト不確実性を考慮したシーンフロー推定に向けて

DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Diffusion Model ( http://arxiv.org/abs/2311.17456v4 )

ライセンス: Link先を確認
Jiuming Liu, Guangming Wang, Weicai Ye, Chaokang Jiang, Jinru Han, Zhe Liu, Guofeng Zhang, Dalong Du, Hesheng Wang, (参考訳) 動的シーンの点当たりの3次元変位を予測することを目的としたシーンフロー推定は,コンピュータビジョン分野における基本的な課題である。 しかし,従来の研究は,局所的に制約された探索範囲による信頼性の低い相関や,粗い構造から生じる不正確な蓄積に悩まされることが一般的である。 これらの問題を緩和するために,拡散確率モデルを用いた不確実性を考慮したシーンフロー推定ネットワーク(DifFlow3D)を提案する。 反復拡散に基づく改良は、例えば、ダイナミックス、ノイズインプット、反復パターンなどの課題に対する相関堅牢性とレジリエンスを高めるように設計されている。 生成の多様性を抑えるため,拡散モデルにおける3つの主要なフロー関連特徴を条件として利用した。 さらに,推定シーンフローの信頼性を評価するため,拡散中の不確実性推定モジュールも開発した。 我々のDifFlow3Dは、FlyingThings3DとKITTI 2015データセットでそれぞれ24.0%と29.1%のEPE3Dを削減した最先端のパフォーマンスを実現しています。 特に,本手法は,KITTIデータセット上での前例のないミリレベルの精度(EPE3Dで0.0078m)を達成する。 さらに,既存のシーンフローネットワークにプラグイン・アンド・プレイモジュールとして組み込むことができ,その推定精度を大幅に向上させることができる。 コードはhttps://github.com/IRMVLab/DifFlow3Dで公開されている。

Scene flow estimation, which aims to predict per-point 3D displacements of dynamic scenes, is a fundamental task in the computer vision field. However, previous works commonly suffer from unreliable correlation caused by locally constrained searching ranges, and struggle with accumulated inaccuracy arising from the coarse-to-fine structure. To alleviate these problems, we propose a novel uncertainty-aware scene flow estimation network (DifFlow3D) with the diffusion probabilistic model. Iterative diffusion-based refinement is designed to enhance the correlation robustness and resilience to challenging cases, e.g. dynamics, noisy inputs, repetitive patterns, etc. To restrain the generation diversity, three key flow-related features are leveraged as conditions in our diffusion model. Furthermore, we also develop an uncertainty estimation module within diffusion to evaluate the reliability of estimated scene flow. Our DifFlow3D achieves state-of-the-art performance, with 24.0% and 29.1% EPE3D reduction respectively on FlyingThings3D and KITTI 2015 datasets. Notably, our method achieves an unprecedented millimeter-level accuracy (0.0078m in EPE3D) on the KITTI dataset. Additionally, our diffusion-based refinement paradigm can be readily integrated as a plug-and-play module into existing scene flow networks, significantly increasing their estimation accuracy. Codes are released at https://github.com/IRMVLab/DifFlow3D.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# Bitter Pillのスワロー化: シンプルでスケーラブルなコンバータ生成

Swallowing the Bitter Pill: Simplified Scalable Conformer Generation ( http://arxiv.org/abs/2311.17932v3 )

ライセンス: Link先を確認
Yuyang Wang, Ahmed A. Elhag, Navdeep Jaitly, Joshua M. Susskind, Miguel Angel Bautista, (参考訳) 本稿では,先行研究の多くのヒューリスティックスをサイドステップとした簡単な定式化による分子コンホメータの予測手法を提案する。 拡散生成モデルを3次元原子位置上で直接訓練することにより、分子の明示的な構造(例えば、ねじれ角をモデル化する)について仮定することなく、構造学習を根本的に単純化し、モデルのサイズを拡大させる。 このモデルは、分子コンフォーマー場(MCF)と呼ばれ、コンフォーマー構造を分子グラフから空間内の3D位置に直接マッピングする関数としてパラメータ化することで機能する。 この定式化により、構造予測の本質を、関数上の分布を学習するために解き明かすことができる。 実験結果から, モデルキャパシティのスケールアップは, 回転等分散のような帰納バイアスを伴わずに, 一般化性能が大きく向上することが示された。 MCFは、概念的に単純でスケーラブルで効果的な方法で複雑な科学的問題を扱うために拡散モデルを拡張する進歩を表している。

We present a novel way to predict molecular conformers through a simple formulation that sidesteps many of the heuristics of prior works and achieves state of the art results by using the advantages of scale. By training a diffusion generative model directly on 3D atomic positions without making assumptions about the explicit structure of molecules (e.g. modeling torsional angles) we are able to radically simplify structure learning, and make it trivial to scale up the model sizes. This model, called Molecular Conformer Fields (MCF), works by parameterizing conformer structures as functions that map elements from a molecular graph directly to their 3D location in space. This formulation allows us to boil down the essence of structure prediction to learning a distribution over functions. Experimental results show that scaling up the model capacity leads to large gains in generalization performance without enforcing inductive biases like rotational equivariance. MCF represents an advance in extending diffusion models to handle complex scientific problems in a conceptually simple, scalable and effective manner.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-10
# MedXChat: CXRの理解と生成のための統合マルチモーダル大規模言語モデルフレームワーク

MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation ( http://arxiv.org/abs/2312.02233v2 )

ライセンス: Link先を確認
Ling Yang, Zhanyu Wang, Zhenghao Chen, Xinyu Liang, Luping Zhou, (参考訳) MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功したが、医療画像への応用は初期段階にあり、調整されたモデルが欠如している。 本研究では,胸部X線(CXR)の理解と生成を改善するためのMLLMの可能性について検討した。 MedXChatは、テキストレポート生成、視覚質問応答(VQA)、テキスト・ツー・CXR生成を含む多様なCXRタスクにおいて、医療アシスタントとユーザ間のシームレスな対話を容易にする統合フレームワークである。 自然言語を入力として使用するMLLMは、タスク境界を破り、単一の環境内で多様なタスクを許容することにより、医療専門家のトレーニングを最大限に単純化する。 CXR理解のために、医用画像の言語的特徴に変換するために、強力な市販のビジュアルエンコーダ(eg, ViT)とLLM(eg, mPLUG-Owl)を活用し、ビジュアルアダプタネットワークとデルタチューニングアプローチを用いて、医用アプリケーション用の大規模トレーニング済みモデルを微調整する。 CXR生成には、安定拡散(SD)アーキテクチャ内の命令追従機能を利用する革新的な合成手法を導入する。 この技術は既存のモデルフレームワークとスムーズに統合され、余分なパラメータを必要とせず、SDの生成強度を維持しつつ、高い忠実度で微細な医用画像を描画する能力を与える。 総合的な実験を通して、我々のモデルは3つの定義されたタスクの全てに適応性を示す、例外的なクロスタスク適応性を示す。 我々のMedXChatモデルと本研究で利用した命令データセットを公開して,この分野のさらなる探索を奨励する。

Multimodal Large Language Models (MLLMs) have shown success in various general image processing tasks, yet their application in medical imaging is nascent, lacking tailored models. This study investigates the potential of MLLMs in improving the understanding and generation of Chest X-Rays (CXRs). We introduce MedXChat, a unified framework facilitating seamless interactions between medical assistants and users for diverse CXR tasks, including text report generation, visual question-answering (VQA), and Text-to-CXR generation. Our MLLMs using natural language as the input breaks task boundaries, maximally simplifying medical professional training by allowing diverse tasks within a single environment. For CXR understanding, we leverage powerful off-the-shelf visual encoders (e.g., ViT) and LLMs (e.g., mPLUG-Owl) to convert medical imagery into language-like features, and subsequently fine-tune our large pre-trained models for medical applications using a visual adapter network and a delta-tuning approach. For CXR generation, we introduce an innovative synthesis approach that utilizes instruction-following capabilities within the Stable Diffusion (SD) architecture. This technique integrates smoothly with the existing model framework, requiring no extra parameters, thereby maintaining the SD's generative strength while also bestowing upon it the capacity to render fine-grained medical images with high fidelity. Through comprehensive experiments, our model demonstrates exceptional cross-task adaptability, displaying adeptness across all three defined tasks. Our MedXChat model and the instruction dataset utilized in this research will be made publicly available to encourage further exploration in the field.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# CaloQVAE : ハイブリッド量子古典生成モデルを用いた高エネルギー粒子-カロリメータ相互作用のシミュレーション

CaloQVAE : Simulating high-energy particle-calorimeter interactions using hybrid quantum-classical generative models ( http://arxiv.org/abs/2312.03179v3 )

ライセンス: Link先を確認
Sehmimul Hoque, Hao Jia, Abhishek Abhishek, Mojde Fadaie, J. Quetzalcoatl Toledo-Marín, Tiago Vale, Roger G. Melko, Maximilian Swiatlowski, Wojciech T. Fedorko, (参考訳) 大型ハドロン衝突型加速器の高輝度化時代は、衝突現象の解析において大きな計算上の課題を呈している。 モンテカルロシミュレーション(MC)は、これらの実験データの下のシミュレーションデータセットの統計的不確実性を制限するために必要とされる。 検出器のカロリー領域を伝播する高エネルギー粒子のモデリングは、最も計算集約的なMCシミュレーションタスクである。 本稿では,高エネルギー粒子-カロリメータ相互作用の高速かつ効率的なシミュレーションのための生成モデルと量子アニールの最近の進歩を組み合わせた手法を提案する。

The Large Hadron Collider's high luminosity era presents major computational challenges in the analysis of collision events. Large amounts of Monte Carlo (MC) simulation will be required to constrain the statistical uncertainties of the simulated datasets below these of the experimental data. Modelling of high-energy particles propagating through the calorimeter section of the detector is the most computationally intensive MC simulation task. We introduce a technique combining recent advancements in generative models and quantum annealing for fast and efficient simulation of high-energy particle-calorimeter interactions.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# ASF-YOLO:細胞インスタンスセグメンテーションのための意図的スケール・シーケンス・フュージョンを用いた新しいYOLOモデル

ASF-YOLO: A Novel YOLO Model with Attentional Scale Sequence Fusion for Cell Instance Segmentation ( http://arxiv.org/abs/2312.06458v2 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Raphaël C. -W. Phan, (参考訳) 本稿では,ASF-YOLO(Attentional Scale Sequence Fusion based You Only Look Once)フレームワークを提案する。 YOLOセグメンテーションフレームワーク上に構築され,ネットワークのマルチスケール情報抽出能力を高めるためにSSFF(Scale Sequence Feature Fusion)モジュールを使用し,TFE(Triple Feature Encoder)モジュールを用いて異なるスケールの機能マップを融合し,詳細な情報を増やす。 さらに,情報チャネルと空間的位置関連小物体に着目し,検出性能とセグメンテーション性能を向上させるため,SSFFモジュールとTPEモジュールを統合したチャネル・位置アテンション機構(CPAM)を導入する。 2つのセルデータセットに対する実験的検証は、提案したASF-YOLOモデルの顕著なセグメンテーション精度と速度を示す。 ボックスmAPは0.91、マスクmAPは0.887、推論速度は2018 Data Science Bowlのデータセットで47.3 FPSに達し、最先端の手法よりも優れている。 ソースコードはhttps://github.com/mkang315/ASF-YOLOで公開されている。

We propose a novel Attentional Scale Sequence Fusion based You Only Look Once (YOLO) framework (ASF-YOLO) which combines spatial and scale features for accurate and fast cell instance segmentation. Built on the YOLO segmentation framework, we employ the Scale Sequence Feature Fusion (SSFF) module to enhance the multi-scale information extraction capability of the network, and the Triple Feature Encoder (TFE) module to fuse feature maps of different scales to increase detailed information. We further introduce a Channel and Position Attention Mechanism (CPAM) to integrate both the SSFF and TPE modules, which focus on informative channels and spatial position-related small objects for improved detection and segmentation performance. Experimental validations on two cell datasets show remarkable segmentation accuracy and speed of the proposed ASF-YOLO model. It achieves a box mAP of 0.91, mask mAP of 0.887, and an inference speed of 47.3 FPS on the 2018 Data Science Bowl dataset, outperforming the state-of-the-art methods. The source code is available at https://github.com/mkang315/ASF-YOLO.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# 大規模言語モデルは臨床推論者である:プロンプト生成論理を用いた推論・認識診断フレームワーク

Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales ( http://arxiv.org/abs/2312.07399v3 )

ライセンス: Link先を確認
Taeyoon Kwon, Kai Tzu-iunn Ong, Dongjin Kang, Seungjun Moon, Jeong Ryong Lee, Dosik Hwang, Yongsik Sim, Beomseok Sohn, Dongha Lee, Jinyoung Yeo, (参考訳) 機械推論は、大規模言語モデル(LLM)によって近年大きく進歩している。 しかし, 臨床領域では, NLP主導のほとんどのプロジェクトは, 臨床分類や読解に重点を置いている。 本研究では, 時間的, 労働的効果の高い方法で, 即時学習による診断プロセスを合理化し, 即時学習の合理化を学習する「理性認識型診断フレームワーク」を提案する。 具体的には, LLMが提示された患者データと診断への道筋, クリニカル・チェーン・オブ・ソート(クリニカル・CoT)についての知見を提供する診断的根拠を生成する, 疾患診断のための臨床推論について考察する。 LLMs/LMsの臨床的推論能力について実験的に検証し,様々な場面で理性発生と疾患診断の両方について分析した。 さらに,本分野の今後の研究を円滑に進めつつ,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。

Machine reasoning has made great progress in recent years owing to large language models (LLMs). In the clinical domain, however, most NLP-driven projects mainly focus on clinical classification or reading comprehension, and under-explore clinical reasoning for disease diagnosis due to the expensive rationale annotation with clinicians. In this work, we present a "reasoning-aware" diagnosis framework that rationalizes the diagnostic process via prompt-based learning in a time- and labor-efficient manner, and learns to reason over the prompt-generated rationales. Specifically, we address the clinical reasoning for disease diagnosis, where the LLM generates diagnostic rationales providing its insight on presented patient data and the reasoning path towards the diagnosis, namely Clinical Chain-of-Thought (Clinical CoT). We empirically demonstrate LLMs/LMs' ability of clinical reasoning via extensive experiments and analyses on both rationale generation and disease diagnosis in various settings. We further propose a novel set of criteria for evaluating machine-generated rationales' potential for real-world clinical settings, facilitating and benefiting future research in this area.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# 重力波メモリと量子マイケルソン干渉計

Gravitational wave memory and quantum Michelson interferometer ( http://arxiv.org/abs/2312.10454v3 )

ライセンス: Link先を確認
Zhong-Kai Guo, Xiao-Yong Wang, (参考訳) 非線形光学相互作用と時間変動重力場を組み合わせた量子マイケルソン干渉計の出力について検討した。 その結果, 干渉計の出力の位相シフトと重力波の振幅との標準的関係から逸脱することが示唆された。 この偏差は直接比例率のわずかなオフセットであり、従来の干渉計パラメータの設定の下での重力波メモリ効果と関連している。 さらに, 連続的な重力波記憶, 確率的重力波記憶背景 (SGWMB) は, 古典的赤色雑音スペクトルだけでなく, 量子的赤色雑音スペクトルにも寄与することが示唆された。 これにより、干渉計の新たな量子ノイズ限界が生まれ、より高精度な検出システムに欠かせない。 我々の分析は、重力波に応答する量子干渉計をより正確に記述し、時変重力場を含む他のシナリオに適用する可能性がある。 また、マクロな物体と重力の量子効果を統合するための洞察と実験的なアプローチも提供する。

We examined the output of a quantum Michelson interferometer incorporating the combined effects of nonlinear optomechanical interaction and time-varying gravitational fields. Our findings indicate a deviation from the standard relationship between the phase shift of the interferometer's output and the amplitude of gravitational waves. This deviation, a slight offset in direct proportionality, is associated with the gravitational wave memory effect under the conventional settings of interferometer parameters. Furthermore, the results suggest that consecutive gravitational wave memory, or the stochastic gravitational wave memory background (SGWMB), contributes not only to the classical red noise spectrum but also to a quantum red noise spectrum through this new mechanism. This leads to a novel quantum noise limit for interferometers, which may be crucial for higher precision detection system. Our analysis potentially offers a more accurate description of quantum interferometers responding to gravitational waves and applies to other scenarios involving time-varying gravitational fields. It also provides insights and experimental approaches for exploring how to unify the quantum effects of macroscopic objects and gravitation.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# シーンテキストのための単一点からポリゴンへの進化的進化

Progressive Evolution from Single-Point to Polygon for Scene Text ( http://arxiv.org/abs/2312.13778v3 )

ライセンス: Link先を確認
Linger Deng, Mingxin Huang, Xudong Xie, Yuliang Liu, Lianwen Jin, Xiang Bai, (参考訳) コンパクト化に向けたテキスト形状表現の進歩により、テキスト検出とスポッティング性能が向上したが、アノテーションコストが高い。 現在のモデルはコスト削減のために単一ポイントアノテーションを使用しているが、下流アプリケーションには十分なローカライズ情報がない。 この制限を克服するために、単一点をコンパクトなポリゴンに効率的に変換できるPoint2Polygonを導入する。 まず、認識信頼度に基づいてアンカーポイントを作成し、次に認識情報を用いてポリゴンを垂直に水平に精製し、その形状を最適化する。 我々は、広範囲な実験を通して生成されたポリゴンの精度を実証する。 1) 地上の真理点からポリゴンを作成することにより, ICDAR 2015において精度82.0%を達成した。 2)本法により生成したポリゴンを用いたトレーニング検出器では,グラウンド・真理(GT)によるトレーニングと比較して精度が86%に達した。 さらに、提案したPoint2Polygonをシームレスに統合することで、シングルポイントスポッターにポリゴンを生成することができる。 この統合により、生成されたポリゴンの精度は82.5%に向上した。 なお,本手法は合成認識情報にのみ依存しており,単一点以上の手動アノテーションは不要である。

The advancement of text shape representations towards compactness has enhanced text detection and spotting performance, but at a high annotation cost. Current models use single-point annotations to reduce costs, yet they lack sufficient localization information for downstream applications. To overcome this limitation, we introduce Point2Polygon, which can efficiently transform single-points into compact polygons. Our method uses a coarse-to-fine process, starting with creating and selecting anchor points based on recognition confidence, then vertically and horizontally refining the polygon using recognition information to optimize its shape. We demonstrate the accuracy of the generated polygons through extensive experiments: 1) By creating polygons from ground truth points, we achieved an accuracy of 82.0% on ICDAR 2015; 2) In training detectors with polygons generated by our method, we attained 86% of the accuracy relative to training with ground truth (GT); 3) Additionally, the proposed Point2Polygon can be seamlessly integrated to empower single-point spotters to generate polygons. This integration led to an impressive 82.5% accuracy for the generated polygons. It is worth mentioning that our method relies solely on synthetic recognition information, eliminating the need for any manual annotation beyond single points.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# QuaR-VLA:四足歩行ロボットの視覚言語行動モデル

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots ( http://arxiv.org/abs/2312.14457v3 )

ライセンス: Link先を確認
Pengxiang Ding, Han Zhao, Yan Liu, Wenxuan Song, Wenjie Zhang, Donglin Wang, (参考訳) ロボットインテリジェンスの重要な発現は、自然と対話し、自律的に意思決定する能力である。 従来のロボット制御のアプローチは、知覚、計画、意思決定を分割し、システム設計を単純化するが、異なる情報ストリーム間のシナジーを制限する。 この区画化は、シームレスな自律的推論、意思決定、行動実行を達成する上での課題を提起する。 これらの制約に対処するため、Quadruped Robots (QUAR-VLA) のためのビジョン・ランゲージ・アクション・タスク(Vision-Language-Action task)という新しいパラダイムが論文で紹介されている。 このアプローチは、視覚情報と指示を密に統合し、実行可能なアクションを生成し、知覚、計画、意思決定を効果的にマージする。 中心となるアイデアは、ロボットの全体的な知性を高めることだ。 この枠組みの中で注目すべき課題は、きめ細かい指示を視覚的知覚情報と整合させることである。 これは、ロボットが視覚的な観察と調和して正確に解釈し、詳細な指示に従って行動することを保証する複雑さを強調している。 そこで本研究では,VLAモデルのファミリーである Quadruped Robotic Transformer (QUART) を提案し,実世界のロボットの入力として様々なモードから視覚情報と指示を統合し,実世界のロボットに対して実行可能なアクションを生成するとともに, quadruped Robot Dataset (QUARD) を提示する。 評価試験(4000回)により,本手法がロボットの能力向上に寄与し,QUIRTが創発的能力の獲得に有効であることが示唆された。

The important manifestation of robot intelligence is the ability to naturally interact and autonomously make decisions. Traditional approaches to robot control often compartmentalize perception, planning, and decision-making, simplifying system design but limiting the synergy between different information streams. This compartmentalization poses challenges in achieving seamless autonomous reasoning, decision-making, and action execution. To address these limitations, a novel paradigm, named Vision-Language-Action tasks for QUAdruped Robots (QUAR-VLA), has been introduced in this paper. This approach tightly integrates visual information and instructions to generate executable actions, effectively merging perception, planning, and decision-making. The central idea is to elevate the overall intelligence of the robot. Within this framework, a notable challenge lies in aligning fine-grained instructions with visual perception information. This emphasizes the complexity involved in ensuring that the robot accurately interprets and acts upon detailed instructions in harmony with its visual observations. Consequently, we propose QUAdruped Robotic Transformer (QUART), a family of VLA models to integrate visual information and instructions from diverse modalities as input and generates executable actions for real-world robots and present QUAdruped Robot Dataset (QUARD), a large-scale multi-task dataset including navigation, complex terrain locomotion, and whole-body manipulation tasks for training QUART models. Our extensive evaluation (4000 evaluation trials) shows that our approach leads to performant robotic policies and enables QUART to obtain a range of emergent capabilities.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# 大規模言語モデルにおけるチェーン・オブ・サート推論によるオンラインヘイトの変化

Moderating New Waves of Online Hate with Chain-of-Thought Reasoning in Large Language Models ( http://arxiv.org/abs/2312.15099v2 )

ライセンス: Link先を確認
Nishant Vishwamitra, Keyan Guo, Farhan Tajwar Romit, Isabelle Ondracek, Long Cheng, Ziming Zhao, Hongxin Hu, (参考訳) オンライン憎悪はインターネットユーザーの生活に悪影響を及ぼすエスカレートする問題であり、進化する出来事によって急激な変化を招き、新たなオンライン憎悪の波が重大な脅威をもたらす。 これらの新たな波の検出と緩和は、ヘイトフルコンテンツの存在を判断するために推論に基づく複雑な意思決定を要求することと、トレーニングサンプルの可用性の制限によって検出モデルの更新が妨げられる、という2つの大きな課題をもたらす。 この重要な問題に対処するために、オンライン憎悪の新しい波を効果的に緩和するHATEGUARDという新しいフレームワークを提案する。 HATEGUARDは、最近導入されたチェーン・オブ・ソート(CoT)プロンプト技術を活用して、大規模言語モデル(LLM)の機能を活用する推論ベースのアプローチを採用している。 HATEGUARDはさらに、新しい嫌がらせの新たな波に効果的に対処するために、新しい嫌がらせ用語とターゲットで検出プロンプトを自動生成し、更新することで、プロンプトベースのゼロショット検出を実現する。 このアプローチの有効性を示すために、我々は、最近目撃された3つの新しい波、2022年のロシアによるウクライナ侵攻、2021年の米国議会議事堂の暴動、COVID-19パンデミックに関するツイートからなる新しいデータセットをコンパイルした。 本研究は,イベントの進化と,それに対応するための既存のモデレーションツールを迅速に更新する技術の必要性について,これらの新しい波における重要な縦断パターンを明らかにした。 最先端ツールに対する比較評価は、我々のフレームワークの優位性を示し、オンライン憎悪の3つの新しい波を検出する上で、実質的な22.22%から83.33%の改善を示している。 我々の研究は、オンラインヘイトの新しい波の出現によって引き起こされる深刻な脅威を強調し、この脅威に現実的に対処するパラダイムシフトを表している。

Online hate is an escalating problem that negatively impacts the lives of Internet users, and is also subject to rapid changes due to evolving events, resulting in new waves of online hate that pose a critical threat. Detecting and mitigating these new waves present two key challenges: it demands reasoning-based complex decision-making to determine the presence of hateful content, and the limited availability of training samples hinders updating the detection model. To address this critical issue, we present a novel framework called HATEGUARD for effectively moderating new waves of online hate. HATEGUARD employs a reasoning-based approach that leverages the recently introduced chain-of-thought (CoT) prompting technique, harnessing the capabilities of large language models (LLMs). HATEGUARD further achieves prompt-based zero-shot detection by automatically generating and updating detection prompts with new derogatory terms and targets in new wave samples to effectively address new waves of online hate. To demonstrate the effectiveness of our approach, we compile a new dataset consisting of tweets related to three recently witnessed new waves: the 2022 Russian invasion of Ukraine, the 2021 insurrection of the US Capitol, and the COVID-19 pandemic. Our studies reveal crucial longitudinal patterns in these new waves concerning the evolution of events and the pressing need for techniques to rapidly update existing moderation tools to counteract them. Comparative evaluations against state-of-the-art tools illustrate the superiority of our framework, showcasing a substantial 22.22% to 83.33% improvement in detecting the three new waves of online hate. Our work highlights the severe threat posed by the emergence of new waves of online hate and represents a paradigm shift in addressing this threat practically.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# 探索と利用の分離による効率的な強化学習

Efficient Reinforcement Learning via Decoupling Exploration and Utilization ( http://arxiv.org/abs/2312.15965v4 )

ライセンス: Link先を確認
Jingpu Yang, Helin Wang, Qirui Zhao, Zhecheng Shi, Zirui Song, Miao Fang, (参考訳) 効率的な学習アプローチとして認識されている強化学習(RL)は、ゲーム、ロボティクス、自動運転車など、複数の分野やアプリケーションで顕著な成功を収めている。 古典的な単エージェント強化学習は、探索と搾取の不均衡と限定的な一般化能力を伴う。 この手法は、特定のデータセットにのみ適合した最適化されたサブ最適解のアルゴリズムにしばしば導かれる。 本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。 強化学習において、以前に課された悲観的な懲罰措置は、探索可能性のモデルを取り除き、探索能力は低下した。 そこで本研究では,より制約のある悲観的アクタを性能評価に用いながら,モデルの探索能力を高めるための楽観的アクタを新たに導入した。 提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。 強化学習パラダイムにおけるこのユニークな融合は、よりバランスよく効率的なアプローチを促進する。 これは、悲観的な搾取戦略を通じて高次行動に集中する政策の最適化を促進すると同時に、楽観的な探索を通じて広範な州カバレッジを同時に確保する。 実証的および理論的研究により、OPARLは、利用と探索の両方において、エージェント能力を高めることが示されている。 DMControlベンチマークとMujoco環境のほとんどのタスクにおいて、OPARLは最先端の手法よりも優れていた。 私たちのコードはhttps://github.com/yydsok/OPARLでリリースされました。

Reinforcement Learning (RL), recognized as an efficient learning approach, has achieved remarkable success across multiple fields and applications, including gaming, robotics, and autonomous vehicles. Classical single-agent reinforcement learning grapples with the imbalance of exploration and exploitation as well as limited generalization abilities. This methodology frequently leads to algorithms settling for suboptimal solutions that are tailored only to specific datasets. In this work, our aim is to train agent with efficient learning by decoupling exploration and utilization, so that agent can escaping the conundrum of suboptimal Solutions. In reinforcement learning, the previously imposed pessimistic punitive measures have deprived the model of its exploratory potential, resulting in diminished exploration capabilities. To address this, we have introduced an additional optimistic Actor to enhance the model's exploration ability, while employing a more constrained pessimistic Actor for performance evaluation. The above idea is implemented in the proposed OPARL (Optimistic and Pessimistic Actor Reinforcement Learning) algorithm. This unique amalgamation within the reinforcement learning paradigm fosters a more balanced and efficient approach. It facilitates the optimization of policies that concentrate on high-reward actions via pessimistic exploitation strategies while concurrently ensuring extensive state coverage through optimistic exploration. Empirical and theoretical investigations demonstrate that OPARL enhances agent capabilities in both utilization and exploration. In the most tasks of DMControl benchmark and Mujoco environment, OPARL performed better than state-of-the-art methods. Our code has released on https://github.com/yydsok/OPARL
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# プロンプト・エンジニアリングから、ループの中の人間とのプロンプト・サイエンスへ

From Prompt Engineering to Prompt Science With Human in the Loop ( http://arxiv.org/abs/2401.04122v3 )

ライセンス: Link先を確認
Chirag Shah, (参考訳) LLMが私たちの生活の多くの側面に進出するにつれ、LCMの使用に関する精査が増加している場所は科学的研究である。 研究目的のデータの生成や分析にLLMを使うことが人気を集めている。 しかし、そのようなアプリケーションにアドホックな決定とエンジニアリングのソリューションが混じり合っている場合、その研究、その発見、あるいはその研究に基づく将来の作業にどのように影響するかを心配する必要があります。 我々の研究にLSMを使用するには、より科学的アプローチが必要です。 より体系的なプロンプトの構築を支援するための活動はいくつかあるが、しばしば、十分な透明性、客観性、または厳密さで複製可能で一般化可能な知識を生産するよりも、望ましい結果を達成することに重点を置いている。 本稿では、それに対応する定性的な方法を通じて、コードブック構築にインスパイアされた新しい方法論を提案する。 この手法は、ループ内の人間と多相検証プロセスを用いて、データ分析にLLMを適用するためのより体系的で、客観的で、信頼できる方法の基礎を定めている。 具体的には、一組の研究者が、厳密なラベル付け、検討、文書化のプロセスを通じて、主観性を排除し、透明性と複製性を生成プロセスにもたらす方法を示す。 この方法論を実際にどのように適用できるかを示すために、一連の実験が提示されている。

As LLMs make their way into many aspects of our lives, one place that warrants increased scrutiny with LLM usage is scientific research. Using LLMs for generating or analyzing data for research purposes is gaining popularity. But when such application is marred with ad-hoc decisions and engineering solutions, we need to be concerned about how it may affect that research, its findings, or any future works based on that research. We need a more scientific approach to using LLMs in our research. While there are several active efforts to support more systematic construction of prompts, they are often focused more on achieving desirable outcomes rather than producing replicable and generalizable knowledge with sufficient transparency, objectivity, or rigor. This article presents a new methodology inspired by codebook construction through qualitative methods to address that. Using humans in the loop and a multi-phase verification processes, this methodology lays a foundation for more systematic, objective, and trustworthy way of applying LLMs for analyzing data. Specifically, we show how a set of researchers can work through a rigorous process of labeling, deliberating, and documenting to remove subjectivity and bring transparency and replicability to prompt generation process. A set of experiments are presented to show how this methodology can be put in practice.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# 360DVD:360度ビデオ拡散モデルによるパノラマ映像の制御

360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model ( http://arxiv.org/abs/2401.06578v2 )

ライセンス: Link先を確認
Qian Wang, Weiqi Li, Chong Mou, Xinhua Cheng, Jian Zhang, (参考訳) パノラマ動画は最近、没入感のある体験のおかげで、研究と応用の両方により多くの関心を集めている。 360度パノラマ動画の撮影にはコストがかかるため、プロンプトによって望ましいパノラマ動画を生成する必要がある。 近年,テキスト・ツー・ビデオ(T2V)拡散法は標準映像生成において顕著な効果を示した。 しかし、パノラマビデオと標準ビデオの間にコンテンツと動きのパターンが著しくずれているため、これらの手法は360度パノラマ動画を満足のいくものにするための課題に直面している。 本稿では,与えられたプロンプトと動作条件に基づいて360度パノラマ映像を生成する360DVDというパイプラインを提案する。 具体的には、パノラマビデオ生成のための事前学習されたT2Vモデルを変換するために、360 Enhancement Techniquesを伴って、軽量な360-Adapterを導入する。 また,パノラマ画像データセットが存在しない場合に対処するため,パノラマビデオテキストペアによる360DVDのトレーニングを行うWEB360という新しいパノラマデータセットを提案する。 広汎な実験によりパノラマビデオ生成における360DVDの優位性と有効性を示した。 私たちのプロジェクトページはhttps://akaneqwq.github.io/360DVD/です。

Panorama video recently attracts more interest in both study and application, courtesy of its immersive experience. Due to the expensive cost of capturing 360-degree panoramic videos, generating desirable panorama videos by prompts is urgently required. Lately, the emerging text-to-video (T2V) diffusion methods demonstrate notable effectiveness in standard video generation. However, due to the significant gap in content and motion patterns between panoramic and standard videos, these methods encounter challenges in yielding satisfactory 360-degree panoramic videos. In this paper, we propose a pipeline named 360-Degree Video Diffusion model (360DVD) for generating 360-degree panoramic videos based on the given prompts and motion conditions. Specifically, we introduce a lightweight 360-Adapter accompanied by 360 Enhancement Techniques to transform pre-trained T2V models for panorama video generation. We further propose a new panorama dataset named WEB360 consisting of panoramic video-text pairs for training 360DVD, addressing the absence of captioned panoramic video datasets. Extensive experiments demonstrate the superiority and effectiveness of 360DVD for panorama video generation. Our project page is at https://akaneqwq.github.io/360DVD/.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# 大語彙物体検出器の領域適応

Domain Adaptation for Large-Vocabulary Object Detectors ( http://arxiv.org/abs/2401.06969v2 )

ライセンス: Link先を確認
Kai Jiang, Jiaxing Huang, Weiying Xie, Jie Lei, Yunsong Li, Ling Shao, Shijian Lu, (参考訳) 大語彙オブジェクト検出器(LVD)は、多くのカテゴリのオブジェクトを検出し、スーパーオブジェクト性の特徴を学習し、さまざまな下流データに適用しながら、オブジェクトを正確に検出することを目的としている。 しかし、LVDは、データ分散とオブジェクト語彙におけるドメインの相違により、位置するオブジェクトを認識するのに苦労することが多い。 一方、CLIPのような近年のビジョン言語基盤モデルは、優れたオープン語彙認識能力を示している。 本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。 KGDは2つの段階から成り立っている。 1) 下流ドメインデータをノードとしてエンコードし、特徴距離をエッジとして、CLIPのリッチなセマンティック関係を明示的に継承するKGを構築するためにCLIPを使用するKG抽出。 2) 抽出したKGをLVDに変換するKGカプセル化により, 正確なクロスドメインオブジェクト分類が可能となった。 さらに、KGDは視覚とテキストの両方のKGを独立に抽出することができ、様々な下流ドメイン上の検出タスクにおいて、オブジェクトのローカライゼーションとオブジェクト分類のための補完的な視覚と言語知識を提供する。 複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。

Large-vocabulary object detectors (LVDs) aim to detect objects of many categories, which learn super objectness features and can locate objects accurately while applied to various downstream data. However, LVDs often struggle in recognizing the located objects due to domain discrepancy in data distribution and object vocabulary. At the other end, recent vision-language foundation models such as CLIP demonstrate superior open-vocabulary recognition capability. This paper presents KGD, a Knowledge Graph Distillation technique that exploits the implicit knowledge graphs (KG) in CLIP for effectively adapting LVDs to various downstream domains. KGD consists of two consecutive stages: 1) KG extraction that employs CLIP to encode downstream domain data as nodes and their feature distances as edges, constructing KG that inherits the rich semantic relations in CLIP explicitly; and 2) KG encapsulation that transfers the extracted KG into LVDs to enable accurate cross-domain object classification. In addition, KGD can extract both visual and textual KG independently, providing complementary vision and language knowledge for object localization and object classification in detection tasks over various downstream domains. Experiments over multiple widely adopted detection benchmarks show that KGD outperforms the state-of-the-art consistently by large margins.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-10
# 深層学習による混合整数最適化:モデルの次元性向上のための学習

Deep learning enhanced mixed integer optimization: Learning to reduce model dimensionality ( http://arxiv.org/abs/2401.09556v2 )

ライセンス: Link先を確認
Niki Triantafyllou, Maria M. Papathanasiou, (参考訳) この研究は、深層学習の可能性を生かして、MIP(Mixed-Integer Programming)モデルに固有の計算複雑性に対処するフレームワークを導入する。 ディープラーニングを利用することで、MIPインスタンス全体にわたる共通構造を特定し、活用する問題固有のヒューリスティックを構築する。 対象のMIP問題インスタンスに対して、複雑なバイナリ変数を推定するために、ディープラーニングモデルを訓練する。 結果として得られたMIPモデルを標準オフザシェルフ解法を用いて解く。 本稿では,MIPインスタンス間のモデルの堅牢性と一般化性を向上する合成データを生成するアルゴリズムを提案する。 有効性を比較する (a)フィードフォワードニューラルネットワーク(ANN)と b)畳み込みニューラルネットワーク(CNN) このフレームワークの性能を向上させるため,大域的最適解の発生を最大化するために,ハイパーパラメータチューニングのためのベイズ最適化を用いる。 この枠組みを、個人化された医療サプライチェーンにおける長期投資計画と中期的戦術スケジューリングを記述したフローベースの施設配置MIP定式化に適用する。

This work introduces a framework to address the computational complexity inherent in Mixed-Integer Programming (MIP) models by harnessing the potential of deep learning. By employing deep learning, we construct problem-specific heuristics that identify and exploit common structures across MIP instances. We train deep learning models to estimate complicating binary variables for target MIP problem instances. The resulting reduced MIP models are solved using standard off-the-shelf solvers. We present an algorithm for generating synthetic data enhancing the robustness and generalizability of our models across diverse MIP instances. We compare the effectiveness of (a) feed-forward neural networks (ANN) and (b) convolutional neural networks (CNN). To enhance the framework's performance, we employ Bayesian optimization for hyperparameter tuning, aiming to maximize the occurrence of global optimum solutions. We apply this framework to a flow-based facility location allocation MIP formulation that describes long-term investment planning and medium-term tactical scheduling in a personalized medicine supply chain.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# Delocate: ランダムに位置決めされたトレーパー付きディープフェイクビデオの検出と位置決め

Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces ( http://arxiv.org/abs/2401.13516v5 )

ライセンス: Link先を確認
Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou, (参考訳) ディープフェイクビデオはますます現実的になりつつあり、フレームごとに異なる顔領域の痕跡がほとんど見当たらない。 その結果、既存のDeepfake検出手法では、未知のドメインのDeepfakeビデオを検出するのに苦労し、改ざんされた領域を正確に特定する。 そこで本研究では,未知のドメインのDeepfakeビデオの認識とローカライズが可能なDelocateという,新しいDeepfake検出モデルを提案する。 OurmethodはRecovering and Localizationという2つのステージから構成される。 回復段階において、モデルランダムは興味のある領域(ROI)を隠蔽し、痕跡を改ざんすることなく実際の顔を再構築する。 ローカライゼーション段階において、リカバリフェーズの出力とフォージェリーグラウンドの真理マスクは、フォージェリーローカライゼーションプロセスの導出を補助する。 このプロセスは、偽の顔の回復段階と回復不良を戦略的に強調し、改ざんされた領域の局所化を容易にする。 広範に使用されている4つのベンチマークデータセットの大規模な実験により、乱れ領域のローカライズに限らず、クロスドメイン検出性能も向上することが示された。

Deepfake videos are becoming increasingly realistic, showing few tampering traces on facial areasthat vary between frames. Consequently, existing Deepfake detection methods struggle to detect unknown domain Deepfake videos while accurately locating the tampered region. To address thislimitation, we propose Delocate, a novel Deepfake detection model that can both recognize andlocalize unknown domain Deepfake videos. Ourmethod consists of two stages named recoveringand localization. In the recovering stage, the modelrandomly masks regions of interest (ROIs) and reconstructs real faces without tampering traces, leading to a relatively good recovery effect for realfaces and a poor recovery effect for fake faces. Inthe localization stage, the output of the recoveryphase and the forgery ground truth mask serve assupervision to guide the forgery localization process. This process strategically emphasizes the recovery phase of fake faces with poor recovery, facilitating the localization of tampered regions. Ourextensive experiments on four widely used benchmark datasets demonstrate that Delocate not onlyexcels in localizing tampered areas but also enhances cross-domain detection performance.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# スタイルインジェクション:テキスト-画像拡散モデルのパラメータの効率的なチューニング

StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2401.13942v2 )

ライセンス: Link先を確認
Mohan Zhou, Yalong Bai, Qing Yang, Tiejun Zhao, (参考訳) テキスト・ツー・イメージ生成タスクのための生成モデルを微調整する能力は、特にテキスト入力の正確な解釈と視覚化に関わる複雑さに直面している。 LoRAは言語モデルの適応に効率的であるが、多種多様なスタイルやニュアンスを収容するなど、画像生成の複雑な要求のために、テキストから画像へのタスクでは不足することが多い。 このギャップを埋めるために、テキスト・ツー・イメージ・モデルに適した、特殊な微調整アプローチであるStyleInjectを導入する。 StyleInjectは複数の並列な低ランクパラメータ行列で構成され、視覚的特徴の多様性を維持している。 入力信号の特性に基づいて視覚的特徴のばらつきを調整することにより、様々なスタイルに動的に適応する。 このアプローチは、転送学習における様々なスタイルに順応しながら、元のモデルのテキストイメージアライメント能力への影響を著しく最小化する。 StyleInjectは、高度でコミュニティがカスタマイズした生成モデルから学習し、拡張するのに特に有効である。 筆者らは,小型・大規模データマイニングとベースモデル蒸留を含む総合的な実験を行い,StyleInjectはテキスト画像のセマンティック一貫性と人間の嗜好評価の両方において従来のLoRAを上回り,パラメータ効率の向上を図っている。

The ability to fine-tune generative models for text-to-image generation tasks is crucial, particularly facing the complexity involved in accurately interpreting and visualizing textual inputs. While LoRA is efficient for language model adaptation, it often falls short in text-to-image tasks due to the intricate demands of image generation, such as accommodating a broad spectrum of styles and nuances. To bridge this gap, we introduce StyleInject, a specialized fine-tuning approach tailored for text-to-image models. StyleInject comprises multiple parallel low-rank parameter matrices, maintaining the diversity of visual features. It dynamically adapts to varying styles by adjusting the variance of visual features based on the characteristics of the input signal. This approach significantly minimizes the impact on the original model's text-image alignment capabilities while adeptly adapting to various styles in transfer learning. StyleInject proves particularly effective in learning from and enhancing a range of advanced, community-fine-tuned generative models. Our comprehensive experiments, including both small-sample and large-scale data fine-tuning as well as base model distillation, show that StyleInject surpasses traditional LoRA in both text-image semantic consistency and human preference evaluation, all while ensuring greater parameter efficiency.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# 深い強化学習による価格競争における暗黙的アルゴリズムによる共謀--EV料金ゲームを用いた検討

Tacit algorithmic collusion in deep reinforcement learning guided price competition: A study using EV charge pricing game ( http://arxiv.org/abs/2401.15108v2 )

ライセンス: Link先を確認
Diwas Paudel, Tapas K. Das, (参考訳) 複雑な構造を持つ価格設定ゲームのプレイヤーは、人工知能(AI)を採用して、利益を最大化するための価格決定を学習アルゴリズムに支援している。 このことが反トラスト機関の懸念を高めている。AIの使用は、他の独立したプレイヤーの間で暗黙のアルゴリズムによる共謀を促進する可能性があるからだ。 近年のカノニカルな形式のゲームの研究は、AI誘導選手の間では、無から高レベルの暗黙の共謀まで、対照的な主張を示している。 本稿では,EV充電ハブが価格を動的に変動させることで競争する現実的なゲームを考えることで,暗黙の共謀に対する懸念を検討する。 EVの採用があらゆる分野の交通機関で拡大するにつれ、このようなゲームは近い将来、一般的になる可能性が高い。 このハブは、デイアヘッド(DA)とリアルタイム(RT)電気市場、および社内バッテリーストレージシステムから電力を供給している。 彼らの目標は、価格で利益を最大化し、消費電力のコストを効率的に管理することである。 そこで本研究では,2段階のデータ駆動手法を開発した。 最初のステップは確率モデルを解くことでDAのコミットメントを得る。 第2のステップは、マルチエージェントディープ強化学習(MADRL)フレームワークを使用して、競合するマルコフ決定プロセスモデルを解決することで、価格戦略を生成する。 我々は,暗黙のアルゴリズムによる共謀の度合いを指標として,結果の価格戦略を評価する。 ゼロの指数値は、衝突(完全な競争)がなく、完全な衝突(独占的行動)を示す。 数値ケーススタディの結果,0.14~0.45の衝突指数値が得られた。

Players in pricing games with complex structures are increasingly adopting artificial intelligence (AI) aided learning algorithms to make pricing decisions for maximizing profits. This is raising concern for the antitrust agencies as the practice of using AI may promote tacit algorithmic collusion among otherwise independent players. Recent studies of games in canonical forms have shown contrasting claims ranging from none to a high level of tacit collusion among AI-guided players. In this paper, we examine the concern for tacit collusion by considering a practical game where EV charging hubs compete by dynamically varying their prices. Such a game is likely to be commonplace in the near future as EV adoption grows in all sectors of transportation. The hubs source power from the day-ahead (DA) and real-time (RT) electricity markets as well as from in-house battery storage systems. Their goal is to maximize profits via pricing and efficiently managing the cost of power usage. To aid our examination, we develop a two-step data-driven methodology. The first step obtains the DA commitment by solving a stochastic model. The second step generates the pricing strategies by solving a competitive Markov decision process model using a multi-agent deep reinforcement learning (MADRL) framework. We evaluate the resulting pricing strategies using an index for the level of tacit algorithmic collusion. An index value of zero indicates no collusion (perfect competition) and one indicates full collusion (monopolistic behavior). Results from our numerical case study yield collusion index values between 0.14 and 0.45, suggesting a low to moderate level of collusion.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# 量子系のマクロ可逆性:自由フェルミオン鎖におけるETHと平衡

Macroscopic Irreversibility in Quantum Systems: ETH and Equilibration in a Free Fermion Chain ( http://arxiv.org/abs/2401.15263v3 )

ライセンス: Link先を確認
Hal Tasaki, (参考訳) 均一な近傍ホッピングを持つ自由フェルミオン鎖を考察し, 粒子数が固定された任意の初期状態から進化させる。 次に、十分に大きく典型的に測定された粗粒密度分布が、(量子力学的)確率と非常に近いほぼ均一であることを示す。 これは、量子力学的ユニタリ時間進化によって支配されるシステムにおいて、不可逆的な振る舞い、すなわち弾道拡散の出現を確立する。 概念上は、非可逆性は初期状態やハミルトニアンに無作為性を導入することなくここで証明されることが重要であるが、古典系における非可逆性の導出は主にある種の無作為性に依存する。 証明に不可欠な新しい要素は、大きな偏りの形の強いETH(エネルギー固有状態熱化仮説)の正当性である。

We consider a free fermion chain with uniform nearest-neighbor hopping and let it evolve from an arbitrary initial state with a fixed macroscopic number of particles. We then prove that, at a sufficiently large and typical time, the measured coarse-grained density distribution is almost uniform with (quantum mechanical) probability extremely close to one. This establishes the emergence of irreversible behavior, i.e., a ballistic diffusion, in a system governed by quantum mechanical unitary time evolution. It is conceptually important that irreversibility is proved here without introducing any randomness to the initial state or the Hamiltonian, while the derivation of irreversibility in classical systems mostly relies on certain randomness. The essential new ingredient in the proof is the justification of the strong ETH (energy eigenstate thermalization hypothesis) in the large-deviation form.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# AI生成顔はジェンダーステレオタイプと人種的均質化に影響を与える

AI-generated faces influence gender stereotypes and racial homogenization ( http://arxiv.org/abs/2402.01002v2 )

ライセンス: Link先を確認
Nouar AlDahoul, Talal Rahwan, Yasir Zaki, (参考訳) 安定拡散のようなテキストから画像への生成AIモデルは、世界中の何百万人もの人々が毎日使っている。 しかし、これらのモデルが人種や性別のステレオタイプを示す程度はまだ完全には理解されていない。 ここでは,6つの人種,2つの性別,32の専門職,8つの属性にまたがる安定拡散の重大なバイアスについて述べる。 さらに、安定拡散が互いに類似している同じ人種の個人を描写する程度について検討する。 この分析は、ほぼすべての中東の男性が黒い肌でひげを生やし、伝統的な頭飾りを身に着けている、重要な人種的均質化(eg)を明らかにしている。 次に、上記のステレオタイプに対処する新しいデバイアス解を提案する。 最後に、事前に登録された実験を用いて、包括的AI生成顔が提示されることで、人々の人種的および性別的バイアスが減少し、非包括的顔が提示されることで、そのようなバイアスが増大することを示す。 画像がAI生成とラベル付けされているかどうかに関わらず、これは継続する。 まとめると、AI生成コンテンツのバイアスやステレオタイプに対処する必要性が強調される。

Text-to-image generative AI models such as Stable Diffusion are used daily by millions worldwide. However, the extent to which these models exhibit racial and gender stereotypes is not yet fully understood. Here, we document significant biases in Stable Diffusion across six races, two genders, 32 professions, and eight attributes. Additionally, we examine the degree to which Stable Diffusion depicts individuals of the same race as being similar to one another. This analysis reveals significant racial homogenization, e.g., depicting nearly all middle eastern men as dark-skinned, bearded, and wearing a traditional headdress. We then propose novel debiasing solutions that address the above stereotypes. Finally, using a preregistered experiment, we show that being presented with inclusive AI-generated faces reduces people's racial and gender biases, while being presented with non-inclusive ones increases such biases. This persists regardless of whether the images are labeled as AI-generated. Taken together, our findings emphasize the need to address biases and stereotypes in AI-generated content.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# アクション認識のためのTaylor Videos

Taylor Videos for Action Recognition ( http://arxiv.org/abs/2402.03019v4 )

ライセンス: Link先を確認
Lei Wang, Xiuyuan Yuan, Tom Gedeon, Liang Zheng, (参考訳) 映像から効果的に動きを抽出することは、行動認識にとって決定的かつ長期にわたる問題である。 この問題は運動のため非常に難しい (i)明示的な形式を持たないこと。 (二)変位、速度、加速度、その他様々な概念 (iii)不安定な画素によるノイズがしばしば含まれる。 これらの課題に対処するために,Taylor フレームと呼ばれる各フレームにおける支配的な動き(例えば手を振っている手)をハイライトする新しいビデオフォーマットであるTaylor ビデオを提案する。 テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。 ビデオのシナリオでは、ビデオの時間ブロックから動きを抽出することを目的とした暗黙の動作抽出関数を定義する。 このブロックでは、フレーム、差分フレーム、高階差分フレームを用いてテイラー展開を行い、この関数を開始フレームで近似する。 テイラー級数における高次項の和は、静的な物体、小さく不安定な動きを除去する支配的な動きパターンを与える。 実験により,Taylorビデオは2次元CNN,3次元CNN,トランスフォーマーなどの一般的なアーキテクチャへの効果的なインプットであることを示す。 個別に使用すると、テイラービデオはRGBビデオや光学フローと比較して、競争力のある動作認識精度が得られる。 RGBや光フロービデオと融合すると、さらなる精度向上が達成される。 さらに、Taylorのビデオ計算を人間の骨格配列に適用し、結果としてTaylorの骨格配列は、骨格に基づく行動認識におけるオリジナルの骨格の使用よりも優れている。

Effectively extracting motions from video is a critical and long-standing problem for action recognition. This problem is very challenging because motions (i) do not have an explicit form, (ii) have various concepts such as displacement, velocity, and acceleration, and (iii) often contain noise caused by unstable pixels. Addressing these challenges, we propose the Taylor video, a new video format that highlights the dominate motions (e.g., a waving hand) in each of its frames named the Taylor frame. Taylor video is named after Taylor series, which approximates a function at a given point using important terms. In the scenario of videos, we define an implicit motion-extraction function which aims to extract motions from video temporal block. In this block, using the frames, the difference frames, and higher-order difference frames, we perform Taylor expansion to approximate this function at the starting frame. We show the summation of the higher-order terms in the Taylor series gives us dominant motion patterns, where static objects, small and unstable motions are removed. Experimentally we show that Taylor videos are effective inputs to popular architectures including 2D CNNs, 3D CNNs, and transformers. When used individually, Taylor videos yield competitive action recognition accuracy compared to RGB videos and optical flow. When fused with RGB or optical flow videos, further accuracy improvement is achieved. Additionally, we apply Taylor video computation to human skeleton sequences, resulting in Taylor skeleton sequences that outperform the use of original skeletons for skeleton-based action recognition.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# VLCシステムの物理層セキュリティ向上のためのIRS誘起時間遅延の活用

Leveraging IRS Induced Time Delay for Enhanced Physical Layer Security in VLC Systems ( http://arxiv.org/abs/2402.03202v2 )

ライセンス: Link先を確認
Rashid Iqbal, Mauro Biagi, Ahmed Zoha, Muhammad Ali Imran, Hanaa Abumarshoud, (参考訳) 室内可視光通信(VLC)は、光が伝播する狭い領域の外側の攻撃者に対して安全であると考えられているが、それでもカバー領域内からの傍受には影響しない。 インテリジェント反射面(IRS)と呼ばれる新しい技術が最近導入され、物理層セキュリティ(PLS)を強化する方法を提供している。 IRS支援型VLCのほとんどの研究は、全ての反射要素からの到着と同じ時刻を仮定し、時間遅延と関連するシンボル干渉の影響を見落としている。 本稿は,VLCシステムにおける時間遅延が機密保持率に与える影響を初めて取り上げる。 その結果、3Wの固定発光ダイオード(LED)パワーでは、盗聴器がLEDの半径1m以内にある場合、正当性のあるユーザに対して、秘密度を253\%まで向上させることができることがわかった。 以上の結果から, 盗聴器が良好な位置にある場合であっても, IRS 要素を慎重に割り当てることによりPSS が向上し, 正規ユーザよりもチャネルゲインが向上することが示唆された。

Indoor visible light communication (VLC) is considered secure against attackers outside the confined area where the light propagates, but it is still susceptible to interception from inside the coverage area. A new technology, intelligent reflecting surfaces (IRS), has been recently introduced, offering a way to enhance physical layer security (PLS). Most research on IRS-assisted VLC assumes the same time of arrival from all reflecting elements and overlooks the effect of time delay and the associated intersymbol interference. This paper tackles, for the first time, the effect of time delay on the secrecy rate in VLC systems. Our results show that, at a fixed light-emitting diode (LED) power of 3W, the secrecy rate can be enhanced by up to 253\% at random positions for the legitimate user when the eavesdropper is located within a 1-meter radius of the LED. Our results also show that careful allocation of the IRS elements can lead to enhanced PLS even when the eavesdropper has a more favourable position and, thus, a better channel gain than the legitimate user.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# 部分確率的無限深部ベイズニューラルネットワーク

Partially Stochastic Infinitely Deep Bayesian Neural Networks ( http://arxiv.org/abs/2402.03495v2 )

ライセンス: Link先を確認
Sergio Calvo-Ordonez, Matthieu Meunier, Francesco Piatti, Yuantao Shi, (参考訳) 本稿では、無限深度ニューラルネットワークの枠組みに部分確率性を統合する新しいアーキテクチャ群である、部分確率 Infinitely Deep Bayesian Neural Networksを提案する。 私たちの新しいアーキテクチャのクラスは、トレーニングと推論時の計算効率に関する既存のアーキテクチャの制限を改善するために設計されています。 これを実現するために, 完全確率性 e g 頑健性, 不確実性定量化, メモリ効率の利点を含む無限深度限界における部分確率性の利点を活用するとともに, 計算複雑性に関する限界を改善する。 重み分割のための様々な方法を含む,ネットワーク設計における柔軟性を提供する,さまざまなアーキテクチャ構成を提案する。 また,我々のネットワークファミリーがUniversal Conditional Distribution Approximatorに該当することを確立することにより,モデル表現性に関する数学的保証も提供する。 最後に、複数のタスクに対する実証的な評価により、提案したアーキテクチャは、ダウンストリームタスクのパフォーマンスと不確かさの定量化を、より効果的に達成できることを示す。

In this paper, we present Partially Stochastic Infinitely Deep Bayesian Neural Networks, a novel family of architectures that integrates partial stochasticity into the framework of infinitely deep neural networks. Our new class of architectures is designed to improve the limitations of existing architectures around computational efficiency at training and inference time. To do this, we leverage the advantages of partial stochasticity in the infinite-depth limit which include the benefits of full stochasticity e.g. robustness, uncertainty quantification, and memory efficiency, whilst improving their limitations around computational complexity. We present a variety of architectural configurations, offering flexibility in network design including different methods for weight partition. We also provide mathematical guarantees on the expressivity of our models by establishing that our network family qualifies as Universal Conditional Distribution Approximators. Lastly, empirical evaluations across multiple tasks show that our proposed architectures achieve better downstream task performance and uncertainty quantification than their counterparts while being significantly more efficient.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# ベータ限界をもつ確率依存確率のロジスティック・ベータ過程

Logistic-beta processes for dependent random probabilities with beta marginals ( http://arxiv.org/abs/2402.07048v2 )

ライセンス: Link先を確認
Changwoo J. Lee, Alessandro Zito, Huiyan Sang, David B. Dunson, (参考訳) ベータディストリビューションは、統計と機械学習の確率をモデル化するための標準ツールとして機能する。 しかし、従属確率をモデル化するためのフレキシブルで計算に便利な確率過程拡張に関する限定的な研究がある。 本稿では,ロジスティック・ベータプロセスと呼ばれる新しい確率過程を提案する。 ロジスティックベータプロセスは、空間や時間などの離散的および連続的な領域への依存をモデル化でき、相関カーネルを通じて柔軟な依存構造を持つ。 さらに、その正規分散平均混合表現は効果的な後部推論アルゴリズムをもたらす。 非パラメトリック二分回帰と条件密度推定の例を通して、シミュレーション研究と妊娠結果アプリケーションの両方で利点を解説する。

The beta distribution serves as a canonical tool for modelling probabilities in statistics and machine learning. However, there is limited work on flexible and computationally convenient stochastic process extensions for modelling dependent random probabilities. We propose a novel stochastic process called the logistic-beta process, whose logistic transformation yields a stochastic process with common beta marginals. Logistic-beta processes can model dependence on both discrete and continuous domains, such as space or time, and have a flexible dependence structure through correlation kernels. Moreover, its normal variance-mean mixture representation leads to effective posterior inference algorithms. We illustrate the benefits through nonparametric binary regression and conditional density estimation examples, both in simulation studies and in a pregnancy outcome application.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# 高次元可積分モデルの離散時間結晶相

Discrete Time Crystal Phase of Higher Dimensional Integrable Models ( http://arxiv.org/abs/2402.07279v2 )

ライセンス: Link先を確認
Rahul Chandra, Analabha Roy, (参考訳) 本稿では,Floquet-time 結晶を高次元(d\geq 2$)で生成する可能性を検討する。 この実現は、熱化と脱コヒーレンスに理想的に抵抗する固い時間-結晶相をもたらす。 スピン軌道結合を利用して、新しい手法で検出できる堅牢な時間-結晶相を実現することができる。 さらに, 高持続性サブハーモニック応答とその実装を, 北エフスピン液体で研究することの重要性について論じる。

This paper investigates the possibility of generating Floquet-time crystals in higher dimensions ($d\geq 2$) through the time-periodic driving of integrable free-fermionic models. The realization leads to rigid time-crystal phases that are ideally resistant to thermalization and decoherence. By utilizing spin-orbit coupling, we are able to realize a robust time-crystal phase that can be detected using novel techniques. Moreover, we discuss the significance of studying the highly persistent subharmonic responses and their implementation in a Kitaev spin liquid, which contributes to our understanding of time translational symmetry breaking and its practical implications.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-10
# Video ReCap: 時間長ビデオの再帰的キャプション

Video ReCap: Recursive Captioning of Hour-Long Videos ( http://arxiv.org/abs/2402.13250v5 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius, (参考訳) ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例えば、オブジェクト、シーン、アトミックアクション)を記述するテキストを出力するように設計されている。 しかし、ほとんどの現実世界のビデオは数分か数時間続き、異なる時間的粒度にまたがる複雑な階層構造を持つ。 本稿では,ビデオキャプションを劇的に異なる長さ(1秒から2時間)で処理し,複数の階層レベルで映像キャプションを出力する再帰的ビデオキャプションモデルであるVideo ReCapを提案する。 再帰的なビデオ言語アーキテクチャは、異なるビデオ階層間の相乗効果を利用して、1時間のビデオを効率的に処理することができる。 ビデオの階層構造を学習するためのカリキュラム学習トレーニングスキームを,ビデオのアトミックな動作を記述したクリップレベルのキャプションから学び,セグメントレベルの記述に集中し,時間単位のビデオの要約を生成する。 さらに,Ego4Dを8,267個の長範囲ビデオ要約で拡張することにより,Ego4D-HCapデータセットを導入する。 再帰的モデルでは,階層レベルの異なるキャプションを柔軟に生成できると同時に,ビデオQA on EgoSchemaなどの複雑なビデオ理解タスクにも有効である。 データ、コード、モデルについては、https://sites.google.com/view/vidrecapを参照してください。

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# 情報理論型安全なベイズ最適化

Information-Theoretic Safe Bayesian Optimization ( http://arxiv.org/abs/2402.15347v2 )

ライセンス: Link先を確認
Alessandro G. Bottero, Carlos E. Luis, Julia Vinogradska, Felix Berkenkamp, Jan Peters, (参考訳) そこでは, 未知の(安全でない)制約に違反するパラメータを評価することなく, 未知の関数を最適化することを目的としている。 一般的なアプローチは、未知の関数に先立ってガウス過程を配置し、高い確率で安全な領域にのみ評価を行うことである。 現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。 さらに、制約に関する規則性仮定を利用する方法には、追加の臨界ハイパーパラメータが導入される。 本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。 この探索基準とよく知られたベイズ最適化獲得関数を組み合わせることで、新しい安全なベイズ最適化選択基準が得られる。 我々のアプローチは自然に連続した領域に適用でき、追加の明示的なハイパーパラメータを必要としない。 提案手法を理論的に解析し,安全制約を高い確率で破ることなく,任意の精度で安全最適値について学習することを示す。 実証的な評価では、データ効率とスケーラビリティが改善されている。

We consider a sequential decision making task, where the goal is to optimize an unknown function without evaluating parameters that violate an a~priori unknown (safety) constraint. A common approach is to place a Gaussian process prior on the unknown functions and allow evaluations only in regions that are safe with high probability. Most current methods rely on a discretization of the domain and cannot be directly extended to the continuous case. Moreover, the way in which they exploit regularity assumptions about the constraint introduces an additional critical hyperparameter. In this paper, we propose an information-theoretic safe exploration criterion that directly exploits the GP posterior to identify the most informative safe parameters to evaluate. The combination of this exploration criterion with a well known Bayesian optimization acquisition function yields a novel safe Bayesian optimization selection criterion. Our approach is naturally applicable to continuous domains and does not require additional explicit hyperparameters. We theoretically analyze the method and show that we do not violate the safety constraint with high probability and that we learn about the value of the safe optimum up to arbitrary precision. Empirical evaluations demonstrate improved data-efficiency and scalability.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# 各種サイバー攻撃検出のための最先端機械学習手法の性能調査

An Investigation into the Performances of the State-of-the-art Machine Learning Approaches for Various Cyber-attack Detection: A Survey ( http://arxiv.org/abs/2402.17045v2 )

ライセンス: Link先を確認
Tosin Ige, Christopher Kiekintveld, Aritran Piplai, (参考訳) 本研究では,過去5年間の各種サイバー攻撃検出における最先端機械学習モデルの適合性について分析し,サイバー攻撃のカテゴリごとの検知に関して,まだ作業が必要な知識ギャップを特定するための比較研究に重点を置いている。 我々はまた、異種サイバー攻撃の検出における最先端の分類器と新しいフレームワークに関する最近の研究の適性、効率、限界についてもレビューした。 我々の研究結果は、ドライブ・バイ・ダウンロード攻撃の検出のための機械学習アプローチのさらなる研究と調査、既存の最先端のネイブベイズ分類器の改善に関する研究の方向性を特定するためのネイブベイズの混合性能の調査、そして、SQLi攻撃の検出に対する現在の機械学習アプローチが、すでに漏洩したデータベースをSQLi攻撃で検出できないこと、そして、別の将来的な研究方向性を示すことを示している。

In this research, we analyzed the suitability of each of the current state-of-the-art machine learning models for various cyberattack detection from the past 5 years with a major emphasis on the most recent works for comparative study to identify the knowledge gap where work is still needed to be done with regard to detection of each category of cyberattack. We also reviewed the suitability, effeciency and limitations of recent research on state-of-the-art classifiers and novel frameworks in the detection of differnet cyberattacks. Our result shows the need for; further research and exploration on machine learning approach for the detection of drive-by download attacks, an investigation into the mix performance of Naive Bayes to identify possible research direction on improvement to existing state-of-the-art Naive Bayes classifier, we also identify that current machine learning approach to the detection of SQLi attack cannot detect an already compromised database with SQLi attack signifying another possible future research direction.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# ニシスト:トラブルシューティングガイドに基づく事故軽減パイロット

Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides ( http://arxiv.org/abs/2402.17531v2 )

ライセンス: Link先を確認
Kaikai An, Fangkai Yang, Junting Lu, Liqun Li, Zhixing Ren, Hao Huang, Lu Wang, Pu Zhao, Yu Kang, Hua Ding, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, (参考訳) 企業レベルのクラウドサービスのスムーズな運用には,効果的なインシデント管理が重要である。 インシデント緩和の迅速化のために、サービスチームはトラブルシューティング知識を、オンコールエンジニア(OCE)がアクセス可能なトラブルシューティングガイド(TSG)にコンパイルする。 自動パイプラインは最も頻繁で簡単なインシデントを解決するために有効だが、OCEの介入を必要とする複雑なインシデントが存在する。 しかし、TSGは、しばしば非構造的で不完全であり、OCEによる手動による解釈が必要であり、特に新しいOCEにおいて、オンコール疲労と生産性の低下につながる。 本研究では,TSGとインシデント緩和履歴を活用して積極的な提案を行い,人間の介入を減らすニシストを提案する。 大規模言語モデル(LLM)を活用して、Nissistは構造化されていないTSGから洞察を抽出し、歴史的インシデント軽減の議論を行い、包括的な知識基盤を形成する。 マルチエージェントシステム設計は、ユーザのクエリを正確に識別し、関連情報を検索し、体系的なプランを連続的に配信する能力を向上させる。 ユーザのケースと実験を通じて、Nissistはインシデント軽減、OCEの運用上の負担軽減、サービスの信頼性向上において、TTM(Time to Mitigate)を著しく削減しています。 私たちのデモはhttps://aka.ms/nissist_demo.comで公開されています。

Effective incident management is pivotal for the smooth operation of enterprises-level cloud services. In order to expedite incident mitigation, service teams compile troubleshooting knowledge into Troubleshooting Guides (TSGs) accessible to on-call engineers (OCEs). While automated pipelines are enabled to resolve the most frequent and easy incidents, there still exist complex incidents that require OCEs' intervention. However, TSGs are often unstructured and incomplete, which requires manual interpretation by OCEs, leading to on-call fatigue and decreased productivity, especially among new-hire OCEs. In this work, we propose Nissist which leverages TSGs and incident mitigation histories to provide proactive suggestions, reducing human intervention. Leveraging Large Language Models (LLM), Nissist extracts insights from unstructured TSGs and historical incident mitigation discussions, forming a comprehensive knowledge base. Its multi-agent system design enhances proficiency in precisely discerning user queries, retrieving relevant information, and delivering systematic plans consecutively. Through our user case and experiment, we demonstrate that Nissist significant reduce Time to Mitigate (TTM) in incident mitigation, alleviating operational burdens on OCEs and improving service reliability. Our demo is available at https://aka.ms/nissist_demo.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# RNNはトランスフォーマーではない (Yet): In-context Retrieval におけるキーブートネック

RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval ( http://arxiv.org/abs/2402.18510v3 )

ライセンス: Link先を確認
Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, (参考訳) 本稿では,アルゴリズム問題の解法におけるリカレントニューラルネットワーク(RNN)とトランスフォーマーの表現力のギャップについて検討する。 我々は,長いシーケンスの処理においてメモリ効率が知られているRNNが,特にChain-of-Thought(CoT)のプロンプトによって強化された場合,トランスフォーマーの性能にマッチするかどうかを理解することに重点を置いている。 理論的解析により、CoTはRNNを改善するが、トランスフォーマーとのギャップを埋めるには不十分であることが判明した。 グラフが木であるかどうかの連想的リコールや決定など、明示的にあるいは暗黙的にこの能力を必要とするいくつかのタスクに対して、RNNはタスクを解くのに十分な表現力がないことを証明します。 逆に,Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を高める手法を採用することで,CoT による多項式時間解決可能な問題を全て解けるように RNN を高め,変換器との表現ギャップを埋めることができることを示す。

This paper investigates the gap in representation powers of Recurrent Neural Networks (RNNs) and Transformers in the context of solving algorithmic problems. We focus on understanding whether RNNs, known for their memory efficiency in handling long sequences, can match the performance of Transformers, particularly when enhanced with Chain-of-Thought (CoT) prompting. Our theoretical analysis reveals that CoT improves RNNs but is insufficient to close the gap with Transformers. A key bottleneck lies in the inability of RNNs to perfectly retrieve information from the context, even with CoT: for several tasks that explicitly or implicitly require this capability, such as associative recall and determining if a graph is a tree, we prove that RNNs are not expressive enough to solve the tasks while Transformers can solve them with ease. Conversely, we prove that adopting techniques to enhance the in-context retrieval capability of RNNs, including Retrieval-Augmented Generation (RAG) and adding a single Transformer layer, can elevate RNNs to be capable of solving all polynomial-time solvable problems with CoT, hence closing the representation gap with Transformers.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# Coincidence Detection によるQKDプロトコルの鍵レート向上

Enhancing key rates of QKD protocol by Coincidence Detection ( http://arxiv.org/abs/2402.19049v2 )

ライセンス: Link先を確認
Tanya Sharma, Rutvij Bhavsar, Jayanth Ramakrishnan, Pooja Chandravanshi, Shashi Prabhakar, Ayan Biswas, R. P. Singh, (参考訳) 理論上は、量子鍵分布(QKD)は無条件のセキュリティを提供するが、その実践的実装は悪用可能な脆弱性に感受性がある。 本研究は,弱いコヒーレントパルスを用いたQKD実装の制約に対処する。 我々は、デコイパルスを偶然検出(CD)プロトコルと統合することで、従来のアプローチを改善する。 さらに,プロトコルの漸近的鍵レートを計算するための,実装が容易なアルゴリズムを導入する。 さらに,本プロトコルを実験的に実装し,デコイ状態プロトコルの同時監視によって実測実験条件下でのキーレートが向上することが実証された。

In theory, quantum key distribution (QKD) provides unconditional security; however, its practical implementations are susceptible to exploitable vulnerabilities. This investigation tackles the constraints in practical QKD implementations using weak coherent pulses. We improve on the conventional approach of using decoy pulses by integrating it with the coincidence detection (CD) protocol. Additionally, we introduce an easy-to-implement algorithm to compute asymptotic key rates for the protocol. Furthermore, we have carried out an experimental implementation of the protocol, where we demonstrate that monitoring coincidences in the decoy state protocol leads to enhanced key rates under realistic experimental conditions.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# HeteroSwitch:フェデレートラーニングにおけるシステムによるデータ不均一性の特徴とモデリング

HeteroSwitch: Characterizing and Taming System-Induced Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2403.04207v2 )

ライセンス: Link先を確認
Gyudong Kim, Mehdi Ghasemi, Soroush Heidari, Seungryong Kim, Young Geun Kim, Sarma Vrudhula, Carole-Jean Wu, (参考訳) Federated Learning(FL)は、デバイス上で生データを保持することによってユーザのプライバシを保護することによって、ユーザエンドデバイス間でディープラーニングモデルを協調的にトレーニングする実践的なアプローチである。 FLでは、ハードウェアやソフトウェアの構成に関して、参加するエンドユーザデバイスは極めて断片化されている。 このような断片化は、ハードウェアやソフトウェアの構成に応じて異なるデータを生成するため、FLの新しいタイプのデータ不均一性、すなわち、textit{system-induced data heterogeneity}を導入する。 本稿では,FLモデルの性能に及ぼすシステムによるデータ不均一性の影響を最初に特徴付ける。 ベンダーやパフォーマンス層によって異なる異種デバイスを使用してデータセットを収集します。 このデータセットを用いることで, <textit{system-induced data heterogeneity} が精度に悪影響を及ぼし, FLにおける公平性や領域一般化の問題を悪化させることを示した。 これらの課題に対処するために,HW と SW の設定の変化によるバイアスレベルに応じて,一般化技術(ISP 変換と SWAD)を適応的に採用する HeteroSwitch を提案する。 現実的なFLデータセット(FLAIR)による評価において,HeteroSwitchはデバイスタイプ間の平均精度のばらつきを6.3\%削減する。

Federated Learning (FL) is a practical approach to train deep learning models collaboratively across user-end devices, protecting user privacy by retaining raw data on-device. In FL, participating user-end devices are highly fragmented in terms of hardware and software configurations. Such fragmentation introduces a new type of data heterogeneity in FL, namely \textit{system-induced data heterogeneity}, as each device generates distinct data depending on its hardware and software configurations. In this paper, we first characterize the impact of system-induced data heterogeneity on FL model performance. We collect a dataset using heterogeneous devices with variations across vendors and performance tiers. By using this dataset, we demonstrate that \textit{system-induced data heterogeneity} negatively impacts accuracy, and deteriorates fairness and domain generalization problems in FL. To address these challenges, we propose HeteroSwitch, which adaptively adopts generalization techniques (i.e., ISP transformation and SWAD) depending on the level of bias caused by varying HW and SW configurations. In our evaluation with a realistic FL dataset (FLAIR), HeteroSwitch reduces the variance of averaged precision by 6.3\% across device types.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# CardioGenAI:hERGの信頼性を低減するための再エンジニアリングのための機械学習ベースのフレームワーク

CardioGenAI: A Machine Learning-Based Framework for Re-Engineering Drugs for Reduced hERG Liability ( http://arxiv.org/abs/2403.07632v2 )

ライセンス: Link先を確認
Gregory W. Kyro, Matthew T. Martin, Eric D. Watt, Victor S. Batista, (参考訳) hERGイオンチャネル阻害とそれに続くQT間隔延長の関連は、Torsade de Pointesのようなarrythmiasの発達にとって重要な危険因子であり、in vitroのhERG活性だけでは、他の有望な薬物候補の開発を終わらせるのに十分である。 したがって、医薬品開発の初期段階においてhERG活性化合物を同定する先進的な方法を開発することや、hERGの信頼性を低下させ、標的の有効性を保った再設計された化合物を提案することは、非常に興味深いことである。 本研究は,HERG活性を低下させるため,開発用および市販用両方の薬物を再設計する機械学習ベースのフレームワークであるCardioGenAIについて紹介する。 このフレームワークは、hERGチャネルの活性を予測するための新しい最先端の識別モデルと、hERGチャネルの遮断によって引き起こされる不整脈性電位を調節する可能性から、電圧ゲート型NaV1.5およびCaV1.2チャネルに対する活性を含む。 我々は、hERGチャネルに高い親和性を示すFDA認可の抗精神病薬であるピモジドに完全な枠組みを適用し、100の精製候補を生成した。 この化合物はピモジドと同じ種類の薬物(ジフェニルメタン)であり、薬理活性は類似しているが、hERGに700倍以上の弱い結合を示す。 本手法は,hERG関連の安全性上の懸念から停止した医薬品開発プログラムを救済する手段として,hERGの障害を示す化合物に効果的に適用できると考えられる。 さらに、識別モデルは、仮想スクリーニングパイプラインの有効コンポーネントとして独立して機能することもできる。 私たちはすべてのソフトウェアをオープンソースにしました。

The link between in vitro hERG ion channel inhibition and subsequent in vivo QT interval prolongation, a critical risk factor for the development of arrythmias such as Torsade de Pointes, is so well established that in vitro hERG activity alone is often sufficient to end the development of an otherwise promising drug candidate. It is therefore of tremendous interest to develop advanced methods for identifying hERG-active compounds in the early stages of drug development, as well as for proposing redesigned compounds with reduced hERG liability and preserved on-target potency. In this work, we present CardioGenAI, a machine learning-based framework for re-engineering both developmental and commercially available drugs for reduced hERG activity while preserving their pharmacological activity. The framework incorporates novel state-of-the-art discriminative models for predicting hERG channel activity, as well as activity against the voltage-gated NaV1.5 and CaV1.2 channels due to their potential implications in modulating the arrhythmogenic potential induced by hERG channel blockade. We applied the complete framework to pimozide, an FDA-approved antipsychotic agent that demonstrates high affinity to the hERG channel, and generated 100 refined candidates. Remarkably, among the candidates is fluspirilene, a compound which is of the same class of drugs (diphenylmethanes) as pimozide and therefore has similar pharmacological activity, yet exhibits over 700-fold weaker binding to hERG. We envision that this method can effectively be applied to developmental compounds exhibiting hERG liabilities to provide a means of rescuing drug development programs that have stalled due to hERG-related safety concerns. Additionally, the discriminative models can also serve independently as effective components of a virtual screening pipeline. We have made all of our software open-source.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# 不均衡SVM分類のための適応的コスト感性学習と再帰的Denoisingフレームワーク

An Adaptive Cost-Sensitive Learning and Recursive Denoising Framework for Imbalanced SVM Classification ( http://arxiv.org/abs/2403.08378v2 )

ライセンス: Link先を確認
Lu Jiang, Qi Wang, Yuhang Chang, Jianing Song, Haoyue Fu, (参考訳) カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。 不均衡データセットに基づいてトレーニングされた感情分類モデルは、容易に信頼性の低い予測につながる。 従来の機械学習手法では、マイノリティクラスが好まれ、モデルにマイノリティクラス情報が欠落する傾向にある。 さらに、既存のモデルのほとんどは異常な感度問題や性能劣化を引き起こす。 本稿では,適応的なコスト感受性と再帰的認知に基づく頑健な学習アルゴリズムを提案する。 提案手法は,サンプルと決定境界間の動的カーネル距離最適化モデルを用いて,サンプルの事前情報をフル活用する。 また, ノイズを除去する有効な手法を提案し, その主な考え方は, 少数民族の最も近い隣人を見つけ出すことによって, ノイズを判断することである。 提案手法の強度を評価するため,標準データセットの実験を行うだけでなく,不均衡率の異なる感情分類問題にも適用する。 実験の結果,提案手法は従来の手法よりも精度,リコール,G平均よりも優れていることがわかった。

Category imbalance is one of the most popular and important issues in the domain of classification. Emotion classification model trained on imbalanced datasets easily leads to unreliable prediction. The traditional machine learning method tends to favor the majority class, which leads to the lack of minority class information in the model. Moreover, most existing models will produce abnormal sensitivity issues or performance degradation. We propose a robust learning algorithm based on adaptive cost-sensitiveity and recursive denoising, which is a generalized framework and can be incorporated into most stochastic optimization algorithms. The proposed method uses the dynamic kernel distance optimization model between the sample and the decision boundary, which makes full use of the sample's prior information. In addition, we also put forward an effective method to filter noise, the main idea of which is to judge the noise by finding the nearest neighbors of the minority class. In order to evaluate the strength of the proposed method, we not only carry out experiments on standard datasets but also apply it to emotional classification problems with different imbalance rates (IR). Experimental results show that the proposed general framework is superior to traditional methods in accuracy, recall and G-means.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# 包括的マルチモーダル知覚に向けて:タッチ・ランゲージ・ビジョン・データセットの導入

Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset ( http://arxiv.org/abs/2403.09813v2 )

ライセンス: Link先を確認
Ning Cheng, You Li, Jing Gao, Bin Fang, Jinan Xu, Wenjuan Han, (参考訳) 触覚は、人間とロボットの両方の知覚と相互作用能力に対する重要なサポートと強化を提供する。 それでも、タッチに関連するマルチモーダル研究は主に視覚的・触覚的なモダリティに焦点を当てており、言語領域での探索は限られている。 語彙以外にも、文レベルの記述にはよりリッチな意味論が含まれる。 そこで我々は,マルチモードアライメントのための文レベル記述を特徴とする,人間と機械のカスケード協調によるTLV(Touch-Language-Vision)というタッチ言語ビジョンデータセットを構築した。 新しいデータセットは、提案した軽量トレーニングフレームワークTLV-Link(Linking Touch, Language, and Vision through Alignment)を微調整するために使用され、最小パラメータ調整(1%)で効果的なセマンティックアライメントを実現する。 Project Page: https://xiaoen0.github.io/touch.page/.com

Tactility provides crucial support and enhancement for the perception and interaction capabilities of both humans and robots. Nevertheless, the multimodal research related to touch primarily focuses on visual and tactile modalities, with limited exploration in the domain of language. Beyond vocabulary, sentence-level descriptions contain richer semantics. Based on this, we construct a touch-language-vision dataset named TLV (Touch-Language-Vision) by human-machine cascade collaboration, featuring sentence-level descriptions for multimode alignment. The new dataset is used to fine-tune our proposed lightweight training framework, TLV-Link (Linking Touch, Language, and Vision through Alignment), achieving effective semantic alignment with minimal parameter adjustments (1%). Project Page: https://xiaoen0.github.io/touch.page/.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# 事実は欺くか?-DeFaBel Corpus of Belief-based Deception

Can Factual Statements be Deceptive? The DeFaBel Corpus of Belief-based Deception ( http://arxiv.org/abs/2403.10185v2 )

ライセンス: Link先を確認
Aswathy Velutharambath, Amelie Wührl, Roman Klinger, (参考訳) もしある人が「地球は平らだ」といった事実でない言明を固く信じ、その好意で主張するならば、欺くという本質的な意図は存在しない。 議論は真の信念に由来するため、偽りや嘘に関連する言語的性質を示すことはありそうにない。 この事実性、個人的な信念、欺く意図の相互作用は、まだ未調査の領域である。 議論においてこれらの変数の影響を遠ざけることは、それぞれの変数が持つ言語的特性をより深く理解するために重要である。 虚偽と事実性の関係を考察するため,信条に基づく虚偽のクラウドソース資源であるDeFaBel corpusを提示する。 このコーパスを作成するために、参加者に「スイカの種を食べることは消化不良を引き起こす」といった主張を支持する議論を書くよう指示する研究を考案した。 生成タスクに加えて、声明に対する彼らの信念を開示するよう求めます。 収集された事例は、議論が参加者の個人的な信念と矛盾している場合、偽りとしてラベル付けされる。 したがって、コーパスの各インスタンスは、著者の個人的な信念、陳述の事実性、意図された虚偽性によって注釈付け(または暗黙的にラベル付け)される。 DeFaBel corpus にはドイツ語 1031 のテキストが含まれており、そのうち643 は偽造、388 は非偽造である。 ドイツ語で偽装を研究するための最初の公的なコーパスである。 分析の結果,主張が信念と一致している場合には議論の説得力に自信が持てるが,事実を優先して議論を行う場合の自信は驚くほど低いことがわかった。 DeFaBel corpus は https://www.ims.uni-stuttgart.de/data/defabel から取得できる。

If a person firmly believes in a non-factual statement, such as "The Earth is flat", and argues in its favor, there is no inherent intention to deceive. As the argumentation stems from genuine belief, it may be unlikely to exhibit the linguistic properties associated with deception or lying. This interplay of factuality, personal belief, and intent to deceive remains an understudied area. Disentangling the influence of these variables in argumentation is crucial to gain a better understanding of the linguistic properties attributed to each of them. To study the relation between deception and factuality, based on belief, we present the DeFaBel corpus, a crowd-sourced resource of belief-based deception. To create this corpus, we devise a study in which participants are instructed to write arguments supporting statements like "eating watermelon seeds can cause indigestion", regardless of its factual accuracy or their personal beliefs about the statement. In addition to the generation task, we ask them to disclose their belief about the statement. The collected instances are labelled as deceptive if the arguments are in contradiction to the participants' personal beliefs. Each instance in the corpus is thus annotated (or implicitly labelled) with personal beliefs of the author, factuality of the statement, and the intended deceptiveness. The DeFaBel corpus contains 1031 texts in German, out of which 643 are deceptive and 388 are non-deceptive. It is the first publicly available corpus for studying deception in German. In our analysis, we find that people are more confident in the persuasiveness of their arguments when the statement is aligned with their belief, but surprisingly less confident when they are generating arguments in favor of facts. The DeFaBel corpus can be obtained from https://www.ims.uni-stuttgart.de/data/defabel
翻訳日:2024-05-13 18:15:12 公開日:2024-05-10
# 内部量子テレポーテーションによる量子臨界点の有限温度検出

Finite temperature detection of quantum critical points via internal quantum teleportation ( http://arxiv.org/abs/2403.10193v2 )

ライセンス: Link先を確認
G. A. P. Ribeiro, Gustavo Rigolin, (参考訳) 本研究では,その実装に必要なリソースがすべてシステム内にある場合でも,有限温度データを用いて量子臨界点を効率的に検出することができることを示す。 以前の提案とは対照的に、外部キュービットを入力状態として使用する必要はなく、システム内のキュービットの1つにテレポートする。 ここでは、量子テレポーテーションプロトコルの絡み合った資源として、熱浴と平衡な無限スピン-1/2鎖から最も近い隣り合うスピンの対と、チェーン自体内の第3の隣接量子ビットを、テレポーテーションされる入力状態として使用する。 外部磁場を受けるスピンチェインモデルでは、これらのスピンチェインに関連する量子臨界点を横切ると、テレポーテーションプロトコルの効率が著しく影響を受けることが示されている。 この急激な効率の変化は、量子相転移の明確な兆候を与える。

We show that the teleportation protocol can be efficiently used to detect quantum critical points using finite temperature data even if all resources needed to its implementation lie within the system under investigation. Contrary to a previous proposal, there is no need to use an external qubit as the input state to be teleported to one of the qubits within the system. Here, we use a pair of nearest neighbor spins from an infinite spin-1/2 chain in equilibrium with a heat bath as the entangled resource of the quantum teleportation protocol and a third adjacent qubit within the chain itself as the input state to be teleported. For several spin chain models subjected to an external magnetic field, we show that the efficiency of the teleportation protocol is severely affected as we cross the quantum critical points associated with those spin chains. This abrupt change in efficiency gives us a clear indication of a quantum phase transition.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# ガリレオ相対性と波動-粒子双対性はシュレーディンガー方程式を暗示する

Galilean relativity and wave-particle duality imply the Schrödinger equation ( http://arxiv.org/abs/2403.15555v2 )

ライセンス: Link先を確認
Gustavo Rigolin, (参考訳) 一般波動方程式のガリレオ共分散とデ・ブログリの波動-粒子双対性仮説の妥当性を仮定して、シュル・オーディンガー方程式が導出可能であることを示す。 また、この一連の仮定からガリレオブーストの下での波動関数の変換則を求め、複素波動関数が物理系の一貫した記述には避けられないことを証明した。 また、上記の分析の相対論的領域の拡張も提供する。 ローレンツの共分散と波動粒子の双対性は、ローレンツブーストの下での波動関数に対する2つの異なる変換則と一致することを示す。 これは2つの異なる波動方程式、すなわちクライン=ゴルドン方程式とローレンツ共変シュリンガー方程式につながる。

We show that the Schr\"odinger equation can be derived assuming the Galilean covariance of a generic wave equation and the validity of the de Broglie's wave-particle duality hypothesis. We also obtain from this set of assumptions the transformation law for the wave function under a Galilean boost and prove that complex wave functions are unavoidable for a consistent description of a physical system. The extension to the relativistic domain of the above analysis is also provided. We show that Lorentz covariance and wave-particle duality are consistent with two different transformation laws for the wave function under a Lorentz boost. This leads to two different wave equations, namely, the Klein-Gordon equation and the Lorentz covariant Schr\"odinger equation.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# chroniclingAmericaQA: 歴史的アメリカ新聞ページに基づく大規模質問回答データセット

ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages ( http://arxiv.org/abs/2403.17859v2 )

ライセンス: Link先を確認
Bhawna Piryani, Jamshid Mozafari, Adam Jatowt, (参考訳) 質問応答(QA)と機械読解(MRC)タスクは,近年,ディープラーニング技術の急速な発展と,より最近の大規模言語モデルによって著しく進歩している。 同時に、多くのベンチマークデータセットがQAとMRCタスクで利用できるようになった。 しかし、既存の大規模なベンチマークデータセットの大部分は、WikipediaやWebのような同期ドキュメントコレクションを使用して作成されている。 歴史新聞などの古文書コレクションには、大きな言語モデルを訓練するのにまだ広く使われていない過去の貴重な情報が含まれている。 QA と MRC タスクの進行にさらに貢献し,過去のデータセットの制限を克服するために,CentrallingAmericaQA を導入した。 筆者らのデータセットは,120年にわたる日刊アメリカの新聞コレクションのサブセットから作成されている。 デジタル化された歴史新聞コレクションを利用する上で重要な課題の1つは、OCRテキストの品質の低下である。 したがって、QAモデルの現実的なテストを可能にするために、我々のデータセットは、生と騒々しいコンテンツからの質問への回答、よりクリーンで修正されたコンテンツの質問への回答、新聞ページのスキャンされた画像からの質問への回答の3つの異なる方法で使用することができる。 これと、CentrallingAmericaQAが利用可能なQAデータセットの中で最長の期間にわたっているという事実は、非常にユニークで有用なリソースである。

Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale temporal QA dataset with 487K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# ロバストなRGB-T追跡のための中核融合とマルチステージマルチフォームプロンプト

Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking ( http://arxiv.org/abs/2403.18193v2 )

ライセンス: Link先を確認
Qiming Wang, Yongqiang Bai, Hongxing Song, (参考訳) オブジェクト追跡の重要な下流タスクであるRGB-Tトラッキングは、近年顕著な進歩を遂げている。 しかし、これは2つの大きな課題によって妨げられている。 1) 性能と効率のトレードオフ 2)トレーニングデータの不足。 後者の課題に対処するために、近年の手法では、事前訓練されたRGB追跡モデルを微調整し、パラメータ効率の良い方法で上流の知識を活用するプロンプトが採用されている。 しかし、これらの手法はモダリティに依存しないパターンを不適切に探求し、オープンシナリオにおける異なるモダリティの動的信頼性を無視する。 我々は,中核融合とマルチモーダル・マルチステージ視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法であるM3PTを提案し,これらの課題を克服する。 我々は、RGB-Tトラッキングのための調整可能な中核融合メタフレームワークの利用を開拓し、トラッカーが性能と効率のバランスをとるのに役立つようにした。 さらに, メタフレームワークに基づいて, 複数のフレキシブルなプロンプト戦略を用いて, 事前学習モデルを用いて一様パターンの包括的探索を行い, RGB-T追跡における即時学習の可能性を生かして, 多様なモダリティ・プライオリティシナリオにおける融合モーダル特徴のモデリングを改善した。 既存の6つの挑戦的ベンチマークを評価したところ,提案手法は従来の最先端の高速微調整手法を超越し,優れた全パラメータ微調整手法に対して高い競争力を保ち,パラメータはわずか0.34万であった。

RGB-T tracking, a vital downstream task of object tracking, has made remarkable progress in recent years. Yet, it remains hindered by two major challenges: 1) the trade-off between performance and efficiency; 2) the scarcity of training data. To address the latter challenge, some recent methods employ prompts to fine-tune pre-trained RGB tracking models and leverage upstream knowledge in a parameter-efficient manner. However, these methods inadequately explore modality-independent patterns and disregard the dynamic reliability of different modalities in open scenarios. We propose M3PT, a novel RGB-T prompt tracking method that leverages middle fusion and multi-modal and multi-stage visual prompts to overcome these challenges. We pioneer the use of the adjustable middle fusion meta-framework for RGB-T tracking, which could help the tracker balance the performance with efficiency, to meet various demands of application. Furthermore, based on the meta-framework, we utilize multiple flexible prompt strategies to adapt the pre-trained model to comprehensive exploration of uni-modal patterns and improved modeling of fusion-modal features in diverse modality-priority scenarios, harnessing the potential of prompt learning in RGB-T tracking. Evaluating on 6 existing challenging benchmarks, our method surpasses previous state-of-the-art prompt fine-tuning methods while maintaining great competitiveness against excellent full-parameter fine-tuning methods, with only 0.34M fine-tuned parameters.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# TriviaHG: ファクトイドからのヒント自動生成のためのデータセット

TriviaHG: A Dataset for Automatic Hint Generation from Factoid Questions ( http://arxiv.org/abs/2403.18426v2 )

ライセンス: Link先を確認
Jamshid Mozafari, Anubhav Jangra, Adam Jatowt, (参考訳) 今日では、個人は大きな言語モデルと対話し、質問に対する回答を求める傾向にある。 このような答えが誰にでも手に入るようになると、人間の認知能力の刺激と維持、そして人間による良質な推論技術を維持することの保証が重要になる。 この研究は、(最終回答よりもむしろ)ヒントを実行可能な解として提案することで、そのようなニーズに対処する。 ファクトイド質問の自動ヒント生成のためのフレームワークを導入し、TriviaQAデータセットから16,645の質問に対応する160,230のヒントを含む新しい大規模データセットであるTriviaHGを構築した。 さらに,ヒントの収束度と親しみやすさの属性を自動評価する手法を提案する。 提案手法とTriviaHGデータセットを評価するために,提案したヒントを用いて10名の個人に2,791のヒントを注釈付け,6名の人間に回答を指示した。 96%, 78%, 36%で, 解答は易解, 中解, 難解であった。 さらに,提案手法はアノテータの結果と頑健な相関を示した。 結論として, 未知の質問の解決におけるヒントの促進的役割, 回答の難易度に対するヒント品質の依存性, ヒント評価のための自動評価手法の適用可能性, の3つの重要な知見が浮かび上がった。

Nowadays, individuals tend to engage in dialogues with Large Language Models, seeking answers to their questions. In times when such answers are readily accessible to anyone, the stimulation and preservation of human's cognitive abilities, as well as the assurance of maintaining good reasoning skills by humans becomes crucial. This study addresses such needs by proposing hints (instead of final answers or before giving answers) as a viable solution. We introduce a framework for the automatic hint generation for factoid questions, employing it to construct TriviaHG, a novel large-scale dataset featuring 160,230 hints corresponding to 16,645 questions from the TriviaQA dataset. Additionally, we present an automatic evaluation method that measures the Convergence and Familiarity quality attributes of hints. To evaluate the TriviaHG dataset and the proposed evaluation method, we enlisted 10 individuals to annotate 2,791 hints and tasked 6 humans with answering questions using the provided hints. The effectiveness of hints varied, with success rates of 96%, 78%, and 36% for questions with easy, medium, and hard answers, respectively. Moreover, the proposed automatic evaluation methods showed a robust correlation with annotators' results. Conclusively, the findings highlight three key insights: the facilitative role of hints in resolving unknown questions, the dependence of hint quality on answer difficulty, and the feasibility of employing automatic evaluation methods for hint assessment.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# 薬物毒性予測に応用した量子-古典的ニューラルネットワーク変換学習

Quantum to Classical Neural Network Transfer Learning Applied to Drug Toxicity Prediction ( http://arxiv.org/abs/2403.18997v3 )

ライセンス: Link先を確認
Anthony M. Smaldone, Victor S. Batista, (参考訳) 毒性 (Toxicity) は、不規則な数の薬物が命を救うために使用されるのを防ぐブロックである。 深層学習は理想的な薬物候補を見つけるための有望な解決策を提供するが、基礎となる$\mathcal{O}(n^3)$行列乗算と化学空間の広さは、これらの取り組みが急速に計算的に要求されることを意味する。 これを解決するために,従来のニューラルネットワーク設計を模倣した量子回路設計を用いて,複雑度$\mathcal{O}(n^2)$の行列積を明示的に計算し,薬物毒性を予測するハイブリッド量子古典ニューラルネットワークを提案する。 従来のスワップ試験よりも効率的に内部積推定を行うためにアダマール試験を利用することで、量子位相推定の必要性を減らし、量子ビット数を半減する。 量子行列製品を直接計算することで、学習可能な重量を量子から古典的なデバイスに転送し、さらなるトレーニングを行うことができる。 我々は、Tox21データセットにフレームワークを適用し、モデルの全古典的な$\mathcal{O}(n^3)$アナログに対して、コンメジュレートな予測精度を達成することを示す。 さらに、モデルがディスラプションなしで学習し続け、一度完全に古典的なアーキテクチャに移行したことを実証する。 複雑性の低減による量子的優位性とノイズフリー計算の古典的優位性を組み合わせることで、よりスケーラブルな機械学習モデルへの道が開けると考えています。

Toxicity is a roadblock that prevents an inordinate number of drugs from being used in potentially life-saving applications. Deep learning provides a promising solution to finding ideal drug candidates; however, the vastness of chemical space coupled with the underlying $\mathcal{O}(n^3)$ matrix multiplication means these efforts quickly become computationally demanding. To remedy this, we present a hybrid quantum-classical neural network for predicting drug toxicity, utilizing a quantum circuit design that mimics classical neural behavior by explicitly calculating matrix products with complexity $\mathcal{O}(n^2)$. Leveraging the Hadamard test for efficient inner product estimation rather than the conventionally used swap test, we reduce the number qubits by half and remove the need for quantum phase estimation. Directly computing matrix products quantum mechanically allows for learnable weights to be transferred from a quantum to a classical device for further training. We apply our framework to the Tox21 dataset and show that it achieves commensurate predictive accuracy to the model's fully classical $\mathcal{O}(n^3)$ analog. Additionally, we demonstrate the model continues to learn, without disruption, once transferred to a fully classical architecture. We believe combining the quantum advantage of reduced complexity and the classical advantage of noise-free calculation will pave the way to more scalable machine learning models.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# 限られたデータからの学習における言語と視覚の役割の分析

Analyzing the Roles of Language and Vision in Learning from Limited Data ( http://arxiv.org/abs/2403.19669v2 )

ライセンス: Link先を確認
Allison Chen, Ilia Sucholutsky, Olga Russakovsky, Thomas L. Griffiths, (参考訳) 言語は視覚世界を理解するのに役立つか? 言葉で表現するのではなく、実際に世界を見ることがどれほど重要か? インテリジェンスの性質に関するこれらの基本的な質問は、人間という知的なシステムの1つの例と、孤立した言語やビジョンを持つケースへの限定的なアクセスしかなかったため、答えが難しい。 しかし、人工知能研究者による高度な視覚言語モデル(VLM)の開発は、言語とビジョンが世界について学ぶための貢献を探求する新たな機会を与えてくれる。 これらのモデルの認知アーキテクチャからコンポーネントを吸収し、限られたデータから新しいタスクを学ぶことへの貢献を特定する。 視覚的入力の欠如にもかかわらず、全てのコンポーネントを活用する言語モデルがVLMの性能の大部分を回復し、その言語は、事前の知識と推論へのアクセスを提供することで、これを許容しているように思われる。

Does language help make sense of the visual world? How important is it to actually see the world rather than having it described with words? These basic questions about the nature of intelligence have been difficult to answer because we only had one example of an intelligent system -- humans -- and limited access to cases that isolated language or vision. However, the development of sophisticated Vision-Language Models (VLMs) by artificial intelligence researchers offers us new opportunities to explore the contributions that language and vision make to learning about the world. We ablate components from the cognitive architecture of these models to identify their contributions to learning new tasks from limited data. We find that a language model leveraging all components recovers a majority of a VLM's performance, despite its lack of visual input, and that language seems to allow this by providing access to prior knowledge and reasoning.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# 連続時間量子ウォークによる完全二部グラフの決定論的探索

Deterministic Search on Complete Bipartite Graphs by Continuous Time Quantum Walk ( http://arxiv.org/abs/2404.01640v2 )

ライセンス: Link先を確認
Honghong Lin, Yun Shang, (参考訳) 本稿では,完全二部グラフ上の決定論的探索アルゴリズムを提案する。 我々のアルゴリズムは、Groverの探索アルゴリズムの一般化である、オラクルと連続時間量子ウォーク演算子の反復を交互に行う単純な形式を採用する。 複数のマーク状態の最も一般的なケースに対処するため、マーク状態の数を推定する問題が存在する。 この目的のために,探索演算子のスペクトル構造に基づく量子カウントアルゴリズムを構築した。 連続時間量子ウォーク演算子を実装するために,量子回路モデルにおいてハミルトニアンシミュレーションを行う。 すなわち、量子回路の複雑さは進化の時間とともにスケールしない。

This paper presents a deterministic search algorithm on complete bipartite graphs. Our algorithm adopts the simple form of alternating iterations of an oracle and a continuous-time quantum walk operator, which is a generalization of Grover's search algorithm. We address the most general case of multiple marked states, so there is a problem of estimating the number of marked states. To this end, we construct a quantum counting algorithm based on the spectrum structure of the search operator. To implement the continuous-time quantum walk operator, we perform Hamiltonian simulation in the quantum circuit model. We achieve simulation in constant time, that is, the complexity of the quantum circuit does not scale with the evolution time.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# Min-K%++:大規模言語モデルから事前学習データを検出するための改善されたベースライン

Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models ( http://arxiv.org/abs/2404.02936v2 )

ライセンス: Link先を確認
Jingyang Zhang, Jingwei Sun, Eric Yeats, Yang Ouyang, Martin Kuo, Jianyi Zhang, Hao Frank Yang, Hai Li, (参考訳) 大規模言語モデル(LLM)に対する事前学習データ検出の問題は、著作権侵害やテストデータ汚染といった重要な問題に影響を及ぼすため、注目を集めている。 この問題の一般的な直感は、LSMの分布のモードから入力がくるかどうかを確認することによって、トレーニングデータを特定することである。 しかし、最先端のMin-K%を含む既存のアプローチでは、検出にゼロ階信号を用いることが多く、これは2階統計よりも局所的な最大値の決定において堅牢ではない。 本研究では,データ検出を事前学習する手法Min-K%++を提案する。 提案手法は,最大極大学習がスコアマッチングによる確率のヘッセン行列のトレースを暗黙的に最適化する観察によって理論的に動機付けられたものである。 提案手法は,複数の設定にまたがって新たなSOTA性能を実現する。 WikiMIAのベンチマークでは、Min-K%++が平均5モデル以上のAUROCの検出で6.2%から10.5%の成績を収めている。 より挑戦的なMIMIRベンチマークでは、参照不要なメソッドを継続的に改善し、参照モデルを必要とする参照ベースのメソッドと同等に実行する。

The problem of pre-training data detection for large language models (LLMs) has received growing attention due to its implications in critical issues like copyright violation and test data contamination. A common intuition for this problem is to identify training data by checking if the input comes from a mode of the LLM's distribution. However, existing approaches, including the state-of-the-art Min-K%, often use zeroth-order signals for detection, which are less robust in determining local maxima than second-order statistics. In this work, we propose a novel methodology Min-K%++ for pre-training data detection that measures how sharply peaked the likelihood is around the input, a measurement analogous to the curvature of continuous distribution. Our method is theoretically motivated by the observation that maximum likelihood training implicitly optimizes the trace of the Hessian matrix of likelihood through score matching. Empirically, the proposed method achieves new SOTA performance across multiple settings. On the WikiMIA benchmark, Min-K%++ outperforms the runner-up by 6.2% to 10.5% in detection AUROC averaged over five models. On the more challenging MIMIR benchmark, it consistently improves upon reference-free methods while performing on par with reference-based method that requires an extra reference model.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# コロンビアの地熱勾配予測 : 機械学習によるアプローチ

Predicting the Geothermal Gradient in Colombia: a Machine Learning Approach ( http://arxiv.org/abs/2404.05184v6 )

ライセンス: Link先を確認
Juan Camilo Mejía-Fragoso, Manuel A. Florez, Rocío Bernal-Olaya, (参考訳) 地熱勾配の正確な決定は、所定の地域の地熱エネルギーポテンシャルを評価するために重要である。 特に興味深いのは、豊富な地熱資源を持つコロンビアである。 活発な石油とガスの探査と生産の歴史は、掘削されたボーアホールを異なる地質環境に残し、地熱勾配を直接測定した。 残念なことに、地熱資源が存在する国ではそのような測定方法が欠如している。 間接的な物理測定は、地域規模で行うのに費用がかかり、困難である。 計算熱モデルを構築することもできるが、基礎となる地質について非常に詳細な知識と地下温度の均一なサンプリングが必要である。 我々は,地球規模の地球物理データセットとコース地質知識しか利用できない地域での地熱勾配を予測するために,教師付き機械学習と直接測定の最近の進歩を活用するアプローチを提案する。 グラディエントブースト回帰木アルゴリズムは最適な予測を行い、トレーニングされたモデルを広範囲に検証する。 我々は,本モデルの予測精度が12%以内であり,他の著者による独立測定値が本モデルとよく一致していることを示す。 最後に,コロンビアの地熱勾配図で,深部探査とデータ収集を行うべき地域に焦点を当てた。

Accurate determination of the geothermal gradient is critical for assessing the geothermal energy potential of a given region. Of particular interest is the case of Colombia, a country with abundant geothermal resources. A history of active oil and gas exploration and production has left drilled boreholes in different geological settings, providing direct measurements of the geothermal gradient. Unfortunately, large regions of the country where geothermal resources might exist lack such measurements. Indirect geophysical measurements are costly and difficult to perform at regional scales. Computational thermal models could be constructed, but they require very detailed knowledge of the underlying geology and uniform sampling of subsurface temperatures to be well-constrained. We present an alternative approach that leverages recent advances in supervised machine learning and available direct measurements to predict the geothermal gradient in regions where only global-scale geophysical datasets and course geological knowledge are available. We find that a Gradient Boosted Regression Tree algorithm yields optimal predictions and extensively validate the trained model. We show that predictions of our model are within 12% accuracy and that independent measurements performed by other authors agree well with our model. Finnally, we present a geothermal gradient map for Colombia that highlights regions where futher exploration and data collection should be performed.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# フォワードフォワードアルゴリズムの軽量推論

Lightweight Inference for Forward-Forward Algorithm ( http://arxiv.org/abs/2404.05241v3 )

ライセンス: Link先を確認
Amin Aminifar, Baichuan Huang, Azra Abtahi, Amir Aminifar, (参考訳) 人間の脳は優れたエネルギー効率、すなわち約20ワットのワットでタスクを実行する。 一方、最先端のArtificial/Deep Neural Networks(ANN/DNN)は、最近大量のエネルギーを消費していることが示されている。 これらのANN/DNNのトレーニングは、ほとんど生物学的に不可能であることが知られているバックプロパゲーションアルゴリズムに基づいて行われる。 これにより、Forward-Forwardアルゴリズムを含む、新しい世代のフォワード専用技術が生まれた。 本稿では,Forward-Forwardアルゴリズムを用いてトレーニングしたDNNを対象とした,軽量な推論手法を提案する。 我々は,MNIST と CIFAR データセットを用いた軽量推論手法と,その関連性を示す2つの実世界の応用,すなわちてんかん性発作検出と,ウェアラブル技術を用いた心臓不整脈分類について検討した。

The human brain performs tasks with an outstanding energy-efficiency, i.e., with approximately 20 Watts. The state-of-the-art Artificial/Deep Neural Networks (ANN/DNN), on the other hand, have recently been shown to consume massive amounts of energy. The training of these ANNs/DNNs is done almost exclusively based on the back-propagation algorithm, which is known to be biologically implausible. This has led to a new generation of forward-only techniques, including the Forward-Forward algorithm. In this paper, we propose a lightweight inference scheme specifically designed for DNNs trained using the Forward-Forward algorithm. We have evaluated our proposed lightweight inference scheme in the case of the MNIST and CIFAR datasets, as well as two real-world applications, namely, epileptic seizure detection and cardiac arrhythmia classification using wearable technologies, where complexity overheads/energy consumption is a major constraint, and demonstrate its relevance.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# マルチエージェント検討によるLCMの信頼性校正と合理化

Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation ( http://arxiv.org/abs/2404.09127v3 )

ライセンス: Link先を確認
Ruixin Yang, Dheeraj Rajagopal, Shirley Anugrah Hayati, Bin Hu, Dongyeop Kang, (参考訳) 特に人間からのフィードバック(RLHF)から強化学習を行う場合、不確実性推定は、一般的には校正が不十分で過信である現在の大規模言語モデル(LLM)にとって重要な問題である。 人間の決定と信頼は本質的な信念に起因するだけでなく、日々の観察を通して調整することもできるが、従来のLCMの校正法は「集団的な知恵」を最大限に活用せずに個人的信頼を推定または引き出すことに焦点を当てている。 本研究では,複数ツール強化LDMエージェントの協調的・表現的能力を活用した,ポストホックトレーニングフリーキャリブレーション戦略であるCollaborative Calibrationを提案する。 協調校正が様々な領域にわたる生成的QAタスクに与える影響を実証し、総合的な校正された信頼度評価の合理化とモデル予測の信頼性の向上に寄与する可能性を示した。

Uncertainty estimation is a significant issue for current large language models (LLMs) that are generally poorly calibrated and over-confident, especially with reinforcement learning from human feedback (RLHF). Unlike humans, whose decisions and confidences not only stem from intrinsic beliefs but can also be adjusted through daily observations, existing calibration methods for LLMs focus on estimating or eliciting individual confidence without taking full advantage of the "Collective Wisdom": the interaction among multiple LLMs that can collectively improve both accuracy and calibration. In this work, we propose Collaborative Calibration, a post-hoc training-free calibration strategy that leverages the collaborative and expressive capabilities of multiple tool-augmented LLM agents in a simulated group deliberation process. We demonstrate the effectiveness of Collaborative Calibration on generative QA tasks across various domains, showing its potential in harnessing the rationalization of collectively calibrated confidence assessments and improving the reliability of model predictions.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-10
# バグの自動局所化と修復のための大規模言語モデルへの深い取り組み

A Deep Dive into Large Language Models for Automated Bug Localization and Repair ( http://arxiv.org/abs/2404.11595v3 )

ライセンス: Link先を確認
Soneya Binta Hossain, Nan Jiang, Qiang Zhou, Xiaopeng Li, Wen-Hao Chiang, Yingjun Lyu, Hoan Nguyen, Omer Tripp, (参考訳) 大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。 本研究では,LSMを用いた自動バグ修正について深く検討する。 既知のバグ位置を仮定したり、ラインレベルのローカライズツールに依存する、あるいは1ステップでバグの予測と修正を行う、ディープラーニングベースのAPRメソッドとは対照的に、当社のアプローチでは、トークンレベルでのバグ位置を予測するためにLSMを独自に使用し、その後バグ修正に利用しています。 異なるLLMを用いたバグローカライゼーションと修正の方法論は,多様なコンテキスト情報の効果的な統合と帰納的バイアスの取り込みの改善を可能にする。 Toggle: Token-Granulated Bug Localization and repairは、バグローカライゼーションモデル、調整ユニット、バグ修正モデルを統合する包括的なプログラム修復フレームワークである。 Toggleはバギー関数を入力として、完全な修正関数を生成する。 本稿では, バグ修正モデルに対して, 誘導バイアスをより有効に活用し, 他よりも著しく優れる最も効果的なプロンプトを特定するための, 様々な手法について検討する。 Toggleは、CodeXGLUEコードリファインメントベンチマークにおける新しい最先端(SOTA)パフォーマンスを実現し、Defects4Jを含む、他の広く使用されているAPRデータセットで、より良く、同等のパフォーマンスを示す。

Large language models (LLMs) have shown impressive effectiveness in various software engineering tasks, including automated program repair (APR). In this study, we take a deep dive into automated bug fixing utilizing LLMs. In contrast to many deep learning-based APR methods that assume known bug locations, rely on line-level localization tools, or address bug prediction and fixing in one step, our approach uniquely employs LLMs to predict bug location at the token level and subsequently utilizes them for bug fixing. This methodological separation of bug localization and fixing using different LLMs enables effective integration of diverse contextual information and improved incorporation of inductive biases. We introduce Toggle: Token-Granulated Bug Localization and Repair, a comprehensive program repair framework that integrates a bug localization model, an adjustment unit, and a bug-fixing model. Toggle takes a buggy function as input and generates a complete corrected function. We investigate various styles of prompting to the bug fixing model to identify the most effective prompts that better utilize the inductive bias and significantly outperform others. Toggle achieves the new state-of-the-art (SOTA) performance on the CodeXGLUE code refinement benchmark, and exhibits better and comparable performance on several other widely-used APR datasets, including Defects4J.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# ラベルノイズを用いた信頼度多視点学習

Trusted Multi-view Learning with Label Noise ( http://arxiv.org/abs/2404.11944v2 )

ライセンス: Link先を確認
Cai Xu, Yilin Zhang, Ziyu Guan, Wei Zhao, (参考訳) マルチビュー学習手法は、意思決定の不確実性を無視しながら、意思決定精度の向上に重点を置いていることが多い。 この問題に対処するため、研究者らは、各インスタンスのクラス分布を学習し、分類確率と不確実性の推定を可能にする、信頼できるマルチビュー手法を提案する。 しかし、これらの手法は高品質な地下構造ラベルに大きく依存している。 これは、新しい一般化されたマルチビュー学習問題、すなわち、ノイズラベルの指導の下で信頼性のあるマルチビュー学習モデルを開発するにはどうすればよいか? 本稿では,この問題を解決するため,信頼度の高いマルチビューノイズ修正手法を提案する。 我々はまず,信念の質量ベクトルと不確実性推定からなる明らかな深層ニューラルネットワークを用いて,ビューオピニオンを構築した。 そこで,本研究では,従来の意見からノイズに適応した意見へと変換する,ビュー固有ノイズ相関行列を設計する。 低品質なデータ特徴と容易に折り畳まれたクラスから生じるラベルノイズを考慮すると、これらの行列の対角要素が非対角要素にクラス関係を組み込んで不確実性に逆比例することを保証する。 最後に, 雑音ラベルによるモデル学習において, ノイズ評価を集約し, 一般化された最大可算損失を用いた。 我々は,TMNRと最先端のマルチビュー学習,および5つの公開データセットに基づくラベルノイズ学習ベースラインを実証的に比較した。 実験の結果,TMNRは精度,信頼性,堅牢性において,ベースライン法よりも優れていた。 コードと付録はhttps://github.com/YilinZhang107/TMNRで公開されている。

Multi-view learning methods often focus on improving decision accuracy while neglecting the decision uncertainty, which significantly restricts their applications in safety-critical applications. To address this issue, researchers propose trusted multi-view methods that learn the class distribution for each instance, enabling the estimation of classification probabilities and uncertainty. However, these methods heavily rely on high-quality ground-truth labels. This motivates us to delve into a new generalized trusted multi-view learning problem: how to develop a reliable multi-view learning model under the guidance of noisy labels? We propose a trusted multi-view noise refining method to solve this problem. We first construct view-opinions using evidential deep neural networks, which consist of belief mass vectors and uncertainty estimates. Subsequently, we design view-specific noise correlation matrices that transform the original opinions into noisy opinions aligned with the noisy labels. Considering label noises originating from low-quality data features and easily-confused classes, we ensure that the diagonal elements of these matrices are inversely proportional to the uncertainty, while incorporating class relations into the off-diagonal elements. Finally, we aggregate the noisy opinions and employ a generalized maximum likelihood loss on the aggregated opinion for model training, guided by the noisy labels. We empirically compare TMNR with state-of-the-art trusted multi-view learning and label noise learning baselines on 5 publicly available datasets. Experiment results show that TMNR outperforms baseline methods on accuracy, reliability and robustness. The code and appendix are released at https://github.com/YilinZhang107/TMNR.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# 幾何学的整合性を考慮した部分-部分形状マッチング

Partial-to-Partial Shape Matching with Geometric Consistency ( http://arxiv.org/abs/2404.12209v2 )

ライセンス: Link先を確認
Viktoria Ehm, Maolin Gao, Paul Roetzer, Marvin Eisenberger, Daniel Cremers, Florian Bernard, (参考訳) 3次元形状の対応を見つけることは、コンピュータビジョンやグラフィックスなどにおいて、重要かつ長年にわたる問題である。 顕著な課題は部分-部分的な形状マッチング設定であり、マッチする形状が不完全な(例えば3Dスキャンによる)場合にのみ発生する。 部分対部分マッチングは実際には非常に関連性の高い設定であるが、調査されることは稀である。 我々の研究は、幾何学的一貫性を強い制約として活用することで、既存の(あるいは人工的な)3次元フル形状マッチングと部分的から部分的な実世界の設定のギャップを埋める。 様々な環境でこの問題を解決することは実際に可能であることを実証する。 線形整数プログラミングに基づく新しいプルーニングアルゴリズムとともに、三角形積空間上に構築された新しい整数非線形プログラム形式により実現された部分対部分マッチングの幾何的整合性を実現する。 さらに,部分-部分形状マッチングのためのクラス間データセットを新たに生成する。 提案手法は,既存のクラス内データセットと新しいクラス間データセットの両方において,SOTA法よりも優れていることを示す。

Finding correspondences between 3D shapes is an important and long-standing problem in computer vision, graphics and beyond. A prominent challenge are partial-to-partial shape matching settings, which occur when the shapes to match are only observed incompletely (e.g. from 3D scanning). Although partial-to-partial matching is a highly relevant setting in practice, it is rarely explored. Our work bridges the gap between existing (rather artificial) 3D full shape matching and partial-to-partial real-world settings by exploiting geometric consistency as a strong constraint. We demonstrate that it is indeed possible to solve this challenging problem in a variety of settings. For the first time, we achieve geometric consistency for partial-to-partial matching, which is realized by a novel integer non-linear program formalism building on triangle product spaces, along with a new pruning algorithm based on linear integer programming. Further, we generate a new inter-class dataset for partial-to-partial shape-matching. We show that our method outperforms current SOTA methods on both an established intra-class dataset and our novel inter-class dataset.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# 人間のノルムを超えて:学際的アプローチによる大規模言語モデルの特異な価値を明らかにする

Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches ( http://arxiv.org/abs/2404.12744v2 )

ライセンス: Link先を確認
Pablo Biedma, Xiaoyuan Yi, Linus Huang, Maosong Sun, Xing Xie, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、AI分野に革命をもたらしたが、潜在的な安全性と倫理的リスクをもたらしている。 LLMの組込み値の解読は、リスクの評価と緩和に不可欠である。 LLMの価値観に関する広範な研究にもかかわらず、以前の研究は社会科学における人間指向の価値体系に大きく依存していた。 LLMは人間のもの以上のユニークな価値を持っているのだろうか? そこで本研究では,LLMのユニークな価値体系をスクラッチから再構築する新たな枠組みであるValueLexを提案する。 語彙仮説に基づいて、ValueLexは30以上のLLMから多様な値を抽出する生成的アプローチを導入し、因子分析とセマンティッククラスタリングを通じて包括的なバリューフレームワークで決定される分類を合成する。 我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。 本システムでは, モデルサイズ, トレーニング方法, およびデータソースにまたがるLCM値の傾きの評価, 解析を行うため, プロジェクティブ・テストの開発が進められている。 我々のフレームワークは、LLMを理解するための学際パラダイムを育み、将来のAIアライメントと規制の道を開く。

Recent advancements in Large Language Models (LLMs) have revolutionized the AI field but also pose potential safety and ethical risks. Deciphering LLMs' embedded values becomes crucial for assessing and mitigating their risks. Despite extensive investigation into LLMs' values, previous studies heavily rely on human-oriented value systems in social sciences. Then, a natural question arises: Do LLMs possess unique values beyond those of humans? Delving into it, this work proposes a novel framework, ValueLex, to reconstruct LLMs' unique value system from scratch, leveraging psychological methodologies from human personality/value research. Based on Lexical Hypothesis, ValueLex introduces a generative approach to elicit diverse values from 30+ LLMs, synthesizing a taxonomy that culminates in a comprehensive value framework via factor analysis and semantic clustering. We identify three core value dimensions, Competence, Character, and Integrity, each with specific subdimensions, revealing that LLMs possess a structured, albeit non-human, value system. Based on this system, we further develop tailored projective tests to evaluate and analyze the value inclinations of LLMs across different model sizes, training methods, and data sources. Our framework fosters an interdisciplinary paradigm of understanding LLMs, paving the way for future AI alignment and regulation.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# DCE-MRIにおける良性病変と悪性病変の分類のための運動曲線の探索

Exploring Kinetic Curves Features for the Classification of Benign and Malignant Breast Lesions in DCE-MRI ( http://arxiv.org/abs/2404.13929v2 )

ライセンス: Link先を確認
Zixian Li, Yuming Zhong, Yi Wang, (参考訳) 乳癌は女性に最も多い悪性腫瘍であり、癌関連死亡の2番目の原因である。 早期臨床診断はタイムリーな治療と予後に重要である。 ダイナミックコントラスト造影MRI(Dynamic contrast-enhanced magnetic resonance imaging, DCE-MRI)は, 乳腺病変の形態とダイナミックな特徴を反映し, 術前診断および治療効果の評価に有用であることを明らかにした。 しかし,DCE-MRIで良性病変と悪性病変を分類する際には,従来の放射線学的特徴のみを考慮すべきである。 本研究では, 胸部良性病変と悪性病変の分類精度を高めるために, 運動曲線と放射能特性の動的特性をフル活用することを提案する。 提案手法は,DCE-MRIの3次元特徴を直接解析し,完全自動解法である。 本手法は,200個のDCE-MRIスキャンと298個の乳腺腫瘍(172個の良性腫瘍と126個の悪性腫瘍を含む社内データセットを用いて評価し,曲線下領域(AUC)が0。 動的および放射線学的特徴を同時に考慮し,良性病変と悪性乳癌の鑑別を効果的に行うことが有用である。 このアルゴリズムはhttps://github.com/ryandok/JPAで公開されている。

Breast cancer is the most common malignant tumor among women and the second cause of cancer-related death. Early diagnosis in clinical practice is crucial for timely treatment and prognosis. Dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) has revealed great usability in the preoperative diagnosis and assessing therapy effects thanks to its capability to reflect the morphology and dynamic characteristics of breast lesions. However, most existing computer-assisted diagnosis algorithms only consider conventional radiomic features when classifying benign and malignant lesions in DCE-MRI. In this study, we propose to fully leverage the dynamic characteristics from the kinetic curves as well as the radiomic features to boost the classification accuracy of benign and malignant breast lesions. The proposed method is a fully automated solution by directly analyzing the 3D features from the DCE-MRI. The proposed method is evaluated on an in-house dataset including 200 DCE-MRI scans with 298 breast tumors (172 benign and 126 malignant tumors), achieving favorable classification accuracy with an area under curve (AUC) of 0.94. By simultaneously considering the dynamic and radiomic features, it is beneficial to effectively distinguish between benign and malignant breast lesions. The algorithm is publicly available at https://github.com/ryandok/JPA.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# 主張の強さを説明する:攻撃と支援の役割を解明する(技術報告)

Explaining Arguments' Strength: Unveiling the Role of Attacks and Supports (Technical Report) ( http://arxiv.org/abs/2404.14304v2 )

ライセンス: Link先を確認
Xiang Yin, Potyka Nico, Francesca Toni, (参考訳) 漸進的意味論に基づく議論の強さを定量的に説明すると、近年注目を集めている。 具体的には、文献におけるいくつかの研究は、議論の帰属スコアを計算することによって定量的な説明を提供する。 これらの研究は、議論の強みを説明する際に重要な役割を果たすにもかかわらず、攻撃と支援の重要性を無視している。 本稿では,ゲーム理論からShapley値を適用して,攻撃の役割を詳細に把握し,議論の強みを得るための量的双極的議論を支援する,関係属性説明(RAEs)の新たな理論を提案する。 RAEがいくつかの望ましい性質を満たすことを示す。 また,RAEを効率的に近似する確率的アルゴリズムを提案する。 最後に、不正検出および大規模言語モデルケーススタディにおけるRAEの応用価値を示す。

Quantitatively explaining the strength of arguments under gradual semantics has recently received increasing attention. Specifically, several works in the literature provide quantitative explanations by computing the attribution scores of arguments. These works disregard the importance of attacks and supports, even though they play an essential role when explaining arguments' strength. In this paper, we propose a novel theory of Relation Attribution Explanations (RAEs), adapting Shapley values from game theory to offer fine-grained insights into the role of attacks and supports in quantitative bipolar argumentation towards obtaining the arguments' strength. We show that RAEs satisfy several desirable properties. We also propose a probabilistic algorithm to approximate RAEs efficiently. Finally, we show the application value of RAEs in fraud detection and large language models case studies.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# 健康事象予測のための適応アテンションマージによる時間認識不均一グラフ変換器

Time-aware Heterogeneous Graph Transformer with Adaptive Attention Merging for Health Event Prediction ( http://arxiv.org/abs/2404.14815v2 )

ライセンス: Link先を確認
Shibo Li, Hengliang Cheng, Weihua Li, (参考訳) 医療分野におけるElectronic Health Records(EHR)データの普及は、深層学習を用いた疾病リスク予測の早期成功につながっている。 これらの方法は一般に、大きなパラメータセットのためにトレーニングのために広範なデータを必要とする。 しかし、既存の研究は、EHRデータの潜在能力を最大限に活用していない。 重要な課題は、EHRデータ内の多くの医療コードの発生頻度が低いことによるものであり、臨床応用性が制限されている。 現在の研究は、しばしば重要な領域に欠けている。 1) 疾患領域の知識を取り入れること 2) 豊かな意味を持つ病気の表現を均一に学習すること。 3)病の進行の時間的ダイナミクスを捉えた。 これらの制約を克服するために,疾患領域の知識を同化し,薬物と疾患の複雑な関係を解明するために設計された,新しい異種グラフ学習モデルを導入する。 このモデルは、時間的データを訪問者レベルの埋め込みに革新的に組み込んで、適応的な注意機構とともにタイムアウェア・トランスフォーマーを活用して患者表現を生成する。 2つの医療データセットで評価した結果,既存手法に対する予測精度と解釈可能性の両方が顕著に向上し,パーソナライズ・プロアクティブな医療管理への大幅な進歩が示唆された。

The widespread application of Electronic Health Records (EHR) data in the medical field has led to early successes in disease risk prediction using deep learning methods. These methods typically require extensive data for training due to their large parameter sets. However, existing works do not exploit the full potential of EHR data. A significant challenge arises from the infrequent occurrence of many medical codes within EHR data, limiting their clinical applicability. Current research often lacks in critical areas: 1) incorporating disease domain knowledge; 2) heterogeneously learning disease representations with rich meanings; 3) capturing the temporal dynamics of disease progression. To overcome these limitations, we introduce a novel heterogeneous graph learning model designed to assimilate disease domain knowledge and elucidate the intricate relationships between drugs and diseases. This model innovatively incorporates temporal data into visit-level embeddings and leverages a time-aware transformer alongside an adaptive attention mechanism to produce patient representations. When evaluated on two healthcare datasets, our approach demonstrated notable enhancements in both prediction accuracy and interpretability over existing methodologies, signifying a substantial advancement towards personalized and proactive healthcare management.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# マッチングから生成へ:生成情報検索に関する調査

From Matching to Generation: A Survey on Generative Information Retrieval ( http://arxiv.org/abs/2404.14851v2 )

ライセンス: Link先を確認
Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yuyao Zhang, Peitian Zhang, Yutao Zhu, Zhicheng Dou, (参考訳) 情報検索システム (IR) は, ユーザが情報にアクセスするための重要なツールである。 事前学習された言語モデルの発展に伴い、生成情報検索(GenIR)が新しいパラダイムとして登場し、注目を集めている。 現在、GenIRの研究は、生成文書検索(GR)と信頼できる応答生成の2つの側面に分類できる。 GRは生成モデルのパラメータを利用して文書を記憶し、明示的なインデックス付けなしに関連する文書識別子を直接生成することで検索を可能にする。 一方、信頼性の高い応答生成は、ユーザーが求める情報を直接生成するために言語モデルを使用し、ドキュメントの粒度と関連性マッチングの点で従来のIRの限界を破り、柔軟性、効率、創造性を向上し、実用的なニーズを満たす。 本稿では,GenIRの最新研究動向を体系的にレビューすることを目的とする。 本稿では、モデルトレーニングと構造、文書識別子、インクリメンタルラーニング等に関するGRの進歩と、内部知識記憶、外部知識増強等の側面における信頼性の高い応答生成の進展について要約する。 我々はまた、GenIRシステムにおける評価、課題、今後の発展についてもレビューする。 このレビューは、研究者に包括的な参照を提供することを目的としており、GenIR分野のさらなる発展を奨励している。

Information Retrieval (IR) systems are crucial tools for users to access information, which have long been dominated by traditional methods relying on similarity matching. With the advancement of pre-trained language models, generative information retrieval (GenIR) emerges as a novel paradigm, attracting increasing attention. Currently, research in GenIR can be categorized into two aspects: generative document retrieval (GR) and reliable response generation. GR leverages the generative model's parameters for memorizing documents, enabling retrieval by directly generating relevant document identifiers without explicit indexing. Reliable response generation, on the other hand, employs language models to directly generate the information users seek, breaking the limitations of traditional IR in terms of document granularity and relevance matching, offering more flexibility, efficiency, and creativity, thus better meeting practical needs. This paper aims to systematically review the latest research progress in GenIR. We will summarize the advancements in GR regarding model training and structure, document identifier, incremental learning, etc., as well as progress in reliable response generation in aspects of internal knowledge memorization, external knowledge augmentation, etc. We also review the evaluation, challenges and future developments in GenIR systems. This review aims to offer a comprehensive reference for researchers, encouraging further development in the GenIR field.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# mRNAコドン最適化のための資源効率変動量子アルゴリズム

A resource-efficient variational quantum algorithm for mRNA codon optimization ( http://arxiv.org/abs/2404.14858v2 )

ライセンス: Link先を確認
Hongfeng Zhang, Aritra Sarkar, Koen Bertels, (参考訳) mRNAコドンの最適化は特定の標的タンパク質の遺伝子発現に重要な影響を与える。 したがって、そのような最適化問題の正確な解法は、古典コンピュータと量子コンピュータの両方の現実的な問題サイズに対して計算的に難解になる。 しかし、ヒューリスティックスによる近似解は、それらが実現したアプリケーションに大きな影響を与える可能性がある。 量子近似最適化は、そのような問題に取り組むことを約束する代替計算パラダイムである。 近年、バイオインフォマティクス、特にmRNAコドン最適化のための量子アルゴリズムの研究が行われている。 本研究では,ゲート型量子コンピュータ上での変分量子固有解法アルゴリズムを用いて,mRNAコドン最適化を実装するためのコドンのエンコード方法を提案する。 これにより、既存の量子アプローチと比較して量子ビット要求を半分に減らし、既存の量子プロセッサ上でより長いシーケンスを実行することができる。 提案アルゴリズムの性能は,その結果を正確な解と比較することにより評価し,良好なマッチング結果を示す。

Optimizing the mRNA codon has an essential impact on gene expression for a specific target protein. It is an NP-hard problem; thus, exact solutions to such optimization problems become computationally intractable for realistic problem sizes on both classical and quantum computers. However, approximate solutions via heuristics can substantially impact the application they enable. Quantum approximate optimization is an alternative computation paradigm promising for tackling such problems. Recently, there has been some research in quantum algorithms for bioinformatics, specifically for mRNA codon optimization. This research presents a denser way to encode codons for implementing mRNA codon optimization via the variational quantum eigensolver algorithms on a gate-based quantum computer. This reduces the qubit requirement by half compared to the existing quantum approach, thus allowing longer sequences to be executed on existing quantum processors. The performance of the proposed algorithm is evaluated by comparing its results to exact solutions, showing well-matching results.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# PKIのArmored Core: 物理的に不可避な機能によってCAの署名キーを削除する

Armored Core of PKI: Remove Signing Keys for CA via Physically Unclonable Function ( http://arxiv.org/abs/2404.15582v2 )

ライセンス: Link先を確認
Xiaolin Zhang, Chenghao Chen, Kailun Qin, Yuxuan Wang, Shipei Qu, Tengfei Wang, Chi Zhang, Dawu Gu, (参考訳) 認証当局(CA)の署名鍵保護は、PKIにおいて重要である。 しかし、これらのキーは、今日のインフラストラクチャでも公開できます。 攻撃者は、慎重に設計された様々な攻撃や偶然のヒューマンエラーを通じて、常に鍵のデジタルリークを捕捉できるため、従来の保護は、このリスクを排除できない。 このジレンマは,CA の署名キーの除去を検討する動機となり,物理的に拘束不能な機能 (PUF) の信頼結合を用いた PKI セキュリティ強化である Armored Core を提案する。 Armored Coreでは、CAはPUFベースのX.509v3 TLS証明書を発行し、PUFを使用してドメイン公開鍵の物理的に信頼された「署名」を生成する。 認証透明性(CT)でデプロイされたPUF透過機構は、CAのPUF呼び出し動作の監視を保証する。 証明書におけるPUFの支持が存在しないことを正式に証明する。 Armored Coreは、Let's Encrypt PebbleやCertbotといった現実世界のPKIコードベースに統合されています。 結果は、CAの署名キーを元のシステムに余分なオーバーヘッドを伴わずに削除できることを示し、代わりに計算効率を4.9%改善し、ストレージの11%を節約できることを示している。 これは、PKIにおけるCAのキー露光を不可能にする最初の効果的な解である。

The signing key protection for certificate authorities (CAs) is crucial in PKI. However, these keys can be exposed even in today's infrastructure. Traditional protections fail to eliminate this risk since attackers can always capture digital leakage of the keys through various carefully designed attacks or accidental human errors. This dilemma motivates us to consider removing CA's signing keys and propose Armored Core, a PKI security enhancement using the trusted binding of physically unclonable function (PUF) for CA. In Armored Core, CAs issue PUF-based X.509v3 TLS certificates, where they use PUF to generate physically trusted "signatures" for domain public keys. The PUF transparency mechanism, deployed with certificate transparency (CT), ensures the monitoring for PUF calling behaviors of CA. We formally prove the existential unforgeability of PUF endorsements in the certificates. Armored Core is integrated into real-world PKI codebases like Let's Encrypt Pebble and Certbot. The results show that it can remove the signing key for CA without bringing any extra overhead to the original systems, but instead improves computing efficiency by >4.9% and saves >11% of storage. It can be the first effective solution that makes key exposure impossible for CA in PKI.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# 痛みの言語に関する計算学的分析--系統的考察

Computational analysis of the language of pain: a systematic review ( http://arxiv.org/abs/2404.16226v2 )

ライセンス: Link先を確認
Diogo A. P. Nunes, Joana Ferreira-Gomes, Fani Neto, David Martins de Matos, (参考訳) 目的: 本研究の目的は, 患者や医師が生み出す痛みの言語, 痛みの物語の計算処理に関する文献を体系的にレビューし, 現状と課題を明らかにすることである。 方法: PRISMAガイドラインに従って, 痛みの言語処理に関する関連研究を選択し, あらかじめ定義された研究課題に答えるために, 総合的な文献検索を行った。 データ抽出と合成を行い, 主目的と結果, 患者と痛みの集団, テキストデータ, 計算手法, 結果目標に応じて, 選択された研究を分類した。 結果: 医師が生成した痛みの言語, 特に臨床記録から得られたものは, 最もよく用いられるデータであった。 課題は、患者の診断とトリアージ、痛みの言及の識別、治療反応の予測、バイオメディカルな実体抽出、言語的特徴と臨床状態の相関、痛みの物語の語彙的分析である。 1つの研究は、実験装置における痛みの発話に関する以前の言語知識を含んでいた。 ほとんどの研究は、臨床ツールとして、または間接的な知識として、医師の成果を目標にしていた。 最も標的にされていない治療段階は、患者が最も関与する自己管理である。 影響的・社会文化的側面は最も研究されていない領域であった。 1つの研究のみが、提案アルゴリズムを取り入れた臨床業務における医師の成績をいかに改善したかを測定した。 考察: 今後の研究は, 患者が生み出す痛みの言語分析, 自己管理とエンパワーメントのための患者中心の資源開発, 痛みの感情的・社会的側面の探索, 提案ツールによる支援による医師のパフォーマンス向上の計測に焦点をあてるべきである。

Objectives: This study aims to systematically review the literature on the computational processing of the language of pain, or pain narratives, whether generated by patients or physicians, identifying current trends and challenges. Methods: Following the PRISMA guidelines, a comprehensive literature search was conducted to select relevant studies on the computational processing of the language of pain and answer pre-defined research questions. Data extraction and synthesis were performed to categorize selected studies according to their primary purpose and outcome, patient and pain population, textual data, computational methodology, and outcome targets. Results: Physician-generated language of pain, specifically from clinical notes, was the most used data. Tasks included patient diagnosis and triaging, identification of pain mentions, treatment response prediction, biomedical entity extraction, correlation of linguistic features with clinical states, and lexico-semantic analysis of pain narratives. Only one study included previous linguistic knowledge on pain utterances in their experimental setup. Most studies targeted their outcomes for physicians, either directly as clinical tools or as indirect knowledge. The least targeted stage of clinical pain care was self-management, in which patients are most involved. Affective and sociocultural dimensions were the least studied domains. Only one study measured how physician performance on clinical tasks improved with the inclusion of the proposed algorithm. Discussion: This review found that future research should focus on analyzing patient-generated language of pain, developing patient-centered resources for self-management and patient-empowerment, exploring affective and sociocultural aspects of pain, and measuring improvements in physician performance when aided by the proposed tools.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-10
# 大規模言語モデルにおける言語識別の評価と緩和

Evaluating and Mitigating Linguistic Discrimination in Large Language Models ( http://arxiv.org/abs/2404.18534v2 )

ライセンス: Link先を確認
Guoliang Dong, Haoyu Wang, Jun Sun, Xinyu Wang, (参考訳) 様々な言語でテキストでトレーニングすることで、大規模言語モデル(LLM)は多言語のサポートを持ち、異なる言語で記述されたタスクを解く際、顕著な能力を示す。 しかし、LLMは、言語間のトレーニングデータの不均一な分布のため、言語的差別を示すことができる。 つまり、LLMは、同じタスクに直面しながら異なる言語で表現されている場合、応答の一貫性を維持するのが難しい。 本研究では, 安全性と品質の2つの側面から, 各種言語における問合せに応答するLLMの出力の整合性について検討した。 本研究では,4つのLLM(Llama2-13b,Gemma-7b,GPT-3.5-turbo,Gemini-pro)に基づく2つのデータセット(AdvBench,NQ)を用いて解析を行った。 その結果、LLMは、ベンガル語、グルジア語、ネパール語、マイシリ語のクエリ(平均で27.7%)と比較して、英語、フランス語、ロシア語、スペイン語のクエリ(平均で有害なクエリの1.04\%がジェイルブレイクに成功した)で、より強力な人間のアライメント能力を示すことが示された。 さらに、英語、デンマーク語、チェコ語、スロベニア語のクエリでは、LLMは他の言語と比較して高い品質(平均0.1494$F_1$スコア)のレスポンスを生成する傾向にある。 そこで本研究では,LLMにおける言語的差別を軽減するために,類似性に基づく投票方式であるLDFighterを提案する。 LDFighterは、異なる言語話者に対して一貫したサービスを保証する。 良質なクエリと有害なクエリの両方でLDFighterを評価する。 その結果, LDFighterはジェイルブレイクの成功率を著しく低下させるだけでなく, 平均応答品質も向上し, 有効性を示した。

By training on text in various languages, large language models (LLMs) typically possess multilingual support and demonstrate remarkable capabilities in solving tasks described in different languages. However, LLMs can exhibit linguistic discrimination due to the uneven distribution of training data across languages. That is, LLMs are hard to keep the consistency of responses when faced with the same task but depicted in different languages. In this study, we first explore the consistency in the LLMs' outputs responding to queries in various languages from two aspects: safety and quality. We conduct this analysis with two datasets (AdvBench and NQ) based on four LLMs (Llama2-13b, Gemma-7b, GPT-3.5-turbo and Gemini-pro). The results show that LLMs exhibit stronger human alignment capabilities with queries in English, French, Russian, and Spanish (only 1.04\% of harmful queries successfully jailbreak on average) compared to queries in Bengali, Georgian, Nepali and Maithili (27.7\% of harmful queries jailbreak successfully on average). Moreover, for queries in English, Danish, Czech and Slovenian, LLMs tend to produce responses with a higher quality (with 0.1494 $F_1$ score on average) compared to the other languages. Upon these findings, we propose LDFighter, a similarity-based voting, to mitigate the linguistic discrimination in LLMs. LDFighter ensures consistent service for different language speakers. We evaluate LDFighter with both benign queries and harmful queries. The results show that LDFighter not only significantly reduces the jailbreak success rate but also improve the response quality on average, demonstrating its effectiveness.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-10
# オープンソースドリフト検出ツールの動作:2つのユースケースから

Open-Source Drift Detection Tools in Action: Insights from Two Use Cases ( http://arxiv.org/abs/2404.18673v2 )

ライセンス: Link先を確認
Rieke Müller, Mohamed Abdelaal, Davor Stjelja, (参考訳) データドリフトは、機械学習(ML)モデルのライフサイクルにおいて重要な課題となり、そのパフォーマンスと信頼性に影響を与える。 この課題に対して,オープンソースのドリフト検出ツールの有効性を評価するマイクロベンチマークD3Benchを提案する。 D3Benchは、Evidently AI、NannyML、Alibi-Detectの能力を調査し、2つのスマートビルディングユースケースから現実のデータを活用し、これらのツールの機能的適合性を評価し、データドリフトを特定し分析する。 さらに,MLパイプラインの可積分性,多様なデータ型への適応性,ユーザフレンドリ性,計算効率,リソース要求など,包括的な非機能基準についても検討する。 以上の結果から,Evidently AIはその一般的なデータドリフト検出に際し,NannyMLはシフトの正確なタイミングを推定し,その結果が予測精度に与える影響を評価するのに優れていることがわかった。

Data drifts pose a critical challenge in the lifecycle of machine learning (ML) models, affecting their performance and reliability. In response to this challenge, we present a microbenchmark study, called D3Bench, which evaluates the efficacy of open-source drift detection tools. D3Bench examines the capabilities of Evidently AI, NannyML, and Alibi-Detect, leveraging real-world data from two smart building use cases.We prioritize assessing the functional suitability of these tools to identify and analyze data drifts. Furthermore, we consider a comprehensive set of non-functional criteria, such as the integrability with ML pipelines, the adaptability to diverse data types, user-friendliness, computational efficiency, and resource demands. Our findings reveal that Evidently AI stands out for its general data drift detection, whereas NannyML excels at pinpointing the precise timing of shifts and evaluating their consequent effects on predictive accuracy.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-10
# ChatGPTの実力に関する調査

A Survey on the Real Power of ChatGPT ( http://arxiv.org/abs/2405.00704v2 )

ライセンス: Link先を確認
Ming Liu, Ran Liu, Ye Zhu, Hua Wang, Youyang Qu, Rongsheng Li, Yongpan Sheng, Wray Buntine, (参考訳) ChatGPTはAIコミュニティを変え、ChatGPTのパフォーマンス評価を活発に研究している。 評価の重要な課題は、ChatGPTが依然としてクローズドソースであり、従来のベンチマークデータセットがトレーニングデータとしてChatGPTによって使用された可能性があることだ。 本項で述べる。 i) NLPタスクの7つのカテゴリにおいてChatGPTの実際のパフォーマンスレベルを明らかにする最近の研究を調査する。 (二)ChatGPTの社会的含意と安全性の問題についてレビューし、 (三)その評価の鍵となる課題と機会を強調する。 われわれの調査がブラックボックスのやり方に多少光を当てることで、研究者が表面生成によって誤解を招かないことを願っている。

ChatGPT has changed the AI community and an active research line is the performance evaluation of ChatGPT. A key challenge for the evaluation is that ChatGPT is still closed-source and traditional benchmark datasets may have been used by ChatGPT as the training data. In this paper, (i) we survey recent studies which uncover the real performance levels of ChatGPT in seven categories of NLP tasks, (ii) review the social implications and safety issues of ChatGPT, and (iii) emphasize key challenges and opportunities for its evaluation. We hope our survey can shed some light on its blackbox manner, so that researchers are not misleaded by its surface generation.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-10
# 機械による報告の評価について

On the Evaluation of Machine-Generated Reports ( http://arxiv.org/abs/2405.00982v2 )

ライセンス: Link先を確認
James Mayfield, Eugene Yang, Dawn Lawrie, Sean MacAvaney, Paul McNamee, Douglas W. Oard, Luca Soldaini, Ian Soboroff, Orion Weller, Efsun Kayi, Kate Sanders, Marc Mason, Noah Hibbler, (参考訳) 大きな言語モデル(LLM)は、情報ニーズを満たす新しい方法を可能にしました。 文書のランク付けやショートフォームのテキスト生成といった設定にそれらを適用しようとする動きは大きいが、それでも完全で正確で検証可能なロングフォームのレポートを作成するのに苦労している。 これらの品質の報告は、ユーザの複雑な、ニュアンスのある、あるいは多面的な情報要求を満たすために必要である。 本論では, 産業・学界, 各種研究分野から, 自動レポート生成の展望, そして, 批判的に, このようなレポートを評価可能なフレキシブルな枠組みについて考察する。 他の要約タスクとは対照的に、自動レポート生成は、必要なバックグラウンド、要求、およびレポートのスコープを記述して、必要な情報の詳細記述から始まる。 さらに、生成されたレポートは完全で、正確で、検証可能であるべきです。 これらの品質は(必要でないとしても)多くの分析レポートの書き起こし設定において望ましいものであり、これらの品質を示すシステムを構築し評価する方法を再考する必要がある。 これらのシステム構築における新たな取り組みを促進するために,様々な評価で見出されたアイデアを取り入れた評価フレームワークを提案する。 完全性と正確性をテストするため、このフレームワークは、高品質なレポートの一部である必要がある質問や回答として表現された大量の情報を使用する。 さらに、レポート内のクレームをソースドキュメントにマッピングする引用の評価により、妥当性が保証される。

Large Language Models (LLMs) have enabled new ways to satisfy information needs. Although great strides have been made in applying them to settings like document ranking and short-form text generation, they still struggle to compose complete, accurate, and verifiable long-form reports. Reports with these qualities are necessary to satisfy the complex, nuanced, or multi-faceted information needs of users. In this perspective paper, we draw together opinions from industry and academia, and from a variety of related research areas, to present our vision for automatic report generation, and -- critically -- a flexible framework by which such reports can be evaluated. In contrast with other summarization tasks, automatic report generation starts with a detailed description of an information need, stating the necessary background, requirements, and scope of the report. Further, the generated reports should be complete, accurate, and verifiable. These qualities, which are desirable -- if not required -- in many analytic report-writing settings, require rethinking how to build and evaluate systems that exhibit these qualities. To foster new efforts in building these systems, we present an evaluation framework that draws on ideas found in various evaluations. To test completeness and accuracy, the framework uses nuggets of information, expressed as questions and answers, that need to be part of any high-quality generated report. Additionally, evaluation of citations that map claims made in the report to their source documents ensures verifiability.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-10
# Rasterized Edge Gradients:不連続性を異なる方法で扱う

Rasterized Edge Gradients: Handling Discontinuities Differentiably ( http://arxiv.org/abs/2405.02508v2 )

ライセンス: Link先を確認
Stanislav Pidhorskyi, Tomas Simon, Gabriel Schwartz, He Wen, Yaser Sheikh, Jason Saragih, (参考訳) レンダリングプロセスの勾配を計算することは、コンピュータビジョンやグラフィックスの様々な応用において最重要である。 しかし、これらの勾配の正確な計算は、特に表面表現やラスタライズに基づくレンダリングにおいて、不連続性やレンダリング近似のために困難である。 本稿では,ラスタライズに基づく微分可能レンダラーの可視性不連続性の勾配計算法を提案する。 提案手法は, 厳密に設計された近似戦略により従来の複雑な問題をエレガントに単純化し, 単純で効果的かつ実効性のある解を実現する。 マイクロエッジの概念を導入し,ラスタライズされた画像を,本質的に微分不可能な離散画素ラスタライゼーションと整合した,微分可能で連続的なプロセスの結果として扱えるようにした。 この技術は、レンダリングされた画像の整合性を保ち、フォワードパスに近似やその他の修正をレンダリングする必要をなくし、フィルタリングが禁止されているラスタ化マスク、深さ、および正常な画像に適用できるようにする。 マイクロエッジの利用は、不連続での勾配解釈を単純化し、幾何学的交叉の扱いを可能にし、以前の技術よりも有利である。 本手法は人間の頭部の動的再構成において,カメラ画像とセグメンテーションマスクの効果的処理を実証するものである。

Computing the gradients of a rendering process is paramount for diverse applications in computer vision and graphics. However, accurate computation of these gradients is challenging due to discontinuities and rendering approximations, particularly for surface-based representations and rasterization-based rendering. We present a novel method for computing gradients at visibility discontinuities for rasterization-based differentiable renderers. Our method elegantly simplifies the traditionally complex problem through a carefully designed approximation strategy, allowing for a straightforward, effective, and performant solution. We introduce a novel concept of micro-edges, which allows us to treat the rasterized images as outcomes of a differentiable, continuous process aligned with the inherently non-differentiable, discrete-pixel rasterization. This technique eliminates the necessity for rendering approximations or other modifications to the forward pass, preserving the integrity of the rendered image, which makes it applicable to rasterized masks, depth, and normals images where filtering is prohibitive. Utilizing micro-edges simplifies gradient interpretation at discontinuities and enables handling of geometry intersections, offering an advantage over the prior art. We showcase our method in dynamic human head scene reconstruction, demonstrating effective handling of camera images and segmentation masks.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-10
# Matten氏:Mamba-Attentionを使ったビデオ生成

Matten: Video Generation with Mamba-Attention ( http://arxiv.org/abs/2405.03025v2 )

ライセンス: Link先を確認
Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma, (参考訳) 本稿では,映像生成のためのMamba-Attentionアーキテクチャを用いた最先端の潜伏拡散モデルであるMattenを紹介する。 最小の計算コストで、Mattenは局所的なビデオコンテンツモデリングとグローバルなビデオコンテンツモデリングのための双方向のMambaに空間的注意を払っている。 我々の総合的な実験的評価は、Mattenが現在のTransformerベースのモデルやGANベースのモデルとベンチマーク性能で競合し、優れたFVDスコアと効率を実現していることを示している。 さらに,設計モデルの複雑さと映像品質の向上との間には,直接的正の相関関係が見られ,Mattenの優れたスケーラビリティが示唆された。

In this paper, we introduce Matten, a cutting-edge latent diffusion model with Mamba-Attention architecture for video generation. With minimal computational cost, Matten employs spatial-temporal attention for local video content modeling and bidirectional Mamba for global video content modeling. Our comprehensive experimental evaluation demonstrates that Matten has competitive performance with the current Transformer-based and GAN-based models in benchmark performance, achieving superior FVD scores and efficiency. Additionally, we observe a direct positive correlation between the complexity of our designed model and the improvement in video quality, indicating the excellent scalability of Matten.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-10
# 状態空間モデルの状態自由推論:伝達関数アプローチ

State-Free Inference of State-Space Models: The Transfer Function Approach ( http://arxiv.org/abs/2405.06147v1 )

ライセンス: Link先を確認
Rom N. Parnichkun, Stefano Massaroli, Alessandro Moro, Jimmy T. H. Smith, Ramin Hasani, Mathias Lechner, Qi An, Christopher Ré, Hajime Asama, Stefano Ermon, Taiji Suzuki, Atsushi Yamashita, Michael Poli, (参考訳) 本稿では,その双対表現,転送関数,および高効率なシーケンス並列推論アルゴリズムにより,ディープラーニングアプリケーションのための状態空間モデルの設計にアプローチする。 提案した周波数領域転送関数パラメトリゼーションの特性を用いて、単一高速フーリエ変換を用いて、対応する畳み込みカーネルのスペクトルを直接計算できる。 複数のシーケンスの長さと状態サイズにまたがる実験結果から、Long Range Arenaベンチマークでは、S4層のトレーニング速度が平均35%向上し、他の注意を払わないアプローチよりも、最先端のダウンストリームのパフォーマンスを実現しています。 さらに,移動関数パラメトリゼーションを導入することで,長い畳み込みハイエナベースライン上での言語モデリングの難易度を改善することを報告した。 私たちのコードはhttps://github.com/ruke1ire/RTF.comで利用可能です。

We approach designing a state-space model for deep learning applications through its dual representation, the transfer function, and uncover a highly efficient sequence parallel inference algorithm that is state-free: unlike other proposed algorithms, state-free inference does not incur any significant memory or computational cost with an increase in state size. We achieve this using properties of the proposed frequency domain transfer function parametrization, which enables direct computation of its corresponding convolutional kernel's spectrum via a single Fast Fourier Transform. Our experimental results across multiple sequence lengths and state sizes illustrates, on average, a 35% training speed improvement over S4 layers -- parametrized in time-domain -- on the Long Range Arena benchmark, while delivering state-of-the-art downstream performances over other attention-free approaches. Moreover, we report improved perplexity in language modeling over a long convolutional Hyena baseline, by simply introducing our transfer function parametrization. Our code is available at https://github.com/ruke1ire/RTF.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-10
# 機械学習による移動物体の検出

Detecting Moving Objects With Machine Learning ( http://arxiv.org/abs/2405.06148v1 )

ライセンス: Link先を確認
Wesley C. Fraser, (参考訳) 太陽系の小さな天体の科学的研究は、最終的にこれらの天体の探索から始まる。 本章では、天文画像において、自然と人工の両方の移動物体を見つけるための機械学習技術の使用についてレビューする。 歴史的に使われている古典的非機械的学習手法の短いレビューの後、比較的新しい機械学習文献を概観し、ストリーク検出、画像シーケンスにおける移動点源の検出、シフトとスタック検索における移動点源の検出の3つのカテゴリにまとめる。 ほとんどの場合、畳み込みニューラルネットワークが使用され、入力のイメージの性質を考えると明らかな選択である。 この章では、さまざまなシフトやスタック検索で使用されているResidual Network Iと、同じシフトスタックにおけるソース輝度とその不確実性を予測するために設計された畳み込みニューラルネットワークの2つの例を紹介します。 文献やサンプルネットワークの議論では、オーバーフィッティングの重要な問題など、機械学習技術を用いた様々な落とし穴について論じる。 機械学習技術の使用に伴うさまざまな落とし穴や、堅牢なトレーニングセットの作成方法、検証方法、過度な適合を避けるためのトレーニング方法など、新しい問題への機械学習の適用におけるベストプラクティスについて論じます。

The scientific study of the Solar System's minor bodies ultimately starts with a search for those bodies. This chapter presents a review of the use of machine learning techniques to find moving objects, both natural and artificial, in astronomical imagery. After a short review of the classical non-machine learning techniques that are historically used, I review the relatively nascent machine learning literature, which can broadly be summarized into three categories: streak detection, detection of moving point sources in image sequences, and detection of moving sources in shift and stack searches. In most cases, convolutional neural networks are utilized, which is the obvious choice given the imagery nature of the inputs. In this chapter I present two example networks: a Residual Network I designed which is in use in various shift and stack searches, and a convolutional neural network that was designed for prediction of source brightnesses and their uncertainties in those same shift-stacks. In discussion of the literature and example networks, I discuss various pitfalls with the use of machine learning techniques, including a discussion on the important issue of overfitting. I discuss various pitfall associated with the use of machine learning techniques, and what I consider best practices to follow in the application of machine learning to a new problem, including methods for the creation of robust training sets, validation, and training to avoid overfitting.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-10
# DisBeaNet: 海洋環境認識のための無人表面容器を増強するディープニューラルネットワーク

DisBeaNet: A Deep Neural Network to augment Unmanned Surface Vessels for maritime situational awareness ( http://arxiv.org/abs/2405.06149v1 )

ライセンス: Link先を確認
Srikanth Vemula, Eulises Franco, Michael Frye, (参考訳) 海上の船舶のインテリジェントな検出と追跡は、無人表面船(USV)の交通回避に重要な役割を果たしている。 現在の交通回避ソフトウェアは、主に自動識別システム(AIS)とレーダーに依存し、衝突を避けるために他の船舶を追跡し、ターゲットを検出する典型的な認識システムとして機能する。 しかし、競合する環境では、レーダーエネルギーの放出もまた敵による検出の脆弱性を示す。 これらの高周波送信源を非活性化すると、検出の脅威が増大し、付近の船舶の交通をモニターするUSVの能力が低下する。 そこで本論文では,この問題に対処するためのUSV支援を目的とした受動センシング機能を備えた搭載カメラを用いた知的視覚認識システムについて述べる。 本稿では,海洋環境における船舶の検知・追跡のための低コスト視覚認識システムを提案する。 この新しい低コスト視覚認識システムはディープラーニングフレームワークを用いて導入される。 ニューラルネットワークであるDisBeaNetは、血管を検出し、追跡し、単眼カメラから血管の距離と軸受を推定することができる。 このニューラルネットワークから得られる出力は、特定された容器の緯度と経度を決定するために使用される。

Intelligent detection and tracking of the vessels on the sea play a significant role in conducting traffic avoidance in unmanned surface vessels(USV). Current traffic avoidance software relies mainly on Automated Identification System (AIS) and radar to track other vessels to avoid collisions and acts as a typical perception system to detect targets. However, in a contested environment, emitting radar energy also presents the vulnerability to detection by adversaries. Deactivating these Radiofrequency transmitting sources will increase the threat of detection and degrade the USV's ability to monitor shipping traffic in the vicinity. Therefore, an intelligent visual perception system based on an onboard camera with passive sensing capabilities that aims to assist USV in addressing this problem is presented in this paper. This paper will present a novel low-cost vision perception system for detecting and tracking vessels in the maritime environment. This novel low-cost vision perception system is introduced using the deep learning framework. A neural network, DisBeaNet, can detect vessels, track, and estimate the vessel's distance and bearing from the monocular camera. The outputs obtained from this neural network are used to determine the latitude and longitude of the identified vessel.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-10
# 書き起こしにおける損失:分散音声に対する自動音声認識システムの精度バイアスの同定と定量化

Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech ( http://arxiv.org/abs/2405.06150v1 )

ライセンス: Link先を確認
Dena Mujtaba, Nihar R. Mahapatra, Megan Arney, J. Scott Yaruss, Hope Gerlach-Houck, Caryn Herring, Jia Bin, (参考訳) 教育、医療、雇用、モバイル技術でますます普及している自動音声認識システム(ASR)は、特に8千万人の世界社会において、インクリビティにおいて大きな課題に直面している。 これらのシステムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながることが多い。 本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。 この合成データセットは、様々なスタブリングイベントを組み込むように設計されており、各ASRの非流動音声処理の詳細な分析を可能にする。 包括的評価には、単語誤り率(WER)、文字誤り率(CER)、テキストの意味的精度などが含まれる。 以上の結果から,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。 これらの知見は、現在のASR技術における重要なギャップを浮き彫りにしており、効果的なバイアス緩和戦略の必要性を浮き彫りにしている。 このバイアスに対処することは、テクノロジーのユーザビリティを向上させるだけでなく、急速に進化するデジタルランドスケープへの公平で包括的な参加を確保するためにも不可欠である。

Automatic speech recognition (ASR) systems, increasingly prevalent in education, healthcare, employment, and mobile technology, face significant challenges in inclusivity, particularly for the 80 million-strong global community of people who stutter. These systems often fail to accurately interpret speech patterns deviating from typical fluency, leading to critical usability issues and misinterpretations. This study evaluates six leading ASRs, analyzing their performance on both a real-world dataset of speech samples from individuals who stutter and a synthetic dataset derived from the widely-used LibriSpeech benchmark. The synthetic dataset, uniquely designed to incorporate various stuttering events, enables an in-depth analysis of each ASR's handling of disfluent speech. Our comprehensive assessment includes metrics such as word error rate (WER), character error rate (CER), and semantic accuracy of the transcripts. The results reveal a consistent and statistically significant accuracy bias across all ASRs against disfluent speech, manifesting in significant syntactical and semantic inaccuracies in transcriptions. These findings highlight a critical gap in current ASR technologies, underscoring the need for effective bias mitigation strategies. Addressing this bias is imperative not only to improve the technology's usability for people who stutter but also to ensure their equitable and inclusive participation in the rapidly evolving digital landscape.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-10
# (一部調査)分散・協調多エージェント強化学習

(A Partial Survey of) Decentralized, Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.06161v1 )

ライセンス: Link先を確認
Christopher Amato, (参考訳) マルチエージェント強化学習(MARL)は近年急速に普及している。 多くのアプローチが開発されているが、これらは集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分けられる。 分散トレーニングと実行メソッドは最も小さな仮定であり、実装が簡単であることが多い。 実際、私が議論するとおり、各エージェントが個別に学習させることで、DTEに任意の単エージェントRLメソッドを使うことができる。 もちろん、後述するようなアプローチには長所と短所があります。 オフラインの調整が不要な場合、DTEは必須である点に注意が必要だ。 つまり、すべてのエージェントが事前調整なしでオンラインインタラクション中に学習しなければならない場合、学習と実行はどちらも分散化されなければならない。 DTE法は協調的、競争的、あるいは混合的な場合に応用できるが、本文は協調的MARL事例に焦点をあてる。 本文では、まず、DEC-POMDPの形で協調的なMARL問題の簡単な説明を行う。 次に、独立したQ-ラーニングとその拡張から始まる価値に基づくDTE手法について論じ、さらに、DQNによる深層ケースの拡張について論じる。 次に、独立なREINFORCE(バニラ政策勾配)から始まるポリシー勾配DTE手法について論じ、アクター批判的なケースと深い変種(独立なPPOなど)にまで拡張する。 最後に、DTEと今後の方向性に関するいくつかの一般的な話題について論じる。

Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. Many approaches have been developed but they can be divided into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and Decentralized training and execution (DTE). Decentralized training and execution methods make the fewest assumptions and are often simple to implement. In fact, as I'll discuss, any single-agent RL method can be used for DTE by just letting each agent learn separately. Of course, there are pros and cons to such approaches as we discuss below. It is worth noting that DTE is required if no offline coordination is available. That is, if all agents must learn during online interactions without prior coordination, learning and execution must both be decentralized. DTE methods can be applied in cooperative, competitive, or mixed cases but this text will focus on the cooperative MARL case. In this text, I will first give a brief description of the cooperative MARL problem in the form of the Dec-POMDP. Then, I will discuss value-based DTE methods starting with independent Q-learning and its extensions and then discuss the extension to the deep case with DQN, the additional complications this causes, and methods that have been developed to (attempt to) address these issues. Next, I will discuss policy gradient DTE methods starting with independent REINFORCE (i.e., vanilla policy gradient), and then extending to the actor-critic case and deep variants (such as independent PPO). Finally, I will discuss some general topics related to DTE and future directions.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-10
# Skeet: 現代的なAI駆動アプリケーション開発をサポートする軽量なサーバレスフレームワークを目指す

Skeet: Towards a Lightweight Serverless Framework Supporting Modern AI-Driven App Development ( http://arxiv.org/abs/2405.06164v1 )

ライセンス: Link先を確認
Kawasaki Fumitake, Shota Kishi, James Neve, (参考訳) Webおよびモバイルソフトウェアフレームワークの分野は比較的成熟しており、リレーショナルデータベース内のデータが表示され、修正される従来のアプリ開発を促進する様々な言語で様々なツールが使われている。 私たちの立場では、MVCアーキテクチャアプリケーションの単一サーバデプロイ中に多くの現在のフレームワークが人気を博し、クラウドコンピューティングやAIのような新興技術の導入といった、アプリケーション開発の現代的な側面を助長していない。 本稿では,これらの目的を達成する新しいフレームワークであるSkeetについて紹介する。 Skeetは、アーキテクチャの現在のトレンドを反映したアプリ構造と、AI内部に関する最小限の知識を持つ開発者が、そのような技術をアプリに簡単に組み込んでデプロイできるツールスイートを提供する。

The field of web and mobile software frameworks is relatively mature, with a large variety of tools in different languages that facilitate traditional app development where data in a relational database is displayed and modified. Our position is that many current frameworks became popular during single server deployment of MVC architecture apps, and do not facilitate modern aspects of app development such as cloud computing and the incorporation of emerging technologies such as AI. We present a novel framework which accomplishes these purposes, Skeet, which was recently released to general use, alongside an initial evaluation. Skeet provides an app structure that reflects current trends in architecture, and tool suites that allow developers with minimal knowledge of AI internals to easily incorporate such technologies into their apps and deploy them.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-10
# MDNet:腹部CT臓器分割のためのマルチデコーダネットワーク

MDNet: Multi-Decoder Network for Abdominal CT Organs Segmentation ( http://arxiv.org/abs/2405.06166v1 )

ライセンス: Link先を確認
Debesh Jha, Nikhil Kumar Tomar, Koushik Biswas, Gorkem Durak, Matthew Antalek, Zheyuan Zhang, Bin Wang, Md Mostafijur Rahman, Hongyi Pan, Alpay Medetalibeyoglu, Yury Velichko, Daniela Ladner, Amir Borhani, Ulas Bagci, (参考訳) 腹部CT検査による臓器の正確な分節化は, 診断, 治療計画, 患者モニタリングなどの臨床応用に不可欠である。 臓器形状, サイズ, 複雑な解剖学的関係における不均一性の課題に対処するために, 予め訓練した \textit{MiT-B2} をエンコーダとして, 複数異なるデコーダネットワークとして使用するエンコーダネットワークである \textbf{\textit{\ac{MDNet}}} を提案する。 各デコーダネットワークは、マルチスケールの機能拡張拡張ブロックを介して、エンコーダの異なる部分に接続される。 各デコーダにより、ネットワークの深さを反復的に増加させ、セグメンテーションマスクを洗練させ、前のデコーダの特徴マップを統合することで特徴マップを強化する。 さらに特徴マップを改良するために、予測マスクを以前のデコーダから現在のデコーダに利用して、前景や背景領域に空間的注意を向ける。 MDNetは、肝腫瘍セグメンテーション(LiTS)とMSD Spleenデータセットにおいて、高いダイス類似度係数(DSC)0.9013と0.9169のセグメンテーションマスクを効果的に洗練する。 さらに、LiTSデータセットではハウスドルフ距離(HD)が3.79に、スプレエンセグメンテーションデータセットでは2.26に減少し、複雑な輪郭を捉える際にMDNetの精度が低下する。 さらに、 \textit{\ac{MDNet}} は他のベースラインモデルよりも解釈可能で堅牢である。

Accurate segmentation of organs from abdominal CT scans is essential for clinical applications such as diagnosis, treatment planning, and patient monitoring. To handle challenges of heterogeneity in organ shapes, sizes, and complex anatomical relationships, we propose a \textbf{\textit{\ac{MDNet}}}, an encoder-decoder network that uses the pre-trained \textit{MiT-B2} as the encoder and multiple different decoder networks. Each decoder network is connected to a different part of the encoder via a multi-scale feature enhancement dilated block. With each decoder, we increase the depth of the network iteratively and refine segmentation masks, enriching feature maps by integrating previous decoders' feature maps. To refine the feature map further, we also utilize the predicted masks from the previous decoder to the current decoder to provide spatial attention across foreground and background regions. MDNet effectively refines the segmentation mask with a high dice similarity coefficient (DSC) of 0.9013 and 0.9169 on the Liver Tumor segmentation (LiTS) and MSD Spleen datasets. Additionally, it reduces Hausdorff distance (HD) to 3.79 for the LiTS dataset and 2.26 for the spleen segmentation dataset, underscoring the precision of MDNet in capturing the complex contours. Moreover, \textit{\ac{MDNet}} is more interpretable and robust compared to the other baseline models.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-10
# 複合ナノファイバー導波路における光-マター結合強化による強双極子-双極子相互作用

Strong Dipole-Dipole Interactions via Enhanced Light-Matter Coupling in Composite Nanofiber Waveguides ( http://arxiv.org/abs/2405.06168v1 )

ライセンス: Link先を確認
Kritika Jain, Lewis Ruks, Fam le Kien, Thomas Busch, (参考訳) 本研究では,2つの光ナノファイバーからなる複合導波路と放射体の相互作用について検討した。 正確なDyadic Green関数を用いて、エミッタ位置とファイバ構成のばらつきを考慮した結合効率と繊維誘起ランブシフトを包括的に検討する。 このことは、単一導波路を用いたものよりもはるかに拡張されたカップリング効率とパーセル因子、およびメリットの数値のロバスト性を明らかにする。 共振性双極子-双極子相互作用と複合導波路を介して励起される2つのエミッタ間の絡み合いの発生について検討した。 単一繊維に対してゼロである場合においても、絡み合いが生じるような2つの繊維系に対して、共起性を高めることができることを示す。 オールファイバシステムは建設が簡単で、既存の電気通信技術の豊富な恩恵を受けつつ、エミッタへの強い結合を享受し、スロット導波路に特有の新しい光物質機能を提供している。

We study the interaction of emitters with a composite waveguide formed from two parallel optical nanofibers in currently unexplored regimes of experimental importance for atomic gases or solid-state emitters. Using the exact dyadic Green's function we comprehensively investigate the coupling efficiency and the fiber-induced Lamb shift accounting for variations in emitter positions and fiber configurations. This reveals coupling efficiencies and Purcell factors that are enhanced considerably beyond those using a single fiber waveguide, and robustness in the figures of merit. We finally investigate resonant dipole-dipole interactions and the generation of entanglement between two emitters mediated through the composite waveguide under excitation. We show that the concurrence can be enhanced for two fiber systems, such that entanglement may be present even in cases where it is zero for a single fiber. All-fiber systems are simple in construction and benefit from a wealth of existing telecommunications technologies, whilst enjoying strong couplings to emitters and offering novel light-matter functionalities specific to slot waveguides.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# 解析内容に対する射影接続と極端領域

Projective connections and extremal domains for analytic content ( http://arxiv.org/abs/2405.06171v1 )

ライセンス: Link先を確認
Razvan Teodorescu, (参考訳) このノートは、2次元における解析的内容の極端領域は円盤と円錐のみであるという最近の証明に拡張されている。 この理論物理学に対するこの結果の予期せぬ意味は、極端領域において、解析的内容は(多重)随伴作用素 $T, T^{\dag}$ の非可換性の尺度であり、$T^{\dag} = \bar z$ であり、従って量子変形パラメータ (``Planck's constant) であるということである。 環状解(特別の場合として円盤を含む)は、実際には、変形パラメータのすべての可能な正の値に対応する解の連続族であり、2次元における共形不変性は特別な長さスケールの存在を許すという物理的要件と一致する。

This note expands on the recent proof \cite{ABKT} that the extremal domains for analytic content in two dimensions can only be disks and annuli. This result's unexpected implication for theoretical physics is that, for extremal domains, the analytic content is a measure of non-commutativity of the (multiplicative) adjoint operators $T, T^{\dag}$, where $T^{\dag} = \bar z$, and therefore of the quantum deformation parameter (``Planck's constant"). The annular solution (which includes the disk as a special case) is, in fact, a continuous family of solutions, corresponding to all possible positive values of the deformation parameter, consistent with the physical requirement that conformal invariance in two dimensions forbids the existence of a special length scale.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# グラフ構造データの異常検出:サーベイ

Anomaly Detection in Graph Structured Data: A Survey ( http://arxiv.org/abs/2405.06172v1 )

ライセンス: Link先を確認
Prabin B Lamichhane, William Eberle, (参考訳) 実世界のグラフは、異常検出などの効果的な分析を行うための処理が複雑である。 しかし、近年、グラフベースの異常検出に関わる問題に対処する研究がいくつか行われている。 本稿では,グラフデータにおける異常検出手法の包括的概要について論じる。 また、これらの異常検出技術を利用する様々なアプリケーションドメインについても論じる。 そこで本研究では,仮定と手法に基づいて,最先端の異常検出手法を分類した新しい分類法を提案する。 各カテゴリにおいて、異常検出を改善するために行われた基礎研究の考え方について論じる。 さらに、現在の異常検出技術の利点と欠点について論じる。 最後に,グラフ構造データの異常検出における今後の研究の方向性を示す。

Real-world graphs are complex to process for performing effective analysis, such as anomaly detection. However, recently, there have been several research efforts addressing the issues surrounding graph-based anomaly detection. In this paper, we discuss a comprehensive overview of anomaly detection techniques on graph data. We also discuss the various application domains which use those anomaly detection techniques. We present a new taxonomy that categorizes the different state-of-the-art anomaly detection methods based on assumptions and techniques. Within each category, we discuss the fundamental research ideas that have been done to improve anomaly detection. We further discuss the advantages and disadvantages of current anomaly detection techniques. Finally, we present potential future research directions in anomaly detection on graph-structured data.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# 定量的位相イメージングにおける細胞分離の事前誘導拡散モデル

Prior-guided Diffusion Model for Cell Segmentation in Quantitative Phase Imaging ( http://arxiv.org/abs/2405.06175v1 )

ライセンス: Link先を確認
Zhuchen Shao, Mark A. Anastasio, Hua Li, (参考訳) 目的: 定量位相イメージング(QPI)は、化学物質や染料を使わずに、組織や細胞の高コントラスト画像を提供するラベルフリーの手法である。 QPIにおける細胞の正確なセグメンテーションは、様々な医学的応用に不可欠である。 DMに基づくセグメンテーションは有望な結果を示したが、複数のサンプリングステップの要求は効率を低下させる。 本研究の目的は、先行誘導されたコンテンツ情報を起動ノイズに導入することにより、DMに基づくセグメンテーションを強化し、多重サンプリングに伴う非効率を最小化することである。 アプローチ: 事前誘導機構をDMベースセグメンテーションに導入し, ランダムにサンプリングしたスタートノイズをコンテンツ情報によって通知されるノイズに置き換える。 このメカニズムは、トレーニング済みのDMとDDIMのインバージョンを利用して、被写体画像からのコンテンツ情報を起動ノイズに組み込む。 また,コンテンツ情報と配信情報の両方を考慮した開始音質の評価手法も提案した。 結果: 細胞セグメンテーションのための様々なQPIデータセットの大規模な実験により, 提案手法は単一サンプリングのみで, DMベースのセグメンテーションにおいて優れた性能を示した。 アブレーション研究と視覚分析は、DMベースのセグメンテーションにおけるコンテンツ先行の重要性をさらに強調した。 結論: 提案手法は, 従来のコンテンツ情報を利用して, DMに基づくセグメンテーションを効果的に改善し, 複数のサンプリングの必要性を低減しつつ, 正確な結果を提供する。 本研究は,コンテンツ先行をDMベースのセグメンテーション手法に統合することの重要性を強調した。

Purpose: Quantitative phase imaging (QPI) is a label-free technique that provides high-contrast images of tissues and cells without the use of chemicals or dyes. Accurate semantic segmentation of cells in QPI is essential for various biomedical applications. While DM-based segmentation has demonstrated promising results, the requirement for multiple sampling steps reduces efficiency. This study aims to enhance DM-based segmentation by introducing prior-guided content information into the starting noise, thereby minimizing inefficiencies associated with multiple sampling. Approach: A prior-guided mechanism is introduced into DM-based segmentation, replacing randomly sampled starting noise with noise informed by content information. This mechanism utilizes another trained DM and DDIM inversion to incorporate content information from the to-be-segmented images into the starting noise. An evaluation method is also proposed to assess the quality of the starting noise, considering both content and distribution information. Results: Extensive experiments on various QPI datasets for cell segmentation showed that the proposed method achieved superior performance in DM-based segmentation with only a single sampling. Ablation studies and visual analysis further highlighted the significance of content priors in DM-based segmentation. Conclusion: The proposed method effectively leverages prior content information to improve DM-based segmentation, providing accurate results while reducing the need for multiple samplings. The findings emphasize the importance of integrating content priors into DM-based segmentation methods for optimal performance.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# ACTION: 機能MRIを用いた脳ネットワーク解析のための拡張と計算ツールボックス

ACTION: Augmentation and Computation Toolbox for Brain Network Analysis with Functional MRI ( http://arxiv.org/abs/2405.06178v1 )

ライセンス: Link先を確認
Yuqi Fang, Junhao Zhang, Linmin Wang, Qianqian Wang, Mingxia Liu, (参考訳) 機能的磁気共鳴イメージング(fMRI)は、機能的脳活動の研究にますます利用されている。 多くのfMRI関連ソフトウェア/ツールボックスが開発され、fMRI分析のための特別なアルゴリズムが提供されている。 しかし、既存のツールボックスはfMRIデータの増大をほとんど考えておらず、特に限られたデータや不均衡なデータの研究において非常に有用である。 さらに、最近の研究では、データ駆動のfMRI表現を自動的に学習できるディープラーニングモデルを調べることなく、人間工学的なfMRI機能に依存する従来の機械学習モデルを用いてfMRIを分析することに重点を置いている。 本研究では,Brain netwOrk aNalysis (ACTION)のためのオープンソースのツールボックスAugmentation and Computation Toolboxを開発した。 ACTIONはPythonベースのクロスプラットフォームのツールボックスで、グラフィカルなユーザフレンドリなインターフェースを備えている。 自動fMRI増強、血液酸素レベル依存(BOLD)シグナル増強、脳ネットワーク増強を可能にする。 脳ネットワーク構築とネットワーク特徴抽出の一般的な方法が数多く含まれている。 特に、ダウンストリームタスクのモデルパフォーマンスを向上させるために、モデル事前トレーニングに大規模な補助的なラベルなしデータ(3,800以上の静止状態fMRIスキャン)を活用するディープラーニングモデルの構築をサポートする。 マルチサイトfMRI研究を容易にするため、いくつかの一般的なフェデレート学習戦略も備えている。 さらに、スクリプティングによるカスタムアルゴリズムの設計とテストを可能にし、その実用性と拡張性を大幅に改善する。 本研究では,実際のfMRIデータに対するACTIONの有効性とユーザフレンドリさを実証し,実験結果を示す。 このソフトウェアはソースコードとマニュアルとともに、オンラインでアクセスできる。

Functional magnetic resonance imaging (fMRI) has been increasingly employed to investigate functional brain activity. Many fMRI-related software/toolboxes have been developed, providing specialized algorithms for fMRI analysis. However, existing toolboxes seldom consider fMRI data augmentation, which is quite useful, especially in studies with limited or imbalanced data. Moreover, current studies usually focus on analyzing fMRI using conventional machine learning models that rely on human-engineered fMRI features, without investigating deep learning models that can automatically learn data-driven fMRI representations. In this work, we develop an open-source toolbox, called Augmentation and Computation Toolbox for braIn netwOrk aNalysis (ACTION), offering comprehensive functions to streamline fMRI analysis. The ACTION is a Python-based and cross-platform toolbox with graphical user-friendly interfaces. It enables automatic fMRI augmentation, covering blood-oxygen-level-dependent (BOLD) signal augmentation and brain network augmentation. Many popular methods for brain network construction and network feature extraction are included. In particular, it supports constructing deep learning models, which leverage large-scale auxiliary unlabeled data (3,800+ resting-state fMRI scans) for model pretraining to enhance model performance for downstream tasks. To facilitate multi-site fMRI studies, it is also equipped with several popular federated learning strategies. Furthermore, it enables users to design and test custom algorithms through scripting, greatly improving its utility and extensibility. We demonstrate the effectiveness and user-friendliness of ACTION on real fMRI data and present the experimental results. The software, along with its source code and manual, can be accessed online.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# 残留NeRF:透明物体マニピュレーションのための残留NeRFの学習

Residual-NeRF: Learning Residual NeRFs for Transparent Object Manipulation ( http://arxiv.org/abs/2405.06181v1 )

ライセンス: Link先を確認
Bardienus P. Duisterhof, Yuemin Mao, Si Heng Teng, Jeffrey Ichnowski, (参考訳) 透明な物体は、産業、医薬品、家庭に広く分布している。 これらのオブジェクトのグラッピングと操作は、ロボットにとって重要な課題である。 既存の手法では、透明な物体に挑戦するための完全な深度マップの再構築が困難であり、深度復元に穴が開いている。 近年の研究では、透明物体のシーンにおける深度知覚のためにニューラル放射場(NeRF)がうまく機能しており、これらの深度マップは高精度に透明物体を把握できる。 NeRFベースの深度再構成は、特に困難な透明な物体や照明条件に苦戦する可能性がある。 本研究では,透明物体の深度知覚とトレーニング速度を改善する手法であるResidual-NeRFを提案する。 ロボットは台所など、しばしば同じエリアで動作します。 まず、透明な物体を操作せずに背景のNeRFを学習することにより、新しい物体で変化を学習する際のあいまいさを低減する。 残差NeRFは残差RGB値と密度を推定し、Mixnetは背景と残差NeRFを結合する方法を学ぶ。 我々は,Residual-NeRFが透明物体の深度知覚を改善することを示唆する合成および実実験に貢献する。 合成データから、Residual-NeRFは、RMSEの46.1%、MAEの29.5%でベースラインを上回っていることが示唆された。 実世界の定性的実験は、残留-NeRFがより頑丈で、ノイズが少なく、穴も少なくなることを示唆している。 ウェブサイト:https://residual-nerf.github.io

Transparent objects are ubiquitous in industry, pharmaceuticals, and households. Grasping and manipulating these objects is a significant challenge for robots. Existing methods have difficulty reconstructing complete depth maps for challenging transparent objects, leaving holes in the depth reconstruction. Recent work has shown neural radiance fields (NeRFs) work well for depth perception in scenes with transparent objects, and these depth maps can be used to grasp transparent objects with high accuracy. NeRF-based depth reconstruction can still struggle with especially challenging transparent objects and lighting conditions. In this work, we propose Residual-NeRF, a method to improve depth perception and training speed for transparent objects. Robots often operate in the same area, such as a kitchen. By first learning a background NeRF of the scene without transparent objects to be manipulated, we reduce the ambiguity faced by learning the changes with the new object. We propose training two additional networks: a residual NeRF learns to infer residual RGB values and densities, and a Mixnet learns how to combine background and residual NeRFs. We contribute synthetic and real experiments that suggest Residual-NeRF improves depth perception of transparent objects. The results on synthetic data suggest Residual-NeRF outperforms the baselines with a 46.1% lower RMSE and a 29.5% lower MAE. Real-world qualitative experiments suggest Residual-NeRF leads to more robust depth maps with less noise and fewer holes. Website: https://residual-nerf.github.io
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# 北極:フィールドプログラマブル量子アレイスケジューリング技術

Arctic: A Field Programmable Quantum Array Scheduling Technique ( http://arxiv.org/abs/2405.06183v1 )

ライセンス: Link先を確認
Ethan Decker, (参考訳) 中性原子量子コンピュータの進歩は、これらを量子コンピューティングの貴重なフレームワークとして位置づけている。 近年、中性原子コンピュータはコヒーレント原子のシャットリングを可能にし、従来のゲートベースの方法に代わる高忠実性として長距離接続を可能にしている。 しかし、これらの固有の利点は、新しい制約を伴うため、最適な運動スケジュールを作成することは困難である。 本研究は,本システムにおける再構成可能性制約を遵守しつつ,ゾーン型中性原子アーキテクチャにおける再構成可能な結合を最適化するために設計された最初のコンパイラパスについて述べる。 量子ビットアレイの空間次元とアルゴリズム並列性とのバランスをとる新しい「スタッキング」機能により、空間的に複雑なアルゴリズムのサポートを強化しつつ、最大カットおよび階層化されたクロス最小化問題として量子ビットマッピングと運動スケジューリングにアプローチする。 Supermarq と Qasmbench から得られた様々なアルゴリズムを比較して,コンパイラパスは,コンパイル時間を数秒以内で連続的に達成する最初の排他的動作ベースのテクニックであることを示す。 また,本手法はパルス数を最大5倍に減らし,既存技術に比べてフィリティを最大7倍に向上することを示した。

Advancements in neutral atom quantum computers have positioned them as a valuable framework for quantum computing, largely due to their prolonged coherence times and capacity for high-fidelity gate operations. Recently, neutral atom computers have enabled coherent atom shuttling to facilitate long-range connectivity as a high-fidelity alternative to traditional gate-based methods. However, these inherent advantages are accompanied by novel constraints, making it challenging to create optimal movement schedules. In this study I present, to the best of my knowledge, the first compiler pass designed to optimize reconfigurable coupling in zoned neutral atom architectures, while adhering to the reconfigurability constraints of these systems. I approach qubit mapping and movement scheduling as a max-cut and layered cross-minimization problem while enhancing support for spatially complex algorithms through a novel "stacking" feature that balances the qubit array's spatial dimensions with algorithmic parallelism. I compare the method across various algorithms sourced from Supermarq and Qasmbench where the compiler pass represents the first exclusively movement-based technique to achieve compilation times consistently within seconds. Results also demonstrate that the approach reduces pulse counts by up to 5x and increases fidelity by up to 7x compared to existing methods on currently available technology.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# 能動小物体変化検出のためのIll-posedness推定のゼロショット度

Zero-shot Degree of Ill-posedness Estimation for Active Small Object Change Detection ( http://arxiv.org/abs/2405.06185v1 )

ライセンス: Link先を確認
Koji Takeda, Kanji Tanaka, Yoshimasa Nakamura, Asako Kanezaki, (参考訳) 日常的な屋内ナビゲーションでは、ロボットはドメイン知識を維持するために、不特定小変化物体(例えば、文房具、ロストアイテム、ジャンクなど)を検出する必要があることが多い。 これは、コンピュータビジョンの分野で最近登場した研究分野であるグラウンド・ビュー・チェンジ検出(GVCD)に最も関係している。しかし、これらの既存の手法は、意味論的に不特定小対象に適用できない変更検出モデルを正規化するために、高品質なクラス固有オブジェクトに依存している。 そこで本研究では,GVCDの新たな視点から,受動的・能動的両面の両立をめざして,DoI( degree-of-ill-posedness)の概念を探求する。 この新しいDoI問題は非常にドメインに依存しており、手作業で微粒な注釈付きトレーニングデータを集めることは高価である。 この問題を正規化するために、自己教師あり学習の概念を適用して効率的なDoI推定を行い、その一般化を多種多様なデータセットに適用する。特に、意味的に不特定な未確認小オブジェクトに対する自己スーパービジョンの手がかりを得るという課題に対処し、オープンボキャブラリセマンティックセグメンテーションから新しい「過剰化の手がかり」を有効活用できることを示し、多様な実データに適用することにより、提案したDoIモデルにより、実世界のデータセットで評価された状態変化検出モデルが向上し、安定かつ一貫した改善を示す。

In everyday indoor navigation, robots often needto detect non-distinctive small-change objects (e.g., stationery,lost items, and junk, etc.) to maintain domain knowledge. Thisis most relevant to ground-view change detection (GVCD), a recently emerging research area in the field of computer vision.However, these existing techniques rely on high-quality class-specific object priors to regularize a change detector modelthat cannot be applied to semantically nondistinctive smallobjects. To address ill-posedness, in this study, we explorethe concept of degree-of-ill-posedness (DoI) from the newperspective of GVCD, aiming to improve both passive and activevision. This novel DoI problem is highly domain-dependent,and manually collecting fine-grained annotated training datais expensive. To regularize this problem, we apply the conceptof self-supervised learning to achieve efficient DoI estimationscheme and investigate its generalization to diverse datasets.Specifically, we tackle the challenging issue of obtaining self-supervision cues for semantically non-distinctive unseen smallobjects and show that novel "oversegmentation cues" from openvocabulary semantic segmentation can be effectively exploited.When applied to diverse real datasets, the proposed DoI modelcan boost state-of-the-art change detection models, and it showsstable and consistent improvements when evaluated on real-world datasets.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# 選択的Rydbergポンプによる中性原子のホロノミックスワップと制御スワップゲート

Holonomic swap and controlled-swap gates of neutral atoms via selective Rydberg pumping ( http://arxiv.org/abs/2405.06189v1 )

ライセンス: Link先を確認
C. F. Sun, X. Y. Chen, W. L. Mu, G. C. Wang, J. B. You, X. Q. Shao, (参考訳) ホロノミック量子コンピューティングは、そのエラー耐性と普遍的な量子計算を行う能力のために、量子計算に有望なパラダイムを提供する。 本稿では,中性原子系におけるホロノミックスワップゲートの迅速な実装手法を提案する。 時間依存型ソフトコントロールを用いることで、時間依存型運転と比較して運転強度が高い場合でも、非共振項の影響を効果的に緩和する。 このアプローチは論理ゲートの合成を加速し、デコヒーレンス効果を受動的に低減する。 さらに、追加の原子を導入し、適切な駆動フィールドを適用することで、3ビット制御スワップゲートを実装するために、我々のスキームを直接拡張することができる。 この進歩により、中性原子系における量子状態準備、量子スイッチ、変分量子アルゴリズムの貴重なツールとなる。

Holonomic quantum computing offers a promising paradigm for quantum computation due to its error resistance and the ability to perform universal quantum computations. Here, we propose a scheme for the rapid implementation of a holonomic swap gate in neutral atomic systems, based on the selective Rydberg pumping mechanism. By employing time-dependent soft control, we effectively mitigate the impact of off-resonant terms even at higher driving intensities compared to time-independent driving. This approach accelerates the synthesis of logic gates and passively reduces the decoherence effects. Furthermore, by introducing an additional atom and applying the appropriate driving field, our scheme can be directly extended to implement a three-qubit controlled-swap gate. This advancement makes it a valuable tool for quantum state preparation, quantum switches, and a variational quantum algorithm in neutral atom systems.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# ODC-SAネット:ポリプセグメンテーションのための直交方向拡張とスケールアウェアネットワーク

ODC-SA Net: Orthogonal Direction Enhancement and Scale Aware Network for Polyp Segmentation ( http://arxiv.org/abs/2405.06191v1 )

ライセンス: Link先を確認
Chenhao Xu, Yudian Zhang, Kaiye Xu, Haijiang Zhu, (参考訳) 大腸癌の早期発見と予防には, 正確なポリープセグメンテーションが重要である。 しかし、既存のポリプ検出手法は、多方向の特徴や大規模な変化を無視することがある。 これらの課題に対処するために,ポリプセグメンテーションのためのOrthogonal Direction Enhancement and Scale Aware Network (ODC-SA Net) を設計する。 Orthogonal Direction Convolutional (ODC) ブロックは、直交する特徴ベクトル基底を形成することにより、直交する長方形畳み込みカーネルを用いて多方向の特徴を抽出し、ランダムな特徴方向変化の問題を解消し、計算負荷を削減する。 さらに,マルチスケール核融合注意機構 (MSFA) を提案し,空間次元とチャネル次元のスケール変化を強調し,異なる大きさのポリプのセグメンテーション精度を高める。 Re-Atention Module (ERA) による抽出は, 有効機能の再結合に利用され, 低レベル情報によるポリプエッジの強化にはSRA (Structures of Shallow Reverse Attention Mechanism) が使用される。 公開データセットで実施された多数の実験では、このモデルの性能が最先端の手法よりも優れていることが示されている。

Accurate polyp segmentation is crucial for the early detection and prevention of colorectal cancer. However, the existing polyp detection methods sometimes ignore multi-directional features and drastic changes in scale. To address these challenges, we design an Orthogonal Direction Enhancement and Scale Aware Network (ODC-SA Net) for polyp segmentation. The Orthogonal Direction Convolutional (ODC) block can extract multi-directional features using transposed rectangular convolution kernels through forming an orthogonal feature vector basis, which solves the issue of random feature direction changes and reduces computational load. Additionally, the Multi-scale Fusion Attention (MSFA) mechanism is proposed to emphasize scale changes in both spatial and channel dimensions, enhancing the segmentation accuracy for polyps of varying sizes. Extraction with Re-attention Module (ERA) is used to re-combinane effective features, and Structures of Shallow Reverse Attention Mechanism (SRA) is used to enhance polyp edge with low level information. A large number of experiments conducted on public datasets have demonstrated that the performance of this model is superior to state-of-the-art methods.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# クロスドメインオフライン強化学習におけるデータフィルタリングのコントラスト表現

Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning ( http://arxiv.org/abs/2405.06192v1 )

ライセンス: Link先を確認
Xiaoyu Wen, Chenjia Bai, Kang Xu, Xudong Yu, Yang Zhang, Xuelong Li, Zhen Wang, (参考訳) クロスドメインオフライン強化学習は、ターゲットドメインのデータ要求を軽減するために、さまざまなトランジションダイナミクスを備えたソースドメインデータを活用する。 しかし、2つのドメインのデータをマージするだけで、動的ミスマッチによってパフォーマンスが低下する。 既存の手法は、ペア化されたドメインの転送可能性の仮定に依存しながら、ドメイン分類器を介してダイナミックスギャップを測定することでこの問題に対処する。 本稿では,異なる領域からの遷移をサンプリングすることで,対照的な目的によって表現が学習される領域ギャップを測定するための新しい表現ベースアプローチを提案する。 本研究では,2つの領域における遷移関数の相互情報ギャップを,異なる領域を扱う際の動的ギャップの非有界な問題に悩まされることなく回復することを示す。 この表現に基づいて、コントラストスコア関数に従って、ソース領域からの遷移を選択的に共有するデータフィルタリングアルゴリズムを導入する。 実験結果から, 対象データの10%しか使用せず, 目標データセットの89.2%を最先端の手法で達成していることが明らかとなった。

Cross-domain offline reinforcement learning leverages source domain data with diverse transition dynamics to alleviate the data requirement for the target domain. However, simply merging the data of two domains leads to performance degradation due to the dynamics mismatch. Existing methods address this problem by measuring the dynamics gap via domain classifiers while relying on the assumptions of the transferability of paired domains. In this paper, we propose a novel representation-based approach to measure the domain gap, where the representation is learned through a contrastive objective by sampling transitions from different domains. We show that such an objective recovers the mutual-information gap of transition functions in two domains without suffering from the unbounded issue of the dynamics gap in handling significantly different domains. Based on the representations, we introduce a data filtering algorithm that selectively shares transitions from the source domain according to the contrastive score functions. Empirical results on various tasks demonstrate that our method achieves superior performance, using only 10% of the target data to achieve 89.2% of the performance on 100% target dataset with state-of-the-art methods.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# VLSMアダプタ:軽量ブロックを用いた高精細ビジョン言語セグメンテーション

VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks ( http://arxiv.org/abs/2405.06196v1 )

ライセンス: Link先を確認
Manish Dhakal, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal, (参考訳) 大規模オープンドメインイメージとテキストペアを使用してトレーニングされたVLM(Foundation Vision-Language Models)は、最近、イメージセグメンテーションをガイドする推論中にテキストプロンプトを提供するVLSM(Vision-Language Segmentation Models)の開発に適応している。 医用画像のために堅牢で強力なVLSMを構築できれば、医療従事者が関心の対象構造をかなり詳細に説明しなければならない多くの臨床業務に役立てることができる。 医用画像のVLSMは、注釈付き画像データセットが少ないため、オープンドメインの自然画像データセットで事前訓練された細調整ベースVLMまたはVLSMを利用する。 近年,プリトレーニング済みモデルを凍結し,微調整時にのみアダプタを訓練するVLMでは,アダプタと呼ばれる軽量なブロックが提案されている。 本稿では,トランスコーダを用いて事前学習した視覚言語セグメンテーションモデルを微調整できる新しいアダプタ VLSM-Adapter を提案する。 広く使われているCLIPを用いたセグメンテーションモデルによる実験では、トレーニング可能なパラメータは300万個に過ぎず、VLSM-Adapterは最先端よりも優れており、上層境界のエンドツーエンドファインチューニングに匹敵する。 ソースコードは、https://github.com/naamiinepal/vlsm-adapter.comで入手できる。

Foundation Vision-Language Models (VLMs) trained using large-scale open-domain images and text pairs have recently been adapted to develop Vision-Language Segmentation Models (VLSMs) that allow providing text prompts during inference to guide image segmentation. If robust and powerful VLSMs can be built for medical images, it could aid medical professionals in many clinical tasks where they must spend substantial time delineating the target structure of interest. VLSMs for medical images resort to fine-tuning base VLM or VLSM pretrained on open-domain natural image datasets due to fewer annotated medical image datasets; this fine-tuning is resource-consuming and expensive as it usually requires updating all or a significant fraction of the pretrained parameters. Recently, lightweight blocks called adapters have been proposed in VLMs that keep the pretrained model frozen and only train adapters during fine-tuning, substantially reducing the computing resources required. We introduce a novel adapter, VLSM-Adapter, that can fine-tune pretrained vision-language segmentation models using transformer encoders. Our experiments in widely used CLIP-based segmentation models show that with only 3 million trainable parameters, the VLSM-Adapter outperforms state-of-the-art and is comparable to the upper bound end-to-end fine-tuning. The source code is available at: https://github.com/naamiinepal/vlsm-adapter.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# MAPL:半教師付き異常検出のためのメモリ拡張と擬似ラベル化

MAPL: Memory Augmentation and Pseudo-Labeling for Semi-Supervised Anomaly Detection ( http://arxiv.org/abs/2405.06198v1 )

ライセンス: Link先を確認
Junzhuo Chen, (参考訳) 大規模なラベル付きデータと識別の難しい異常は、ほとんどの産業現場で緊急に克服する必要がある問題である。 この問題に対処するために、メモリ拡張(Memory Augmentation and Pseudo-Labeling, MAPL)と呼ばれる、土木環境における表面欠陥を検出する新しいメソドロジーを導入する。 この手法が最初に導入されるのは異常シミュレーション戦略であり、シミュレーションされた異常サンプルを生成することにより、稀または未知の異常型を認識できるモデルの能力を大幅に向上する。 模擬サンプルのラベル付けの欠如に対処するため, 1分類アンサンブルに基づく擬似ラベル法を用い, 鍵擬似ラベル化ハイパーパラメータを自動的に選択することにより, 限定ラベルデータの場合のモデルのロバスト性を向上する。 一方、メモリプール内の入力サンプルと正常サンプルとの差を解析することにより、異常領域を効果的に予測するメモリ強化学習機構を導入する。 エンド・ツー・エンドの学習フレームワークはMAPLによって入力データから直接異常領域を識別するために使用され、デテクションの効率とリアルタイム性能を最適化する。 最近開発されたBHADデータセット(MVTec AD [1], Visa [2], MDPP [3] を含む)の広範囲な試行により、MAPL は、オリジナルの MemSeg [4] モデルと比較して平均既成の AUROC スコア 86.2% を達成する。 ソースコードはhttps://github.com/jzc777/MAPLで公開されている。

Large unlabeled data and difficult-to-identify anomalies are the urgent issues need to overcome in most industrial scene. In order to address this issue, a new meth-odology for detecting surface defects in in-dustrial settings is introduced, referred to as Memory Augmentation and Pseudo-Labeling(MAPL). The methodology first in-troduces an anomaly simulation strategy, which significantly improves the model's ability to recognize rare or unknown anom-aly types by generating simulated anomaly samples. To cope with the problem of the lack of labeling of anomalous simulated samples, a pseudo-labeler method based on a one-classifier ensemble was employed in this study, which enhances the robustness of the model in the case of limited labeling data by automatically selecting key pseudo-labeling hyperparameters. Meanwhile, a memory-enhanced learning mechanism is introduced to effectively predict abnormal regions by analyzing the difference be-tween the input samples and the normal samples in the memory pool. An end-to-end learning framework is employed by MAPL to identify the abnormal regions directly from the input data, which optimizes the ef-ficiency and real-time performance of de-tection. By conducting extensive trials on the recently developed BHAD dataset (in-cluding MVTec AD [1], Visa [2], and MDPP [3]), MAPL achieves an average im-age-level AUROC score of 86.2%, demon-strating a 5.1% enhancement compared to the original MemSeg [4] model. The source code is available at https://github.com/jzc777/MAPL.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# PhysMLE:総合的・先行的マルチタスクリモート生理計測

PhysMLE: Generalizable and Priors-Inclusive Multi-task Remote Physiological Measurement ( http://arxiv.org/abs/2405.06201v1 )

ライセンス: Link先を確認
Jiyao Wang, Hao Lu, Ange Wang, Xiao Yang, Yingcong Chen, Dengbo He, Kaishun Wu, (参考訳) リモート光胸腺撮影(rPPG)は、顔画像から心拍数を測定するために広く応用されている。 アルゴリズムの一般化性を高めるため、領域一般化(DG)はrPPGで注目を集めた。 しかし、rPPGが拡張されて、より重要な兆候(例えば、呼吸、酸素飽和度)を同時に測定すると、一般化性を達成することが新たな課題となる。 異なる生理的信号間で共有される部分的特徴はマルチタスク学習に有用であるが、スパースと不均衡なターゲットラベル空間はタスク固有の特徴学習に対してシーソー効果をもたらす。 この問題を解決するために,複数のルータ機構を持つ複数の低ランク専門家をベースとしたマルチタスク遠隔生理計測(PhysMLE)のためのエンド・ツー・エンドの低ランクエキスパート混合回路を設計し,タスク内の仕様と相関を十分に扱えるようにした。 さらに,実世界のマルチタスク生理学的測定において,ラベル空間の不均衡を克服するために,課題間の生理学からの事前知識を導入した。 そこで本研究では,Multi-Source Synsemantic Domain Generalization (MSSDG)プロトコルという,大規模マルチタスク一般化ベンチマークを提案する。 MSSDGとデータセットを用いた大規模な実験により、PhysMLEの有効性と効率が示された。 さらに、新しいデータセットが収集され、MSSDGのニーズを満たすために公開された。

Remote photoplethysmography (rPPG) has been widely applied to measure heart rate from face videos. To increase the generalizability of the algorithms, domain generalization (DG) attracted increasing attention in rPPG. However, when rPPG is extended to simultaneously measure more vital signs (e.g., respiration and blood oxygen saturation), achieving generalizability brings new challenges. Although partial features shared among different physiological signals can benefit multi-task learning, the sparse and imbalanced target label space brings the seesaw effect over task-specific feature learning. To resolve this problem, we designed an end-to-end Mixture of Low-rank Experts for multi-task remote Physiological measurement (PhysMLE), which is based on multiple low-rank experts with a novel router mechanism, thereby enabling the model to adeptly handle both specifications and correlations within tasks. Additionally, we introduced prior knowledge from physiology among tasks to overcome the imbalance of label space under real-world multi-task physiological measurement. For fair and comprehensive evaluations, this paper proposed a large-scale multi-task generalization benchmark, named Multi-Source Synsemantic Domain Generalization (MSSDG) protocol. Extensive experiments with MSSDG and intra-dataset have shown the effectiveness and efficiency of PhysMLE. In addition, a new dataset was collected and made publicly available to meet the needs of the MSSDG.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# 実地学習環境におけるインタラクション分析の強化を目的とした機械学習手法の第一段階

A First Step in Using Machine Learning Methods to Enhance Interaction Analysis for Embodied Learning Environments ( http://arxiv.org/abs/2405.06203v1 )

ライセンス: Link先を確認
Joyce Fonteles, Eduardo Davalos, Ashwin T. S., Yike Zhang, Mengxi Zhou, Efrat Ayalon, Alicia Lane, Selena Steinberg, Gabriella Anton, Joshua Danish, Noel Enyedy, Gautam Biswas, (参考訳) 複合現実環境における子どもの具体的学習を調査し、科学過程を協調的にシミュレートするためには、学習と協調行動を理解するために複雑なマルチモーダルデータを分析する必要がある。 学習科学者は、そのようなデータを分析するためのインタラクション分析(IA)手法を開発したが、学生の学習パターンを抽出し解釈するためには、何時間ものビデオを見る必要がある。 本研究の目的は,機械学習とマルチモーダル学習分析を用いてIAプロセスを支援することにある。 本研究は、機械学習アルゴリズムとマルチモーダル分析を組み合わせて、学生の行動、視線、情緒的反応をシミュレートしたシナリオで包括的に理解する研究を支援する。 研究者とAIの効果的な連携を促進するために,学生の状況,行動,視線,感情,動きをタイムライン上で視覚的に表現できる可能性を決定するための最初のケーススタディを提案する。 本研究は, 学生が光合成を学ぶ, 特定の科学シナリオに焦点を当てた事例である。 このタイムラインでは,マルチモーダルおよびインタラクション分析によって同定された臨界学習モーメントのアライメントを調査し,時間的学習の進行に関する洞察を明らかにすることができる。

Investigating children's embodied learning in mixed-reality environments, where they collaboratively simulate scientific processes, requires analyzing complex multimodal data to interpret their learning and coordination behaviors. Learning scientists have developed Interaction Analysis (IA) methodologies for analyzing such data, but this requires researchers to watch hours of videos to extract and interpret students' learning patterns. Our study aims to simplify researchers' tasks, using Machine Learning and Multimodal Learning Analytics to support the IA processes. Our study combines machine learning algorithms and multimodal analyses to support and streamline researcher efforts in developing a comprehensive understanding of students' scientific engagement through their movements, gaze, and affective responses in a simulated scenario. To facilitate an effective researcher-AI partnership, we present an initial case study to determine the feasibility of visually representing students' states, actions, gaze, affect, and movement on a timeline. Our case study focuses on a specific science scenario where students learn about photosynthesis. The timeline allows us to investigate the alignment of critical learning moments identified by multimodal and interaction analysis, and uncover insights into students' temporal learning progressions.
翻訳日:2024-05-13 16:57:10 公開日:2024-05-10
# HC$^2$L:対話型音声理解のためのハイブリッド・協調型コントラスト学習

HC$^2$L: Hybrid and Cooperative Contrastive Learning for Cross-lingual Spoken Language Understanding ( http://arxiv.org/abs/2405.06204v1 )

ライセンス: Link先を確認
Bowen Xing, Ivor W. Tsang, (参考訳) ゼロショット言語間言語理解のための最先端モデルでは、言語間非教師付きコントラスト学習を行い、各発話とそのコード切替データ間のラベルに依存しないセマンティックアライメントを実現する。 しかし、ラベル情報がラベル認識のセマンティクス構造をキャプチャし、教師付きコントラスト学習を活用して、ソースおよびターゲット言語のセマンティクスを改善することを約束している重要なインテント/スロットラベルを無視している。 本稿では,この問題に対処するためのハイブリッド・協調型コントラスト学習を提案する。 言語間非教師ありコントラスト学習とは別に,言語間教師ありコントラスト学習,言語間教師ありコントラスト学習,多言語教師ありコントラスト学習を活用し,ラベル認識セマンティクスアライメントを包括的に実施する包括的アプローチを設計する。 教師付きコントラスト学習機構には、シングルタスクとジョイントタスクの両方のシナリオが含まれる。 本モデルでは,1つのコントラスト学習機構の入力を他者によって強化する。 このように、合計4つのコントラスト学習メカニズムは、トレーニングプロセス中に、より一貫性があり差別的な表現を学習するために協調的である。 実験の結果、我々のモデルは9つの言語で一貫した改善を達成し、新しい最先端性能を実現していることがわかった。

State-of-the-art model for zero-shot cross-lingual spoken language understanding performs cross-lingual unsupervised contrastive learning to achieve the label-agnostic semantic alignment between each utterance and its code-switched data. However, it ignores the precious intent/slot labels, whose label information is promising to help capture the label-aware semantics structure and then leverage supervised contrastive learning to improve both source and target languages' semantics. In this paper, we propose Hybrid and Cooperative Contrastive Learning to address this problem. Apart from cross-lingual unsupervised contrastive learning, we design a holistic approach that exploits source language supervised contrastive learning, cross-lingual supervised contrastive learning and multilingual supervised contrastive learning to perform label-aware semantics alignments in a comprehensive manner. Each kind of supervised contrastive learning mechanism includes both single-task and joint-task scenarios. In our model, one contrastive learning mechanism's input is enhanced by others. Thus the total four contrastive learning mechanisms are cooperative to learn more consistent and discriminative representations in the virtuous cycle during the training process. Experiments show that our model obtains consistent improvements over 9 languages, achieving new state-of-the-art performance.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# Trigger-Optimized Data Poisoning によるフェデレーション学習におけるバックドアモデルの更新

Concealing Backdoor Model Updates in Federated Learning by Trigger-Optimized Data Poisoning ( http://arxiv.org/abs/2405.06206v1 )

ライセンス: Link先を確認
Yujie Zhang, Neil Gong, Michael K. Reiter, (参考訳) Federated Learning(FL)は、参加者がプライベートデータを共有せずに、協力的にモデルをトレーニングできる分散型機械学習手法である。 FLは、そのプライバシーとスケーラビリティの利点にもかかわらず、バックドア攻撃の影響を受けやすい。敵はバックドアトリガーを使用してクライアントのサブセットのローカルトレーニングデータを悪用し、集約されたモデルが同じバックドア条件が推論時入力で満たされた場合に悪意のある結果を生み出すことを目的としている。 FLの既存のバックドア攻撃は、固定されたトリガーパターンとモデル中毒の助けへの依存という共通の欠陥に悩まされる。 ビザンチン・ロバスト・アグリゲーションに基づく最先端の防衛は、悪意のあるモデルと良心的なモデルのアップデートの間に大きな違いがあるため、これらの攻撃に対して優れた防御性能を示す。 本研究では,悪質なモデル更新を効果的に隠蔽するために,バックドアのトリガを最適化し,バックドアデータのモデル更新への影響を最小限に抑えることによって,バックドアの目的を動的に構築するFLのバックドア攻撃戦略であるDPOTを提案する。 我々はDPOTの攻撃原理を理論的に正当化し、DPOTがデータポゾン攻撃のみを通じて、最先端の防御を効果的に弱め、既存のバックドア攻撃技術を様々なデータセットで上回ることを示す実験結果を示した。

Federated Learning (FL) is a decentralized machine learning method that enables participants to collaboratively train a model without sharing their private data. Despite its privacy and scalability benefits, FL is susceptible to backdoor attacks, where adversaries poison the local training data of a subset of clients using a backdoor trigger, aiming to make the aggregated model produce malicious results when the same backdoor condition is met by an inference-time input. Existing backdoor attacks in FL suffer from common deficiencies: fixed trigger patterns and reliance on the assistance of model poisoning. State-of-the-art defenses based on Byzantine-robust aggregation exhibit a good defense performance on these attacks because of the significant divergence between malicious and benign model updates. To effectively conceal malicious model updates among benign ones, we propose DPOT, a backdoor attack strategy in FL that dynamically constructs backdoor objectives by optimizing a backdoor trigger, making backdoor data have minimal effect on model updates. We provide theoretical justifications for DPOT's attacking principle and display experimental results showing that DPOT, via only a data-poisoning attack, effectively undermines state-of-the-art defenses and outperforms existing backdoor attack techniques on various datasets.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# LLMとRAGに関する調査--検索型大規模言語モデルに向けて

A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.06211v1 )

ライセンス: Link先を確認
Yujuan Ding, Wenqi Fan, Liangbo Ning, Shijie Wang, Hengyun Li, Dawei Yin, Tat-Seng Chua, Qing Li, (参考訳) AIの最も先進的な技術のひとつとして、Retrieval-Augmented Generation(RAG)技術は、信頼性と最新の外部知識を提供し、多数のタスクに多大な利便性を提供する。 AI生成コンテンツ(AIGC)の時代において、追加知識を提供するRAGの強力な検索能力は、既存の生成AIが高品質な出力を生成するのを支援するために、検索強化された生成を可能にする。 近年,大規模言語モデル (LLM) は言語理解と生成において革命的な能力を示しつつも,幻覚や内的知識など固有の制約に直面している。 最新の補助情報を提供するRAGの強力な能力を考えると、検索強化された大規模言語モデルは、LLMの生成品質を高めるために、モデルの内部知識のみに頼るのではなく、外部および権威的な知識ベースを活用するために出現している。 本稿では,検索強化された大規模言語モデル(RA-LLM)における既存の研究成果を概観的にレビューし,アーキテクチャ,トレーニング戦略,応用の3つの主要な技術的視点について述べる。 予備知識として,LLMの基礎と最近の進歩を紹介する。 そこで本研究では,LLMにおけるRAGの実用的意義を説明するために,アプリケーション領域によって主要な業務を分類し,RA-LLMの課題とそれに対応する能力について詳述する。 最後に、より深い洞察を提供するため、今後の研究に向けて、現在の限界といくつかの有望な方向性について論じる。

As one of the most advanced techniques in AI, Retrieval-Augmented Generation (RAG) techniques can offer reliable and up-to-date external knowledge, providing huge convenience for numerous tasks. Particularly in the era of AI-generated content (AIGC), the powerful capacity of retrieval in RAG in providing additional knowledge enables retrieval-augmented generation to assist existing generative AI in producing high-quality outputs. Recently, large Language Models (LLMs) have demonstrated revolutionary abilities in language understanding and generation, while still facing inherent limitations, such as hallucinations and out-of-date internal knowledge. Given the powerful abilities of RAG in providing the latest and helpful auxiliary information, retrieval-augmented large language models have emerged to harness external and authoritative knowledge bases, rather than solely relying on the model's internal knowledge, to augment the generation quality of LLMs. In this survey, we comprehensively review existing research studies in retrieval-augmented large language models (RA-LLMs), covering three primary technical perspectives: architectures, training strategies, and applications. As the preliminary knowledge, we briefly introduce the foundations and recent advances of LLMs. Then, to illustrate the practical significance of RAG for LLMs, we categorize mainstream relevant work by application areas, detailing specifically the challenges of each and the corresponding capabilities of RA-LLMs. Finally, to deliver deeper insights, we discuss current limitations and several promising directions for future research.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# Aerial-NeRF:大規模空中レンダリングのための適応的空間分割とサンプリング

Aerial-NeRF: Adaptive Spatial Partitioning and Sampling for Large-Scale Aerial Rendering ( http://arxiv.org/abs/2405.06214v1 )

ライセンス: Link先を確認
Xiaohan Zhang, Yukui Qiu, Zhenyu Sun, Qi Liu, (参考訳) 大規模シーンレンダリングの最近の進歩は、小さな物体や屋内シーンにまたがってシーンを合成する印象的な能力を持つニューラル・ラジアンス・フィールズ(NeRF)ベースのモデルを生み出している。 それでも、このアイデアを大規模な空中レンダリングに拡張することは、2つの重要な問題を引き起こす。 まず、1つのNeRFは、各ビュー線に沿ったサンプリング範囲が不十分なため、複雑な大規模航空データセットに対して高い精度でシーン全体をレンダリングできない。 第二に、従来のNeRFは、1つのGPUでトレーニングし、大規模な画像をモデリングするためのインタラクティブなフライスルーを可能にすることができない。 既存の手法では、シーン全体を複数のリージョンに分割し、それぞれのリージョンでNeRFを訓練する。 そこで我々は,大規模な空中レンダリングにおいて,NeRFを協調的に適応させる3つの革新的な改良を施したAerial-NeRFを提案する。(1)ドローンの姿勢に基づく適応的空間分割と選択の手法を設計し,異なる飛行軌道に適応させること,(2)新しい視点がどの領域に属するかを決定するために,(専門)ネットワークの代わりにポーズの類似性を利用すること,(3)異なる高さで建物全体をカバーするための適応的サンプリング手法を開発する。 Aerial-NeRFの有効性と有効性を検証するために大規模な実験が行われ、新しい最先端の成果が2つの大規模航空データセットとSCUTicデータセットで達成された。 当社のモデルでは,複数の競合に比べて4倍以上高速なレンダリングを実現しています。 私たちのデータセット、コード、モデルはhttps://drliuqi.github.io/で公開されています。

Recent progress in large-scale scene rendering has yielded Neural Radiance Fields (NeRF)-based models with an impressive ability to synthesize scenes across small objects and indoor scenes. Nevertheless, extending this idea to large-scale aerial rendering poses two critical problems. Firstly, a single NeRF cannot render the entire scene with high-precision for complex large-scale aerial datasets since the sampling range along each view ray is insufficient to cover buildings adequately. Secondly, traditional NeRFs are infeasible to train on one GPU to enable interactive fly-throughs for modeling massive images. Instead, existing methods typically separate the whole scene into multiple regions and train a NeRF on each region, which are unaccustomed to different flight trajectories and difficult to achieve fast rendering. To that end, we propose Aerial-NeRF with three innovative modifications for jointly adapting NeRF in large-scale aerial rendering: (1) Designing an adaptive spatial partitioning and selection method based on drones' poses to adapt different flight trajectories; (2) Using similarity of poses instead of (expert) network for rendering speedup to determine which region a new viewpoint belongs to; (3) Developing an adaptive sampling approach for rendering performance improvement to cover the entire buildings at different heights. Extensive experiments have conducted to verify the effectiveness and efficiency of Aerial-NeRF, and new state-of-the-art results have been achieved on two public large-scale aerial datasets and presented SCUTic dataset. Note that our model allows us to perform rendering over 4 times as fast as compared to multiple competitors. Our dataset, code, and model are publicly available at https://drliuqi.github.io/.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# Event-based Structure-from-Orbit

Event-based Structure-from-Orbit ( http://arxiv.org/abs/2405.06216v1 )

ライセンス: Link先を確認
Ethan Elms, Yasir Latif, Tae Ha Park, Tat-Jun Chin, (参考訳) イベントセンサーは、高時間分解能視覚センシングを提供するため、動きのぼやけに悩まされることなく、高速な視覚現象を知覚するのに理想的である。 ロボット工学や視覚に基づくナビゲーションの応用には、物体の角速度や形状の回復など、静止カメラの前で円や回転する物体の3次元認識が必要である。 この設定は、静止物体を軌道カメラで観察するのと同じである。 本稿では、静的なイベントカメラから観測された高速回転物体の3次元構造を同時に再構築し、カメラの等価な軌道運動を復元するイベントベース構造(eSfO)を提案する。 我々の貢献は3つある: 最先端のイベント特徴トラッカは回転運動による周期的自己閉塞を扱えないので、時空間クラスタリングとデータアソシエーションに基づく新しいイベント特徴トラッカを開発し、イベントデータ中の有効な特徴のヘリカルな軌跡をよりよく追跡することができる。 特徴トラックは、軌道の運動パラメータ(例えば、スピン速度、相対回転軸)を計算し、再投射誤差を最小化する。 評価のために、回転運動下でのオブジェクトの新しいイベントデータセットを作成する。 地中真実との比較はeSfOの有効性を示す。

Event sensors offer high temporal resolution visual sensing, which makes them ideal for perceiving fast visual phenomena without suffering from motion blur. Certain applications in robotics and vision-based navigation require 3D perception of an object undergoing circular or spinning motion in front of a static camera, such as recovering the angular velocity and shape of the object. The setting is equivalent to observing a static object with an orbiting camera. In this paper, we propose event-based structure-from-orbit (eSfO), where the aim is to simultaneously reconstruct the 3D structure of a fast spinning object observed from a static event camera, and recover the equivalent orbital motion of the camera. Our contributions are threefold: since state-of-the-art event feature trackers cannot handle periodic self-occlusion due to the spinning motion, we develop a novel event feature tracker based on spatio-temporal clustering and data association that can better track the helical trajectories of valid features in the event data. The feature tracks are then fed to our novel factor graph-based structure-from-orbit back-end that calculates the orbital motion parameters (e.g., spin rate, relative rotational axis) that minimize the reprojection error. For evaluation, we produce a new event dataset of objects under spinning motion. Comparisons against ground truth indicate the efficacy of eSfO.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# DARA: 視覚的グラウンド化のためのパラメータ効率調整のためのドメインおよびリレーショナルアウェアアダプタ

DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding ( http://arxiv.org/abs/2405.06217v1 )

ライセンス: Link先を確認
Ting Liu, Xuyang Liu, Siteng Huang, Honggang Chen, Quanjun Yin, Long Qin, Donglin Wang, Yue Hu, (参考訳) ビジュアルグラウンドディング(VG)は、画像中のオブジェクトをテキスト記述に基づいてローカライズする難しいタスクである。 近年のVGモデルの大規模化により性能は大幅に向上したが、微調整時の計算コストに大きな負担がかかった。 本稿では,事前学習した視覚言語知識をVGに効率よく伝達するために,パラメータ効率変換学習(PETL)を適用することを検討する。 具体的には、VG 用 \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) と \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) からなる新しいPETL法である \textbf{DARA} を提案する。 DAアダプタは最初にモダリティ内表現を転送し、VGドメインをよりきめ細かいものにする。 次に、RAアダプタは2つのモード間の関係をブリッジするために重みを共有し、空間的推論を改善する。 広範に使用されているベンチマーク実験の結果、DARAは完全微調整や他のPETL法と比較して、多数の更新パラメータを節約しながら、最高の精度を達成していることが示された。 特に、変更可能なバックボーンパラメータのみにより、DARAはベースラインモデルと比較して3つのベンチマークで平均精度を向上させる。 私たちのコードは \url{https://github.com/liuting20/DARA} で利用可能です。

Visual grounding (VG) is a challenging task to localize an object in an image based on a textual description. Recent surge in the scale of VG models has substantially improved performance, but also introduced a significant burden on computational costs during fine-tuning. In this paper, we explore applying parameter-efficient transfer learning (PETL) to efficiently transfer the pre-trained vision-language knowledge to VG. Specifically, we propose \textbf{DARA}, a novel PETL method comprising \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) and \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) for VG. DA Adapters first transfer intra-modality representations to be more fine-grained for the VG domain. Then RA Adapters share weights to bridge the relation between two modalities, improving spatial reasoning. Empirical results on widely-used benchmarks demonstrate that DARA achieves the best accuracy while saving numerous updated parameters compared to the full fine-tuning and other PETL methods. Notably, with only \textbf{2.13\%} tunable backbone parameters, DARA improves average accuracy by \textbf{0.81\%} across the three benchmarks compared to the baseline model. Our code is available at \url{https://github.com/liuting20/DARA}.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# 数学の達成度予測のためのチューテ内容の熟達による厳密な思考を支援するテュータ談話の調整

Aligning Tutor Discourse Supporting Rigorous Thinking with Tutee Content Mastery for Predicting Math Achievement ( http://arxiv.org/abs/2405.06218v1 )

ライセンス: Link先を確認
Mark Abdelshiheed, Jennifer K. Jacobs, Sidney K. D'Mello, (参考訳) 本研究は,学習者の学習成果の説明と予測のために,授業内容が生徒の近位的知識とどのように相互作用するかを考察する。 本研究は,9年生(1080)が小グループチュートリアルに出席し,知能学習システム(ITS)上で個別に課題を実践する,高用量人体学習の文脈で実施する。 我々は,教師の講演の移動と学生の成績が,数学学習評価におけるITS予測得点に与える影響を分析した。 我々は,教師話の動き,学生のITSパフォーマンス指標,それらの組み合わせに基づいて,高い評価スコアと低い評価スコアを区別するために,ランダムフォレスト分類器(RFC)を訓練した。 各RFCから決定木を抽出し、解釈可能なモデルを生成する。 AUCは話の移動で0.63、ITSで0.66、それらの組み合わせで0.77となり、2つの特徴源間での相互作用が示唆された。 具体的には、厳格な思考と学生の教養を奨励する家庭教師の話し方の組み合わせから、最良の決定木が出現した。 本質的には、数学的推論を奨励する教師の話は、ITSに高度な熟達を示す学生の達成を予言する一方で、学生の数学的考えや貢献の無効化は、ITSの熟達度が低い学生にとっては予測的であった。 実践の意味について論じる。

This work investigates how tutoring discourse interacts with students' proximal knowledge to explain and predict students' learning outcomes. Our work is conducted in the context of high-dosage human tutoring where 9th-grade students (N= 1080) attended small group tutorials and individually practiced problems on an Intelligent Tutoring System (ITS). We analyzed whether tutors' talk moves and students' performance on the ITS predicted scores on math learning assessments. We trained Random Forest Classifiers (RFCs) to distinguish high and low assessment scores based on tutor talk moves, student's ITS performance metrics, and their combination. A decision tree was extracted from each RFC to yield an interpretable model. We found AUCs of 0.63 for talk moves, 0.66 for ITS, and 0.77 for their combination, suggesting interactivity among the two feature sources. Specifically, the best decision tree emerged from combining the tutor talk moves that encouraged rigorous thinking and students' ITS mastery. In essence, tutor talk that encouraged mathematical reasoning predicted achievement for students who demonstrated high mastery on the ITS, whereas tutors' revoicing of students' mathematical ideas and contributions was predictive for students with low ITS mastery. Implications for practice are discussed.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# SKVQ: 大規模言語モデルのためのスライディングウインドウキーとバリューキャッシュ量子化

SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models ( http://arxiv.org/abs/2405.06219v1 )

ライセンス: Link先を確認
Haojie Duanmu, Zhihang Yuan, Xiuhong Li, Jiangfei Duan, Xingcheng Zhang, Dahua Lin, (参考訳) 大規模言語モデル(LLM)がトークンの長いシーケンスを処理できるようになった。 しかし、LLMに必要なキー値(KV)キャッシュは、コンテキスト長の増加に伴ってかなりのメモリを消費し、デプロイメントのボトルネックとなる。 本稿では、極低ビット幅KVキャッシュ量子化の問題に対処するため、スライドウインドウKVキャッシュ量子化のためのSKVQという戦略を提案する。 これを実現するために、SKVQは、量子化グループにおけるチャネルの類似性を改善するためにKVキャッシュのチャネルを再構成し、グループレベルでクリップされた動的量子化を適用する。 さらに、SKVQは、KVキャッシュの最新のウィンドウトークンが高い精度で保存されることを保証する。 これはKVキャッシュの小さいが重要な部分の精度を維持するのに役立ち、SKVQは精度を維持しながら高い圧縮比を達成する。 LLMの評価は、SKVQが従来の量子化手法を超越し、KVキャッシュを2ビットキーと1.5ビット値に量子化できることを示した。 SKVQでは、80GBのメモリGPU上で最大1Mまでのコンテクスト長を7bモデルで処理し、最大7倍高速なデコーディングを行うことができる。

Large language models (LLMs) can now handle longer sequences of tokens, enabling complex tasks like book understanding and generating lengthy novels. However, the key-value (KV) cache required for LLMs consumes substantial memory as context length increasing, becoming the bottleneck for deployment. In this paper, we present a strategy called SKVQ, which stands for sliding-window KV cache quantization, to address the issue of extremely low bitwidth KV cache quantization. To achieve this, SKVQ rearranges the channels of the KV cache in order to improve the similarity of channels in quantization groups, and applies clipped dynamic quantization at the group level. Additionally, SKVQ ensures that the most recent window tokens in the KV cache are preserved with high precision. This helps maintain the accuracy of a small but important portion of the KV cache.SKVQ achieves high compression ratios while maintaining accuracy. Our evaluation on LLMs demonstrates that SKVQ surpasses previous quantization approaches, allowing for quantization of the KV cache to 2-bit keys and 1.5-bit values with minimal loss of accuracy. With SKVQ, it is possible to process context lengths of up to 1M on an 80GB memory GPU for a 7b model and up to 7 times faster decoding.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# ジェンダーバイアス研究におけるミスジェンダー中国語:ピニインネーム・ジェンダー予測のための知識蒸留によるマルチタスク学習

For the Misgendered Chinese in Gender Bias Research: Multi-Task Learning with Knowledge Distillation for Pinyin Name-Gender Prediction ( http://arxiv.org/abs/2405.06221v1 )

ライセンス: Link先を確認
Xiaocong Du, Haipeng Zhang, (参考訳) ジェンダー平等を達成することは、国連の持続可能な開発のためのグローバル目標を実現する上で重要な要素である。 ジェンダーバイアス研究はこれに取り組み、性別情報が利用できない場合、性別ラベルを個別に割り当てるために名前に基づく性別推定ツールに依存している。 しかしながら、これらのツールは、しばしば中国のピニイン名の性別を不正確に予測し、そのような研究に潜在的なバイアスをもたらす。 国際活動における中国人の参加の増加に伴い、この状況はますます深刻化しつつある。 特に、現在のツールは発音(ピニイン)の情報に重点を置いており、ピニインと漢字(ハンジ)の潜伏したつながりが重要な情報を伝えるという事実を無視している。 最初の試みとして、Pinyinの名前と性別の推測問題を定式化し、知識蒸留によるマルチタスク学習ネットワークを設計し、モデルにPinyinを埋め込み、漢字の意味的特徴を持ち、中国語の文字名から性別情報を学習できるようにする。 当社のオープンソース手法は,9.70 % から20.08 % の商業名・性別推定ツールをはるかに上回り,最先端のアルゴリズムよりも優れている。

Achieving gender equality is a pivotal factor in realizing the UN's Global Goals for Sustainable Development. Gender bias studies work towards this and rely on name-based gender inference tools to assign individual gender labels when gender information is unavailable. However, these tools often inaccurately predict gender for Chinese Pinyin names, leading to potential bias in such studies. With the growing participation of Chinese in international activities, this situation is becoming more severe. Specifically, current tools focus on pronunciation (Pinyin) information, neglecting the fact that the latent connections between Pinyin and Chinese characters (Hanzi) behind convey critical information. As a first effort, we formulate the Pinyin name-gender guessing problem and design a Multi-Task Learning Network assisted by Knowledge Distillation that enables the Pinyin embeddings in the model to possess semantic features of Chinese characters and to learn gender information from Chinese character names. Our open-sourced method surpasses commercial name-gender guessing tools by 9.70\% to 20.08\% relatively, and also outperforms the state-of-the-art algorithms.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# 量子チャネルのイマギナリティ:リファインメントと代替

Imaginarity of quantum channels: Refinement and Alternative ( http://arxiv.org/abs/2405.06222v1 )

ライセンス: Link先を確認
Xiangyu Chen, Qiang Lei, (参考訳) 現在、量子チャネルは広く関心を集めており、量子チャネルを定量化する多くの方法が提案されており、量子チャネルのための多くのリソース理論が生み出されている。 我々は、この測度を適切にするために、量子チャネルの虚度測度(imaginarity measure)の要求に強い単調性と凸性を加える。 また、定量化器が適切な尺度であるかどうかを検証するプロセスを単純化するための代替フレームワークも導入する。 本稿では, 量子チャネルのロバスト性, トレースノルム, エントロピーの3つの虚偽測度について述べる。 いくつかの性質も与えられている。

At present, quantum channels have been widely concerned, and many ways to quantify quantum channels have been proposed, which has led to the generation of many resource theories for quantum channels. We add strong monotonicity and convexity to the requirement of imaginarity measure of quantum channels to make the measure proper. We also introduce an alternative framework to simplify the process of verifying whether a quantifier is a proper measure. We present three imaginarity measures of quantum channels via on the robustness, the trace norm and entropy, respectively. Some properties are also given.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# TODO-missed Methods Detection and Patching の自動化

Automating TODO-missed Methods Detection and Patching ( http://arxiv.org/abs/2405.06225v1 )

ライセンス: Link先を確認
Zhipeng Gao, Yanqi Su, Xing Hu, Xin Xia, (参考訳) TODOコメントは、開発者が自分自身や他の人に不完全なタスクを思い出すために広く使われている。 言い換えれば、TODOコメントは通常、一時的なあるいは準最適ソリューションと関連付けられている。 実際には、すべての等価なサブ最適化実装を同時に更新する(例えば、TODOを追加する)必要がある。 しかし、様々な理由(例えば、時間制約や不注意など)により、開発者はTODOコメントをすべての必要な場所に追加することを忘れたり、知らない場合もあります。 TODOを欠いたメソッドの「隠れた」準最適実装は、長期的なソフトウェアの品質と保守性を損なう可能性がある。 そこで本稿では,TODO-missedメソッドの検出とパッチの新たなタスクを提案し,TODO-comment Patcherと呼ばれる新しいモデルを開発し,TODO-missedメソッドに対するTODOコメントを自動的にパッチする。 私たちのモデルには、オフライン学習とオンライン推論の2つの主要なステージがあります。 オフライン学習の段階では、TDPatcherはGraphCodeBERTと対照的な学習を用いてTODOコメント(自然言語)とその準最適実装(コードフラグメント)をベクトル表現に符号化する。 オンライン推論の段階では、TODOが欠落したメソッドを識別し、オフラインのトレーニングモデルを利用してパッチ位置を決定できる。 私たちは、上位10,000のPython GitHubリポジトリからTODOが導入したメソッドを収集し、その上でTDPatcherを評価してデータセットを構築しました。 大規模な実験結果からは,ベンチマークによるモデルの性能向上が期待できる。 さらに、50のGitHubリポジトリから26 \textit{\major{TODO-missed}メソッドの検出に成功しました。

TODO comments are widely used by developers to remind themselves or others about incomplete tasks. In other words, TODO comments are usually associated with temporary or suboptimal solutions. In practice, all the equivalent suboptimal implementations should be updated (e.g., adding TODOs) simultaneously. However, due to various reasons (e.g., time constraints or carelessness), developers may forget or even are unaware of adding TODO comments to all necessary places, which results in the TODO-missed methods. These "hidden" suboptimal implementations in TODO-missed methods may hurt the software quality and maintainability in the long-term. Therefore, in this paper, we propose the novel task of TODO-missed methods detection and patching, and develop a novel model, namely TDPatcher (TODO-comment Patcher), to automatically patch TODO comments to the TODO-missed methods in software projects. Our model has two main stages: offline learning and online inference. During the offline learning stage, TDPatcher employs GraphCodeBERT and contrastive learning for encoding the TODO comment (natural language) and its suboptimal implementation (code fragment) into vector representations. For the online inference stage, we can identify the TODO-missed methods and further determine their patching position by leveraging the offline trained model. We built our dataset by collecting TODO-introduced methods from the top-10,000 Python GitHub repositories and evaluated TDPatcher on them. Extensive experimental results show the promising performance of our model over a set of benchmarks. We further conduct an in-the-wild evaluation which successfully detects 26 \textit{\major{TODO-missed} methods} from 50 GitHub repositories.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# MaskMatch: Mask Autoencoder駆動の機能学習による半教師付き学習の促進

MaskMatch: Boosting Semi-Supervised Learning Through Mask Autoencoder-Driven Feature Learning ( http://arxiv.org/abs/2405.06227v1 )

ライセンス: Link先を確認
Wenjin Zhang, Keyi Li, Sen Yang, Chenyang Gao, Wanzhao Yang, Sifan Yuan, Ivan Marsic, (参考訳) 半教師付き学習(SSL)における従来の手法は、トレーニング中に高信頼なラベル付きデータを選択するためのしきい値ベースの技術に依存しているため、限られたデータ利用に関する課題に直面することが多い。 しきい値の調整によってデータ利用を向上させるさまざまな取り組み(例:FreeMatch)が実施されているが、利用可能なデータの100%をうまく利用することはできない。 この制限を克服し、SSL性能を向上させるために、未ラベルデータを完全に活用して半教師付き学習を促進する新しいアルゴリズムである \algo を導入する。 \algoは自己教師型学習戦略、すなわちMasked Autoencoder(MAE)を統合し、すべての利用可能なデータを使用して視覚表現学習を強制する。 これによりSSLアルゴリズムは、従来の方法でフィルタリングされるサンプルを含む、利用可能なすべてのデータを活用することができる。 さらに,データ利用をさらに促進し,一般化を向上させるための合成データトレーニング手法を提案する。 これらのイノベーションは、挑戦的なデータセットに関する最先端の結果を達成するために、Shaalgoを導く。 例えば、クラスごとに2つのラベルを持つCIFAR-100、クラスごとに4つのラベルを持つSTL-10、クラスごとに2つのラベルを持つEuro-SATでは、それぞれ18.71%、9.47%、3.07%という低いエラー率を達成する。 コードは公開されます。

Conventional methods in semi-supervised learning (SSL) often face challenges related to limited data utilization, mainly due to their reliance on threshold-based techniques for selecting high-confidence unlabeled data during training. Various efforts (e.g., FreeMatch) have been made to enhance data utilization by tweaking the thresholds, yet none have managed to use 100% of the available data. To overcome this limitation and improve SSL performance, we introduce \algo, a novel algorithm that fully utilizes unlabeled data to boost semi-supervised learning. \algo integrates a self-supervised learning strategy, i.e., Masked Autoencoder (MAE), that uses all available data to enforce the visual representation learning. This enables the SSL algorithm to leverage all available data, including samples typically filtered out by traditional methods. In addition, we propose a synthetic data training approach to further increase data utilization and improve generalization. These innovations lead \algo to achieve state-of-the-art results on challenging datasets. For instance, on CIFAR-100 with 2 labels per class, STL-10 with 4 labels per class, and Euro-SAT with 2 labels per class, \algo achieves low error rates of 18.71%, 9.47%, and 3.07%, respectively. The code will be made publicly available.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# 効率的なセマンティックセグメンテーションのためのコンテキストガイド型空間特徴再構成

Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation ( http://arxiv.org/abs/2405.06228v1 )

ライセンス: Link先を確認
Zhenliang Ni, Xinghao Chen, Yingjie Zhai, Yehui Tang, Yunhe Wang, (参考訳) セマンティックセグメンテーションは多くのアプリケーションにとって重要なタスクであるが、計算コストを限定して高度な性能を達成することは依然として非常に困難である。 本稿では,文脈誘導型空間特徴再構成に基づく効率的かつ競争性の高いセグメンテーションフレームワークであるCGRSegを提案する。 矩形自己校正モジュールは空間的特徴再構成とピラミッドコンテキスト抽出のために慎重に設計されている。 水平方向と垂直方向の両方でグローバルコンテキストをキャプチャし、軸方向のグローバルコンテキストを取得して、長方形のキー領域を明示的にモデル化する。 形状自己校正関数は、キー領域を前景オブジェクトに近づけるように設計されている。 さらに,クラス埋め込みによる前景オブジェクトの分類を改善するために,軽量な動的プロトタイプガイドヘッドを提案する。 我々のCGRSegはADE20K、COCO-Stuff、Pascal Contextベンチマークで広範囲に評価され、最先端のセマンティックパフォーマンスを実現する。 具体的には、ADE20Kで43.6\% mIoUを達成し、GFLOPはわずか4.0ドル、$0.9\%$と$2.5\%$ mIoUはSeaFormerやSegNeXtより優れているが、約38.0\%のGFLOPは少ない。 コードはhttps://github.com/nizhenliang/CGRSegで入手できる。

Semantic segmentation is an important task for many applications but it is still quite challenging to achieve advanced performance with limited computational costs. In this paper, we present CGRSeg, an efficient yet competitive segmentation framework based on context-guided spatial feature reconstruction. A Rectangular Self-Calibration Module is carefully designed for spatial feature reconstruction and pyramid context extraction. It captures the global context in both horizontal and vertical directions and gets the axial global context to explicitly model rectangular key areas. A shape self-calibration function is designed to make the key areas more close to the foreground object. Besides, a lightweight Dynamic Prototype Guided head is proposed to improve the classification of foreground objects by explicit class embedding. Our CGRSeg is extensively evaluated on ADE20K, COCO-Stuff, and Pascal Context benchmarks, and achieves state-of-the-art semantic performance. Specifically, it achieves $43.6\%$ mIoU on ADE20K with only $4.0$ GFLOPs, which is $0.9\%$ and $2.5\%$ mIoU better than SeaFormer and SegNeXt but with about $38.0\%$ fewer GFLOPs. Code is available at https://github.com/nizhenliang/CGRSeg.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# 減衰強調チャネル間の絡み合い共有

Entanglement sharing across a damping-dephasing channel ( http://arxiv.org/abs/2405.06231v1 )

ライセンス: Link先を確認
Vikesh Siddhu, Dina Abdelhadi, Tomas Jochym-O'Connor, John Smolin, (参考訳) エンタングルメント蒸留は、量子通信とモジュラー量子コンピューティングの鍵となる基本情報処理タスクである。 このような通信やコンピューティングプラットフォームで経験したノイズは、デフォーカスのようなパウリノイズ(時には$T_2$と呼ばれる)だけでなく、振幅減衰のような非パウリノイズ(時には$T_1$と呼ばれる)で発生する。 我々は,共同減衰劣化型ノイズチャネルと呼ばれるものに対する,実用的および漸近的な蒸留の開始について検討する。 そこで本研究では,減衰音を完全に除去する蒸留方式を提案する。 漸近的な設定では、コヒーレントおよび逆コヒーレント情報を含む絡み合い共有能力の低い境界を導出する。 逆コヒーレントな情報を実現するプロトコルと同様に、我々のスキームは古典的な後方通信のみを使用する。 しかし、現実的な減衰雑音(T_1 \neq 2T_2$)に対して、我々の戦略は逆コヒーレント戦略を超えうる。 フォワード通信設定では,チャネルが2文字レベルで非付加性を示すのを観察し,単一文字のコヒーレント情報戦略を数値的に超える。 この研究は、より理想化されたノイズチャネルで見られるものと同様、非付加性の大きさの現実的なノイズモデルでも、非付加性が見られることを示した。

Entanglement distillation is a fundamental information processing task whose implementation is key to quantum communication and modular quantum computing. Noise experienced by such communication and computing platforms occurs not only in the form of Pauli noise such as dephasing (sometimes called $T_2$) but also non-Pauli noise such as amplitude damping (sometimes called $T_1$). We initiate a study of practical and asymptotic distillation over what we call the joint damping-dephasing noise channel. In the practical setting, we propose a distillation scheme that completely isolates away the damping noise. In the asymptotic setting we derive lower bounds on the entanglement sharing capacities including the coherent and reverse coherent information. Like the protocol achieving the reverse coherent information, our scheme uses only backward classical communication. However, for realistic damping noise ($T_1 \neq 2T_2$) our strategy can exceed the reverse coherent strategy, which is the best known for pure damping. In the forward communication setting we numerically exceed the single-letter coherent information strategy by observing the channel displays non-additivity at the two-letter level. The work shows non-additivity can also be found in realistic noise models with magnitudes of non-additivity similar to those found in more idealized noise channels.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# 双対推論過程のシミュレーションによる幾何学的問題の解法

Learning to Solve Geometry Problems via Simulating Human Dual-Reasoning Process ( http://arxiv.org/abs/2405.06232v1 )

ライセンス: Link先を確認
Tong Xiao, Jiayu Liu, Zhenya Huang, Jinze Wu, Jing Sha, Shijin Wang, Enhong Chen, (参考訳) 近年,幾何問題解法(GPS)が注目されている。 解法は、テキストとダイアグラムの両方を包括的に理解し、重要な幾何学的知識を習得し、推論に適切に適用する必要がある。 しかし、既存の研究はニューラルネットワーク翻訳のパラダイムに従っており、人間の幾何学的推論の本質的な特徴を無視したエンコーダの能力の向上にのみ焦点をあてている。 本稿では, デュアルプロセス理論に触発されたDual-Reasoning Geometry Solver (DualGeoSolver) を提案する。 具体的には、DualGeoSolver(知識システム)と推論システム(推論システム)の2つのシステムを構築する。 知識システムは、推論システムによって生成されたステップワイズ推論目標に従って図情報と幾何学的知識を提供する責務を負う暗黙の推論プロセスを制御する。 推論システムは明示的な推論プロセスを実行し、各推論ステップのゴールを特定し、その知識を適用してその解決のためのプログラムトークンを生成する。 2つのシステムは上記のプロセスを反復的に実行し、人間の認知とより一致して振る舞う。 我々はGeoQAとGeoQA+という2つのベンチマークデータセットについて広範な実験を行った。 その結果、人間の推論プロセスと知識応用を明示的にモデル化することによる精度と堅牢性の両方において、DualGeoSolverの優位性が示された。

Geometry Problem Solving (GPS), which is a classic and challenging math problem, has attracted much attention in recent years. It requires a solver to comprehensively understand both text and diagram, master essential geometry knowledge, and appropriately apply it in reasoning. However, existing works follow a paradigm of neural machine translation and only focus on enhancing the capability of encoders, which neglects the essential characteristics of human geometry reasoning. In this paper, inspired by dual-process theory, we propose a Dual-Reasoning Geometry Solver (DualGeoSolver) to simulate the dual-reasoning process of humans for GPS. Specifically, we construct two systems in DualGeoSolver, namely Knowledge System and Inference System. Knowledge System controls an implicit reasoning process, which is responsible for providing diagram information and geometry knowledge according to a step-wise reasoning goal generated by Inference System. Inference System conducts an explicit reasoning process, which specifies the goal in each reasoning step and applies the knowledge to generate program tokens for resolving it. The two systems carry out the above process iteratively, which behaves more in line with human cognition. We conduct extensive experiments on two benchmark datasets, GeoQA and GeoQA+. The results demonstrate the superiority of DualGeoSolver in both solving accuracy and robustness from explicitly modeling human reasoning process and knowledge application.
翻訳日:2024-05-13 16:47:25 公開日:2024-05-10
# TS3IM:画像類似性評価指標による時系列構造類似性の解明

TS3IM: Unveiling Structural Similarity in Time Series through Image Similarity Assessment Insights ( http://arxiv.org/abs/2405.06234v1 )

ライセンス: Link先を確認
Yuhan Liu, Ke Tu, (参考訳) 時系列解析の分野では、予測、異常検出、クラスタリングといったアプリケーションには、正確な類似性の測定が不可欠である。 しかし、既存のメトリクスは、しばしば時系列データの複雑な多次元的な性質を捉えず、その効果と応用を制限する。 本稿では,構造類似度指標尺度(TS3IM, Structured similarity Index Measure for Time Series, SSIM, Structured similarity Index Measure for Time Series)を紹介する。 TS3IMは、類似性トレンド、可変性、構造的整合性といった複数の次元を評価する。 このメトリクスは、時間的データを解析し、より正確で包括的なシーケンス分析と、電力消費のモニタリング、トラフィックフローの分析、敵認識などの分野における決定支援を提供する、堅牢なツールを提供する。 また,計算相関に強く依存する従来の手法と比較して,TS3IMは評価結果のDTW(Dynamic Time Warping)の1.87倍の精度で,対角認識の50%以上向上することを示した。

In the realm of time series analysis, accurately measuring similarity is crucial for applications such as forecasting, anomaly detection, and clustering. However, existing metrics often fail to capture the complex, multidimensional nature of time series data, limiting their effectiveness and application. This paper introduces the Structured Similarity Index Measure for Time Series (TS3IM), a novel approach inspired by the success of the Structural Similarity Index Measure (SSIM) in image analysis, tailored to address these limitations by assessing structural similarity in time series. TS3IM evaluates multiple dimensions of similarity-trend, variability, and structural integrity-offering a more nuanced and comprehensive measure. This metric represents a significant leap forward, providing a robust tool for analyzing temporal data and offering more accurate and comprehensive sequence analysis and decision support in fields such as monitoring power consumption, analyzing traffic flow, and adversarial recognition. Our extensive experimental results also show that compared with traditional methods that rely heavily on computational correlation, TS3IM is 1.87 times more similar to Dynamic Time Warping (DTW) in evaluation results and improves by more than 50% in adversarial recognition.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# スマートグリッドにおける大規模言語モデルの実践リスク:脅威モデリングと検証

Risks of Practicing Large Language Models in Smart Grid: Threat Modeling and Validation ( http://arxiv.org/abs/2405.06237v1 )

ライセンス: Link先を確認
Jiangnan Li, Yingyuan Yang, Jinyuan Sun, (参考訳) 大規模言語モデル(LLM)は人工知能(AI)において重要なブレークスルーであり、スマートグリッド内での応用の可能性を持っている。 しかし、以前の文献で示されているように、AI技術は様々なタイプの攻撃に影響を受けやすい。 スマートグリッドのような重要なインフラに展開する前に,LSMに関連するリスクを調査し,評価することが重要である。 本稿では, LLMの脆弱性を体系的に評価し, スマートグリッドLLMアプリケーションに関連する2つの主要な攻撃タイプを特定し, 対応する脅威モデルを示す。 次に、実際のスマートグリッドデータを利用して、人気のあるLSMを用いてこれらの攻撃を検証する。 我々の検証は、攻撃者が悪いデータを注入し、スマートグリッドシナリオで使用されるLLMからドメイン知識を取得することができることを示す。

Large Language Model (LLM) is a significant breakthrough in artificial intelligence (AI) and holds considerable potential for application within smart grids. However, as demonstrated in previous literature, AI technologies are susceptible to various types of attacks. It is crucial to investigate and evaluate the risks associated with LLMs before deploying them in critical infrastructure like smart grids. In this paper, we systematically evaluate the vulnerabilities of LLMs and identify two major types of attacks relevant to smart grid LLM applications, along with presenting the corresponding threat models. We then validate these attacks using popular LLMs, utilizing real smart grid data. Our validation demonstrates that attackers are capable of injecting bad data and retrieving domain knowledge from LLMs employed in smart grid scenarios.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# 局所高調波距離を用いた擬似近傍分類法

A Novel Pseudo Nearest Neighbor Classification Method Using Local Harmonic Mean Distance ( http://arxiv.org/abs/2405.06238v1 )

ライセンス: Link先を確認
Junzhuo Chen, Zhixin Lu, (参考訳) 機械学習の分野では、KNN分類アルゴリズムは単純さと効率性で広く認識されている。 しかしながら、K値に対する感度は、特に小さなサンプルサイズや外れ値では、分類性能に影響を及ぼす。 本稿では,KNN を用いた LMPHNN (Novel Pseudo Nearest Neighbor Classification Method Using Local Harmonic Mean Distance) について紹介する。 LMPHNNは、LMPNNルールとHMDに基づく分類性能を改善するために、調和平均距離(HMD)を利用する。 分類器は、各クラスに最も近い k 個の近傍を識別し、異なる局所ベクトルをプロトタイプとして生成することから始まる。 Pseudo Near neighbors (PNN) は各クラスの局所平均に基づいて作成され、サンプルのHMDと初期k群を比較して決定される。 これらのカテゴリの局所平均に基づいて、クエリサンプルとPNN間のユークリッド距離を計算することで分類を決定する。 さまざまな実UCIデータセットと組み合わせデータセットに関する大規模な実験は、LMPHNNと7つのKNNベースの分類器を比較し、精度、リコール、精度、F1を評価指標として用いた。 LMPHNNは平均97%の精度を達成し、他の手法を14%上回っている。 平均リコールは12%改善され、平均精度は5%向上した。 さらに、LMPHNNは他の手法に比べて平均F1値が13%高いことを示す。 まとめると、LMPHNNは他の分類器よりも優れており、小さなサンプルサイズで低い感度を示す。

In the realm of machine learning, the KNN classification algorithm is widely recognized for its simplicity and efficiency. However, its sensitivity to the K value poses challenges, especially with small sample sizes or outliers, impacting classification performance. This article introduces a novel KNN-based classifier called LMPHNN (Novel Pseudo Nearest Neighbor Classification Method Using Local Harmonic Mean Distance). LMPHNN leverages harmonic mean distance (HMD) to improve classification performance based on LMPNN rules and HMD. The classifier begins by identifying k nearest neighbors for each class and generates distinct local vectors as prototypes. Pseudo nearest neighbors (PNNs) are then created based on the local mean for each class, determined by comparing the HMD of the sample with the initial k group. Classification is determined by calculating the Euclidean distance between the query sample and PNNs, based on the local mean of these categories. Extensive experiments on various real UCI datasets and combined datasets compare LMPHNN with seven KNN-based classifiers, using precision, recall, accuracy, and F1 as evaluation metrics. LMPHNN achieves an average precision of 97%, surpassing other methods by 14%. The average recall improves by 12%, with an average accuracy enhancement of 5%. Additionally, LMPHNN demonstrates a 13% higher average F1 value compared to other methods. In summary, LMPHNN outperforms other classifiers, showcasing lower sensitivity with small sample sizes.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# SaudiBERT:サウジ方言コーパスで事前訓練された大規模言語モデル

SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora ( http://arxiv.org/abs/2405.06239v1 )

ライセンス: Link先を確認
Faisal Qarah, (参考訳) 本稿では,サウジ方言にのみ事前訓練された単言語アラビア語モデルであるSaudiBERTを紹介する。 本モデルの有効性を示すために,感性分析とテキスト分類の2つのグループに分けられる11つの評価データセットに対して,サウジアラビア語を6つの異なる多言語アラビア語モデルと比較した。 SaudiBERTは、これらのグループでそれぞれ86.15\%と87.86\%の平均F1スコアを達成した。 さらに、サウジアラビア方言の2つの新しいコーパスとして、サウジアラビア方言で1億1100万以上のツイートを含むサウジツイートメガコーパス(STMC)と、5つのサウジアラビアオンラインフォーラムから収集された15.2GBのテキストを含むサウジフォーラムコーパス(SFC)がある。 どちらのコーパスも提案されたモデルの事前訓練に使われており、サウジアラビアの方言コーパスとしては史上最大である。 その結果,サウジアラビア語方言で表現されたアラビア文字の理解と分析におけるサウジアラビア語の有効性が確認され,ほとんどのタスクにおいて最先端の結果が得られ,研究に含まれる他の言語モデルを上回った。 SaudiBERT モデルは \url{https://huggingface.co/faisalq/SaudiBERT} で公開されている。

In this paper, we introduce SaudiBERT, a monodialect Arabic language model pretrained exclusively on Saudi dialectal text. To demonstrate the model's effectiveness, we compared SaudiBERT with six different multidialect Arabic language models across 11 evaluation datasets, which are divided into two groups: sentiment analysis and text classification. SaudiBERT achieved average F1-scores of 86.15\% and 87.86\% in these groups respectively, significantly outperforming all other comparative models. Additionally, we present two novel Saudi dialectal corpora: the Saudi Tweets Mega Corpus (STMC), which contains over 141 million tweets in Saudi dialect, and the Saudi Forums Corpus (SFC), which includes 15.2 GB of text collected from five Saudi online forums. Both corpora are used in pretraining the proposed model, and they are the largest Saudi dialectal corpora ever reported in the literature. The results confirm the effectiveness of SaudiBERT in understanding and analyzing Arabic text expressed in Saudi dialect, achieving state-of-the-art results in most tasks and surpassing other language models included in the study. SaudiBERT model is publicly available on \url{https://huggingface.co/faisalq/SaudiBERT}.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# MGS-SLAM:Depth Smooth Regularizationによる単眼スパース追跡とガウスマッピング

MGS-SLAM: Monocular Sparse Tracking and Gaussian Mapping with Depth Smooth Regularization ( http://arxiv.org/abs/2405.06241v1 )

ライセンス: Link先を確認
Pengcheng Zhu, Yaoming Zhuang, Baoquan Chen, Li Li, Chengdong Wu, Zhanlin Liu, (参考訳) 本文では,ガウススプラッティングに基づく高密度視覚同時局在マッピング(VSLAM)のための新しいフレームワークを紹介する。 近年,ガウス・スプラッティングをベースとしたSLAMは,RGB-D入力に依存し,追跡に弱い。 これらの制約に対処するため,我々は,高度スパース視覚計測と高密度ガウススティングシーン表現を初めて統合し,ガウススティング方式のSLAMシステムに典型的な深度マップへの依存性を排除し,ロバスト性の向上を図る。 ここでは、粗いビジュアルオドメトリーがRGBストリームでカメラのポーズを追跡し、ガウシアン・スプラッティングが地図再構成を処理します。 これらのコンポーネントは、MVS(Multi-View Stereo)深さ推定ネットワークを介して相互接続される。 また,推定深度マップの負の効果を低減するために,深度スムーズな損失を提案する。 さらに, スパース距離調整リング (SDAR) により, 疎視度と高密度ガウス写像とのスケールの整合性を保持する。 我々は、様々な合成および実世界のデータセットでシステムを評価した。 ポーズ推定の精度は既存の手法を超越し、最先端の性能を達成する。 さらに、RGB-D入力を用いたニューラルSLAMシステムの結果と一致する、新しいビュー合成忠実度の観点から、従来の単分子法よりも優れている。

This letter introduces a novel framework for dense Visual Simultaneous Localization and Mapping (VSLAM) based on Gaussian Splatting. Recently Gaussian Splatting-based SLAM has yielded promising results, but rely on RGB-D input and is weak in tracking. To address these limitations, we uniquely integrates advanced sparse visual odometry with a dense Gaussian Splatting scene representation for the first time, thereby eliminating the dependency on depth maps typical of Gaussian Splatting-based SLAM systems and enhancing tracking robustness. Here, the sparse visual odometry tracks camera poses in RGB stream, while Gaussian Splatting handles map reconstruction. These components are interconnected through a Multi-View Stereo (MVS) depth estimation network. And we propose a depth smooth loss to reduce the negative effect of estimated depth maps. Furthermore, the consistency in scale between the sparse visual odometry and the dense Gaussian map is preserved by Sparse-Dense Adjustment Ring (SDAR). We have evaluated our system across various synthetic and real-world datasets. The accuracy of our pose estimation surpasses existing methods and achieves state-of-the-art performance. Additionally, it outperforms previous monocular methods in terms of novel view synthesis fidelity, matching the results of neural SLAM systems that utilize RGB-D input.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# インピーダンス対パワーサイドチャネル脆弱性 : 比較検討

Impedance vs. Power Side-channel Vulnerabilities: A Comparative Study ( http://arxiv.org/abs/2405.06242v1 )

ライセンス: Link先を確認
Md Sadik Awal, Buddhipriya Gayanath, Md Tauhidur Rahman, (参考訳) 近年,コンピュータシステムから機密情報を抽出しようとする敵の強力な戦略として,インピーダンス側チャネル分析が登場している。 これは、チップの内部構造が異なる論理状態にまたがる固有のインピーダンスの変化を利用する。 本研究では,新たに検討したインピーダンス側流路と確立された電力側流路との比較分析を行う。 実験により,AES(Advanced Encryption Standard)から暗号鍵を抽出し,その性能を解析した。 その結果, インピーダンス解析は, 電力側チャネル解析と比較して, 暗号鍵抽出の可能性が高いことが示された。 さらに,パワーサイドチャネル解析では良好な結果が得られず,インピーダンス解析ではより堅牢で効果的であることが証明された。 この研究は、暗号セキュリティの強化におけるインピーダンス側チャネル分析の重要性を浮き彫りにするだけでなく、そのメカニズムと意味をより深く理解する必要があることも強調している。

In recent times, impedance side-channel analysis has emerged as a potent strategy for adversaries seeking to extract sensitive information from computing systems. It leverages variations in the intrinsic impedance of a chip's internal structure across different logic states. In this study, we conduct a comparative analysis between the newly explored impedance side channel and the well-established power side channel. Through experimental evaluation, we investigate the efficacy of these two side channels in extracting the cryptographic key from the Advanced Encryption Standard (AES) and analyze their performance. Our results indicate that impedance analysis demonstrates a higher potential for cryptographic key extraction compared to power side-channel analysis. Moreover, we identify scenarios where power side-channel analysis does not yield satisfactory results, whereas impedance analysis proves to be more robust and effective. This work not only underscores the significance of impedance side-channel analysis in enhancing cryptographic security but also emphasizes the necessity for a deeper understanding of its mechanisms and implications.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# 高分解能光衛星ステレオシナリオにおける高度な特徴マッチングアルゴリズムの比較解析

Comparative Analysis of Advanced Feature Matching Algorithms in Challenging High Spatial Resolution Optical Satellite Stereo Scenarios ( http://arxiv.org/abs/2405.06246v1 )

ライセンス: Link先を確認
Qiyan Luo, Jidan Zhang, Yuzhen Xie, Xu Huang, Ting Han, (参考訳) 特徴マッチングは、高空間分解能(HSR)光学衛星ステレオの配向精度を決定し、3次元再構成や変化検出などの重要な応用に影響を及ぼす。 しかし、軌道外のHSR光学衛星ステレオのマッチングは、広線観測、有意な放射差、多時間変化、空間分解能の変化、スペクトル分解能の不整合、多様なセンサーを含む困難な条件にしばしば遭遇する。 本研究では,HSR光衛星ステレオの様々な特徴マッチングアルゴリズムについて検討した。 HSROSS Datasetという6つの難題にまたがる5つの衛星から特別に構築されたデータセットを利用することで、従来のSIFTとSuperPoint + SuperGlue、SuperPoint + LightGlue、LoFTRの4つのアルゴリズムの比較分析を行う。 以上の結果から,高ロバスト性,精度,分布,効率のバランスをとる上でのSuperPoint + LightGlueの総合的な性能は,複雑なHSR衛星のシナリオにおけるその可能性を示している。

Feature matching determines the orientation accuracy for the High Spatial Resolution (HSR) optical satellite stereos, subsequently impacting several significant applications such as 3D reconstruction and change detection. However, the matching of off-track HSR optical satellite stereos often encounters challenging conditions including wide-baseline observation, significant radiometric differences, multi-temporal changes, varying spatial resolutions, inconsistent spectral resolution, and diverse sensors. In this study, we evaluate various advanced feature matching algorithms for HSR optical satellite stereos. Utilizing a specially constructed dataset from five satellites across six challenging scenarios, HSROSS Dataset, we conduct a comparative analysis of four algorithms: the traditional SIFT, and deep-learning based methods including SuperPoint + SuperGlue, SuperPoint + LightGlue, and LoFTR. Our findings highlight overall superior performance of SuperPoint + LightGlue in balancing robustness, accuracy, distribution, and efficiency, showcasing its potential in complex HSR optical satellite scenarios.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# Disttack: 分散GNNトレーニングに対するグラフ対抗攻撃

Disttack: Graph Adversarial Attacks Toward Distributed GNN Training ( http://arxiv.org/abs/2405.06247v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Xin Liu, Meng Wu, Wei Yan, Mingyu Yan, Xiaochun Ye, Dongrui Fan, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ学習の強力なモデルとして登場した。 複数のコンピューティングノードにまたがるトレーニングプロセスの配布は、成長を続ける現実世界のグラフの課題に対処するための最も有望なソリューションである。 しかし、現在のGNNの敵攻撃手法は、分散シナリオの特性と応用を無視し、分散GNN訓練の攻撃における最適性能と非効率性をもたらす。 本研究では,分散GNNトレーニングにおける最初の逆攻撃フレームワークであるDisttackを紹介し,分散システムにおける頻繁な勾配更新の特性を活用する。 具体的には、Disttackは1つのコンピューティングノードに敵攻撃を注入することで、分散GNNトレーニングを破損させる。 攻撃されたサブグラフは正確に摂動され、バックプロパゲーションの異常な勾配上昇を誘発し、演算ノード間の勾配同期を妨害し、訓練されたGNNの性能が著しく低下する。 広範に採用されている5つのGNNを攻撃し、4つの大きな実世界のグラフ上でDisttackを評価する。 現状の攻撃法と比較すると、Disttackはモデルの精度を2.75$\times$で向上し、無意味性を維持しながら平均17.33$\times$で高速化することを示した。

Graph Neural Networks (GNNs) have emerged as potent models for graph learning. Distributing the training process across multiple computing nodes is the most promising solution to address the challenges of ever-growing real-world graphs. However, current adversarial attack methods on GNNs neglect the characteristics and applications of the distributed scenario, leading to suboptimal performance and inefficiency in attacking distributed GNN training. In this study, we introduce Disttack, the first framework of adversarial attacks for distributed GNN training that leverages the characteristics of frequent gradient updates in a distributed system. Specifically, Disttack corrupts distributed GNN training by injecting adversarial attacks into one single computing node. The attacked subgraphs are precisely perturbed to induce an abnormal gradient ascent in backpropagation, disrupting gradient synchronization between computing nodes and thus leading to a significant performance decline of the trained GNN. We evaluate Disttack on four large real-world graphs by attacking five widely adopted GNNs. Compared with the state-of-the-art attack method, experimental results demonstrate that Disttack amplifies the model accuracy degradation by 2.75$\times$ and achieves speedup by 17.33$\times$ on average while maintaining unnoticeability.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# 射影測定による非対称アインシュタイン-ポドルスキー-ローゼンステアリングの共有

Sharing Asymmetric Einstein-Podolsky-Rosen Steering with Projective Measurements ( http://arxiv.org/abs/2405.06255v1 )

ライセンス: Link先を確認
Yan-Xin Rong, Shuo Wang, Zhen-Fei Zhang, Yong-Jian Gu, Ya Xiao, (参考訳) 近年,大域的および局所的古典的ランダム性支援型射影測度プロトコルが,絡み合った状態のベル非局所性を共有するために採用されている。 ベル非局所性とは異なり、アインシュタイン-ポドルスキー-ローゼン(EPR)ステアリングは異なる非対称特性を示し、一方のデバイス非依存の量子情報タスクに必要な量子資源として機能する。 本研究では,EPRステアリングとステアリング半径基準の共有性について理論的,実験的に検討する。 この結果から, 任意に多くの独立組織が, 共有ランダム性がない場合でも, 投射的測定を用いて一方的なステアビリティを共有できることが判明した。 さらに、局所的なランダム性のみを活用することで、非対称な双方向のステアビリティを共有できる。 我々の研究は、量子相関の共有における射影測定の役割の理解を深めるだけでなく、非対称量子相関を再活用するための新たな道を開く。

Recently, both global and local classical randomness-assisted projective measurement protocols have been employed to share Bell nonlocality of an entangled state among multiple sequential parties. Unlike Bell nonlocality, Einstein-Podolsky-Rosen (EPR) steering exhibits distinct asymmetric characteristics and serves as the necessary quantum resource for one-sided device-independent quantum information tasks. In this work, we propose a projective measurement protocol and investigate the shareability of EPR steering with steering radius criterion theoretically and experimentally. Our results reveal that arbitrarily many independent parties can share one-way steerability using projective measurements, even when no shared randomness is available. Furthermore, by leveraging only local randomness, asymmetric two-way steerability can also be shared. Our work not only deepens the understanding of the role of projective measurements in sharing quantum correlations but also opens up a new avenue for reutilizing asymmetric quantum correlations.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# モデルとデータカードの自動生成 - 責任あるAIへの一歩-

Automatic Generation of Model and Data Cards: A Step Towards Responsible AI ( http://arxiv.org/abs/2405.06258v1 )

ライセンス: Link先を確認
Jiarui Liu, Wenkai Li, Zhijing Jin, Mona Diab, (参考訳) 機械学習/AIにおけるモデルとデータ拡散の時代、特にオープンソース技術の急速な進歩によって、標準化された一貫したドキュメントにとって重要な必要性が生じている。 我々の研究は、現在の人間生成モデルとデータカードにおける情報不完全性に対処する。 本稿では,Large Language Models (LLM) を用いた自動生成手法を提案する。 主なコントリビューションとしては,4.8kモデルカードと1.4kデータカードから集約した総合的なデータセットであるCardBenchの確立と,2ステップの検索プロセスを含むCardGenパイプラインの開発がある。 当社のアプローチでは、生成されたモデルとデータカードにおける完全性、客観性、忠実性の向上が示されています。

In an era of model and data proliferation in machine learning/AI especially marked by the rapid advancement of open-sourced technologies, there arises a critical need for standardized consistent documentation. Our work addresses the information incompleteness in current human-generated model and data cards. We propose an automated generation approach using Large Language Models (LLMs). Our key contributions include the establishment of CardBench, a comprehensive dataset aggregated from over 4.8k model cards and 1.4k data cards, coupled with the development of the CardGen pipeline comprising a two-step retrieval process. Our approach exhibits enhanced completeness, objectivity, and faithfulness in generated model and data cards, a significant step in responsible AI documentation practices ensuring better accountability and traceability.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# 量子ゆらぎに基づく新しいガス検知原理

A novel gas sensing principle based on quantum fluctuations ( http://arxiv.org/abs/2405.06259v1 )

ライセンス: Link先を確認
Eivind Kristen Osestad, Pekka Parviainen, Johannes Fiedler, (参考訳) 本研究では, 電磁場(分散力)の基底状態ゆらぎによる微量ガス種の検出手法について, 全物体のスペクトル特性に依存して検討した。 ここでは、中空コアファイバに閉じ込められた光ナノ粒子の実験装置について述べる。 ナノ粒子の熱運動に及ぼすガスの影響を計算し, ニューラルネットワークを用いたガス濃度の再構成法を提案する。 1ppmの精度でCO2濃度を0.01体積%まで検出できる1つの可能なセットアップの例を示す。 ガス中の特定の分子の小さな濃度の信頼性の高い検出は、セキュリティや環境モニタリング、医療検査、生産プロセスなど多くの用途に欠かせない。 表面プラズモンや機能面などの他の測定方法とは異なり、プローブやセンサーシステムに影響を与えることなく、高速かつ連続的なモニタリングと少量のサンプル量の使用が可能になる。

We present a model of a novel measurement scheme to detect small amounts of a gas species via the ground-state fluctuations of the electromagnetic field (dispersion forces) depending on the entire spectral properties of all objects. Here, we describe an experimental setup of optically trapped nanoparticles in a hollow-core fibre. We calculate the effects of the gases on the thermal motion of the nanoparticles and present a neural network-based method for reconstructing the gas concentrations. We present an example of one possible setup capable of detecting concentrations of CO2 down to 0.01 volume per cent with an accuracy of 1 ppm. Reliable detection of small concentrations of specific molecules in a gas is essential for numerous applications such as security and environmental monitoring, medical tests, and production processes. Unlike other measurement schemes, such as surface plasmons or functionalised surfaces, this allows for fast, continuous monitoring and using small sample quantities, without influencing the probe or the sensor system.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# YOLOv5による果樹園の精密Apple検出と位置推定

Precise Apple Detection and Localization in Orchards using YOLOv5 for Robotic Harvesting Systems ( http://arxiv.org/abs/2405.06260v1 )

ライセンス: Link先を確認
Jiang Ziyue, Yin Bo, Lu Boyun, (参考訳) 農業ロボティクスの進歩は、特にリンゴ産業において、果実収穫の実践を変革する大きな可能性を秘めている。 果実の正確な検出と局在化は、ロボット収穫システムの成功に不可欠である。 本稿では,物体検出モデルYOLOv5を用いたリンゴ検出と位置推定のための新しいアプローチを提案する。 我々の主な目的は、複雑な果樹園環境のリンゴを識別し、正確な位置情報を提供する堅牢なシステムを開発することである。 そこで我々は,多種多様なリンゴのイメージからなる自律ラベル付きデータセットをキュレートし,学習と評価の両目的に利用した。 厳密な実験を通じて、我々のYOLOv5ベースのシステムの性能を、SSDを含む他の一般的なオブジェクト検出モデルと比較した。 以上の結果から, YOLOv5モデルではリンゴ検出精度が約85%向上した。 提案システムの正確なリンゴ検出と位置推定能力は,農業ロボティクスの大幅な進歩を反映し,より効率的で持続可能な果樹栽培の実践の基盤を築き上げていると考えられる。

The advancement of agricultural robotics holds immense promise for transforming fruit harvesting practices, particularly within the apple industry. The accurate detection and localization of fruits are pivotal for the successful implementation of robotic harvesting systems. In this paper, we propose a novel approach to apple detection and position estimation utilizing an object detection model, YOLOv5. Our primary objective is to develop a robust system capable of identifying apples in complex orchard environments and providing precise location information. To achieve this, we curated an autonomously labeled dataset comprising diverse apple tree images, which was utilized for both training and evaluation purposes. Through rigorous experimentation, we compared the performance of our YOLOv5-based system with other popular object detection models, including SSD. Our results demonstrate that the YOLOv5 model outperforms its counterparts, achieving an impressive apple detection accuracy of approximately 85%. We believe that our proposed system's accurate apple detection and position estimation capabilities represent a significant advancement in agricultural robotics, laying the groundwork for more efficient and sustainable fruit harvesting practices.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# 修正推定誤差に対するユーザレベルDP構成によるプライバシ損失の改善

Improving the Privacy Loss Under User-Level DP Composition for Fixed Estimation Error ( http://arxiv.org/abs/2405.06261v1 )

ライセンス: Link先を確認
V. Arvind Rameshwar, Anshoo Tandon, (参考訳) 本稿では、ユーザレベルの$\epsilon$-differential privacy (DP)の下で、データセットのいくつかの非結合部分集合の統計のプライベートリリースについて考察する。 特に,都市の複数のグリッドにおいて,サンプル平均のユーザレベルの差分的リリースと速度値のばらつきを,潜在的に逐次的に検討する。 クエリのシーケンシャルな構成によるプライバシ損失の従来の分析では、グリッドの総数に等しい要因によって、プライバシ損失の低下が必要になる。 我々の主な貢献は、ユーザのコントリビューション数をクリッピングすることに基づく反復的、インスタンス依存のアルゴリズムであり、これは、異なるグリッド間での {worst} 推定誤差を増大させることなく、標準的なLaplaceメカニズムの下での全体的なプライバシー損失の低減を図っている。 我々は,アルゴリズムの性能を合成データセットで検証し,アルゴリズムによるプライバシー損失劣化係数の改善を実証する。 また,擬似ユーザ生成機構の簡単な拡張による最悪のエラーの改善も示す。 この分析の重要な要素は、サンプル手段の感度と最悪の推定誤差の正確な評価であり、ユーザコントリビューションを任意の方法でクリップすることで得られるばらつきは、私たちが興味を持っていると信じている。

This paper considers the private release of statistics of several disjoint subsets of a datasets, under user-level $\epsilon$-differential privacy (DP). In particular, we consider the user-level differentially private release of sample means and variances of speed values in several grids in a city, in a potentially sequential manner. Traditional analysis of the privacy loss due to the sequential composition of queries necessitates a privacy loss degradation by a factor that equals the total number of grids. Our main contribution is an iterative, instance-dependent algorithm, based on clipping the number of user contributions, which seeks to reduce the overall privacy loss degradation under a canonical Laplace mechanism, while not increasing the {worst} estimation error among the different grids. We test the performance of our algorithm on synthetic datasets and demonstrate improvements in the privacy loss degradation factor via our algorithm. We also demonstrate improvements in the worst-case error using a simple extension of a pseudo-user creation-based mechanism. An important component of this analysis is our exact characterization of the sensitivities and the worst-case estimation errors of sample means and variances incurred by clipping user contributions in an arbitrary fashion, which we believe is of independent interest.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# 世界モデルに対する潜在動的ロバスト表現の学習

Learning Latent Dynamic Robust Representations for World Models ( http://arxiv.org/abs/2405.06263v1 )

ライセンス: Link先を確認
Ruixiang Sun, Hongyu Zang, Xin Li, Riashat Islam, (参考訳) Visual Model-Based Reinforcement Learning (MBRL)は、エージェントの環境の基盤となるダイナミクスに関する知識をカプセル化することで、ワールドモデルを有用なプランナーとして学習できるようにする。 しかし、Dreamerのような上位のMBRLエージェントは、時空間における外因性または無関係なノイズの存在下で視覚的なピクセルベースの入力に苦労することが多い。 この問題に対処するため,世界モデルにおける課題固有の環境の内在的側面を把握し,非意味情報を効果的に排除するために,時空間マスキング戦略,バイシミュレーション原理と潜時再構成を併用した。 表現、ダイナミクス、ポリシーの合同トレーニングは、しばしば不安定を引き起こす。 この問題をさらに解決するため,我々はHybrid Recurrent State-Space Model (HRSSM) 構造を開発し,効果的な政策学習のための状態表現の堅牢性を高める。 Maniskill \cite{gu2023maniskill2}のような視覚的に複雑な制御タスクにおいて,Matterport環境から外因性障害を発生させることにより,既存の手法よりも優れた性能向上を実証した。 私たちのコードはhttps://github.com/bit1029public/HRSSMで無効です。

Visual Model-Based Reinforcement Learning (MBRL) promises to encapsulate agent's knowledge about the underlying dynamics of the environment, enabling learning a world model as a useful planner. However, top MBRL agents such as Dreamer often struggle with visual pixel-based inputs in the presence of exogenous or irrelevant noise in the observation space, due to failure to capture task-specific features while filtering out irrelevant spatio-temporal details. To tackle this problem, we apply a spatio-temporal masking strategy, a bisimulation principle, combined with latent reconstruction, to capture endogenous task-specific aspects of the environment for world models, effectively eliminating non-essential information. Joint training of representations, dynamics, and policy often leads to instabilities. To further address this issue, we develop a Hybrid Recurrent State-Space Model (HRSSM) structure, enhancing state representation robustness for effective policy learning. Our empirical evaluation demonstrates significant performance improvements over existing methods in a range of visually complex control tasks such as Maniskill \cite{gu2023maniskill2} with exogenous distractors from the Matterport environment. Our code is avaliable at https://github.com/bit1029public/HRSSM.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# 選択的焦点:レーン検出のための後学習量子化における意味論的感度の検討

Selective Focus: Investigating Semantics Sensitivity in Post-training Quantization for Lane Detection ( http://arxiv.org/abs/2405.06264v1 )

ライセンス: Link先を確認
Yunqian Fan, Xiuying Wei, Ruihao Gong, Yuqing Ma, Xiangguo Zhang, Qi Zhang, Xianglong Liu, (参考訳) 車線検出(LD)は、自動運転のL2+能力を高める上で重要な役割を担い、広く注目を集めている。 Post-Processing Quantization (PTQ) はLDモデルの実用的利用を促進し、ラベル付きデータなしで高速かつ限られたメモリを実現する。 しかし、従来のPTQ手法では、オフセットや位置などの物理的意味論を含む複雑なLD出力を考慮せず、したがってLDモデルに直接適用することはできない。 本稿では,新しいレーン歪みスコアを用いたレーン検出における後処理のセマンティック・セマンティック・セマンティック・セマンティクスを先駆的に検討する。 さらに,定量化後のLD性能に影響を及ぼす2つの要因,すなわち頭内感度と頭間感度を同定した。 そこで本研究では,セマンティック・ガイド・フォーカスとセンシティビティ・アウェア・セレクション・セレクション・モジュールを併用した選択型フォーカス・フレームワークを提案し,後処理情報をPTQ再構成に組み込む。 観察された頭蓋内感度に基づいて,実効プロキシを用いて前景関連セマンティックスを優先順位付けするためにセマンティックガイドドフォーカスを導入した。 頭部間感度について,感性意識選択(Sensitivity Aware Selection)を提案し,影響のある予測ヘッドを効率よく認識し,実行時の最適化目標を精査する。 キーポイント、アンカー、カーブ、セグメンテーションベースのモデルを含む、広範囲にわたる実験が行われた。 提案手法は,1つのGPU上で数分で量子モデルを生成し,CULaneデータセットの6.4%のF1スコア改善を実現する。

Lane detection (LD) plays a crucial role in enhancing the L2+ capabilities of autonomous driving, capturing widespread attention. The Post-Processing Quantization (PTQ) could facilitate the practical application of LD models, enabling fast speeds and limited memories without labeled data. However, prior PTQ methods do not consider the complex LD outputs that contain physical semantics, such as offsets, locations, etc., and thus cannot be directly applied to LD models. In this paper, we pioneeringly investigate semantic sensitivity to post-processing for lane detection with a novel Lane Distortion Score. Moreover, we identify two main factors impacting the LD performance after quantization, namely intra-head sensitivity and inter-head sensitivity, where a small quantization error in specific semantics can cause significant lane distortion. Thus, we propose a Selective Focus framework deployed with Semantic Guided Focus and Sensitivity Aware Selection modules, to incorporate post-processing information into PTQ reconstruction. Based on the observed intra-head sensitivity, Semantic Guided Focus is introduced to prioritize foreground-related semantics using a practical proxy. For inter-head sensitivity, we present Sensitivity Aware Selection, efficiently recognizing influential prediction heads and refining the optimization objectives at runtime. Extensive experiments have been done on a wide variety of models including keypoint-, anchor-, curve-, and segmentation-based ones. Our method produces quantized models in minutes on a single GPU and can achieve 6.4% F1 Score improvement on the CULane dataset.
翻訳日:2024-05-13 16:37:41 公開日:2024-05-10
# デンプスター・シェーファーエビデンス理論を用いたオフロード環境における不確実性を考慮したセマンティックマッピング

Uncertainty-aware Semantic Mapping in Off-road Environments with Dempster-Shafer Theory of Evidence ( http://arxiv.org/abs/2405.06265v1 )

ライセンス: Link先を確認
Junyoung Kim, Junwon Seo, (参考訳) Bayesian Kernel Inference (BKI) を用いたセマンティックマッピングは,局所的な空間情報を効果的に活用することで,環境のより豊かな理解を提供することを約束している。 しかし、既存の手法では、信頼できない意味予測のため、知覚的に困難な環境で正確な意味地図や確実な不確実性マップを構築する際に困難に直面している。 この問題に対処するために,Dempster-Shafer Theory of Evidence (DST) の明確な推論を,Evidential Deep Learning (EDL) とDempster's Rule of combinationを併用することで,全体のマッピングパイプラインに統合する,明確な意味マッピングフレームワークを提案する。 さらに,地図作成過程において,その不確実性に基づいて局所的な空間情報を組み込むことが目的である。 様々なオフロードデータセットを対象とした総合的な実験により、我々のフレームワークは不確実性マップの信頼性を高め、高い知覚的不確実性のあるシーンにおいて既存の手法を一貫して上回り、セマンティック・マッピング技術に匹敵するセマンティック・精度を示す。

Semantic mapping with Bayesian Kernel Inference (BKI) has shown promise in providing a richer understanding of environments by effectively leveraging local spatial information. However, existing methods face challenges in constructing accurate semantic maps or reliable uncertainty maps in perceptually challenging environments due to unreliable semantic predictions. To address this issue, we propose an evidential semantic mapping framework, which integrates the evidential reasoning of Dempster-Shafer Theory of Evidence (DST) into the entire mapping pipeline by adopting Evidential Deep Learning (EDL) and Dempster's rule of combination. Additionally, the extended belief is devised to incorporate local spatial information based on their uncertainty during the mapping process. Comprehensive experiments across various off-road datasets demonstrate that our framework enhances the reliability of uncertainty maps, consistently outperforming existing methods in scenes with high perceptual uncertainties while showing semantic accuracy comparable to the best-performing semantic mapping techniques.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 交通流予測のためのマルチチャネル時空間変圧器モデル

A Multi-Channel Spatial-Temporal Transformer Model for Traffic Flow Forecasting ( http://arxiv.org/abs/2405.06266v1 )

ライセンス: Link先を確認
Jianli Xiao, Baichao Long, (参考訳) 交通流予測は交通管理と計画において重要な課題である。 交通流予測の主な課題は,(1)予測時間の増加に伴い予測精度が低下すること,(2)予測結果は道路網からの時間的・空間的依存関係の抽出に大きく依存すること,である。 上記の課題を克服するため,交通流予測のための多チャンネル時空間変圧器モデルを提案する。 提案手法はグラフ畳み込みネットワークを利用して各チャネルから空間的特徴を抽出し,トランスフォーマーアーキテクチャを用いてチャネル間の時間的依存関係をキャプチャする。 固定位相構造からの特徴抽出の限界を克服する適応的隣接行列を導入する。 6つの実世界のデータセットによる実験結果から,時間モデルにマルチチャネル機構を導入することで性能が向上し,提案モデルが精度で最先端モデルより優れていることが示された。

Traffic flow forecasting is a crucial task in transportation management and planning. The main challenges for traffic flow forecasting are that (1) as the length of prediction time increases, the accuracy of prediction will decrease; (2) the predicted results greatly rely on the extraction of temporal and spatial dependencies from the road networks. To overcome the challenges mentioned above, we propose a multi-channel spatial-temporal transformer model for traffic flow forecasting, which improves the accuracy of the prediction by fusing results from different channels of traffic data. Our approach leverages graph convolutional network to extract spatial features from each channel while using a transformer-based architecture to capture temporal dependencies across channels. We introduce an adaptive adjacency matrix to overcome limitations in feature extraction from fixed topological structures. Experimental results on six real-world datasets demonstrate that introducing a multi-channel mechanism into the temporal model enhances performance and our proposed model outperforms state-of-the-art models in terms of accuracy.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# XAI4LLM. 医療におけるインコンテキスト学習強化のための機械学習モデルとLLMの連携

XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare ( http://arxiv.org/abs/2405.06270v1 )

ライセンス: Link先を確認
Fatemeh Nazary, Yashar Deldjoo, Tommaso Di Noia, Eugenio di Sciascio, (参考訳) LLM(Large Language Models)の医療診断への統合は、臨床的な意思決定に有望な道筋を提供する。 本研究は,多層構造プロンプトを用いた医用ドメイン知識の統合による,ゼロショット/ファウショットインコンテキスト学習(ICL)の新しい手法の開発について概説する。 また,データ処理を段階的に行う数値会話型 (NC) スタイルと,長いナラティブプロンプトを用いる自然言語単文型 (NL-ST) スタイルの2つの通信方式の有効性についても検討する。 本研究は, 性別バイアス, 偽陰性率などの診断精度とリスク要因を, 様々な場面で920人の患者記録のデータセットを用いて体系的に評価した。 その結果、従来の臨床機械学習(ML)モデルは、ゼロショットと少数ショットの設定でLLMよりも優れていたことが示唆された。 しかし、ドメイン知識の源泉として効果的な説明可能なAI(XAI)メソッドとともに、少数ショットの例を用いる場合、パフォーマンスギャップは大幅に狭まる。 さらに、十分な時間とサンプル数の増加により、会話スタイル(NC)はMLモデルの性能とほぼ一致している。 LLMはMLモデルと比較して、同等または優れたコスト感受性の精度を示す。 本研究は、適切なドメイン知識と適切な通信戦略により、LLMは診断プロセスを大幅に向上させることができることを確認した。 本研究は,LLMアプリケーションの精度向上とバイアス低減のために,トレーニング例数とコミュニケーションスタイルの最適化の重要性を強調した。

The integration of Large Language Models (LLMs) into healthcare diagnostics offers a promising avenue for clinical decision-making. This study outlines the development of a novel method for zero-shot/few-shot in-context learning (ICL) by integrating medical domain knowledge using a multi-layered structured prompt. We also explore the efficacy of two communication styles between the user and LLMs: the Numerical Conversational (NC) style, which processes data incrementally, and the Natural Language Single-Turn (NL-ST) style, which employs long narrative prompts. Our study systematically evaluates the diagnostic accuracy and risk factors, including gender bias and false negative rates, using a dataset of 920 patient records in various few-shot scenarios. Results indicate that traditional clinical machine learning (ML) models generally outperform LLMs in zero-shot and few-shot settings. However, the performance gap narrows significantly when employing few-shot examples alongside effective explainable AI (XAI) methods as sources of domain knowledge. Moreover, with sufficient time and an increased number of examples, the conversational style (NC) nearly matches the performance of ML models. Most notably, LLMs demonstrate comparable or superior cost-sensitive accuracy relative to ML models. This research confirms that, with appropriate domain knowledge and tailored communication strategies, LLMs can significantly enhance diagnostic processes. The findings highlight the importance of optimizing the number of training examples and communication styles to improve accuracy and reduce biases in LLM applications.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# コードコンパス: 馴染みのないコードベースをナビゲートする上での課題に関する研究

Code Compass: A Study on the Challenges of Navigating Unfamiliar Codebases ( http://arxiv.org/abs/2405.06271v1 )

ライセンス: Link先を確認
Ekansh Agrawal, Omair Alam, Chetan Goenka, Medha Iyer, Isabela Moise, Ashish Pandian, Bren Paul, (参考訳) 本研究では,プログラム理解においてソフトウェア技術者が直面する課題,特に不慣れなコードベースのデバッグについて検討する。 これらの問題に対処するための新しいツールであるCodeCompassを提案する。 私たちの研究は、現在のツールと方法論における大きなギャップ、特に開発者がコード探索とともにドキュメンテーションを効果的に活用することの難しさを浮き彫りにしています。 CodeCompassはこれらの課題に対処し、IDE内にドキュメントをシームレスに統合し、デバッグプロセスを合理化するためのコンテキスト対応の提案と視覚化を提供する。 私たちのフォーマティブな調査は、開発者がドキュメントをナビゲートする時間を効果的に削減し、コードの理解とタスク完了率を高めることを示しています。 今後の作業は、コードベースのアノテートプロセスの自動化、サンドボックスタスクの作成、動的サポートの提供に注力する予定である。 これらのイノベーションは、プログラム理解ツールのアクセシビリティと効率を改善することによって、ソフトウェア開発プラクティスを変える可能性がある。

In our research, we investigate the challenges that software engineers face during program comprehension, particularly when debugging unfamiliar codebases. We propose a novel tool, CodeCompass, to address these issues. Our study highlights a significant gap in current tools and methodologies, especially the difficulty developers encounter in effectively utilizing documentation alongside code exploration. CodeCompass tackles these challenges by seamlessly integrating documentation within the IDE, offering context-aware suggestions and visualizations that streamline the debugging process. Our formative study demonstrates how effectively the tool reduces the time developers spend navigating documentation, thereby enhancing code comprehension and task completion rates. Future work will focus on automating the process of annotating codebases, creating sandbox tasks, and providing dynamic support. These innovations could potentially transform software development practices by improving the accessibility and efficiency of program comprehension tools.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# ドメイン特異的LDMエクストラクタとしてのプルーニング

Pruning as a Domain-specific LLM Extractor ( http://arxiv.org/abs/2405.06275v1 )

ライセンス: Link先を確認
Nan Zhang, Yanchi Liu, Xujiang Zhao, Wei Cheng, Runxue Bao, Rui Zhang, Prasenjit Mitra, Haifeng Chen, (参考訳) 大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な習熟度を示した。 しかし、モデルサイズのエスカレーションによって、相当なデプロイメントコストがもたらされる。 LLMのサイズを減らすためのモデルプルーニング技術の研究はほとんど行われていないが、それらは主に一般的なものやタスク固有の重みに重点を置いている。 これは、ドメイン固有の課題に適用した場合、対象のドメインに対する特異性や、異なるタスクに対する一般性に欠けるため、最適以下のパフォーマンスをもたらす。 この研究は、LLM上のドメイン固有圧縮のための革新的な非構造的デュアルプルーニング手法であるD-Prunerを導入する。 言語能力やマルチタスク解決、ドメイン固有の知識など、一般的な能力に欠かせないLLM重みを識別することで、圧縮された、ドメイン固有の、タスクに依存しないLLMを抽出する。 具体的には,開放領域キャリブレーションデータセットの助けを借りて,除去時に発生する誤差を定量化することにより,まず一般的な重み付けの重要性を評価する。 そして、この一般的な重み付けの重要さを利用してトレーニング損失を洗練し、特定のドメインに適合する際の一般性を保ちます。 さらに、ドメイン固有のキャリブレーションデータセット上での訓練損失の補正により、重みの重みを効率的に近似することにより、一般化と特異性を強調したプルーンドモデルを得る。 医療分野や法律分野における様々なタスクに対する総合的な実験は、ドメイン固有の圧縮におけるD-Prunerの有効性を示している。 私たちのコードはhttps://github.com/psunlpgroup/D-Pruner.comで利用可能です。

Large Language Models (LLMs) have exhibited remarkable proficiency across a wide array of NLP tasks. However, the escalation in model size also engenders substantial deployment costs. While few efforts have explored model pruning techniques to reduce the size of LLMs, they mainly center on general or task-specific weights. This leads to suboptimal performance due to lacking specificity on the target domain or generality on different tasks when applied to domain-specific challenges. This work introduces an innovative unstructured dual-pruning methodology, D-Pruner, for domain-specific compression on LLM. It extracts a compressed, domain-specific, and task-agnostic LLM by identifying LLM weights that are pivotal for general capabilities, like linguistic capability and multi-task solving, and domain-specific knowledge. More specifically, we first assess general weight importance by quantifying the error incurred upon their removal with the help of an open-domain calibration dataset. Then, we utilize this general weight importance to refine the training loss, so that it preserves generality when fitting into a specific domain. Moreover, by efficiently approximating weight importance with the refined training loss on a domain-specific calibration dataset, we obtain a pruned model emphasizing generality and specificity. Our comprehensive experiments across various tasks in healthcare and legal domains show the effectiveness of D-Pruner in domain-specific compression. Our code is available at https://github.com/psunlpgroup/D-Pruner.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 効率的な画像レイニングのためのスパイクニューラルネットワークの学習

Learning A Spiking Neural Network for Efficient Image Deraining ( http://arxiv.org/abs/2405.06277v1 )

ライセンス: Link先を確認
Tianyu Song, Guiyue Jin, Pengpeng Li, Kui Jiang, Xiang Chen, Jiyu Jin, (参考訳) 近年、スパイクニューラルネットワーク(SNN)はコンピュータビジョンタスクにおいて大きな可能性を証明している。 本稿では,ESDNetと呼ばれる効率的なスパイキングレイニングネットワークを提案する。 我々の研究は、雨のピクセル値がSNNのスパイク信号の強度を高めるという観測に動機づけられている。 しかし、画像デライニングタスクにディープSNNを直接適用することは依然として重要な課題である。 これは、個別のバイナリアクティベーションと複雑な時空間ダイナミクスから生じる情報損失とトレーニングの難しさに起因する。 この目的のために、スパイク信号に入力を変換するスパイク残差ブロックを開発し、次に、注意重みを導入してスパイク応答をデータ駆動方式で調整し、個別のバイナリアクティベーションによる情報損失を軽減することにより、膜電位を適応的に最適化する。 このようにして、私たちのESDNetは、その変動を学習することで、雨天の特徴を効果的に検出し、分析することができる。 これにより、デラミニングプロセスのより良いガイダンスが可能になり、高品質な画像再構成が容易になる。 ANN-SNN変換戦略に頼る代わりに、トレーニングの課題を克服するためのモデルを直接トレーニングするための勾配プロキシ戦略を導入する。 実験の結果,ANN法と同等の性能を示し,エネルギー消費量を54%削減した。 ソースコードはhttps://github.com/MingTian99/ESDNetで入手できる。

Recently, spiking neural networks (SNNs) have demonstrated substantial potential in computer vision tasks. In this paper, we present an Efficient Spiking Deraining Network, called ESDNet. Our work is motivated by the observation that rain pixel values will lead to a more pronounced intensity of spike signals in SNNs. However, directly applying deep SNNs to image deraining task still remains a significant challenge. This is attributed to the information loss and training difficulties that arise from discrete binary activation and complex spatio-temporal dynamics. To this end, we develop a spiking residual block to convert the input into spike signals, then adaptively optimize the membrane potential by introducing attention weights to adjust spike responses in a data-driven manner, alleviating information loss caused by discrete binary activation. By this way, our ESDNet can effectively detect and analyze the characteristics of rain streaks by learning their fluctuations. This also enables better guidance for the deraining process and facilitates high-quality image reconstruction. Instead of relying on the ANN-SNN conversion strategy, we introduce a gradient proxy strategy to directly train the model for overcoming the challenge of training. Experimental results show that our approach gains comparable performance against ANN-based methods while reducing energy consumption by 54%. The code source is available at https://github.com/MingTian99/ESDNet.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 深部ニューラルネットワークにおける解釈可能性とロバスト性の相互作用を探る:正当性誘導的アプローチ

Exploring the Interplay of Interpretability and Robustness in Deep Neural Networks: A Saliency-guided Approach ( http://arxiv.org/abs/2405.06278v1 )

ライセンス: Link先を確認
Amira Guesmi, Nishant Suresh Aswani, Muhammad Shafique, (参考訳) 敵対的攻撃は、ディープラーニングモデルを安全クリティカルなアプリケーションにデプロイする上で大きな課題となる。 モデルの堅牢性を維持しながら解釈可能性を確保することは、これらのモデルの信頼と理解を促進する上で不可欠である。 本研究では,SGT(Saliency-Guided Training)がモデルロバスト性に及ぼす影響について検討した。 SGTでトレーニングされたさまざまなディープラーニングアーキテクチャを用いて、標準ベンチマークデータセットで実験を行った。 また,SGTと標準対向訓練を組み合わせた新たな手法を提案する。 我々の戦略は、正反対の例を正しく分類するのに不可欠な健全な特徴の保存がモデルの堅牢性を高める一方、非関連特徴のマスキングは解釈可能性を向上させるという仮定に基づいている。 MNIST と CIFAR-10 データセットでそれぞれ0.2$ と0.02$ のノイズ等級を持つ PGD 攻撃に対する強靭性を 35 % と 20 % 改善し,高品質なサリエンシマップを作成した。

Adversarial attacks pose a significant challenge to deploying deep learning models in safety-critical applications. Maintaining model robustness while ensuring interpretability is vital for fostering trust and comprehension in these models. This study investigates the impact of Saliency-guided Training (SGT) on model robustness, a technique aimed at improving the clarity of saliency maps to deepen understanding of the model's decision-making process. Experiments were conducted on standard benchmark datasets using various deep learning architectures trained with and without SGT. Findings demonstrate that SGT enhances both model robustness and interpretability. Additionally, we propose a novel approach combining SGT with standard adversarial training to achieve even greater robustness while preserving saliency map quality. Our strategy is grounded in the assumption that preserving salient features crucial for correctly classifying adversarial examples enhances model robustness, while masking non-relevant features improves interpretability. Our technique yields significant gains, achieving a 35\% and 20\% improvement in robustness against PGD attack with noise magnitudes of $0.2$ and $0.02$ for the MNIST and CIFAR-10 datasets, respectively, while producing high-quality saliency maps.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 古典的および学習的マルチビームポイントクラウド登録のベンチマーク

Benchmarking Classical and Learning-Based Multibeam Point Cloud Registration ( http://arxiv.org/abs/2405.06279v1 )

ライセンス: Link先を確認
Li Ling, Jun Zhang, Nils Bore, John Folkesson, Anna Wåhlin, (参考訳) ディープラーニングは、複数の3Dポイントクラウド登録データセットに対して有望な結果を示している。 しかし、水中領域では、マルチビームエコーソーダ(MBES)ポイントクラウドデータのほとんどの登録は、いまだにICPファミリーの古典的な手法を用いて行われている。 本研究では、西南極の自律型水中車両から構築された半合成MBES登録データセットであるDotsonEast Datasetをキュレートしてリリースする。 このデータセットを用いて、2つの古典的手法と4つの学習的手法のパフォーマンスを体系的にベンチマークする。 実験の結果,学習に基づく手法は粗いアライメントに適しており,高い重なり合い(20~50%)で粗い変換の回復が良好であることがわかった。 対照的に、GICP(ICPの亜種)は微調整に優れており、非常に低い重なり合い(10%)で全ての指標で優れている。 我々の知る限りでは、AUVベースのMBESデータセット上で学習ベースと古典的登録方法の両方をベンチマークする最初の試みである。 将来の研究を容易にするため、コードとデータの両方をオンラインで利用可能にしている。

Deep learning has shown promising results for multiple 3D point cloud registration datasets. However, in the underwater domain, most registration of multibeam echo-sounder (MBES) point cloud data are still performed using classical methods in the iterative closest point (ICP) family. In this work, we curate and release DotsonEast Dataset, a semi-synthetic MBES registration dataset constructed from an autonomous underwater vehicle in West Antarctica. Using this dataset, we systematically benchmark the performance of 2 classical and 4 learning-based methods. The experimental results show that the learning-based methods work well for coarse alignment, and are better at recovering rough transforms consistently at high overlap (20-50%). In comparison, GICP (a variant of ICP) performs well for fine alignment and is better across all metrics at extremely low overlap (10%). To the best of our knowledge, this is the first work to benchmark both learning-based and classical registration methods on an AUV-based MBES dataset. To facilitate future research, both the code and data are made available online.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 超高次視覚分類のための新しいクラス発見

Novel Class Discovery for Ultra-Fine-Grained Visual Categorization ( http://arxiv.org/abs/2405.06283v1 )

ライセンス: Link先を確認
Yu Liu, Yaqi Cai, Qi Jia, Binglin Qiu, Weimin Wang, Nan Pu, (参考訳) 超きめ細かい視覚分類 (Ultra-FGVC) は、異なる大豆品種のような細粒度オブジェクト内で非常に類似したサブカテゴリを区別することを目的としている。 従来のきめ細かい視覚分類と比較すると、Ultra-FGVCはクラス間およびクラス内の大きな変化のため、より多くのハードルに直面する。 これらの課題を考えると、Ultra-FGVCに対する人間のアノテーションに頼ることは現実的ではない。 そこで本研究では,UFG-NCD (Ultra-Fine-Grained Novel Class Discovery) と呼ばれる新しい課題を紹介した。 この問題に対処するため,チャネルワイド・リージョンアライメント(CRA)モジュールとセミスーパーバイズド・プロキシ・ラーニング(SemiPL)戦略を組み合わせたRAPL(Regional-Aligned Proxy Learning)フレームワークを考案した。 CRAモジュールは、ラベル付きクラスからラベルなしクラスへの知識伝達を容易にするため、地域から識別的特徴を抽出し、利用するために設計されている。 さらに、SemiPLは、プロキシ誘導型教師付き学習とプロキシ誘導型コントラスト学習による表現学習と知識伝達を強化する。 このような手法は埋め込み空間におけるクラス分布情報を活用し、ラベル付きクラスとラベルなしクラスの間の微妙な違いのマイニングを改善する。 大規模な実験により、RAPLは様々なデータセットでベースラインを大幅に上回っており、UFG-NCDの課題に対処する上での有効性を示している。 コードはhttps://github.com/SSDUT-Caiyq/UFG-NCDで入手できる。

Ultra-fine-grained visual categorization (Ultra-FGVC) aims at distinguishing highly similar sub-categories within fine-grained objects, such as different soybean cultivars. Compared to traditional fine-grained visual categorization, Ultra-FGVC encounters more hurdles due to the small inter-class and large intra-class variation. Given these challenges, relying on human annotation for Ultra-FGVC is impractical. To this end, our work introduces a novel task termed Ultra-Fine-Grained Novel Class Discovery (UFG-NCD), which leverages partially annotated data to identify new categories of unlabeled images for Ultra-FGVC. To tackle this problem, we devise a Region-Aligned Proxy Learning (RAPL) framework, which comprises a Channel-wise Region Alignment (CRA) module and a Semi-Supervised Proxy Learning (SemiPL) strategy. The CRA module is designed to extract and utilize discriminative features from local regions, facilitating knowledge transfer from labeled to unlabeled classes. Furthermore, SemiPL strengthens representation learning and knowledge transfer with proxy-guided supervised learning and proxy-guided contrastive learning. Such techniques leverage class distribution information in the embedding space, improving the mining of subtle differences between labeled and unlabeled ultra-fine-grained classes. Extensive experiments demonstrate that RAPL significantly outperforms baselines across various datasets, indicating its effectiveness in handling the challenges of UFG-NCD. Code is available at https://github.com/SSDUT-Caiyq/UFG-NCD.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# マルチ周波数・マルチスケールアテンションによるモダリティ非依存領域一般化型医用画像分割

Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention ( http://arxiv.org/abs/2405.06284v1 )

ライセンス: Link先を確認
Ju-Hyeon Nam, Nur Suriza Syazwany, Su Jung Kim, Sang-Chul Lee, (参考訳) ディープニューラルネットワークの一般化性は、医療画像のセグメンテーションにおいて重要な役割を果たす。 しかし、深層学習に基づく医用画像解析は周波数分散の重要性を無視する傾向があり、これはモダリティ非依存とドメイン一般化の両方が可能なモデルを実現する上で重要な要素である。 さらに、様々なモデルでは、モデル表現能力を損なう要因である深い監督の下でマルチタスク学習から生じる潜在的な情報損失を考慮できない。 これらの課題に対処するために,MFMSAブロック(Multi-Frequency in Multi-Scale Attention, MFMSA)ブロックとE-SDM(Ensemble Sub-Decoding Module)という2つの主要コンポーネントからなる医用画像セグメンテーションのためのModality-Agnostic Domain Generalizable Network (MADGNet)を提案する。 MFMSAブロックは、特に境界特徴の捕捉において、多周波および多周波の特徴を取り入れて空間的特徴抽出のプロセスを洗練し、組織輪郭と解剖学的構造に対する情報的手がかりを提供する。 さらに,マルチタスク学習における情報損失を軽減するためのE-SDMを提案する。 我々はMADGNetのセグメンテーション性能を6つのモードと15のデータセットで評価した。 広範囲な実験により,MADGNet は様々なモーダルにまたがる最先端モデルより一貫して優れており,セグメンテーション性能が優れていることを示す。 このことは、MADGNetが様々な画像シナリオに優れた医療画像セグメンテーションの堅牢なソリューションであると断定する。 私たちのMADGNetコードはGitHub Linkで利用可能です。

Generalizability in deep neural networks plays a pivotal role in medical image segmentation. However, deep learning-based medical image analyses tend to overlook the importance of frequency variance, which is critical element for achieving a model that is both modality-agnostic and domain-generalizable. Additionally, various models fail to account for the potential information loss that can arise from multi-task learning under deep supervision, a factor that can impair the model representation ability. To address these challenges, we propose a Modality-agnostic Domain Generalizable Network (MADGNet) for medical image segmentation, which comprises two key components: a Multi-Frequency in Multi-Scale Attention (MFMSA) block and Ensemble Sub-Decoding Module (E-SDM). The MFMSA block refines the process of spatial feature extraction, particularly in capturing boundary features, by incorporating multi-frequency and multi-scale features, thereby offering informative cues for tissue outline and anatomical structures. Moreover, we propose E-SDM to mitigate information loss in multi-task learning with deep supervision, especially during substantial upsampling from low resolution. We evaluate the segmentation performance of MADGNet across six modalities and fifteen datasets. Through extensive experiments, we demonstrate that MADGNet consistently outperforms state-of-the-art models across various modalities, showcasing superior segmentation performance. This affirms MADGNet as a robust solution for medical image segmentation that excels in diverse imaging scenarios. Our MADGNet code is available in GitHub Link.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 自動運転のためのデータ駆動型仮想テストへの共同アプローチ: AVEASプロジェクト

A Joint Approach Towards Data-Driven Virtual Testing for Automated Driving: The AVEAS Project ( http://arxiv.org/abs/2405.06286v1 )

ライセンス: Link先を確認
Leon Eisemann, Mirjam Fehling-Kaschek, Silke Forkert, Andreas Forster, Henrik Gommel, Susanne Guenther, Stephan Hammer, David Hermann, Marvin Klemp, Benjamin Lickert, Florian Luettner, Robin Moss, Nicole Neis, Maria Pohle, Dominik Schreiber, Cathrina Sowa, Daniel Stadler, Janina Stompe, Michael Strobelt, David Unger, Jens Ziehn, (参考訳) 道路交通における自動運転機能の複雑さと責任の増大と、その運用設計領域の範囲の拡大により、仮想環境やシミュレーションモデルを通じて、開発、検証、検証の重要な部分をカバーする必要性が高まっている。 しかし、シミュレーションが実世界の実験を増強するだけでなく、それらを置き換えるためには、シミュレーションモデルが現実を適切に表現する度合いや条件を定量的に測定し、運転機能の仮想テストに使用できるようにする必要がある。 特に「オープンワールド」の安全性への影響に関する研究・開発分野では、シミュレーションのパラメータ化や検証のための実世界のデータが著しく不足している。 本稿では、FAIR原則に従って、運転支援システムと自動運転の仮想検証と検証のための実世界のデータの調和、体系的、スケーラブルな取得のための方法とメトリクスを開発することを目的とした、ドイツのAVAS研究プロジェクト(www.aveas.org)の中間的な成果について述べる。

With growing complexity and responsibility of automated driving functions in road traffic and growing scope of their operational design domains, there is increasing demand for covering significant parts of development, validation, and verification via virtual environments and simulation models. If, however, simulations are meant not only to augment real-world experiments, but to replace them, quantitative approaches are required that measure to what degree and under which preconditions simulation models adequately represent reality, and thus allow their usage for virtual testing of driving functions. Especially in research and development areas related to the safety impacts of the "open world", there is a significant shortage of real-world data to parametrize and/or validate simulations - especially with respect to the behavior of human traffic participants, whom automated vehicles will meet in mixed traffic. This paper presents the intermediate results of the German AVEAS research project (www.aveas.org) which aims at developing methods and metrics for the harmonized, systematic, and scalable acquisition of real-world data for virtual verification and validation of advanced driver assistance systems and automated driving, and establishing an online database following the FAIR principles.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# PCLMix:Pixel-Level Contrastive LearningとDynamic Mix Augmentationによる医用画像分割の監視

PCLMix: Weakly Supervised Medical Image Segmentation via Pixel-Level Contrastive Learning and Dynamic Mix Augmentation ( http://arxiv.org/abs/2405.06288v1 )

ライセンス: Link先を確認
Yu Lei, Haolun Luo, Lituan Wang, Zhenwei Zhang, Lei Zhang, (参考訳) 弱監督型医用画像分割では、構造的事前の欠如、階級的特徴分布の離散性が課題となる。 そこで本研究では,動的混合強化,画素レベルのコントラスト学習,整合性正規化戦略を含む医用画像分割フレームワークPCLMixを提案する。 具体的には、PCLMixは不均一なデュアルデコーダのバックボーン上に構築されており、トレーニング中に動的混合強化の戦略を通じて構造的事前の欠如に対処する。 クラス特徴の離散分布に対処するため、PCLMixは予測不確実性に基づく画素レベルのコントラスト学習を導入し、クラス間の差分とクラス間の一貫性を識別するモデルの能力を効果的に強化する。 さらに、セグメント化一貫性とロバスト性を強化するために、PCLMixは二重整合正則化のための補助デコーダを採用している。 推論フェーズでは、補助デコーダを落とし、計算複雑性が増大しない。 ACDCデータセットの大規模な実験により、PCLMixは局所的な監視信号をグローバルスケールに適切に伝播し、弱教師付きセグメンテーションと完全教師付きセグメンテーションのギャップをさらに狭めることが示されている。 私たちのコードはhttps://github.com/Torpedo2648/PCLMix.comで公開されています。

In weakly supervised medical image segmentation, the absence of structural priors and the discreteness of class feature distribution present a challenge, i.e., how to accurately propagate supervision signals from local to global regions without excessively spreading them to other irrelevant regions? To address this, we propose a novel weakly supervised medical image segmentation framework named PCLMix, comprising dynamic mix augmentation, pixel-level contrastive learning, and consistency regularization strategies. Specifically, PCLMix is built upon a heterogeneous dual-decoder backbone, addressing the absence of structural priors through a strategy of dynamic mix augmentation during training. To handle the discrete distribution of class features, PCLMix incorporates pixel-level contrastive learning based on prediction uncertainty, effectively enhancing the model's ability to differentiate inter-class pixel differences and intra-class consistency. Furthermore, to reinforce segmentation consistency and robustness, PCLMix employs an auxiliary decoder for dual consistency regularization. In the inference phase, the auxiliary decoder will be dropped and no computation complexity is increased. Extensive experiments on the ACDC dataset demonstrate that PCLMix appropriately propagates local supervision signals to the global scale, further narrowing the gap between weakly supervised and fully supervised segmentation methods. Our code is available at https://github.com/Torpedo2648/PCLMix.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 耳に耳を傾ける:雑音のある音声をターゲットに

Look Once to Hear: Target Speech Hearing with Noisy Examples ( http://arxiv.org/abs/2405.06289v1 )

ライセンス: Link先を確認
Bandhav Veluri, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota, (参考訳) 混み合った環境では、人間の脳はターゲット話者からのスピーチに集中することができる。 本稿では,この能力を実現するための新しいインテリジェントな聴取システムを提案する。 ナイーブなアプローチは、ターゲット話者を登録するためにクリーンな音声サンプルを必要とすることである。 しかしこれは、クリーンな例を得ることは現実のシナリオでは困難であり、ユニークなユーザーインターフェイスの問題を生み出すため、聞き取り可能なアプリケーションドメインとうまく一致しない。 本稿では,対象話者を数秒間観察して,目標話者の単一,短く,雑音の多いバイノーラルな例を捉える,最初の登録インタフェースを提案する。 このノイズのある例は、干渉する話者や雑音の存在下での音声抽出の登録と後続の音声抽出に使用される。 本システムでは,5秒未満の雑音の入出力音声を用いて7.01dBの信号品質向上を実現し,6.24msで8ミリ秒の音声チャンクを処理可能である。 本研究は,屋内および屋外のマルチパス環境における実世界の静的・移動型話者への一般化を実証するものである。 最後に、ノイズの多い例の登録インターフェースは、クリーンな例に比べてパフォーマンスの劣化を起こさないが、便利でユーザフレンドリーである。 一歩後退して、人工知能による人間の聴覚知覚を高めるための重要な一歩を踏み出した。 https://github.com/vb000/LookOnceToHear.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s

In crowded settings, the human brain can focus on speech from a target speaker, given prior knowledge of how they sound. We introduce a novel intelligent hearable system that achieves this capability, enabling target speech hearing to ignore all interfering speech and noise, but the target speaker. A naive approach is to require a clean speech example to enroll the target speaker. This is however not well aligned with the hearable application domain since obtaining a clean example is challenging in real world scenarios, creating a unique user interface problem. We present the first enrollment interface where the wearer looks at the target speaker for a few seconds to capture a single, short, highly noisy, binaural example of the target speaker. This noisy example is used for enrollment and subsequent speech extraction in the presence of interfering speakers and noise. Our system achieves a signal quality improvement of 7.01 dB using less than 5 seconds of noisy enrollment audio and can process 8 ms of audio chunks in 6.24 ms on an embedded CPU. Our user studies demonstrate generalization to real-world static and mobile speakers in previously unseen indoor and outdoor multipath environments. Finally, our enrollment interface for noisy examples does not cause performance degradation compared to clean examples, while being convenient and user-friendly. Taking a step back, this paper takes an important step towards enhancing the human auditory perception with artificial intelligence. We provide code and data at: https://github.com/vb000/LookOnceToHear.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 静的量子エラーと浄化

Static Quantum Errors and Purification ( http://arxiv.org/abs/2405.06291v1 )

ライセンス: Link先を確認
Jaemin Kim, Seungchan Seo, Jiyoung Yun, Joonwoo Bae, (参考訳) 量子系を有限状態に初期化する状態の準備と、量子状態の進化後の結果を読むための測定は、一般に量子情報処理において不可欠な要素の両方が、ノイズを含む可能性がある。 本研究では, 状態準備および測定における静的誤差が避けられないシステムにおいて, 不良製造や不適切な保守などのノイズのある資源について検討する。 本稿では,ノイズの少ない資源を繰り返し適用することにより,静的な誤りを抑え,ノイズのないSPAMを浄化する方法を示す。 本稿では,雑音初期化および雑音測定のための浄化プロトコルを提案し,誤差率を最大10~3ドルまで抑えるために,数量子ビットが直ちに費用対効果があることを検証した。 また、現実的なシナリオで浄化プロトコルを実証する。 結果は、現在の量子技術で容易に実現可能である。

State preparation that initializes quantum systems in a fiducial state and measurements to read outcomes after the evolution of quantum states, both essential elements in quantum information processing in general, may contain noise from which errors, in particular, referred to as static errors, may appear even with noise-free evolution. In this work, we consider noisy resources such as faulty manufacturing and improper maintenance of systems by which static errors in state preparation and measurement are inevitable. We show how to suppress static errors and purify noiseless SPAM by repeatedly applying noisy resources. We present the purification protocol for noisy initialization and noisy measurements and verify that a few qubits are immediately cost-effective to suppress error rates up to $10^{-3}$. We also demonstrate the purification protocol in a realistic scenario. The results are readily feasible with current quantum technologies.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 太陽フィラメントからの極性反転線の再構築のための機械学習

Machine learning for reconstruction of polarity inversion lines from solar filaments ( http://arxiv.org/abs/2405.06293v1 )

ライセンス: Link先を確認
V. Kisielius, E. Illarionov, (参考訳) 太陽フィラメントは、太陽光球上の2つの反対磁極を分離する極性反転線のよく知られたトレーサである。 フィラメントの観測は太陽磁場の体系的な観測よりずっと早く始まったため、過去のフィラメントカタログは直接の磁気観測ができない時に磁極性マップの再構築を促進することができる。 実際には、この再建はしばしば曖昧で、通常は手動で行われる。 フィラメント観測と整合した多種多様な磁極性マップを生成する機械学習モデルに基づく自動アプローチを提案する。 モデルの評価と結果の議論には、McIntoshによってコンパイルされた太陽フィラメントと極性マップのカタログを用いる。 極性マップを手動で作成するプロセスには,フィラメントに関する情報だけでなく,事前情報も多数含まれており,定式化は困難である。 機械学習モデルに対する事前知識の欠如を補うため,複数の基準点において極性情報を提供する。 このプロセスはユーザガイドによる再構成や超解像とみなすことができ、手書きの地図に適度に近い極性マップとなり、また不確実性の推定も可能であることを実証する。

Solar filaments are well-known tracers of polarity inversion lines that separate two opposite magnetic polarities on the solar photosphere. Because observations of filaments began long before the systematic observations of solar magnetic fields, historical filament catalogs can facilitate the reconstruction of magnetic polarity maps at times when direct magnetic observations were not yet available. In practice, this reconstruction is often ambiguous and typically performed manually. We propose an automatic approach based on a machine-learning model that generates a variety of magnetic polarity maps consistent with filament observations. To evaluate the model and discuss the results we use the catalog of solar filaments and polarity maps compiled by McIntosh. We realize that the process of manual compilation of polarity maps includes not only information on filaments, but also a large amount of prior information, which is difficult to formalize. In order to compensate for the lack of prior knowledge for the machine-learning model, we provide it with polarity information at several reference points. We demonstrate that this process, which can be considered as the user-guided reconstruction or super-resolution, leads to polarity maps that are reasonably close to hand-drawn ones, and additionally allows for uncertainty estimation.
翻訳日:2024-05-13 16:27:43 公開日:2024-05-10
# 消費者健康に対する回答の要約

Aspect-oriented Consumer Health Answer Summarization ( http://arxiv.org/abs/2405.06295v1 )

ライセンス: Link先を確認
Rochana Chaturvedi, Abari Bhattacharya, Shweta Yadav, (参考訳) コミュニティ質問回答(Community Question-Answering, CQA)フォーラムは、人々が情報を求める方法、特に医療ニーズに関連するものを革新し、一般大衆の知恵に信頼を置いている。 しかし、単一のクエリに対する応答にはいくつかの答えがあるため、特定の健康上の懸念に関連する重要な情報を把握することは困難である。 典型的には、CQAフォーラムは、各クエリの代表的な要約として、単一のトップボイドの回答を特徴付けている。 しかし、一つの答えは他の解や、他の反応で頻繁に提供される他の情報を見落としている。 本研究は、この制限に対処するために、側面に基づく健康回答の要約に焦点を当てている。 提案や情報,個人の経験,質問など,さまざまな面での回答の要約は,プラットフォームのユーザビリティを高めることができる。 我々は多段階の注釈ガイドラインを定式化し、アスペクトベースの人間による健康回答要約からなるユニークなデータセットを寄贈する。 我々は,複数の最先端モデルのタスク固有の微調整に基づいて,このデータセットを用いて,自動多面的回答要約パイプラインを構築した。 パイプラインは質問類似性を利用して、関連する回答文を取得し、その後、それらを適切なアスペクトタイプに分類する。 これに続いて、アスペクトベースの要約を生成するために、近年の抽象的要約モデルを用いている。 最後に、包括的人間分析を行い、我々の要約が関連コンテンツと幅広いソリューションの収集において高いランクにあることを確認する。

Community Question-Answering (CQA) forums have revolutionized how people seek information, especially those related to their healthcare needs, placing their trust in the collective wisdom of the public. However, there can be several answers in response to a single query, which makes it hard to grasp the key information related to the specific health concern. Typically, CQA forums feature a single top-voted answer as a representative summary for each query. However, a single answer overlooks the alternative solutions and other information frequently offered in other responses. Our research focuses on aspect-based summarization of health answers to address this limitation. Summarization of responses under different aspects such as suggestions, information, personal experiences, and questions can enhance the usability of the platforms. We formalize a multi-stage annotation guideline and contribute a unique dataset comprising aspect-based human-written health answer summaries. We build an automated multi-faceted answer summarization pipeline with this dataset based on task-specific fine-tuning of several state-of-the-art models. The pipeline leverages question similarity to retrieve relevant answer sentences, subsequently classifying them into the appropriate aspect type. Following this, we employ several recent abstractive summarization models to generate aspect-based summaries. Finally, we present a comprehensive human analysis and find that our summaries rank high in capturing relevant content and a wide range of solutions.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# インクリメンタル学習における過去のデータセットに対するDNNの高速評価

Fast Evaluation of DNN for Past Dataset in Incremental Learning ( http://arxiv.org/abs/2405.06296v1 )

ライセンス: Link先を確認
Naoto Sato, (参考訳) ディープニューラルネットワーク(DNN)を含むシステムの運用中、トレーニングデータセットに含まれていない新しい入力値がDNNに与えられる。 このような場合、DNNは新たな入力値で漸進的にトレーニングされるが、このトレーニングは、以前取得され、過去のトレーニングに使用されたデータセットに関して、DNNの精度を低下させる可能性がある。 過去のデータセットの精度に対する追加トレーニングの効果を評価する必要がある。 しかし、過去のデータセットに含まれるすべての入力値をテストすることで評価には時間がかかる。 そこで本稿では,過去のデータセットの精度への影響を迅速に評価する手法を提案する。 提案手法では,過去のデータセットのパラメータ値(重みやバイアスなど)の勾配を,トレーニング前にDNNを実行することで抽出する。 そして、トレーニング後、パラメータ値の勾配から過去のデータセットに対する精度への影響を算出し、パラメータ値の差を更新する。 提案手法の有用性を示すために,いくつかのデータセットを用いて実験結果を示す。 その結果,提案手法は一定時間で追加訓練により精度変化を推定できることが示唆された。

During the operation of a system including a deep neural network (DNN), new input values that were not included in the training dataset are given to the DNN. In such a case, the DNN may be incrementally trained with the new input values; however, that training may reduce the accuracy of the DNN in regard to the dataset that was previously obtained and used for the past training. It is necessary to evaluate the effect of the additional training on the accuracy for the past dataset. However, evaluation by testing all the input values included in the past dataset takes time. Therefore, we propose a new method to quickly evaluate the effect on the accuracy for the past dataset. In the proposed method, the gradient of the parameter values (such as weight and bias) for the past dataset is extracted by running the DNN before the training. Then, after the training, its effect on the accuracy with respect to the past dataset is calculated from the gradient and update differences of the parameter values. To show the usefulness of the proposed method, we present experimental results with several datasets. The results show that the proposed method can estimate the accuracy change by additional training in a constant time.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# PUMA:マージンベースのデータプルーニング

PUMA: margin-based data pruning ( http://arxiv.org/abs/2405.06298v1 )

ライセンス: Link先を確認
Javier Maroto, Pascal Frossard, (参考訳) ディープラーニングは多くのタスクにおいて、分類精度で人間より優れている。 しかしながら、敵対的摂動に対する堅牢性を達成するためには、最も優れた方法論は、典型的には生成モデル(例えば拡散モデル)を用いて拡張されたより大きなトレーニングセットで敵の訓練を行う必要がある。 この作業の主な目的は、これらのデータ要求を減らし、同じまたはより良い精度のロバスト性トレードオフを達成することです。 モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。 低マージンのサンプルを用いる既存のアプローチでは、大量の合成データを追加すると堅牢性が向上せず、この状況をパーセプトロン学習タスクで説明できる。 さらに, 高いマージンサンプルを高い精度で刈り取ると, 逆行訓練における誤ラベル付き摂動データの有害な影響が増大し, 堅牢性と精度が損なわれることが判明した。 そこで我々は,DeepFoolを用いてマージンを算出する新たなデータ刈取戦略であるPUMAを提案し,最低マージンのサンプルに対してトレーニング攻撃規範を協調的に調整することにより,パフォーマンスを損なうことなく,最高マージンのトレーニングサンプルをプーンする。 PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。 PUMAは、少ないデータで同様の堅牢性を達成するだけでなく、モデルの精度を大幅に向上し、パフォーマンスのトレードオフを改善します。

Deep learning has been able to outperform humans in terms of classification accuracy in many tasks. However, to achieve robustness to adversarial perturbations, the best methodologies require to perform adversarial training on a much larger training set that has been typically augmented using generative models (e.g., diffusion models). Our main objective in this work, is to reduce these data requirements while achieving the same or better accuracy-robustness trade-offs. We focus on data pruning, where some training samples are removed based on the distance to the model classification boundary (i.e., margin). We find that the existing approaches that prune samples with low margin fails to increase robustness when we add a lot of synthetic data, and explain this situation with a perceptron learning task. Moreover, we find that pruning high margin samples for better accuracy increases the harmful impact of mislabeled perturbed data in adversarial training, hurting both robustness and accuracy. We thus propose PUMA, a new data pruning strategy that computes the margin using DeepFool, and prunes the training samples of highest margin without hurting performance by jointly adjusting the training attack norm on the samples of lowest margin. We show that PUMA can be used on top of the current state-of-the-art methodology in robustness, and it is able to significantly improve the model performance unlike the existing data pruning strategies. Not only PUMA achieves similar robustness with less data, but it also significantly increases the model accuracy, improving the performance trade-off.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# Sparse Labeled Dataを用いたRIS支援マルチバンドISACシステムにおけるユーザ追跡のためのクロスドメイン学習フレームワーク

Cross-domain Learning Framework for Tracking Users in RIS-aided Multi-band ISAC Systems with Sparse Labeled Data ( http://arxiv.org/abs/2405.06299v1 )

ライセンス: Link先を確認
Jingzhi Hu, Dusit Niyato, Jun Luo, (参考訳) 統合センシング・通信(ISAC)は6G通信において重要であり、再構成可能なインテリジェントサーフェス(RIS)の急速な開発によって加速される。 複数の周波数帯域にまたがるチャネル状態情報(CSI)を用いて、RIS支援マルチバンドISACシステムは、高い精度でユーザの位置を追跡することができる。 通信オーバーヘッドが発生しないため、CSIによるトラッキングは望ましいが、CSIサンプルのマルチモーダル性、不規則で非同期なデータトラフィック、追跡関数を学習するためのスパースラベル付きデータといった問題に直面している。 本稿では,複数の帯域にまたがるマルチモーダルCSIインジケータを協調的に活用し,対象のデプロイメント環境(すなわちターゲットドメイン)に対するラベル付きデータの空間性に対処し,他の環境(すなわちソースドメイン)から学んだ知識を適応させることで,トラッキング機能を階層的アーキテクチャでモデル化するX2Trackフレームワークを提案する。 X2Trackの下では、トランスフォーマーニューラルネットワークと逆学習技術に基づいて、トラッキングエラーを最小限に抑える効率的なディープラーニングアルゴリズムを設計する。 シミュレーションの結果, ULデータトラフィックが少ない場合や強い干渉条件下でもX2Trackがデシメータレベルの軸追跡誤差を達成でき, 5%以下のトレーニングデータ, あるいは同等の5分間のUEトラックをラベル付けして, 多様な展開環境に適応できることを確認した。

Integrated sensing and communications (ISAC) is pivotal for 6G communications and is boosted by the rapid development of reconfigurable intelligent surfaces (RISs). Using the channel state information (CSI) across multiple frequency bands, RIS-aided multi-band ISAC systems can potentially track users' positions with high precision. Though tracking with CSI is desirable as no communication overheads are incurred, it faces challenges due to the multi-modalities of CSI samples, irregular and asynchronous data traffic, and sparse labeled data for learning the tracking function. This paper proposes the X2Track framework, where we model the tracking function by a hierarchical architecture, jointly utilizing multi-modal CSI indicators across multiple bands, and optimize it in a cross-domain manner, tackling the sparsity of labeled data for the target deployment environment (namely, target domain) by adapting the knowledge learned from another environment (namely, source domain). Under X2Track, we design an efficient deep learning algorithm to minimize tracking errors, based on transformer neural networks and adversarial learning techniques. Simulation results verify that X2Track achieves decimeter-level axial tracking errors even under scarce UL data traffic and strong interference conditions and can adapt to diverse deployment environments with fewer than 5% training data, or equivalently, 5 minutes of UE tracks, being labeled.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# 文字列配列から学ぶ

Learning from String Sequences ( http://arxiv.org/abs/2405.06301v1 )

ライセンス: Link先を確認
David Lindsay, Sian Lindsay, (参考訳) ユニバーサル類似度メトリック(USM)は、シーケンスデータ間の「類似性」の実用的な測定方法として実証されている。 そこで我々は,K-Nearest Neighbours(K-NN)学習者において,USMを代替距離測定として使用し,可変長シーケンスデータの効果的なパターン認識を実現した。 我々は、このUSMアプローチを、一般的に使われている文字列対ワードベクトルアプローチと比較する。 実験では,(1)スパムメールフィルタリングと(2)タンパク質細胞内局在の2つの領域のデータを用いた。 この結果から,USMをベースとしたK-NN学習者(1)は,文字列対ワードベクトル手法を用いて出力した手法よりも高い分類精度で予測を行い,(2)信頼できる確率予測を生成することができることがわかった。

The Universal Similarity Metric (USM) has been demonstrated to give practically useful measures of "similarity" between sequence data. Here we have used the USM as an alternative distance metric in a K-Nearest Neighbours (K-NN) learner to allow effective pattern recognition of variable length sequence data. We compare this USM approach with the commonly used string-to-word vector approach. Our experiments have used two data sets of divergent domains: (1) spam email filtering and (2) protein subcellular localization. Our results with this data reveal that the USM-based K-NN learner (1) gives predictions with higher classification accuracy than those output by techniques that use the string-to-word vector approach, and (2) can be used to generate reliable probability forecasts.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# メタクリティックPCゲームにおける「リビューボーミング」へのNLPアプローチ

A NLP Approach to "Review Bombing" in Metacritic PC Videogames User Ratings ( http://arxiv.org/abs/2405.06306v1 )

ライセンス: Link先を確認
Javier Coronado-Blázquez, (参考訳) 多くのビデオゲームは、ユーザーが評価する製品の品質を反映しない「リビュー爆弾」に苦しむ。 Metacriticの5万以上のユーザスコアアグリゲーションを英語のPCゲームに適用することにより、自然言語処理(NLP)アプローチを使用して、このようなケースに現れる主要な単語や概念を理解し、単に悪い評価と爆弾のレビューを区別する場合に、検証セット上で0.88の精度に達する。 この現象を誘発するパターンを解明し分析することで、これらの状況をさらに緩和することができる。

Many videogames suffer "review bombing" -a large volume of unusually low scores that in many cases do not reflect the real quality of the product- when rated by users. By taking Metacritic's 50,000+ user score aggregations for PC games in English language, we use a Natural Language Processing (NLP) approach to try to understand the main words and concepts appearing in such cases, reaching a 0.88 accuracy on a validation set when distinguishing between just bad ratings and review bombings. By uncovering and analyzing the patterns driving this phenomenon, these results could be used to further mitigate these situations.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# ジオ・プリビティのためのスムース感度

Smooth Sensitivity for Geo-Privacy ( http://arxiv.org/abs/2405.06307v1 )

ライセンス: Link先を確認
Yuting Liang, Ke Yi, (参考訳) 各ユーザ$i$は、あるメトリック空間$(U, \mathrm{dist})$でプライベート値$x_i$を保持し、ある関数$f : U \rightarrow \mathbb{R}$に対して、信頼できないデータアナリストが$\sum_i f(x_i)$を計算したいと願う。 これは、プライバシ保護人口分析における根本的な問題であり、その問題を研究する主要なモデルとして、微分プライバシ(LDP)の局所モデルがある。 しかし、LPPは2つの異なる$x_i, x'_i$を$\varepsilon$-distinguishableとして要求する。 一方、Geo-Privacy (GP)は、識別可能性のレベルが$\mathrm{dist}(x_i, x_i')$に比例することを規定し、計量空間における個人データのプライバシーという魅力的な代替概念を提供する。 しかし、この問題に対する既存のGPメカニズムは、$x_i$または$f(x_i)$に一様ノイズを加えるが、満足できない。 本稿では、微分プライバシーからジオプライバシへのスムーズな感度フレームワークを一般化し、各インスタンスの硬さに合わせてノイズを付加できるようにする。 一般計量を備えたGPの下でのスムーズな感度を計算するための定義,機構,および汎用的な手順を提供する。 そこで我々は,1方向と2方向のしきい値関数とガウス核密度推定という3つの応用を提案し,スムーズな感度フレームワークの適用性と有用性を示す。

Suppose each user $i$ holds a private value $x_i$ in some metric space $(U, \mathrm{dist})$, and an untrusted data analyst wishes to compute $\sum_i f(x_i)$ for some function $f : U \rightarrow \mathbb{R}$ by asking each user to send in a privatized $f(x_i)$. This is a fundamental problem in privacy-preserving population analytics, and the local model of differential privacy (LDP) is the predominant model under which the problem has been studied. However, LDP requires any two different $x_i, x'_i$ to be $\varepsilon$-distinguishable, which can be overly strong for geometric/numerical data. On the other hand, Geo-Privacy (GP) stipulates that the level of distinguishability be proportional to $\mathrm{dist}(x_i, x_i')$, providing an attractive alternative notion of personal data privacy in a metric space. However, existing GP mechanisms for this problem, which add a uniform noise to either $x_i$ or $f(x_i)$, are not satisfactory. In this paper, we generalize the smooth sensitivity framework from Differential Privacy to Geo-Privacy, which allows us to add noise tailored to the hardness of the given instance. We provide definitions, mechanisms, and a generic procedure for computing the smooth sensitivity under GP equipped with a general metric. Then we present three applications: one-way and two-way threshold functions, and Gaussian kernel density estimation, to demonstrate the applicability and utility of our smooth sensitivity framework.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# FedGCS: グラディエントベースの最適化によるフェデレート学習における効率的なクライアント選択のための生成フレームワーク

FedGCS: A Generative Framework for Efficient Client Selection in Federated Learning via Gradient-based Optimization ( http://arxiv.org/abs/2405.06312v1 )

ライセンス: Link先を確認
Zhiyuan Ning, Chunlin Tian, Meng Xiao, Wei Fan, Pengyang Wang, Li Li, Pengfei Wang, Yuanchun Zhou, (参考訳) フェデレートラーニングは、統計的およびシステム不均一性において、高エネルギー消費とともに、効率的なクライアント選択戦略を必要とする重要な課題に直面している。 ヒューリスティックで学習に基づく手法を含む伝統的なアプローチは、これらの複雑さに全体的に取り組むには不十分である。 そこで本研究では,クライアント選択プロセスを生成タスクとして革新的に再キャストする新たなクライアント選択フレームワークであるFedGCSを提案する。 大規模言語モデルで使用される方法論からインスピレーションを得たFedGCSは、連続表現空間内の豊富な意思決定知識を効率的に符号化し、効率的な勾配に基づく最適化を可能にし、生成によって最終的に出力される最適なクライアントの選択を探索する。 本フレームワークは,(1)古典的クライアント選択手法を用いた多様な"選択スコア"ペアデータの自動収集,(2)連続的な表現空間を構築するためのエンコーダ-評価器-デコーダフレームワークのトレーニング,(3)最適クライアント選択のための勾配に基づく最適化,(4)よく訓練されたデコーダのビームサーチによる最終最適クライアント選択の生成,の4段階からなる。 FedGCSは、より包括的で、一般化可能で、効率的で、モデル性能、レイテンシ、エネルギー消費を同時に最適化することで、従来の手法よりも優れています。 FedGCSの有効性は、広範囲な実験的分析によって証明されている。

Federated Learning faces significant challenges in statistical and system heterogeneity, along with high energy consumption, necessitating efficient client selection strategies. Traditional approaches, including heuristic and learning-based methods, fall short of addressing these complexities holistically. In response, we propose FedGCS, a novel generative client selection framework that innovatively recasts the client selection process as a generative task. Drawing inspiration from the methodologies used in large language models, FedGCS efficiently encodes abundant decision-making knowledge within a continuous representation space, enabling efficient gradient-based optimization to search for optimal client selection that will be finally output via generation. The framework comprises four steps: (1) automatic collection of diverse "selection-score" pair data using classical client selection methods; (2) training an encoder-evaluator-decoder framework on this data to construct a continuous representation space; (3) employing gradient-based optimization in this space for optimal client selection; (4) generating the final optimal client selection via using beam search for the well-trained decoder. FedGCS outperforms traditional methods by being more comprehensive, generalizable, and efficient, simultaneously optimizing for model performance, latency, and energy consumption. The effectiveness of FedGCS is proven through extensive experimental analyses.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# 抽象芸術における感情の復号:カラー感情認識におけるCLIPの認知的可視性

Decoding Emotions in Abstract Art: Cognitive Plausibility of CLIP in Recognizing Color-Emotion Associations ( http://arxiv.org/abs/2405.06319v1 )

ライセンス: Link先を確認
Hanna-Sophia Widhoelzl, Ece Takmaz, (参考訳) 本研究では,抽象的な視覚芸術によって誘発される感情の認識において,事前訓練されたマルチモーダルモデルであるCLIPの認知的妥当性について検討した。 我々は、人間のアノテータによって提供される感情ラベルとこれらのラベルのテキスト的合理性を含む画像からなるデータセットを用いる。 我々は、合理性の言語分析、画像と合理性のゼロショット感情分類、類似性に基づく感情の予測の適用、色と感情の関連性の調査を行う。 抽象的なイメージや合理性の感情を認識するための正確さは、CLIPが人間の認知過程とうまく一致しない方法で感情の複雑さをデコードしていることを示唆している。 さらに、画像と合理性における色-感情相互作用について検討する。 怒りに関連する赤などの色覚関連は、人間とCLIPの両方の感情ラベルに注釈を付けた画像やテキストで識別され、後者はさらに強い相互作用を示す。 画像の特徴と感情を接続する際の人的処理と機械処理の相違について検討した。

This study investigates the cognitive plausibility of a pretrained multimodal model, CLIP, in recognizing emotions evoked by abstract visual art. We employ a dataset comprising images with associated emotion labels and textual rationales of these labels provided by human annotators. We perform linguistic analyses of rationales, zero-shot emotion classification of images and rationales, apply similarity-based prediction of emotion, and investigate color-emotion associations. The relatively low, yet above baseline, accuracy in recognizing emotion for abstract images and rationales suggests that CLIP decodes emotional complexities in a manner not well aligned with human cognitive processes. Furthermore, we explore color-emotion interactions in images and rationales. Expected color-emotion associations, such as red relating to anger, are identified in images and texts annotated with emotion labels by both humans and CLIP, with the latter showing even stronger interactions. Our results highlight the disparity between human processing and machine processing when connecting image features and emotions.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# 統計的多様体における自然言語の相関次元

Correlation Dimension of Natural Language in a Statistical Manifold ( http://arxiv.org/abs/2405.06321v1 )

ライセンス: Link先を確認
Xin Du, Kumiko Tanaka-Ishii, (参考訳) 自然言語の相関次元は、大規模言語モデルによって生成される高次元列にグラスベルガー・プロカシアアルゴリズムを適用することによって測定される。 この方法は、以前はユークリッド空間でのみ研究されていたが、フィッシャー・ラオ距離を通じて統計多様体で再構成される。 言語は多フラクタルで、大域的な自己相似性と6.5の普遍次元を持ち、これは単純な離散乱数列よりも小さく、バラブ・アシ=アルベルト過程よりも大きい。 長期記憶は自己相似性を生み出す鍵である。 本手法は実世界の離散列の確率モデルに適用可能であり,音楽データに適用できることを示す。

The correlation dimension of natural language is measured by applying the Grassberger-Procaccia algorithm to high-dimensional sequences produced by a large-scale language model. This method, previously studied only in a Euclidean space, is reformulated in a statistical manifold via the Fisher-Rao distance. Language exhibits a multifractal, with global self-similarity and a universal dimension around 6.5, which is smaller than those of simple discrete random sequences and larger than that of a Barab\'asi-Albert process. Long memory is the key to producing self-similarity. Our method is applicable to any probabilistic model of real-world discrete sequences, and we show an application to music data.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# レーザーによる双極子近似を超えた放射的組換え

Laser-assisted radiative recombination beyond the dipole approximation ( http://arxiv.org/abs/2405.06322v1 )

ライセンス: Link先を確認
Deeksha Kanti, M. M. Majczak, J. Z. Kamiński, Liang-You Peng, K. Krajewska, (参考訳) 非双極子補正に寄与する強い短パルスの存在下での電子イオン放射再結合を記述するための包括的な理論的アプローチを示す。 これは、クーロンポテンシャルとレーザー場を組み合わせた電子を記述する相対論的クーロン・ヴォルコフ解に基づいており、1/c$の力で体系的に拡張されている。 したがって、放射光のスペクトルで観察される非双極子効果の起源を辿ることができる。 したがって、この過程を補助する高周波パルスが示すように、放射された放射の角分布におけるカットオフと非対称性の顕著な拡張は、レーザーパルスの電子再コイルによるものである。 また,パルスをチャープすることで発生した高エネルギー放射の効率を向上させる可能性についても検討した。

A comprehensive theoretical approach to describe the electron-ion radiative recombination in the presence of intense, short laser pulses, which accounts for nondipole corrections is presented. It is based on the relativistic Coulomb-Volkov solution describing an electron in a combined Coulomb potential and a laser field, which is systematically expanded in powers of $1/c$. Thus, it allows us to trace the origin of nondipole effects observed in the spectrum of emitted radiation. Hence, as we demonstrate for high-frequency pulses assisting the process, a significant extension of the cutoff and asymmetry in angular distributions of the emitted radiation can be attributed to the electron recoil off the laser pulse. In addition, we investigate a possibility of enhancing the efficiency of the generated high-energy radiation by chirping the pulse.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# センチネル-1画像を用いたPixel-Wise T-Testによるオープンアクセス戦闘損傷検出

Open Access Battle Damage Detection via Pixel-Wise T-Test on Sentinel-1 Imagery ( http://arxiv.org/abs/2405.06323v1 )

ライセンス: Link先を確認
Ollie Ballinger, (参考訳) 最近のガザとウクライナの非常に破壊的な紛争の文脈では、建築被害の信頼できる推定は、情報公開の談話、人権監視、人道支援の条項に不可欠である。 紛争損害評価の論争的な性質を考えると、これらの見積もりは完全に再現可能で、説明可能で、オープンアクセスデータから導出されなければならない。 本稿では,Pixel-Wise T-Test (PWTT) による損傷検出手法を提案する。 可利用な合成開口レーダ画像と統計的変化検出を組み合わせることで、PWTTは一定時間間隔で広範囲にわたる正確な衝突損傷推定を生成する。 精度は、ウクライナ、パレスチナ、シリア、イラクの12都市にまたがる50万以上の建物フットプリントの当初のデータセットを用いて評価されている。 単純で軽量であるにもかかわらず、このアルゴリズムはビルレベルの精度統計(ウクライナ全土でAUC=0.88、ガザで0.81)を達成し、ディープラーニングと高解像度画像を使用する最先端の手法に対抗している。 ワークフローはオープンソースで、Google Earth Engine環境内に完全に展開されており、ウクライナとガザのインタラクティブなバトルダメージダッシュボードをほぼリアルタイムで更新することができる。

In the context of recent, highly destructive conflicts in Gaza and Ukraine, reliable estimates of building damage are essential for an informed public discourse, human rights monitoring, and humanitarian aid provision. Given the contentious nature of conflict damage assessment, these estimates must be fully reproducible, explainable, and derived from open access data. This paper introduces a new method for building damage detection-- the Pixel-Wise T-Test (PWTT)-- that satisfies these conditions. Using a combination of freely-available synthetic aperture radar imagery and statistical change detection, the PWTT generates accurate conflict damage estimates across a wide area at regular time intervals. Accuracy is assessed using an original dataset of over half a million labeled building footprints spanning 12 cities across Ukraine, Palestine, Syria, and Iraq. Despite being simple and lightweight, the algorithm achieves building-level accuracy statistics (AUC=0.88 across Ukraine, 0.81 in Gaza) rivalling state of the art methods that use deep learning and high resolution imagery. The workflow is open source and deployed entirely within the Google Earth Engine environment, allowing for the generation of interactive Battle Damage Dashboards for Ukraine and Gaza that update in near-real time, allowing the public and humanitarian practitioners to immediately get estimates of damaged buildings in a given area.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# 飛行時間実験における確率的およびボヘミア到着時間の不等式

Inequivalence of stochastic and Bohmian arrival times in time-of-flight experiments ( http://arxiv.org/abs/2405.06324v1 )

ライセンス: Link先を確認
Pascal Naidon, (参考訳) 近年の予測(Phys. 6, 195 (2023))により、超低温原子を用いた飛行時間実験は、量子力学の異なる解釈をテストできることが示唆され、この研究は、量子粒子が定性だが非決定論的で微分不可能な軌道を辿る確率論的解釈によって予測される到着時間を調べる。 到達時間の分布はフォッカー・プランク方程式から得られ、軌道の直接シミュレーションにより確認される。 一般にボヘミアの解釈によって予測される分布とは違い、量子粒子は決定論的かつ微分可能な軌道に従う。 この結果は、軌道に基づく量子力学の解釈を実験的に区別できることを示唆している。

Motivated by a recent prediction [Com. Phys., 6, 195 (2023)] that time-of-flight experiments with ultracold atoms could test different interpretations of quantum mechanics, this work investigates the arrival times predicted by the stochastic interpretation, whereby quantum particles follow definite but non-deterministic and non-differentiable trajectories. The distribution of arrival times is obtained from a Fokker-Planck equation, and confirmed by direct simulation of trajectories. It is found to be in general different from the distribution predicted by the Bohmian interpretation, in which quantum particles follow definite deterministic and differentiable trajectories. This result suggests that trajectory-based interpretations of quantum mechanics could be experimentally discriminated.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# 古典的経路上の積分を持つシュレーディンガー方程式の解について

On solving Schroedingers equation with integrals over classical paths ( http://arxiv.org/abs/2405.06328v1 )

ライセンス: Link先を確認
Winfried Lohmiller, Jean-Jacques Slotine, (参考訳) 量子物理学のシュレーディンガー方程式は古典的ハミルトン・ヤコビ作用力学を用いて解くことができ、ファインマンの重要な結果を二次ラグランジアンにのみ適用できることが示される。 これは2つの発展によって実現される。 1つ目は、古典的最小作用問題に直接幾何学的制約を組み込むことであり、この制約された問題の解の非一様性によって確率的設定を部分的に置き換えることである。 例えば、二重スリット実験や箱内の粒子の場合、空間的不等式制約によってディラックの制約力が生成され、複数の経路解が導かれる。 第2の展開は時計の空間的再スケーリングであり、特にシュレーディンガー表現とハミルトン・ヤコビ表現の一般同値性を達成するために設計された。 これらの発展は、関連するファインマン経路積分の結果をそのまま残すが、古典的な経路のみを積分に含める必要があり、時間スライシングが完全に避けられるため、計算を大幅に単純化することができる。 彼らはまた、スケールにわたる物理学間のスムーズな遷移を示唆している。

We show that the Schroedinger equation of quantum physics can be solved using the classical Hamilton-Jacobi action dynamics, extending a key result of Feynman applicable only to quadratic Lagrangians. This is made possible by two developments. The first is incorporating geometric constraints directly in the classical least action problem, in effect replacing in part the probabilistic setting by the non-uniqueness of solutions of the constrained problem. For instance, in the double slit experiment or for a particle in a box, spatial inequality constraints create Dirac constraint forces, which lead to multiple path solutions. The second development is a spatial rescaling of clocks, specifically designed to achieve a general equivalence between Schroedinger and Hamilton-Jacobi representations. These developments leave the results of associated Feynman path integrals unchanged, but they can greatly simplify their computation as only classical paths need to be included in the integrals, and time-slicing is avoided altogether. They also suggest a smooth transition between physics across scales.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# ChatGPTest: 質問に対するAI活用の機会と注意事項

ChatGPTest: opportunities and cautionary tales of utilizing AI for questionnaire pretesting ( http://arxiv.org/abs/2405.06329v1 )

ライセンス: Link先を確認
Francisco Olivos, Minhui Liu, (参考訳) 次世代人工知能の急速な進歩は、アンケートのデザインや評価など、研究の様々な側面を強化するための新たな道を開いた。 しかし、近年の先駆的応用は、アンケート事前試験を考慮していない。 本稿では, GPT モデルを用いたアンケート調査, 特に調査設計の初期段階において, アンケートを事前実施するための有用なツールとしての利用について検討する。 記事は2つのアプリケーションで説明され、人間の事前テストの前にGPTフィードバックを追加のステージとして組み込むことを提案し、連続したイテレーションを減少させる可能性がある。 この記事では、AI生成フィードバックの解釈と実装において研究者の判断が不可欠であることも強調する。

The rapid advancements in generative artificial intelligence have opened up new avenues for enhancing various aspects of research, including the design and evaluation of survey questionnaires. However, the recent pioneering applications have not considered questionnaire pretesting. This article explores the use of GPT models as a useful tool for pretesting survey questionnaires, particularly in the early stages of survey design. Illustrated with two applications, the article suggests incorporating GPT feedback as an additional stage before human pretesting, potentially reducing successive iterations. The article also emphasizes the indispensable role of researchers' judgment in interpreting and implementing AI-generated feedback.
翻訳日:2024-05-13 16:17:47 公開日:2024-05-10
# 共有変数埋め込みを用いた解釈可能なマルチタスク学習

Interpretable Multi-task Learning with Shared Variable Embeddings ( http://arxiv.org/abs/2405.06330v1 )

ライセンス: Link先を確認
Maciej Żelaszczyk, Jacek Mańdziuk, (参考訳) 本稿では,共有情報を用いた一般的な解釈可能な予測システムを提案する。 システムは、異なるタスクが同じ入力/出力構造を持たないマルチタスク設定で予測を行うことができる。 共通空間における入力変数と出力変数の埋め込みが得られ、タスク間で再利用される共有埋め込みの集合への参加を通じて入力埋め込みが生成される。 すべての埋め込みはモデルパラメータとして扱われ、学習される。 共有埋め込みの空間と注意機構の空間性に関する具体的な制約を考察する。 実験により,バニラ変数埋込法により得られた結果が,共有埋込法の導入によって損なわれることはないことが示された。 私たちはさらに多くの努力を払っている。 注意機構のスパーシリティを誘導すると、精度が向上し、必要なトレーニングステップの数が大幅に減少する。 共有埋め込みは、質的評価と特定の共有埋め込みを、考慮されたモデルに適合しない事前定義された概念にマッピングする能力の両方の観点から解釈可能性の尺度を提供する。 正確性と解釈可能性の間にはトレードオフがあるようだ。 基本共有埋め込み法は解釈可能性を好むが、スパースアテンション法は精度を高める。 その結果,変数埋め込み法は情報共有によって拡張され,解釈可能性や精度が向上する可能性が示唆された。

This paper proposes a general interpretable predictive system with shared information. The system is able to perform predictions in a multi-task setting where distinct tasks are not bound to have the same input/output structure. Embeddings of input and output variables in a common space are obtained, where the input embeddings are produced through attending to a set of shared embeddings, reused across tasks. All the embeddings are treated as model parameters and learned. Specific restrictions on the space of shared embedings and the sparsity of the attention mechanism are considered. Experiments show that the introduction of shared embeddings does not deteriorate the results obtained from a vanilla variable embeddings method. We run a number of further ablations. Inducing sparsity in the attention mechanism leads to both an increase in accuracy and a significant decrease in the number of training steps required. Shared embeddings provide a measure of interpretability in terms of both a qualitative assessment and the ability to map specific shared embeddings to pre-defined concepts that are not tailored to the considered model. There seems to be a trade-off between accuracy and interpretability. The basic shared embeddings method favors interpretability, whereas the sparse attention method promotes accuracy. The results lead to the conclusion that variable embedding methods may be extended with shared information to provide increased interpretability and accuracy.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# LMD3: 言語モデルデータ密度依存性

LMD3: Language Model Data Density Dependence ( http://arxiv.org/abs/2405.06331v1 )

ライセンス: Link先を確認
John Kirchenbauer, Garrett Honke, Gowthami Somepalli, Jonas Geiping, Daphne Ippolito, Katherine Lee, Tom Goldstein, David Andre, (参考訳) 我々は,学習データ密度推定に基づいて,言語モデルタスクのパフォーマンスを個別の例レベルで解析する手法を開発した。 微調整データに対する制御的介入としての言い換えによる実験では、特定のテストクエリに対するトレーニング分布の増加は、密度の計測可能な増加をもたらすことが示され、これは、介入によるパフォーマンス増加の有意な予測因子でもある。 事前学習データを用いた実験により、密度測定によりモデルパープレキシティの有意なばらつきを説明できることを示した。 我々は,対象モデルの予測がトレーニングデータのサブセットに依存することの統計的証拠を提供することができ,より一般的に,与えられたテストタスクのトレーニングデータに対するサポート(あるいはその欠如)を特徴付けることができると結論付けた。

We develop a methodology for analyzing language model task performance at the individual example level based on training data density estimation. Experiments with paraphrasing as a controlled intervention on finetuning data demonstrate that increasing the support in the training distribution for specific test queries results in a measurable increase in density, which is also a significant predictor of the performance increase caused by the intervention. Experiments with pretraining data demonstrate that we can explain a significant fraction of the variance in model perplexity via density measurements. We conclude that our framework can provide statistical evidence of the dependence of a target model's predictions on subsets of its training data, and can more generally be used to characterize the support (or lack thereof) in the training data for a given test task.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# 正規化ロジット校正と切り裂き特徴混合による移動可能な対向攻撃の改善

Improving Transferable Targeted Adversarial Attack via Normalized Logit Calibration and Truncated Feature Mixing ( http://arxiv.org/abs/2405.06340v1 )

ライセンス: Link先を確認
Juanjuan Weng, Zhiming Luo, Shaozi Li, (参考訳) 本稿では,攻撃成功率が比較的低いターゲット攻撃において,敵のサンプルの転送可能性を高めることを目的とする。 この目的を達成するために,目的の伝達性を改善するための2つの異なる手法を提案する。 まず、以前のアプローチでは、ターゲットアタックで使用されるロジットキャリブレーションは、ターゲットクラスと対象クラスの未ターゲットクラスのロジットマージンに重点を置いており、ロジットの標準偏差を無視している。 対照的に,ロジットマージンと標準偏差を共同で検討する正規化ロジット校正法を導入する。 このアプローチはロジットを効果的に校正し、ターゲットの転送可能性を高める。 第2に、前回の研究では、最適化中にクリーンサンプルの特徴を混合することで、転送可能性を大幅に向上させることを示した。 これに基づいて、ソーストレーニングモデルの影響を低減し、さらなる改善をもたらすために、切り離された特徴混合法をさらに検討する。 クリーンサンプルの高レベルな畳み込み層から分解された最大の特異値に関連するランク1特徴を除去することにより、切り詰められた特徴を判定する。 ImageNet-CompatibleとCIFAR-10データセットで実施された大規模な実験は、提案した2つのコンポーネントの個人的および相互利益を実証する。

This paper aims to enhance the transferability of adversarial samples in targeted attacks, where attack success rates remain comparatively low. To achieve this objective, we propose two distinct techniques for improving the targeted transferability from the loss and feature aspects. First, in previous approaches, logit calibrations used in targeted attacks primarily focus on the logit margin between the targeted class and the untargeted classes among samples, neglecting the standard deviation of the logit. In contrast, we introduce a new normalized logit calibration method that jointly considers the logit margin and the standard deviation of logits. This approach effectively calibrates the logits, enhancing the targeted transferability. Second, previous studies have demonstrated that mixing the features of clean samples during optimization can significantly increase transferability. Building upon this, we further investigate a truncated feature mixing method to reduce the impact of the source training model, resulting in additional improvements. The truncated feature is determined by removing the Rank-1 feature associated with the largest singular value decomposed from the high-level convolutional layers of the clean sample. Extensive experiments conducted on the ImageNet-Compatible and CIFAR-10 datasets demonstrate the individual and mutual benefits of our proposed two components, which outperform the state-of-the-art methods by a large margin in black-box targeted attacks.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# 映像品質向上のための圧縮強化深部構造ネットワーク

Compression-Realized Deep Structural Network for Video Quality Enhancement ( http://arxiv.org/abs/2405.06342v1 )

ライセンス: Link先を確認
Hanchi Sun, Xiaohong Liu, Xinyang Jiang, Yifei Shen, Dongsheng Li, Xiongkuo Min, Guangtao Zhai, (参考訳) 本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。 ディープネットワークベースのビデオレコーダは目覚ましい進歩を遂げるが、既存の手法の多くは圧縮コーデックの事前処理を最適に活用するための構造化設計を欠いている。 ビデオの品質劣化は主に圧縮アルゴリズムによって引き起こされるため、より「意識的な」品質向上プロセスのためには、新しいパラダイムが緊急に必要となる。 その結果,従来の圧縮コーデックの3つの主要なプロセスに整合した3つの帰納的バイアスを導入し,従来のエンコーダアーキテクチャの強みと深いネットワーク機能とを融合するCRDS(Compression-Realize Deep Structure Network)を提案する。 コーデック内の残差抽出およびドメイン変換プロセスにインスパイアされ、ビデオフレームを潜在特徴空間に変換するために事前訓練された遅延分解残差自動エンコーダが提案され、各近傍の注意機構が正確な動き推定と残差抽出のために統合される。 さらに、コーデックの量子化雑音分布からインスピレーションを得たCRDSは、品質向上を一連の簡易な減音サブタスクに分解する中間監督型プログレッシブ・デノナイジング・フレームワークを提案する。 LDV 2.0やMFQE 2.0のようなデータセットの実験結果は、我々のアプローチが最先端のモデルを上回ることを示している。

This paper focuses on the task of quality enhancement for compressed videos. Although deep network-based video restorers achieve impressive progress, most of the existing methods lack a structured design to optimally leverage the priors within compression codecs. Since the quality degradation of the video is primarily induced by the compression algorithm, a new paradigm is urgently needed for a more "conscious" process of quality enhancement. As a result, we propose the Compression-Realize Deep Structural Network (CRDS), introducing three inductive biases aligned with the three primary processes in the classic compression codec, merging the strengths of classical encoder architecture with deep network capabilities. Inspired by the residual extraction and domain transformation process in the codec, a pre-trained Latent Degradation Residual Auto-Encoder is proposed to transform video frames into a latent feature space, and the mutual neighborhood attention mechanism is integrated for precise motion estimation and residual extraction. Furthermore, drawing inspiration from the quantization noise distribution of the codec, CRDS proposes a novel Progressive Denoising framework with intermediate supervision that decomposes the quality enhancement into a series of simpler denoising sub-tasks. Experimental results on datasets like LDV 2.0 and MFQE 2.0 indicate our approach surpasses state-of-the-art models.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# 空間周波数領域における対向ロバスト性の評価

Evaluating Adversarial Robustness in the Spatial Frequency Domain ( http://arxiv.org/abs/2405.06345v1 )

ライセンス: Link先を確認
Keng-Hsin Liao, Chin-Yuan Yeh, Hsi-Wen Chen, Ming-Syan Chen, (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンタスクの大部分を占めてきた。 しかし、CNNの敵攻撃に対する脆弱性は、これらのモデルを安全クリティカルなアプリケーションにデプロイすることを懸念している。 対照的に、空間周波数チャネルを用いて視覚信号を処理するヒューマン・ビジュアル・システム(HVS)は、敵の攻撃に対して免疫を持つ。 そこで本研究では,周波数領域におけるCNNモデルの脆弱性を探索する実験的検討を行った。 具体的には、離散コサイン変換(DCT)を用いて、空間周波数(SF)層を構築し、入力画像のブロックワイド周波数スペクトルを生成し、広く使用されているCNNバックボーンの初期特徴抽出層をSF層に置き換えて、空間周波数CNN(SF-CNN)を定式化する。 大規模な実験により、SF-CNNモデルは、ホワイトボックスとブラックボックスの両方の攻撃下でのCNNモデルよりも堅牢であることがわかった。 SF-CNNのロバスト性をさらに説明するために、SF-CNNの低周波成分がSF-CNNの対向ロバスト性に最も寄与することを示すために、2つの混合戦略を用いて、SF層とトレーニング可能な畳み込み層を同一のカーネルサイズで比較した。 我々の観測は、堅牢なCNNモデルの将来の設計を導くことができると信じている。

Convolutional Neural Networks (CNNs) have dominated the majority of computer vision tasks. However, CNNs' vulnerability to adversarial attacks has raised concerns about deploying these models to safety-critical applications. In contrast, the Human Visual System (HVS), which utilizes spatial frequency channels to process visual signals, is immune to adversarial attacks. As such, this paper presents an empirical study exploring the vulnerability of CNN models in the frequency domain. Specifically, we utilize the discrete cosine transform (DCT) to construct the Spatial-Frequency (SF) layer to produce a block-wise frequency spectrum of an input image and formulate Spatial Frequency CNNs (SF-CNNs) by replacing the initial feature extraction layers of widely-used CNN backbones with the SF layer. Through extensive experiments, we observe that SF-CNN models are more robust than their CNN counterparts under both white-box and black-box attacks. To further explain the robustness of SF-CNNs, we compare the SF layer with a trainable convolutional layer with identical kernel sizes using two mixing strategies to show that the lower frequency components contribute the most to the adversarial robustness of SF-CNNs. We believe our observations can guide the future design of robust CNN models.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# Akal Badi ya Bias:ヒンディー語技術におけるジェンダーバイアスの探索的研究

Akal Badi ya Bias: An Exploratory Study of Gender Bias in Hindi Language Technology ( http://arxiv.org/abs/2405.06346v1 )

ライセンス: Link先を確認
Rishav Hada, Safiya Husain, Varun Gumma, Harshita Diddee, Aditya Yadavalli, Agrima Seth, Nidhi Kulkarni, Ujwal Gadiraju, Aditya Vashistha, Vivek Seshadri, Kalika Bali, (参考訳) ジェンダーバイアスの測定と緩和に関する既存の研究は、主に英語に焦点を当てており、非英語言語やグローバル・サウスによって引き起こされる複雑な課題を見越している。 本稿では,ヒンディー語におけるジェンダーバイアスの微妙な景観について,世界第3位の言語である,初めて包括的研究を行った。 本研究は, 種々の鉱業技術, 計算モデル, フィールド研究を応用し, 現状の方法論の限界に光を当てる。 既存の手法を用いてヒンディー語における性別偏見文の抽出に直面する課題を考慮し,このような文の収集をブートストラップするフィールドスタディを実施した。 田園部・低所得地域女性を対象としたフィールドスタディを通じて,ジェンダーバイアスの多様な認識を明らかにするとともに,文脈依存的アプローチの必要性を浮き彫りにした。 本稿では,コミュニティ中心の研究デザインを提唱する。 我々の発見はヒンディー語におけるジェンダーバイアスの理解に寄与するだけでなく、インド語のさらなる探究の基盤も確立している。 この未調査の文脈の複雑さを探求することで、私たちは、グローバル・ノースを超えた言語的・文化的文脈におけるインクリシティとエクイティの促進を、ジェンダーバイアスとの思慮深い関わりを求める。

Existing research in measuring and mitigating gender bias predominantly centers on English, overlooking the intricate challenges posed by non-English languages and the Global South. This paper presents the first comprehensive study delving into the nuanced landscape of gender bias in Hindi, the third most spoken language globally. Our study employs diverse mining techniques, computational models, field studies and sheds light on the limitations of current methodologies. Given the challenges faced with mining gender biased statements in Hindi using existing methods, we conducted field studies to bootstrap the collection of such sentences. Through field studies involving rural and low-income community women, we uncover diverse perceptions of gender bias, underscoring the necessity for context-specific approaches. This paper advocates for a community-centric research design, amplifying voices often marginalized in previous studies. Our findings not only contribute to the understanding of gender bias in Hindi but also establish a foundation for further exploration of Indic languages. By exploring the intricacies of this understudied context, we call for thoughtful engagement with gender bias, promoting inclusivity and equity in linguistic and cultural contexts beyond the Global North.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# KeepOriginal Augment: 単一イメージベースの優れた情報保存データ拡張アプローチ

KeepOriginalAugment: Single Image-based Better Information-Preserving Data Augmentation Approach ( http://arxiv.org/abs/2405.06354v1 )

ライセンス: Link先を確認
Teerath Kumar, Alessandra Mileo, Malika Bendechache, (参考訳) 高度な画像データ拡張技術は、多様なコンピュータビジョンタスクのためのモデルのトレーニングを強化する上で重要な役割を果たす。 特に、SalfMixとKeepAugmentは一般的な戦略として登場し、モデルパフォーマンスを向上させる効果を示している。 しかし、SalfMixは有能な機能の重複に頼っているため、過度に適合するリスクがあり、モデルの一般化能力を損なう可能性がある。 逆に、KeepAugmentは、正常なリージョンを選択的に保存し、非正則なリージョンを拡張し、重要なコンテキスト情報の交換を妨げるドメインシフトを導入し、全体的なモデル理解を妨げる。 これらの課題に対応するために、新しいデータ拡張アプローチであるKeepOriginalAugmentを紹介します。 この方法は、非塩分領域内で最も健全な領域をインテリジェントに組み込んでおり、どちらの領域にも拡張が適用できる。 データの多様性と情報保存のバランスを保ちながら、KeepOriginalAugmentは、さまざまな正当性と非正当性の両方をモデルに活用することで、パフォーマンスの向上を実現している。 本研究は, 極小, 最大, ランダムな領域配置を決定するための3つの戦略を探索し, 視点交換戦略を検証し, どちらの部分(塩分, 非塩分)が増大するかを判断する。 CIFAR-10, CIFAR-100, TinyImageNetなどの分類データセットを用いて, 既存の最先端技術と比較して, KeepOriginalAugmentの優れた性能を示した。

Advanced image data augmentation techniques play a pivotal role in enhancing the training of models for diverse computer vision tasks. Notably, SalfMix and KeepAugment have emerged as popular strategies, showcasing their efficacy in boosting model performance. However, SalfMix reliance on duplicating salient features poses a risk of overfitting, potentially compromising the model's generalization capabilities. Conversely, KeepAugment, which selectively preserves salient regions and augments non-salient ones, introduces a domain shift that hinders the exchange of crucial contextual information, impeding overall model understanding. In response to these challenges, we introduce KeepOriginalAugment, a novel data augmentation approach. This method intelligently incorporates the most salient region within the non-salient area, allowing augmentation to be applied to either region. Striking a balance between data diversity and information preservation, KeepOriginalAugment enables models to leverage both diverse salient and non-salient regions, leading to enhanced performance. We explore three strategies for determining the placement of the salient region minimum, maximum, or random and investigate swapping perspective strategies to decide which part (salient or non-salient) undergoes augmentation. Our experimental evaluations, conducted on classification datasets such as CIFAR-10, CIFAR-100, and TinyImageNet, demonstrate the superior performance of KeepOriginalAugment compared to existing state-of-the-art techniques.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# CRATOR:ダークウェブクローラー

CRATOR: a Dark Web Crawler ( http://arxiv.org/abs/2405.06356v1 )

ライセンス: Link先を確認
Daniel De Pascale, Giuseppe Cascavilla, Damian A. Tamburri, Willem-Jan Van Den Heuvel, (参考訳) ダークウェブクローリングは、Torネットワークをナビゲートし、隠されたサービスからデータを抽出する特定の方法論とテクニックを含む複雑なプロセスである。 本研究では,キャプチャなどのセキュリティプロトコルを扱うページを効率的に抽出するための一般的なダークウェブクローラを提案する。 我々のアプローチでは、シードURLリスト、リンク分析、スキャンを組み合わせて新しいコンテンツを見つけます。 また、匿名性を維持し、検出を避けるために、ユーザエージェントの回転とプロキシの使用法も取り入れた。 カバレッジや性能,堅牢性といった指標を用いて,クローラの有効性を評価した。 その結果,クローラはセキュリティプロトコルを扱うページを効果的に抽出し,匿名性を維持しながら検出を回避することができた。 提案したダークウェブクローラは、脅威情報、サイバーセキュリティ、オンライン調査など、さまざまなアプリケーションに使用することができる。

Dark web crawling is a complex process that involves specific methodologies and techniques to navigate the Tor network and extract data from hidden services. This study proposes a general dark web crawler designed to extract pages handling security protocols, such as captchas, efficiently. Our approach uses a combination of seed URL lists, link analysis, and scanning to discover new content. We also incorporate methods for user-agent rotation and proxy usage to maintain anonymity and avoid detection. We evaluate the effectiveness of our crawler using metrics such as coverage, performance and robustness. Our results demonstrate that our crawler effectively extracts pages handling security protocols while maintaining anonymity and avoiding detection. Our proposed dark web crawler can be used for various applications, including threat intelligence, cybersecurity, and online investigations.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# ベルサンプリングを超えて:安定化状態学習と量子擬似ランダム性の下界

Beyond Bell sampling: stabilizer state learning and quantum pseudorandomness lower bounds on qudits ( http://arxiv.org/abs/2405.06357v1 )

ライセンス: Link先を確認
Jonathan Allcock, Joao F. Doriguello, Gábor Ivanyos, Miklos Santha, (参考訳) ベルサンプリングは単純だが強力な測定プリミティブであり、最近多くの注目を集めており、安定化剤の研究において貴重なツールであることが証明されている。 しかし残念なことに、$d>2$のqu\emph{d}itsでベルサンプリングが使われると失敗することが知られている。 本稿では,キュディット上でのベルサンプリングの限界を探索し,量子アルゴリズムを用いて2つの重要な問題である安定化状態の学習と,キュディット上での擬似ランダム性の下限の提供を行う。 より具体的には、我々はベルサンプリングに対応する出力分布を安定化器状態のコピーに特徴付け、出力が一様ランダムであることを示す。 2つ目の結果として、$d=p$素数に対して、未知の安定化状態を$(\mathbb{C}^p)^{\otimes n}$で識別する量子アルゴリズムを考案し、入力状態のコピーを$O(n)$とし、時間$O(n^4)$で実行する。 3つ目の結果として、Haar-random状態と非無視可能な安定化器忠実度を持つ状態とを効率的に区別する量子アルゴリズムを提供する。 座標系として、$O(\log{n}/\log{d})$ $O(\log{n}/\log{d})$$ クリフォード単量子ゲートの任意のクリフォード回路は、計算的に擬似ランダムな量子状態を作成することができない。

Bell sampling is a simple yet powerful measurement primitive that has recently attracted a lot of attention, and has proven to be a valuable tool in studying stabiliser states. Unfortunately, however, it is known that Bell sampling fails when used on qu\emph{d}its of dimension $d>2$. In this paper, we explore and quantify the limitations of Bell sampling on qudits, and propose new quantum algorithms to circumvent the use of Bell sampling in solving two important problems: learning stabiliser states and providing pseudorandomness lower bounds on qudits. More specifically, as our first result, we characterise the output distribution corresponding to Bell sampling on copies of a stabiliser state and show that the output can be uniformly random, and hence reveal no information. As our second result, for $d=p$ prime we devise a quantum algorithm to identify an unknown stabiliser state in $(\mathbb{C}^p)^{\otimes n}$ that uses $O(n)$ copies of the input state and runs in time $O(n^4)$. As our third result, we provide a quantum algorithm that efficiently distinguishes a Haar-random state from a state with non-negligible stabiliser fidelity. As a corollary, any Clifford circuit on qudits of dimension $d$ using $O(\log{n}/\log{d})$ auxiliary non-Clifford single-qudit gates cannot prepare computationally pseudorandom quantum states.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# マドルング力学と超振動

Madelung Mechanics and Superoscillations ( http://arxiv.org/abs/2405.06358v1 )

ライセンス: Link先を確認
Mordecai Waegell, (参考訳) 単粒子マドルング力学において、単粒子量子状態 $\Psi(\vec{x},t) = R(\vec{x},t) e^{iS(\vec{x},t)/\hbar}$ は局所密度 $R(\vec{x},t)^2$ と局所運動量 $\vec{\nabla}S(\vec{x},t)$ (ここで$R$と$S$は実数である)で、古典的な点粒子の保存された流体全体からなるものとして解釈される。 Schr\"{o}dinger 方程式は流体の連続性方程式を生み出し、この流体の粒子に対するハミルトン・ヤコビ方程式は新たな密度依存量子ポテンシャルエネルギー項 $Q(\vec{x},t) = -\frac{\hbar^2}{2m}\frac {\vec{\nabla}R(\vec{x},t)}{R(\vec{x},t)}$を含む。 特に、量子ポテンシャルは負となり、運動エネルギーの非古典的な加速を生み出す。 この上昇は波動関数の超振動と関連しており、局所周波数の$\Psi$はその大域帯域限界を超える。 ベリーは、定エネルギー$E$の場合、超振動領域はちょうど$Q(\vec{x},t)<0$の領域であることを示した。 帯域制限$E_+$のエネルギー重畳状態の場合、状況は少し複雑であり、境界はもはや$Q(\vec{x},t)<0$ではない。 しかし、流体モデルは、各流体粒子に対して一定の局所エネルギーを与え、超振動の局所帯域制限を定義することができ、この定義により、超振動のすべての領域は、一般重ね合わせに対して$Q(\vec{x},t)<0$の領域である。 詳細な例は、様々なシナリオにおける量子ポテンシャルと超振動の役割を示すものである。

In single-particle Madelung mechanics, the single-particle quantum state $\Psi(\vec{x},t) = R(\vec{x},t) e^{iS(\vec{x},t)/\hbar}$ is interpreted as comprising an entire conserved fluid of classical point particles, with local density $R(\vec{x},t)^2$ and local momentum $\vec{\nabla}S(\vec{x},t)$ (where $R$ and $S$ are real). The Schr\"{o}dinger equation gives rise to the continuity equation for the fluid, and the Hamilton-Jacobi equation for particles of the fluid, which includes a new density-dependent quantum potential energy term $Q(\vec{x},t) = -\frac{\hbar^2}{2m}\frac{\vec{\nabla}R(\vec{x},t)}{R(\vec{x},t)}$, which is all that makes the fluid behavior nonclassical. In particular, the quantum potential can become negative and create a nonclassical boost in the kinetic energy. This boost is related to superoscillations in the wavefunction, where the local frequency of $\Psi$ exceeds its global band limit. Berry showed that for states of definite energy $E$, the regions of superoscillation are exactly the regions where $Q(\vec{x},t)<0$. For energy superposition states with band-limit $E_+$, the situation is slightly more complicated, and the bound is no longer $Q(\vec{x},t)<0$. However, the fluid model provides a definite local energy for each fluid particle which allows us to define a local band limit for superoscillation, and with this definition, all regions of superoscillation are again regions where $Q(\vec{x},t)<0$ for general superpositions. Detailed examples are given which illustrate the role of the quantum potential and superoscillations in a range of scenarios.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# 量子クリロフ部分空間法に基づく線形解法

Quantum Krylov-Subspace Method Based Linear Solver ( http://arxiv.org/abs/2405.06359v1 )

ライセンス: Link先を確認
Rui-Bin Xu, Zhu-Jun Zheng, Zheng Zheng, (参考訳) 単項演算子の線形結合を利用したフーリエ法を導入したChildsらによるHarrow-Hassidim-Lloydアルゴリズムの強化は成功したが,本手法では非自明な冗長性が確認された。 この発見は、改良のかなりの可能性を示唆している。 本稿では,量子Krylov-subspace法(QKSM)を提案する。 QKSMをサブルーチンとして統合することにより、量子クリロフ部分空間法に基づく線形解法を導入し、計算冗長性を低減できるだけでなく、効率と精度も向上する。 次元が 2^{10} \times 2^{10}$ のシステムで大規模な数値実験が行われ、計算資源の大幅な削減が示され、より正確な近似が導かれた。

Despite the successful enhancement to the Harrow-Hassidim-Lloyd algorithm by Childs et al., who introduced the Fourier approach leveraging linear combinations of unitary operators, our research has identified non-trivial redundancies within this method. This finding points to a considerable potential for refinement. In this paper, we propose the quantum Krylov-subspace method (QKSM), which is a hybrid classical-quantum algorithm, to mitigate such redundancies. By integrating QKSM as a subroutine, we introduce the quantum Krylov-subspace method based linear solver that not only reduces computational redundancy but also enhances efficiency and accuracy. Extensive numerical experiments, conducted on systems with dimensions up to $2^{10} \times 2^{10}$, have demonstrated a significant reduction in computational resources and have led to more precise approximations.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions

Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions ( http://arxiv.org/abs/2405.06361v1 )

ライセンス: Link先を確認
Fan Wang, Adams Wai-Kin Kong, (参考訳) モデル属性は、モデル予測の背後にある理論的根拠を説明する一般的なツールである。 しかし、最近の研究では、属性は微小摂動に弱いことが示唆されており、入力サンプルに追加することで、予測出力を維持しながら属性を騙すことができる。 実証的研究は, 対人訓練を通じて肯定的な成績を示したが, 属性の堅牢性を理解するためには, 効果的な防御方法が必要である。 本研究では,ある空間から一様にサンプリングされた雑音によってバニラ属性を増大させる一様平滑化手法を提案する。 攻撃領域内の全ての摂動に対して、摂動試料の均一なスムーズな属性と非摂動試料とのコサイン類似性を低くすることが保証された。 また、元のものと同等の証明の別の定式化を導き、摂動の最大サイズや最小平滑半径を提供して、帰属が摂動できないようにする。 提案手法を3つのデータセット上で評価し,ネットワークのアーキテクチャ,トレーニングスキーム,データセットのサイズに関わらず,提案手法が攻撃からの属性を効果的に保護できることを示す。

Model attribution is a popular tool to explain the rationales behind model predictions. However, recent work suggests that the attributions are vulnerable to minute perturbations, which can be added to input samples to fool the attributions while maintaining the prediction outputs. Although empirical studies have shown positive performance via adversarial training, an effective certified defense method is eminently needed to understand the robustness of attributions. In this work, we propose to use uniform smoothing technique that augments the vanilla attributions by noises uniformly sampled from a certain space. It is proved that, for all perturbations within the attack region, the cosine similarity between uniformly smoothed attribution of perturbed sample and the unperturbed sample is guaranteed to be lower bounded. We also derive alternative formulations of the certification that is equivalent to the original one and provides the maximum size of perturbation or the minimum smoothing radius such that the attribution can not be perturbed. We evaluate the proposed method on three datasets and show that the proposed method can effectively protect the attributions from attacks, regardless of the architecture of networks, training schemes and the size of the datasets.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# 畳み込みによる予測:連続空間MDPにおける強化学習のための最適サンプル複雑度

Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs ( http://arxiv.org/abs/2405.06363v1 )

ライセンス: Link先を確認
Davide Maran, Alberto Maria Metelli, Matteo Papini, Marcello Restelli, (参考訳) ベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて、$\varepsilon$-optimal Policyを学習する問題を考察する。 生成モデルへのアクセスを前提として、直交三角多項式を特徴とする最小二乗値反復の簡単なemph{perturbed}バージョンを実行することで、レート最適サンプル複雑性を実現する。 我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。 我々の~$\widetilde{\mathcal{O}}(\epsilon^{-2-d/(\nu+1)})$サンプル複雑性、$d$は状態-作用空間の次元であり、$\nu$は滑らか性の順序であり、リプシッツ MDPs の特殊ケースに対する離散化アプローチの最先端の結果を回復する。 同時に、$\nu\to\infty$ は $\mathcal{O}(\epsilon^{-2})$ の低ランク MDP を復元し、非常に一般化する。 この意味で、我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。

We consider the problem of learning an $\varepsilon$-optimal policy in a general class of continuous-space Markov decision processes (MDPs) having smooth Bellman operators. Given access to a generative model, we achieve rate-optimal sample complexity by performing a simple, \emph{perturbed} version of least-squares value iteration with orthogonal trigonometric polynomials as features. Key to our solution is a novel projection technique based on ideas from harmonic analysis. Our~$\widetilde{\mathcal{O}}(\epsilon^{-2-d/(\nu+1)})$ sample complexity, where $d$ is the dimension of the state-action space and $\nu$ the order of smoothness, recovers the state-of-the-art result of discretization approaches for the special case of Lipschitz MDPs $(\nu=0)$. At the same time, for $\nu\to\infty$, it recovers and greatly generalizes the $\mathcal{O}(\epsilon^{-2})$ rate of low-rank MDPs, which are more amenable to regression approaches. In this sense, our result bridges the gap between two popular but conflicting perspectives on continuous-space MDPs.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# コヒーレントドライブと非コヒーレントドライブを用いたオープン2量子系のフォン・ノイマンエントロピーの制御

Control of the von Neumann Entropy for an Open Two-Qubit System Using Coherent and Incoherent Drives ( http://arxiv.org/abs/2405.06365v1 )

ライセンス: Link先を確認
Oleg Morzhin, Alexander Pechen, (参考訳) 本稿では、時間依存デコヒーレンス率を誘導するコヒーレント制御と非コヒーレント制御を備えた開2量子ビット系のフォン・ノイマンエントロピー$S(\rho(t))$を操作するためのアプローチを開発することに専念する。 以下の目標が検討されている。 (a)最後のエントロピーを最小化または最大化する$S(\rho(T))$; (b)所定の目標値に対して$S(\rho(T))$を操縦すること。 (c) $S(\rho(T))$を目標値にステアリングし、所定の時間間隔で$S(\rho(t))$定数を保つために、ポイントワイズ状態制約である$S(\rho(t)) \leq \overline{S}$を満足する。 コヒーレントかつ非コヒーレントな制御を含むゴリーニ-コサコフスキー-スダルシャン-リンドブラッド型マスター方程式によって決定されるマルコフ力学の下では、目的関数の特異性を考慮して、1段階と2段階の勾配予測法と遺伝的アルゴリズムが適応されている。 対応する数値結果が提供され、議論される。

This article is devoted to developing an approach for manipulating the von Neumann entropy $S(\rho(t))$ of an open two-qubit system with coherent control and incoherent control inducing time-dependent decoherence rates. The following goals are considered: (a) minimizing or maximizing the final entropy $S(\rho(T))$; (b) steering $S(\rho(T))$ to a given target value; (c) steering $S(\rho(T))$ to a target value and satisfying the pointwise state constraint $S(\rho(t)) \leq \overline{S}$ for a given $\overline{S}$; (d) keeping $S(\rho(t))$ constant at a given time interval. Under the Markovian dynamics determined by a Gorini--Kossakowski--Sudarshan--Lindblad type master equation, which contains coherent and incoherent controls, one- and two-step gradient projection methods and genetic algorithm have been adapted, taking into account the specifics of the objective functionals. The corresponding numerical results are provided and discussed.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# DP-DyLoRA:動的低ランク適応を用いた個人差分学習環境下での微調整トランスフォーマーモデル

DP-DyLoRA: Fine-Tuning Transformer-Based Models On-Device under Differentially Private Federated Learning using Dynamic Low-Rank Adaptation ( http://arxiv.org/abs/2405.06368v1 )

ライセンス: Link先を確認
Jie Xu, Karthikeyan Saravanan, Rogier van Dalen, Haaris Mehmood, David Tuckey, Mete Ozay, (参考訳) フェデレートラーニング(FL)により、IoT(Internet of Things)システムのクライアントは、ローカルデータをサーバと共有することなく、グローバルモデルを協調的にトレーニングすることができる。 しかし、サーバへのクライアントのコントリビューションは機密情報を漏洩させる可能性がある。 差分プライバシ(DP)は、クライアントのコントリビューションにランダム性を加えるメカニズムを備えた、正式なプライバシ保証を提供することによって、そのようなリークに対処する。 このランダム性により、現代のIoTシステムで一般的な大きなトランスフォーマーベースのモデルをトレーニングすることは不可能になる。 本研究では,フェデレート学習システムにおいて,差分プライバシを持つデバイス上での大規模トランスフォーマーモデルの実現性を実証的に評価する。 我々は、音声認識、コンピュータビジョン(CV)、自然言語理解(NLU)など、多分野にわたるタスクに対して、様々なシステム特性に関する包括的な実験を行う。 この結果から,DP-FLによる完全微調整は,パラメータ効率のよい微調整(PEFT)による寄与の次元性を低減し,大きな性能劣化をもたらすことが示唆された。 既存のDP-PEFT手法のベンチマークでは,DP-Low-Rank Adaptation (DP-LoRA) が他の手法より一貫して優れていることが示された。 さらに有望なアプローチであるDyLoRAは、FLと鼻で組み合わせることで、直接差分プライバシーを損なう。 そこで本研究では,差分プライバシーと組み合わせてDP-DyLoRAと呼ぶ適応手法を提案する。 最後に、DPによる精度劣化と単語誤り率(WER)の増加を、それぞれ100万のクライアントと厳しいプライバシー予算である {\epsilon}=2で2%未満と7%に削減することができる。

Federated learning (FL) allows clients in an Internet of Things (IoT) system to collaboratively train a global model without sharing their local data with a server. However, clients' contributions to the server can still leak sensitive information. Differential privacy (DP) addresses such leakage by providing formal privacy guarantees, with mechanisms that add randomness to the clients' contributions. The randomness makes it infeasible to train large transformer-based models, common in modern IoT systems. In this work, we empirically evaluate the practicality of fine-tuning large scale on-device transformer-based models with differential privacy in a federated learning system. We conduct comprehensive experiments on various system properties for tasks spanning a multitude of domains: speech recognition, computer vision (CV) and natural language understanding (NLU). Our results show that full fine-tuning under differentially private federated learning (DP-FL) generally leads to huge performance degradation which can be alleviated by reducing the dimensionality of contributions through parameter-efficient fine-tuning (PEFT). Our benchmarks of existing DP-PEFT methods show that DP-Low-Rank Adaptation (DP-LoRA) consistently outperforms other methods. An even more promising approach, DyLoRA, which makes the low rank variable, when naively combined with FL would straightforwardly break differential privacy. We therefore propose an adaptation method that can be combined with differential privacy and call it DP-DyLoRA. Finally, we are able to reduce the accuracy degradation and word error rate (WER) increase due to DP to less than 2% and 7% respectively with 1 million clients and a stringent privacy budget of {\epsilon}=2.
翻訳日:2024-05-13 16:07:56 公開日:2024-05-10
# ソフトウェア開発におけるAIアシスタントの利用 - セキュリティプラクティスと懸念に関する質的研究

Using AI Assistants in Software Development: A Qualitative Study on Security Practices and Concerns ( http://arxiv.org/abs/2405.06371v1 )

ライセンス: Link先を確認
Jan H. Klemmer, Stefan Albert Horstmann, Nikhil Patnaik, Cordelia Ludden, Cordell Burton Jr, Carson Powers, Fabio Massacci, Akond Rahman, Daniel Votipka, Heather Richter Lipford, Awais Rashid, Alena Naiakshina, Sascha Fahl, (参考訳) OpenAIのChatGPTやGitHub Copilotといった最近のAIアシスタントのリリースに続いて、ソフトウェア産業は、これらのツールをソフトウェア開発タスク、例えばコードの生成、アドバイスのためのAIコンサルティングに急速に活用した。 最近の研究は、AI生成コードがセキュリティ問題を含むことを実証しているが、ソフトウェア専門家がAIアシスタントの使用とセキュリティのバランスをとる方法はまだ不明だ。 本稿では,ソフトウェアプロフェッショナルがセキュアなソフトウェア開発にAIアシスタントをどのように利用するか,セキュリティへの影響や考慮事項,セキュアなソフトウェア開発にどのような影響を与えるのかを検討する。 ソフトウェア技術者やチームリーダ,セキュリティテスタなど,ソフトウェアプロフェッショナルに対する27の半構造化インタビューを実施しました。 我々はまた、ソフトウェア開発のためのAIアシスタントを取り巻く現在の談話について、Redditの190件の投稿やコメントもレビューした。 インタビューとRedditの投稿の分析によると、多くのセキュリティと品質に関する懸念にもかかわらず、参加者は、セキュリティクリティカルなタスク、例えばコード生成、脅威モデリング、脆弱性検出にAIアシスタントを広く利用している。 彼らの全体的な不信は、人間のコードと同じような方法でAIの提案をチェックすることにつながる。 我々は、ソフトウェアプロフェッショナルに対して、AI提案を批判的にチェックする推奨、倫理的セキュリティタスクの推奨セキュリティと能力を改善するAIクリエーター、ソフトウェア開発における汎用AIを検討するための学術研究者を結論付けている。

Following the recent release of AI assistants, such as OpenAI's ChatGPT and GitHub Copilot, the software industry quickly utilized these tools for software development tasks, e.g., generating code or consulting AI for advice. While recent research has demonstrated that AI-generated code can contain security issues, how software professionals balance AI assistant usage and security remains unclear. This paper investigates how software professionals use AI assistants in secure software development, what security implications and considerations arise, and what impact they foresee on secure software development. We conducted 27 semi-structured interviews with software professionals, including software engineers, team leads, and security testers. We also reviewed 190 relevant Reddit posts and comments to gain insights into the current discourse surrounding AI assistants for software development. Our analysis of the interviews and Reddit posts finds that despite many security and quality concerns, participants widely use AI assistants for security-critical tasks, e.g., code generation, threat modeling, and vulnerability detection. Their overall mistrust leads to checking AI suggestions in similar ways to human code, although they expect improvements and, therefore, a heavier use for security tasks in the future. We conclude with recommendations for software professionals to critically check AI suggestions, AI creators to improve suggestion security and capabilities for ethical security tasks, and academic researchers to consider general-purpose AI in software development.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 関連性を有するIoTネットワークのためのインテリジェントデューティサイクル管理とウェイクアップ

Intelligent Duty Cycling Management and Wake-up for Energy Harvesting IoT Networks with Correlated Activity ( http://arxiv.org/abs/2405.06372v1 )

ライセンス: Link先を確認
David E. Ruíz-Guirola, Onel L. A. López, Samuel Montejo-Sánchez, Israel Leyva Mayorga, Zhu Han, Petar Popovski, (参考訳) 本稿では、IoTデバイス(IoTD)が動作を維持するためのエネルギー回収能力に完全に依存する、エネルギーニュートラルなモノのインターネット(IoT)シナリオに対するアプローチを提案する。 我々は,IoTDの動作状態と伝送状態を表現するためにマルコフチェーン,エネルギー回収過程をモデル化する変調ポアソンプロセス,電池状態をモデル化する離散時間マルコフチェーンを使用する。 目的は、IoTDのデューティサイクルを効率的に管理し、バッテリ寿命を長くし、低エネルギー可用性のインスタンスを減らすことである。 我々は、エネルギー効率と検出精度のトレードオフを打つことを目的とした、K近傍の近隣住民を対象としたデューティサイクル管理を提案する。 これは、IoTDの活動とエネルギー収穫能力の間に空間的および時間的相関を組み込むことによって行われる。 また、初期検出時にイベントに関する情報が必要であれば、基地局が特定のIoTDを起動することもできます。 提案手法は, 過誤検出確率の最大11倍, 高密度シナリオにおけるエネルギー消費量の50%を, ランダムなデューティサイクルベンチマークと比較し, 省エネと性能の大幅な向上を示した。

This paper presents an approach for energy-neutral Internet of Things (IoT) scenarios where the IoT devices (IoTDs) rely entirely on their energy harvesting capabilities to sustain operation. We use a Markov chain to represent the operation and transmission states of the IoTDs, a modulated Poisson process to model their energy harvesting process, and a discrete-time Markov chain to model their battery state. The aim is to efficiently manage the duty cycling of the IoTDs, so as to prolong their battery life and reduce instances of low-energy availability. We propose a duty-cycling management based on K- nearest neighbors, aiming to strike a trade-off between energy efficiency and detection accuracy. This is done by incorporating spatial and temporal correlations among IoTDs' activity, as well as their energy harvesting capabilities. We also allow the base station to wake up specific IoTDs if more information about an event is needed upon initial detection. Our proposed scheme shows significant improvements in energy savings and performance, with up to 11 times lower misdetection probability and 50\% lower energy consumption for high-density scenarios compared to a random duty cycling benchmark.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# LLMディスカッション: 議論フレームワークとロールプレイによる大規模言語モデルの創造性向上

LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play ( http://arxiv.org/abs/2405.06373v1 )

ライセンス: Link先を確認
Li-Chun Lu, Shou-Jen Chen, Tsung-Min Pai, Chan-Hung Yu, Hung-yi Lee, Shao-Hua Sun, (参考訳) 大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。 LLMクリエイティビティを高めるために、我々の重要な洞察は、多様な背景や視点から参加者と議論することで、集団クリエイティビティを誘発する人間のプロセスをエミュレートすることである。 そこで本研究では,アイデア交換の活発化と多様化を促進し,創造的回答への収束を保証する3段階の議論フレームワークであるLSM議論を提案する。 さらに,LLMの均一性と戦うために,異なる役割をLLMに割り当てることで,ロールプレイング手法を採用する。 提案手法の有効性を, LLM評価と人的学習の両面から評価し, 代替利用テスト, 類似性テスト, 事例試験, 科学的創造性テストを用いて評価した。 提案するフレームワークは,様々なクリエイティビティ指標において,シングルLLMアプローチや既存のマルチLLMフレームワークより優れています。

Large language models (LLMs) have shown exceptional proficiency in natural language processing but often fall short of generating creative and original responses to open-ended questions. To enhance LLM creativity, our key insight is to emulate the human process of inducing collective creativity through engaging discussions with participants from diverse backgrounds and perspectives. To this end, we propose LLM Discussion, a three-phase discussion framework that facilitates vigorous and diverging idea exchanges and ensures convergence to creative answers. Moreover, we adopt a role-playing technique by assigning distinct roles to LLMs to combat the homogeneity of LLMs. We evaluate the efficacy of the proposed framework with the Alternative Uses Test, Similarities Test, Instances Test, and Scientific Creativity Test through both LLM evaluation and human study. Our proposed framework outperforms single-LLM approaches and existing multi-LLM frameworks across various creativity metrics.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 熱適応物体検出モデルにおける大気乱流効果の増強法

How to Augment for Atmospheric Turbulence Effects on Thermal Adapted Object Detection Models? ( http://arxiv.org/abs/2405.06383v1 )

ライセンス: Link先を確認
Engin Uzun, Erdem Akagunduz, (参考訳) 大気の乱流は物体検出モデルの性能に重大な課題をもたらす。 乱流は、空気の屈折率の変化により、光線を曲げたり散乱させたりすることで、画像の歪み、ぼかし、ノイズを引き起こす。 これにより、光学系が受ける電磁放射の非剛性幾何学的歪みと時間的ゆらぎが生じる。 本稿では,大気乱流下での熱適応型および深層学習に基づく物体検出モデルの精度とロバスト性を向上させるために,乱流画像増強技術の有効性について検討する。 3つの異なる近似に基づく乱流シミュレータ(幾何学、Zernikeベース、P2S)を用いて、乱流トレーニングとテストデータセットを生成する。 RTMDet-x, DINO-4scale, YOLOv8-xの3つの最先端ディープラーニングに基づく物体検出モデルの性能は, トレーニング中に乱流を増大させることなくこれらの乱流データセットに使用される。 その結果, モデルトレーニングにおける乱流特性の増大は, 歪み画像に対する検出精度とロバスト性を大幅に向上させることが示唆された。 乱流増大は、非乱流試験セットにおいても性能を高める。

Atmospheric turbulence poses a significant challenge to the performance of object detection models. Turbulence causes distortions, blurring, and noise in images by bending and scattering light rays due to variations in the refractive index of air. This results in non-rigid geometric distortions and temporal fluctuations in the electromagnetic radiation received by optical systems. This paper explores the effectiveness of turbulence image augmentation techniques in improving the accuracy and robustness of thermal-adapted and deep learning-based object detection models under atmospheric turbulence. Three distinct approximation-based turbulence simulators (geometric, Zernike-based, and P2S) are employed to generate turbulent training and test datasets. The performance of three state-of-the-art deep learning-based object detection models: RTMDet-x, DINO-4scale, and YOLOv8-x, is employed on these turbulent datasets with and without turbulence augmentation during training. The results demonstrate that utilizing turbulence-specific augmentations during model training can significantly improve detection accuracy and robustness against distorted turbulent images. Turbulence augmentation enhances performance even for a non-turbulent test set.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 機能の強化と適応による継続的な新しいクラス発見

Continual Novel Class Discovery via Feature Enhancement and Adaptation ( http://arxiv.org/abs/2405.06389v1 )

ライセンス: Link先を確認
Yifan Yu, Shaokun Wang, Yuhang He, Junzhe Chen, Yihong Gong, (参考訳) CNCD(Continuous Novel Class Discovery)は,学習済みのクラスに対する認識能力を維持しつつ,ラベルのない新しいクラスを継続的に発見することを目的としている。 CNCDが直面している主な課題は、特徴差問題、セッション間混乱問題などである。 本稿では,CNCDにおける特徴強調適応手法を提案する。この手法は,ガイド・ツー・ノーベル・フレームワーク,セントロイド・トゥ・サンプレス類似性制約(CSS),境界対応プロトタイプ制約(BAP)から構成される。 より具体的には、ガイド・ツー・ノーベル・フレームワークは、事前配布の指導の下で、新しいクラスを継続的に発見するために確立されている。 その後、CSSは、異なるクラスのCentroid-to-Samples類似性の関係を制限し、新しいクラスの特徴の識別性を高めるように設計されている。 最後に、BAPは、インクリメンタルセッション中に他のクラスプロトタイプの位置を意識した新しいクラス機能と、共有機能空間に新しいクラス機能を適用することを提案する。 3つのベンチマークデータセットの実験結果は、特によりインクリメンタルなセッションを持つより困難なプロトコルにおいて、我々の手法の優位性を示している。

Continual Novel Class Discovery (CNCD) aims to continually discover novel classes without labels while maintaining the recognition capability for previously learned classes. The main challenges faced by CNCD include the feature-discrepancy problem, the inter-session confusion problem, etc. In this paper, we propose a novel Feature Enhancement and Adaptation method for the CNCD to tackle the above challenges, which consists of a guide-to-novel framework, a centroid-to-samples similarity constraint (CSS), and a boundary-aware prototype constraint (BAP). More specifically, the guide-to-novel framework is established to continually discover novel classes under the guidance of prior distribution. Afterward, the CSS is designed to constrain the relationship between centroid-to-samples similarities of different classes, thereby enhancing the distinctiveness of features among novel classes. Finally, the BAP is proposed to keep novel class features aware of the positions of other class prototypes during incremental sessions, and better adapt novel class features to the shared feature space. Experimental results on three benchmark datasets demonstrate the superiority of our method, especially in more challenging protocols with more incremental sessions.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# メモリモザイク

Memory Mosaics ( http://arxiv.org/abs/2405.06394v1 )

ライセンス: Link先を確認
Jianyu Zhang, Niklas Nolte, Ranajoy Sadhukhan, Beidi Chen, Léon Bottou, (参考訳) メモリモザイク(Memory Mosaics)は、関心の予測タスクを達成するために協力して働く連想記憶ネットワークである。 トランスと同様に、メモリモザイクは構成能力とコンテキスト内学習能力を持っている。 トランスとは異なり、メモリモザイクは比較的透過的な方法でこれらの能力を達成する。 これらの機能をおもちゃの例で示すとともに、中規模言語モデリングタスクにおけるトランスフォーマーよりもメモリモザイクが優れていることを示す。

Memory Mosaics are networks of associative memories working in concert to achieve a prediction task of interest. Like transformers, memory mosaics possess compositional capabilities and in-context learning capabilities. Unlike transformers, memory mosaics achieve these capabilities in comparatively transparent ways. We demonstrate these capabilities on toy examples and we also show that memory mosaics perform as well or better than transformers on medium-scale language modeling tasks.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 抽象推論コーパスのための帰納的論理プログラミングを用いたプログラム合成

Program Synthesis using Inductive Logic Programming for the Abstraction and Reasoning Corpus ( http://arxiv.org/abs/2405.06399v1 )

ライセンス: Link先を確認
Filipe Marinho Rocha, Inês Dutra, Vítor Santos Costa, (参考訳) Abstraction and Reasoning Corpus (ARC) は汎用人工知能ベンチマークであり、Large Language Models (LLMs)を含むあらゆる機械学習手法では未解決である。 ニューラルネットワークベースのシステムの弱点として知られる強力な一般化と推論機能を必要とする。 本研究では,シンボルAIの分岐であるインダクティブ論理プログラミング(ILP)を用いてARCを解くプログラム合成システムを提案する。 私たちは、ARCに関連する小さなオブジェクト中心の抽象セットに対応する、シンプルなドメイン特化言語(DSL)を手動で定義しました。 ILPがシステムに推論機能を提供するロジックプログラムを作成するために使用している背景知識です。 ILPはいくつかの例からLogic Program(s)を作成することができるので、完全なシステムは未確認のタスクに一般化することができる。 これらのロジックプログラムはアウトプットグリッドに存在するオブジェクトを生成することができ、これらを組み合わせることで、入力グリッドをアウトプットグリッドに変換する完全なプログラムを形成することができる。 我々は、実装したObjectプリミティブの少数以上を必要としないARCからいくつかのタスクをランダムに選択し、これらのみを前提として、このような異なる推論を必要とするタスクをシステムで解決できることを示しました。

The Abstraction and Reasoning Corpus (ARC) is a general artificial intelligence benchmark that is currently unsolvable by any Machine Learning method, including Large Language Models (LLMs). It demands strong generalization and reasoning capabilities which are known to be weaknesses of Neural Network based systems. In this work, we propose a Program Synthesis system that uses Inductive Logic Programming (ILP), a branch of Symbolic AI, to solve ARC. We have manually defined a simple Domain Specific Language (DSL) that corresponds to a small set of object-centric abstractions relevant to ARC. This is the Background Knowledge used by ILP to create Logic Programs that provide reasoning capabilities to our system. The full system is capable of generalize to unseen tasks, since ILP can create Logic Program(s) from few examples, in the case of ARC: pairs of Input-Output grids examples for each task. These Logic Programs are able to generate Objects present in the Output grid and the combination of these can form a complete program that transforms an Input grid into an Output grid. We randomly chose some tasks from ARC that dont require more than the small number of the Object primitives we implemented and show that given only these, our system can solve tasks that require each, such different reasoning.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 純粋状態を持つ関係複素時間からの統計力学

Statistical mechanics from relational complex time with a pure state ( http://arxiv.org/abs/2405.06401v1 )

ライセンス: Link先を確認
Sebastian Gemsheim, Jan M. Rost, (参考訳) 熱力学とその量子論は伝統的に統計アンサンブルで記述されている。 カノニカルな典型は、システムの大域的エネルギー固有状態の集合系とその濃度を分析する環境に関する関連する統計力学を持つ。 本研究では,システムと環境の関係的な複雑な時間進化を通じて,システムと環境の最大交絡状態から,エントロピーを最大化したり,状態をカウントしたりすることなく,システムの正準密度が現れることを示す。

Thermodynamics and its quantum counterpart are traditionally described with statistical ensembles. Canonical typicality has related statistical mechanics for a system to ensembles of global energy eigen- states of system and its environment analyzing their cardinality. We show that the canonical density for a system emerges from a maximally entangled global state of system and environment through relational complex time evolution between system and environment without the need to maximize the entropy or to count states.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# インクルーシブコンテンツは人種や性別の偏見を減らすが、非インクルーシブコンテンツは人気メディアを支配している

Inclusive content reduces racial and gender biases, yet non-inclusive content dominates popular media outlets ( http://arxiv.org/abs/2405.06404v1 )

ライセンス: Link先を確認
Nouar AlDahoul, Hazem Ibrahim, Minsu Park, Talal Rahwan, Yasir Zaki, (参考訳) イメージはしばしば知覚現実の表現として扱われる。 このように、人気のあるメディア画像における人種的偏見と性別的偏見は、人々の社会に対する認識を形作る上で重要な役割を果たす可能性がある。 このような偏見に関する調査は、異なる人種グループと性別グループが異なる形態のメディアに現れる頻度を調べてきたが、これらの集団が描写される方法をさらに調べる大規模な縦断的研究はいまだに欠けている。 このギャップを埋めるために,ファッション雑誌,ポスター,広告の3つのメディア形態を検討した。 そのために、50年以上にわたる30万以上の画像からなる大規模なデータセットを収集し、最先端の機械学習モデルを用いて、人種と性別を分類するだけでなく、各画像に特徴付けられる人物の姿勢、感情状態、身体構成を特定する。 人種的少数派は白人よりもはるかに頻度が低く、それらが現れると、顕著に描写されなくなり、より否定的な感情を伝達する傾向がある。 また、女性は全身をイメージで表現する傾向が強く、男性は顔で表現する傾向が強いこともわかりました。 この格差は、身体に対する顔の強調が、より高い能力と知性の知覚と結びついている、顔主義の例である。 最後に、一連の調査実験を通じて、人種的・性別的に均質なコンテンツよりも包括的コンテンツへの露出が、家計収入、雇用のメリット、美容基準、リーダーシップのポジション、職場における女性の表現といった分野におけるマイノリティに対する認知バイアスを著しく減少させることを示した。 まとめると、メディアにおける人種的偏見とジェンダー的偏見は、既存のステレオタイプを悪化させる可能性のある継続的な問題であることを示している。

Images are often termed as representations of perceived reality. As such, racial and gender biases in popular media imagery could play a vital role in shaping people's perceptions of society. While inquiries into such biases have examined the frequency at which different racial and gender groups appear in different forms of media, the literature still lacks a large-scale longitudinal study that further examines the manner in which these groups are portrayed. To fill this gap, we examine three media forms, namely fashion magazines, movie posters, and advertisements. To do so, we collect a large dataset comprising over 300,000 images spanning over five decades and utilize state-of-the-art machine learning models to not only classify race and gender but also identify the posture, emotional state, and body composition of the person featured in each image. We find that racial minorities appear far less frequently than their White counterparts, and when they do appear, they are portrayed less prominently and tend to convey more negative emotions. We also find that women are more likely to be portrayed with their full bodies in images, whereas men are more frequently presented with their faces. This disparity exemplifies face-ism, where emphasizing faces over bodies has been linked to perceptions of higher competence and intelligence. Finally, through a series of survey experiments, we show that exposure to inclusive content-rather than racially and gender-homogenized content -- significantly reduces perception biases towards minorities in areas such as household income, hiring merit, beauty standards, leadership positions, and the representation of women in the workplace. Taken together, our findings demonstrate that racial and gender biases in media continue to be an ongoing problem that may exacerbate existing stereotypes.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# I3DGS:複数次元からの3次元ガウス散乱の改善

I3DGS: Improve 3D Gaussian Splatting from Multiple Dimensions ( http://arxiv.org/abs/2405.06408v1 )

ライセンス: Link先を確認
Jinwei Lin, (参考訳) 3D Gaussian Splattingは、3Dビュー合成の新しい手法であり、従来のニューラルレンダリング技術よりも暗黙的なニューラルレンダリング結果が得られるが、より高精細な高速レンダリング速度を維持することができる。 しかし, 3D Gaussian Splatting の実用上, 十分高速な効率を実現することは依然として困難である。 この問題に対処するため、我々はI3DS、合成モデル性能改善評価ソリューション、実験試験を提案する。 元の3Dガウススプラッティングの多次元的・重要なレベルから,選択した各項目や構成要素が3Dガウススプラッティングモデルのトレーニング効率にどのように影響するかをテストするために,2000種類以上の実験を行った。 本稿では、モデルの異なる項目によるトレーニング、パフォーマンス、および影響について、豊富な、意味のある経験と方法を共有する。 ASCII符号化および復号機構を備えた、ベース95の特殊だが正常なInteger圧縮とベース94の浮動小数点圧縮を示す。 多くの実効性のある実験や実験結果や現象が記録される。 一連の合理的な微調整の後、I3DSは以前のものよりも優れたパフォーマンス向上を実現した。 プロジェクトコードはオープンソースとして公開されている。

3D Gaussian Splatting is a novel method for 3D view synthesis, which can gain an implicit neural learning rendering result than the traditional neural rendering technology but keep the more high-definition fast rendering speed. But it is still difficult to achieve a fast enough efficiency on 3D Gaussian Splatting for the practical applications. To Address this issue, we propose the I3DS, a synthetic model performance improvement evaluation solution and experiments test. From multiple and important levels or dimensions of the original 3D Gaussian Splatting, we made more than two thousand various kinds of experiments to test how the selected different items and components can make an impact on the training efficiency of the 3D Gaussian Splatting model. In this paper, we will share abundant and meaningful experiences and methods about how to improve the training, performance and the impacts caused by different items of the model. A special but normal Integer compression in base 95 and a floating-point compression in base 94 with ASCII encoding and decoding mechanism is presented. Many real and effective experiments and test results or phenomena will be recorded. After a series of reasonable fine-tuning, I3DS can gain excellent performance improvements than the previous one. The project code is available as open source.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# ニューラルネットワークイマジネーションの可視化

Visualizing Neural Network Imagination ( http://arxiv.org/abs/2405.06409v1 )

ライセンス: Link先を確認
Nevan Wichers, Victor Tao, Riccardo Volpato, Fazl Barez, (参考訳) ある状況では、ニューラルネットワークは、隠れたアクティベーションの環境状態を表現します。 私たちのゴールは、ネットワークが表現している環境を可視化することです。 終端にデコーダネットワークを備えたリカレントニューラルネットワーク(RNN)アーキテクチャを実験する。 トレーニング後、ネットワークの中間表現にデコーダを適用して、その表現を視覚化する。 定量的解釈可能性尺度を定義して,隠れた状態が簡単なタスクで高度に解釈可能であることを示す。 また,オートエンコーダと対角法を開発し,解釈可能性を示す。

In certain situations, neural networks will represent environment states in their hidden activations. Our goal is to visualize what environment states the networks are representing. We experiment with a recurrent neural network (RNN) architecture with a decoder network at the end. After training, we apply the decoder to the intermediate representations of the network to visualize what they represent. We define a quantitative interpretability metric and use it to demonstrate that hidden states can be highly interpretable on a simple task. We also develop autoencoder and adversarial techniques and show that benefit interpretability.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 構造化意味論の捕捉におけるLLMの可能性と限界:SRLを事例として

Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL ( http://arxiv.org/abs/2405.06410v1 )

ライセンス: Link先を確認
Ning Cheng, Zhaohui Yan, Ziming Wang, Zhijie Li, Jiaming Yu, Zilong Zheng, Kewei Tu, Jinan Xu, Wenjuan Han, (参考訳) 大きな言語モデル(LLM)は、言語理解を強化し、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。 それでも、LLMが構造化セマンティクスを把握できる範囲で論争が続いている。 これを評価するために,LLMが構造的意味論を抽出する能力を探索するための基本課題としてセマンティック・ロール・ラベルリング(SRL)を提案する。 評価では、プロンプトSRLと呼ばれる数発のSRLパーサの作成につながるプロンプトSRLを用いる。 PromptSRLにより、LLMは自然言語を明示的な意味構造にマッピングすることができ、LLMの特性に解釈可能なウィンドウを提供する。 LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。 さらに、LLMの制限はC-argumentsなどで観測される。 最後に、エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに驚きます。

Large Language Models (LLMs) play a crucial role in capturing structured semantics to enhance language understanding, improve interpretability, and reduce bias. Nevertheless, an ongoing controversy exists over the extent to which LLMs can grasp structured semantics. To assess this, we propose using Semantic Role Labeling (SRL) as a fundamental task to explore LLMs' ability to extract structured semantics. In our assessment, we employ the prompting approach, which leads to the creation of our few-shot SRL parser, called PromptSRL. PromptSRL enables LLMs to map natural languages to explicit semantic structures, which provides an interpretable window into the properties of LLMs. We find interesting potential: LLMs can indeed capture semantic structures, and scaling-up doesn't always mirror potential. Additionally, limitations of LLMs are observed in C-arguments, etc. Lastly, we are surprised to discover that significant overlap in the errors is made by both LLMs and untrained humans, accounting for almost 30% of all errors.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 量子アニーリングによるタービンバランシング問題の解法

Solving the Turbine Balancing Problem using Quantum Annealing ( http://arxiv.org/abs/2405.06412v1 )

ライセンス: Link先を確認
Arnold Unterauer, David Bucher, Matthias Knoll, Constantin Economides, Michael Lachner, Thomas Germain, Moritz Kessel, Smajo Hajdinovic, Jonas Stein, (参考訳) 量子コンピューティングは、特に材料科学と最適化において、多くの産業分野において破壊的な変化をもたらす可能性がある。 本稿では,タービン組立の1面におけるローターブレードの解析的バランスをとるNPハード最適化問題である,量子コンピューティングによるタービンバランス問題の解法について述べる。 小さいが関連するインスタンスは業界で発生し、初期の量子コンピューティングベンチマークではこの問題が興味深い。 擬似非拘束バイナリ最適化問題としてモデル化し、古典的規則に基づくヒューリスティックおよびD-Wave Systemsの量子アニールアドバンテージ_system4.1の性能を比較した。 このケーススタディでは、実世界と合成データセットを使用し、量子ハードウェアは、ソリューションの品質の観点から、ベアディスク不均衡の小さな問題インスタンスに対して、積極的に使用されるヒューリスティックのソリューションを著しく改善する。 この性能向上に動機づけられた我々は、その後、シミュレートされたアニールに基づく量子インスパイアされた古典的ヒューリスティックを設計し、与えられたすべての問題インスタンスに対して非常に良い結果をもたらす。

Quantum computing has the potential for disruptive change in many sectors of industry, especially in materials science and optimization. In this paper, we describe how the Turbine Balancing Problem can be solved with quantum computing, which is the NP-hard optimization problem of analytically balancing rotor blades in a single plane as found in turbine assembly. Small yet relevant instances occur in industry, which makes the problem interesting for early quantum computing benchmarks. We model it as a Quadratic Unconstrained Binary Optimization problem and compare the performance of a classical rule-based heuristic and D-Wave Systems' Quantum Annealer Advantage_system4.1. In this case study, we use real-world as well as synthetic datasets and observe that the quantum hardware significantly improves an actively used heuristic's solution for small-scale problem instances with bare disk imbalance in terms of solution quality. Motivated by this performance gain, we subsequently design a quantum-inspired classical heuristic based on simulated annealing that achieves extremely good results on all given problem instances, essentially solving the optimization problem sufficiently well for all considered datasets, according to industrial requirements.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 不均一・長期データに基づく多段階個人化フェデレーション学習

Multi-level Personalized Federated Learning on Heterogeneous and Long-Tailed Data ( http://arxiv.org/abs/2405.06413v1 )

ライセンス: Link先を確認
Rongyu Zhang, Yun Chen, Chenrui Wu, Fangxin Wang, Bo Li, (参考訳) フェデレートラーニング(FL)は、プライバシ中心の分散学習フレームワークを提供する。個々のクライアントでのモデルトレーニングと、データ交換を必要とせずに集中的なアグリゲーションを可能にする。 それにもかかわらず、FLの実装は、例えば自動運転車のようなモバイルアプリケーションにまたがる、非i-d-と長い尾のクラス分布に悩まされることが多く、局所的な訓練が準最適に収束する可能性があるため、モデルが過度に適合することにつながる。 本研究では,データヘテロジニティがモデルバイアスに与える影響を考察し,FLの階層的アーキテクチャを活用して様々なレベルで計算資源をフル活用する,革新的パーソナライズドFLフレームワークであるMulti-level Personalized Federated Learning (MuPFL)を導入する。 このフレームワークは、オーバーフィッティングとトレーニングの加速を緩和するためのBAVD(Biased Activation Value Dropout)、コヒーレントなグローバルアグリゲーションを保証するためのローカルモデルを洗練するためのAdaptive Cluster-based Model Update(ACMU)、そして、分類とパーソナライズのためのPKCF(Presideed Knowledge-assisted Classifier Fine-tuning)という3つの重要なモジュールを統合している。 画像分類とセマンティックセグメンテーションのための多種多様な実世界のデータセットに関する広範な実験により、MuPFLは極度の非i.d.条件下でも常に最先端のベースラインより優れており、精度は7.39%向上し、トレーニングを最大80%加速し、効率と有効性の両方において著しい進歩を示している。

Federated learning (FL) offers a privacy-centric distributed learning framework, enabling model training on individual clients and central aggregation without necessitating data exchange. Nonetheless, FL implementations often suffer from non-i.i.d. and long-tailed class distributions across mobile applications, e.g., autonomous vehicles, which leads models to overfitting as local training may converge to sub-optimal. In our study, we explore the impact of data heterogeneity on model bias and introduce an innovative personalized FL framework, Multi-level Personalized Federated Learning (MuPFL), which leverages the hierarchical architecture of FL to fully harness computational resources at various levels. This framework integrates three pivotal modules: Biased Activation Value Dropout (BAVD) to mitigate overfitting and accelerate training; Adaptive Cluster-based Model Update (ACMU) to refine local models ensuring coherent global aggregation; and Prior Knowledge-assisted Classifier Fine-tuning (PKCF) to bolster classification and personalize models in accord with skewed local data with shared knowledge. Extensive experiments on diverse real-world datasets for image classification and semantic segmentation validate that MuPFL consistently outperforms state-of-the-art baselines, even under extreme non-i.i.d. and long-tail conditions, which enhances accuracy by as much as 7.39% and accelerates training by up to 80% at most, marking significant advancements in both efficiency and effectiveness.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 大規模言語モデルはオープンエンディング数学の質問に対するフィードバックを再現できるか?

Can Large Language Models Replicate ITS Feedback on Open-Ended Math Questions? ( http://arxiv.org/abs/2405.06414v1 )

ライセンス: Link先を確認
Hunter McNichols, Jaewook Lee, Stephen Fancsali, Steve Ritter, Andrew Lan, (参考訳) Intelligent Tutoring Systems (ITS) は、しばしば自動フィードバックコンポーネントを含み、事前に定義されたエラーを検出すると、学生に事前に定義されたフィードバックメッセージを提供する。 このようなフィードバックコンポーネントでは、テンプレートベースのアプローチを採用しています。 これらのアプローチは、限られた数の学生エラーを検出し、対応するフィードバックを提供するために、人間の専門家による多大な努力を必要とする。 この制限は、多くの異なる誤りがあるようなオープンエンド数学の質問で例示される。 本研究は,テンプレートベースアプローチを用いた確立されたITSの手法と同様,大規模言語モデル(LLM)のオープンエンド数学質問に対するフィードバックを生成する能力について検討する。 我々は,オープンソースのLLMとプロプライエタリなLLMの両方を,実際の学生の反応とそれに対応するITSによるフィードバックに基づいて微調整する。 テキスト類似度指標を用いて,生成したフィードバックの質を測定した。 オープンソースのモデルとプロプライエタリなモデルの両方が、トレーニング中に見たフィードバックを複製する可能性を示していますが、以前は見つからなかった学生のエラーに対して、十分に一般化していません。 これらの結果から,LLMはフィードバックの形式化を学べるが,学生の数学的誤りを十分に理解できないことが示唆された。

Intelligent Tutoring Systems (ITSs) often contain an automated feedback component, which provides a predefined feedback message to students when they detect a predefined error. To such a feedback component, we often resort to template-based approaches. These approaches require significant effort from human experts to detect a limited number of possible student errors and provide corresponding feedback. This limitation is exemplified in open-ended math questions, where there can be a large number of different incorrect errors. In our work, we examine the capabilities of large language models (LLMs) to generate feedback for open-ended math questions, similar to that of an established ITS that uses a template-based approach. We fine-tune both open-source and proprietary LLMs on real student responses and corresponding ITS-provided feedback. We measure the quality of the generated feedback using text similarity metrics. We find that open-source and proprietary models both show promise in replicating the feedback they see during training, but do not generalize well to previously unseen student errors. These results suggest that despite being able to learn the formatting of feedback, LLMs are not able to fully understand mathematical errors made by students.
翻訳日:2024-05-13 15:58:09 公開日:2024-05-10
# 距離・類似性学習のための深部ReLUネットワークを用いた一般化解析

Generalization analysis with deep ReLU networks for metric and similarity learning ( http://arxiv.org/abs/2405.06415v1 )

ライセンス: Link先を確認
Junyu Zhou, Puyu Wang, Ding-Xuan Zhou, (参考訳) 計量と類似性学習の研究にかなりの理論的な進歩があったが、一般化ミステリーはいまだに欠落している。 本稿では,実測値(対象関数)の具体的な構造を利用して,計量と類似性学習の一般化性能について検討する。 具体的には、計量と類似性学習のための真の計量の明示的な形式をヒンジ損失と組み合わせることで、真の計量の近似として構造化された深部ReLUニューラルネットワークを構築し、近似能力はネットワークの複雑さに依存する。 ここでは、ネットワークの複雑さは、ネットワークの深さ、非ゼロ重みの数、および計算単位に対応する。 構造化された深部ReLUネットワークからなる仮説空間を考察し、近似誤差と推定誤差を慎重に推定することにより、計量および類似性学習問題に対する過剰な一般化誤差境界を開発する。 最適余剰リスク率は、構築された仮説空間の適切な容量を選択することによって導出される。 我々の知る限りでは、これは計量と類似性学習のための過剰な一般化誤差を提供する最初の既知の一般化解析である。 さらに、一般的な損失を伴う計量と類似性学習の真のメートル法の性質について検討する。

While considerable theoretical progress has been devoted to the study of metric and similarity learning, the generalization mystery is still missing. In this paper, we study the generalization performance of metric and similarity learning by leveraging the specific structure of the true metric (the target function). Specifically, by deriving the explicit form of the true metric for metric and similarity learning with the hinge loss, we construct a structured deep ReLU neural network as an approximation of the true metric, whose approximation ability relies on the network complexity. Here, the network complexity corresponds to the depth, the number of nonzero weights and the computation units of the network. Consider the hypothesis space which consists of the structured deep ReLU networks, we develop the excess generalization error bounds for a metric and similarity learning problem by estimating the approximation error and the estimation error carefully. An optimal excess risk rate is derived by choosing the proper capacity of the constructed hypothesis space. To the best of our knowledge, this is the first-ever-known generalization analysis providing the excess generalization error for metric and similarity learning. In addition, we investigate the properties of the true metric of metric and similarity learning with general losses.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# 知識グラフ表現学習のためのPAC-Bayesian一般化境界

PAC-Bayesian Generalization Bounds for Knowledge Graph Representation Learning ( http://arxiv.org/abs/2405.06418v1 )

ライセンス: Link先を確認
Jaejun Lee, Minsung Hwang, Joyce Jiyoung Whang, (参考訳) 知識グラフ表現学習(KGRL)法は過去10年間にいくつか提案されてきたが、理論的な分析はほとんど行われていない。 本稿では,KGRL法に対する最初のPAC-Bayesian一般化境界について述べる。 KGRLモデルの幅広いクラスを分析するために、関係対応メッセージパッシングエンコーダと三重項分類デコーダからなるReED(Relation-aware Encoder-Decoder)という汎用フレームワークを提案する。 我々のReEDフレームワークは、R-GCNやCompGCNといったグラフニューラルネットワークモデルだけでなく、RotatEやANALOGYといった浅層構造モデルを含む、少なくとも15種類の既存のKGRLモデルを表現できます。 我々のReEDフレームワークの一般化境界は、KGRL、例えばパラメータ共有および重み正規化スキームにおいてよく使われるトリックの理論的根拠を提供し、実用的なKGRL法において望ましい設計選択を導出する。 実世界の3つの知識グラフ上で、一般化境界の臨界要素が実際の一般化誤差を説明できることを実証的に示す。

While a number of knowledge graph representation learning (KGRL) methods have been proposed over the past decade, very few theoretical analyses have been conducted on them. In this paper, we present the first PAC-Bayesian generalization bounds for KGRL methods. To analyze a broad class of KGRL models, we propose a generic framework named ReED (Relation-aware Encoder-Decoder), which consists of a relation-aware message passing encoder and a triplet classification decoder. Our ReED framework can express at least 15 different existing KGRL models, including not only graph neural network-based models such as R-GCN and CompGCN but also shallow-architecture models such as RotatE and ANALOGY. Our generalization bounds for the ReED framework provide theoretical grounds for the commonly used tricks in KGRL, e.g., parameter-sharing and weight normalization schemes, and guide desirable design choices for practical KGRL methods. We empirically show that the critical factors in our generalization bounds can explain actual generalization errors on three real-world knowledge graphs.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# Time Evidence Fusion Network: 長期連続予測におけるマルチソースビュー

Time Evidence Fusion Network: Multi-source View in Long-Term Time Series Forecasting ( http://arxiv.org/abs/2405.06419v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Yuanpeng He, Zhen Li, Yong Deng, (参考訳) 現実のシナリオでは、時系列予測はしばしばタイムラインを要求され、モデルバックボーンの研究は年々ホットなトピックである。 これらの性能要求を満たすため,情報融合の観点から新しいバックボーンを提案する。 The Basic Probability Assignment (BPA) Module and the Time Evidence Fusion Network (TEFN) のエビデンス理論に基づく導入により,優れた性能を実現することができる。 一方,マルチソース情報融合の視点は,予測精度を効果的に向上させる。 BPA がファジィ理論によって生成されるという事実から、EFN もかなり解釈可能である。 実際のデータ実験では、TEFNはPatchTSTに匹敵する低い誤差で最先端を部分的に達成し、Dlinearのような性能モデルを上回る動作効率を実現した。 一方、TEFNは、ランダムなハイパーパラメータ選択において、高いロバスト性および小さなエラー変動を有する。 TEFNは、単一面において究極のものを達成するモデルではなく、性能、正確性、安定性、解釈可能性のバランスをとるモデルである。

In real-world scenarios, time series forecasting often demands timeliness, making research on model backbones a perennially hot topic. To meet these performance demands, we propose a novel backbone from the perspective of information fusion. Introducing the Basic Probability Assignment (BPA) Module and the Time Evidence Fusion Network (TEFN), based on evidence theory, allows us to achieve superior performance. On the other hand, the perspective of multi-source information fusion effectively improves the accuracy of forecasting. Due to the fact that BPA is generated by fuzzy theory, TEFN also has considerable interpretability. In real data experiments, the TEFN partially achieved state-of-the-art, with low errors comparable to PatchTST, and operating efficiency surpass performance models such as Dlinear. Meanwhile, TEFN has high robustness and small error fluctuations in the random hyperparameter selection. TEFN is not a model that achieves the ultimate in single aspect, but a model that balances performance, accuracy, stability, and interpretability.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# ロボットシナリオにおける安全な探索のためのコンテキストアフォーマンス

Contextual Affordances for Safe Exploration in Robotic Scenarios ( http://arxiv.org/abs/2405.06422v1 )

ライセンス: Link先を確認
William Z. Ye, Eduardo B. Sandoval, Pamela Carreno-Medrano, Francisco Cru, (参考訳) ロボティクスは過去数十年間、製造業や物流などの産業分野で大きな成功を収めてきた。 この成功は、明確に定義されたユースケースと制御された運用環境によって導かれる。 しかし、ロボット工学は依然として国内環境に大きな影響を与えていない。 これは、人間が住んでいるさまざまな家や環境で成功し、人間の近くで安全に操作できる、大量生産されたロボットを設計することの難しさと複雑さによるものだ。 本稿では,家庭を対象としたロボットシナリオにおける安全な探索と学習を可能にするために,文脈割当の利用について検討する。 特に,より広い状態空間にコンテクストアプライアンスを拡張できるシンプルな状態表現を提案し,シミュレーションにおける強化学習アルゴリズムの成功と収束率を改善する方法を示す。 以上の結果から,本手法を実際のロボットマニピュレータに実装することを考えることが可能であることが示唆された。 さらに、長期的には、この研究は複雑な家庭環境における人間とロボットの相互作用の将来の探索の基盤となる可能性がある。 本論文では,最先端のロボットマニピュレータが記述値のデキスタリティのレベルを達成できれば,これが可能になる可能性がある。

Robotics has been a popular field of research in the past few decades, with much success in industrial applications such as manufacturing and logistics. This success is led by clearly defined use cases and controlled operating environments. However, robotics has yet to make a large impact in domestic settings. This is due in part to the difficulty and complexity of designing mass-manufactured robots that can succeed in the variety of homes and environments that humans live in and that can operate safely in close proximity to humans. This paper explores the use of contextual affordances to enable safe exploration and learning in robotic scenarios targeted in the home. In particular, we propose a simple state representation that allows us to extend contextual affordances to larger state spaces and showcase how affordances can improve the success and convergence rate of a reinforcement learning algorithm in simulation. Our results suggest that after further iterations, it is possible to consider the implementation of this approach in a real robot manipulator. Furthermore, in the long term, this work could be the foundation for future explorations of human-robot interactions in complex domestic environments. This could be possible once state-of-the-art robot manipulators achieve the required level of dexterity for the described affordances in this paper.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# プロキシに基づく不確実性推定による言語モデルにおける命令追従の改善

Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation ( http://arxiv.org/abs/2405.06424v1 )

ライセンス: Link先を確認
JoonHo Lee, Jae Oh Woo, Juree Seok, Parisa Hassanzadeh, Wooseok Jang, JuYoun Son, Sima Didari, Baruch Gutow, Heng Hao, Hankyu Moon, Wenjun Hu, Yeong-Dae Kwon, Taehee Lee, Seungjai Min, (参考訳) 言語モデルにおける命令に対する応答品質の評価は不可欠だが、異なるコンテキストにわたる人間の言語が複雑になるため困難である。 この複雑さはしばしば曖昧または矛盾した解釈をもたらし、正確な評価を困難にする。 この問題に対処するために,ベイズ近似に基づくペア応答の品質に対する確実な不確実性推定を導入した新しい不確実性認識リワードモデル(URM)を提案する。 好みのデータセットでトレーニングされた我々の不確実性対応プロキシは、応答に対する報酬をスコアするだけでなく、その固有の不確実性を評価する。 実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。 提案手法は,学習用データキュレーションを改良し,政策最適化の目標を改良することにより,言語モデルの命令追従能力を向上し,VicunaやMT-benchといったベンチマークにおいて既存の手法をはるかに上回っている。 これらの結果から,提案手法は言語モデルトレーニングを大幅に進歩させ,言語モデル内の不確実性を活用する新たな手法を舗装することを示す。

Assessing response quality to instructions in language models is vital but challenging due to the complexity of human language across different contexts. This complexity often results in ambiguous or inconsistent interpretations, making accurate assessment difficult. To address this issue, we propose a novel Uncertainty-aware Reward Model (URM) that introduces a robust uncertainty estimation for the quality of paired responses based on Bayesian approximation. Trained with preference datasets, our uncertainty-enabled proxy not only scores rewards for responses but also evaluates their inherent uncertainty. Empirical results demonstrate significant benefits of incorporating the proposed proxy into language model training. Our method boosts the instruction following capability of language models by refining data curation for training and improving policy optimization objectives, thereby surpassing existing methods by a large margin on benchmarks such as Vicuna and MT-bench. These findings highlight that our proposed approach substantially advances language model training and paves a new way of harnessing uncertainty within language models.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# クープマンに基づくレイリー・ベナード対流のサロゲートモデリング

Koopman-Based Surrogate Modelling of Turbulent Rayleigh-Bénard Convection ( http://arxiv.org/abs/2405.06425v1 )

ライセンス: Link先を確認
Thorben Markmann, Michiel Straat, Barbara Hammer, (参考訳) いくつかの関連する研究は、動的システムのサロゲートモデルとして、クープマンベースの機械学習アーキテクチャを導入した。 これらのアーキテクチャは、線形演算子によって進化するシステムの状態の非線形測定(オブザーバブルとも呼ばれる)を学習することを目的としており、したがってモデルベースの線形制御技術に対応可能である。 これまでのところ、主に単純なシステムをターゲットにしており、より複雑な力学のための低次モデルとしてのクープマンアーキテクチャは十分に研究されていない。 そこで我々は,LRAN (Linear Recurrent Autoencoder Network) と呼ばれるクープマンにインスパイアされたアーキテクチャを用いて,Rayleigh B'enard Convection (RBC) システムの対流における低次ダイナミクスを異なる乱流で学習する。 このデータはRBCシステムの直接数値シミュレーションから得られる。 従来の流体力学法であるKernel Dynamic Mode Decomposition (KDMD)を用いてLRANを比較する。 両手法で最適設定を特定するためにハイパーパラメータスイープを実行した。 モデルの定量的評価には正則化された正方形誤差測度を用い,定性的にモデル予測について検討した。 我々は,最も乱流条件下では,KDMDよりもLRANの方が正確な予測値を得た。 これは、LRANがデータから複雑な観測対象を学習し、乱流対流環境における流体力学の主構造に対する実効的な代理モデルとして機能することによるものであると推測する。 一方, 対流流の繰り返しにより, KDMDは低乱流環境においてより有効であった。 乱流流体に対するクープマン型サロゲートモデルの可能性は、様々な産業環境で有用な効率的なモデルベース制御技術の可能性を開く。

Several related works have introduced Koopman-based Machine Learning architectures as a surrogate model for dynamical systems. These architectures aim to learn non-linear measurements (also known as observables) of the system's state that evolve by a linear operator and are, therefore, amenable to model-based linear control techniques. So far, mainly simple systems have been targeted, and Koopman architectures as reduced-order models for more complex dynamics have not been fully explored. Hence, we use a Koopman-inspired architecture called the Linear Recurrent Autoencoder Network (LRAN) for learning reduced-order dynamics in convection flows of a Rayleigh B\'enard Convection (RBC) system at different amounts of turbulence. The data is obtained from direct numerical simulations of the RBC system. A traditional fluid dynamics method, the Kernel Dynamic Mode Decomposition (KDMD), is used to compare the LRAN. For both methods, we performed hyperparameter sweeps to identify optimal settings. We used a Normalized Sum of Square Error measure for the quantitative evaluation of the models, and we also studied the model predictions qualitatively. We obtained more accurate predictions with the LRAN than with KDMD in the most turbulent setting. We conjecture that this is due to the LRAN's flexibility in learning complicated observables from data, thereby serving as a viable surrogate model for the main structure of fluid dynamics in turbulent convection settings. In contrast, KDMD was more effective in lower turbulence settings due to the repetitiveness of the convection flow. The feasibility of Koopman-based surrogate models for turbulent fluid flows opens possibilities for efficient model-based control techniques useful in a variety of industrial settings.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# フェアミックスエフェクト支援ベクトルマシン

Fair Mixed Effects Support Vector Machine ( http://arxiv.org/abs/2405.06433v1 )

ライセンス: Link先を確認
João Vitor Pamplona, Jan Pablo Burgard, (参考訳) 偏見のない倫理的自動予測を保証するためには、公正性は機械学習アプリケーションにおける中核的な原則でなければならない。 機械学習の公正性は、トレーニングデータに存在するバイアスを緩和し、差別的な結果につながる可能性のある欠陥をモデル化することを目的としている。 これは、モデルが民族性や性的指向といった繊細な特徴に基づいて決定するのを防ぐことで達成される。 機械学習の基本的な前提は観察の独立である。 しかし、この仮定は、しばしばデータポイントがクラスタ化された社会現象を記述するデータには当てはまらないことが多い。 したがって、機械学習モデルがクラスタ相関を考慮していない場合、結果はバイアスを受ける可能性がある。 特に、クラスタ割り当てが関心の変数と相関している場合のバイアスが高い。 両問題を同時に処理できるベクターマシンアルゴリズムを提案する。 再現可能なシミュレーション研究により、クラスタ化されたデータが公正な機械学習予測の品質に与える影響を実証する。

To ensure unbiased and ethical automated predictions, fairness must be a core principle in machine learning applications. Fairness in machine learning aims to mitigate biases present in the training data and model imperfections that could lead to discriminatory outcomes. This is achieved by preventing the model from making decisions based on sensitive characteristics like ethnicity or sexual orientation. A fundamental assumption in machine learning is the independence of observations. However, this assumption often does not hold true for data describing social phenomena, where data points are often clustered based. Hence, if the machine learning models do not account for the cluster correlations, the results may be biased. Especially high is the bias in cases where the cluster assignment is correlated to the variable of interest. We present a fair mixed effects support vector machine algorithm that can handle both problems simultaneously. With a reproducible simulation study we demonstrate the impact of clustered data on the quality of fair machine learning predictions.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# 再生可能発電所における変圧器の高効率時空間寿命評価のための残留型物理インフォームドニューラルネットワーク

Residual-based Attention Physics-informed Neural Networks for Efficient Spatio-Temporal Lifetime Assessment of Transformers Operated in Renewable Power Plants ( http://arxiv.org/abs/2405.06443v1 )

ライセンス: Link先を確認
Ibai Ramirez, Joel Pino, David Pardo, Mikel Sanz, Luis del Rio, Alvaro Ortiz, Kateryna Morozovska, Jose I. Aizpurua, (参考訳) トランスフォーマーは、電力・エネルギーシステムの信頼性と効率的な運用のための重要な資産である。 グリッドの安定性と運用効率の向上を通じて、再生可能エネルギーのグリッドへの統合をサポートする。 トランスの健全性を監視することは、グリッドの信頼性と効率性の確保に不可欠である。 断熱時効はキートランスの故障モードであり、一般的にホットスポット温度(HST)を監視して追跡される。 しかし、HST測定は複雑で高価であり、間接測定からしばしば推定される。 既存の計算効率の良いHSTモデルは、宇宙に依存しない熱モデルに焦点を当て、最悪のHST推定を提供する。 本稿では,物理インフォームドニューラルネットワーク(PINN)構成における物理に基づく偏微分方程式(PDE)とデータ駆動ニューラルネットワーク(NN)を有効利用し,予測精度を向上し,時空間分解能を得る,変圧器巻線温度と時空間推定のための効率的な時空間モデルを提案する。 PINNモデルの収束を加速するResidual-Based Attention schemeの実装により、PINNモデルの計算効率が向上する。 PINNに基づく油温予測は, それぞれPDE分解モデルおよび光ファイバセンサ測定により検証された時空間変圧器巻線温度値の推定に使用される。 さらに、この時空間変圧器老化モデルを推定し、変圧器の健康管理決定を支援するとともに、変圧器断熱における局部化熱老化現象に関する洞察を提供する。 フローティング太陽光発電プラントで作動する配電変圧器を用いて, 実験結果を検証した。

Transformers are vital assets for the reliable and efficient operation of power and energy systems. They support the integration of renewables to the grid through improved grid stability and operation efficiency. Monitoring the health of transformers is essential to ensure grid reliability and efficiency. Thermal insulation ageing is a key transformer failure mode, which is generally tracked by monitoring the hotspot temperature (HST). However, HST measurement is complex and expensive and often estimated from indirect measurements. Existing computationally-efficient HST models focus on space-agnostic thermal models, providing worst-case HST estimates. This article introduces an efficient spatio-temporal model for transformer winding temperature and ageing estimation, which leverages physics-based partial differential equations (PDEs) with data-driven Neural Networks (NN) in a Physics Informed Neural Networks (PINNs) configuration to improve prediction accuracy and acquire spatio-temporal resolution. The computational efficiency of the PINN model is improved through the implementation of the Residual-Based Attention scheme that accelerates the PINN model convergence. PINN based oil temperature predictions are used to estimate spatio-temporal transformer winding temperature values, which are validated through PDE resolution models and fiber optic sensor measurements, respectively. Furthermore, the spatio-temporal transformer ageing model is inferred, aiding transformer health management decision-making and providing insights into localized thermal ageing phenomena in the transformer insulation. Results are validated with a distribution transformer operated on a floating photovoltaic power plant.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# オープンソースエコシステムにおけるサンドボックス導入

Sandboxing Adoption in Open Source Ecosystems ( http://arxiv.org/abs/2405.06447v1 )

ライセンス: Link先を確認
Maysara Alhindi, Joseph Hallett, (参考訳) サンドボックス機構により、開発者は最小限の原則に従って、リソースに対するアクセスアプリケーション量を制限することができる。 しかしながら、開発者がこれらのメカニズムをどの程度、どのように使っているのかは明らかになっていない。 本研究は,4つのオープンソースオペレーティングシステムの全パッケージにおけるSeccomp, Landlock, Capsicum, Pledge, Unveilの使用について検討する。 パッケージの1%未満が直接このメカニズムを使っているが、もっと多くのパッケージが間接的に使用している。 開発者がこれらのメカニズムをどのように適用するかを調べることで、開発者がサンドボックスの実装を簡単にするケースなど、興味深い利用パターンが明らかになる。 また、サンドボックス機構の普及を妨げているかもしれない課題も強調している。

Sandboxing mechanisms allow developers to limit how much access applications have to resources, following the least-privilege principle. However, it's not clear how much and in what ways developers are using these mechanisms. This study looks at the use of Seccomp, Landlock, Capsicum, Pledge, and Unveil in all packages of four open-source operating systems. We found that less than 1% of packages directly use these mechanisms, but many more indirectly use them. Examining how developers apply these mechanisms reveals interesting usage patterns, such as cases where developers simplify their sandbox implementation. It also highlights challenges that may be hindering the widespread adoption of sandboxing mechanisms.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# E2TP: Aspect Sentiment Tuple Predictionを改善したタプルプロンプト要素

E2TP: Element to Tuple Prompting Improves Aspect Sentiment Tuple Prediction ( http://arxiv.org/abs/2405.06454v1 )

ライセンス: Link先を確認
Mohammad Ghiasvand Mohammadkhani, Niloofar Ranjbar, Saeedeh Momtazi, (参考訳) 生成的アプローチはアスペクトベース知覚分析(ABSA)に大きな影響を与えており、かなりの注目を集めている。 しかし、既存の研究では、単一の要素をタプル予測に利用する利点を無視して、ターゲットテキストコンポーネントをモノリシックに予測することが多い。 本稿では,2段階アーキテクチャを用いたE2TP(Element to Tuple Prompting)を提案する。 前者のステップは単一の要素を予測することに焦点を当て、後者のステップは予測された要素を対応するタプルにマッピングすることでプロセスを完成させる。 E2TPは人間の問題解決にインスパイアされ、第1ステップの出力を第2ステップのガイドとして使用して、タスクを管理可能な部分に分割する。 この戦略では、トレーニングプロセスを容易にするために、E2TP($diet$)、E2TP($f_1$)、E2TP($f_2$)の3種類のパラダイムが設計されている。 本論文は、ドメイン内タスク固有の実験以外にも、ドメイン間シナリオに対処し、このアプローチの有効性と一般化性を実証する。 各種ベンチマークの総合的な分析により,ほぼすべてのケースにおいて,E2TPが新たな最先端結果を達成することを示す。

Generative approaches have significantly influenced Aspect-Based Sentiment Analysis (ABSA), garnering considerable attention. However, existing studies often predict target text components monolithically, neglecting the benefits of utilizing single elements for tuple prediction. In this paper, we introduce Element to Tuple Prompting (E2TP), employing a two-step architecture. The former step focuses on predicting single elements, while the latter step completes the process by mapping these predicted elements to their corresponding tuples. E2TP is inspired by human problem-solving, breaking down tasks into manageable parts, using the first step's output as a guide in the second step. Within this strategy, three types of paradigms, namely E2TP($diet$), E2TP($f_1$), and E2TP($f_2$), are designed to facilitate the training process. Beyond in-domain task-specific experiments, our paper addresses cross-domain scenarios, demonstrating the effectiveness and generalizability of the approach. By conducting a comprehensive analysis on various benchmarks, we show that E2TP achieves new state-of-the-art results in nearly all cases.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# EEG-to-Textモデルは機能しているか?

Are EEG-to-Text Models Working? ( http://arxiv.org/abs/2405.06459v1 )

ライセンス: Link先を確認
Hyejeong Jo, Yiqian Yang, Juhyeok Han, Yiqun Duan, Hui Xiong, Won Hee Lee, (参考訳) この研究は、オープン語彙EEG-to-Text翻訳のための既存のモデルを批判的に分析する。 過去の研究では、評価中に暗黙の教師強制をしばしば採用し、パフォーマンス指標を人工的に膨らませた。 さらに、純粋なノイズ入力に対するモデルパフォーマンスの比較という、重要なベンチマークも欠如していた。 本稿では,脳波信号から真に学習するモデルと,トレーニングデータを記憶するモデルとを区別する手法を提案する。 分析の結果,ノイズデータのモデル性能は脳波データに匹敵することがわかった。 これらの知見は、透過的なレポーティングとノイズ入力による厳密なベンチマークを強調し、EEG-to-Text研究における厳格な評価プラクティスの必要性を強調している。 このアプローチにより、モデル能力の信頼性が向上し、ロバストなEEG-テキスト通信システムへの道が開ける。

This work critically analyzes existing models for open-vocabulary EEG-to-Text translation. We identify a crucial limitation: previous studies often employed implicit teacher-forcing during evaluation, artificially inflating performance metrics. Additionally, they lacked a critical benchmark - comparing model performance on pure noise inputs. We propose a methodology to differentiate between models that truly learn from EEG signals and those that simply memorize training data. Our analysis reveals that model performance on noise data can be comparable to that on EEG data. These findings highlight the need for stricter evaluation practices in EEG-to-Text research, emphasizing transparent reporting and rigorous benchmarking with noise inputs. This approach will lead to more reliable assessments of model capabilities and pave the way for robust EEG-to-Text communication systems.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# MRSegmentator:MRIおよびCTにおける40クラスのロバスト多モードセグメンテーション

MRSegmentator: Robust Multi-Modality Segmentation of 40 Classes in MRI and CT Sequences ( http://arxiv.org/abs/2405.06463v1 )

ライセンス: Link先を確認
Hartmut Häntze, Lina Xu, Felix J. Dorfner, Leonhard Donle, Daniel Truhn, Hugo Aerts, Mathias Prokop, Bram van Ginneken, Alessa Hering, Lisa C. Adams, Keno K. Bressem, (参考訳) 目的:MRIスキャンにおける多組織セグメンテーションが可能な深層学習モデルを導入し、解像度、標準化された強度値、配列の可変性といった課題によるMRI解析における現在の限界に対する解決策を提供する。 材料と方法:彼のモデルは、英国バイオバンクの1200個の手動注釈MRIスキャン、221個の社内MRIスキャン、1228個のCTスキャンで訓練され、CTセグメンテーションモデルからの相互モダリティ変換学習を活用している。 高品質なセグメンテーションを効率的に作成するために、Human-in-the-loopアノテーションワークフローが採用された。 このモデルの性能は, NAKOとAMOS22を用いた600, 60のMRI検査で評価した。 Dice similarity Coefficient (DSC) と Hausdorff Distance (HD) を用いてセグメンテーションの精度を評価した。 モデルはオープンソース化される予定だ。 結果: 左右肺のDice similarity Coefficient(DSC)スコアは0.97, 心臓の0.95であった。 また、肝臓 (DSC: 0.96) や腎臓 (DSC: 0.95 left, 0.95 right) のような臓器の頑健性も示し、より可変性を示した。 しかし,門脈や脾静脈 (DSC: 0.54) や副腎 (DSC: 0.65 左, 0.61 右) などのより小型で複雑な構造の分画は,さらなるモデル最適化の必要性を明らかにした。 結論: 提案モデルはMRIおよびCT画像における40の解剖学的構造を正確に区分けするための頑健なツールである。 相互モダリティ学習と対話的アノテーションを活用することで、さまざまなデータセット間での強力なパフォーマンスと一般化を実現し、研究者や臨床医にとって貴重なリソースとなる。 オープンソースで、https://github.com/hhaentze/MRSegmentator.comからダウンロードできる。

Purpose: To introduce a deep learning model capable of multi-organ segmentation in MRI scans, offering a solution to the current limitations in MRI analysis due to challenges in resolution, standardized intensity values, and variability in sequences. Materials and Methods: he model was trained on 1,200 manually annotated MRI scans from the UK Biobank, 221 in-house MRI scans and 1228 CT scans, leveraging cross-modality transfer learning from CT segmentation models. A human-in-the-loop annotation workflow was employed to efficiently create high-quality segmentations. The model's performance was evaluated on NAKO and the AMOS22 dataset containing 600 and 60 MRI examinations. Dice Similarity Coefficient (DSC) and Hausdorff Distance (HD) was used to assess segmentation accuracy. The model will be open sourced. Results: The model showcased high accuracy in segmenting well-defined organs, achieving Dice Similarity Coefficient (DSC) scores of 0.97 for the right and left lungs, and 0.95 for the heart. It also demonstrated robustness in organs like the liver (DSC: 0.96) and kidneys (DSC: 0.95 left, 0.95 right), which present more variability. However, segmentation of smaller and complex structures such as the portal and splenic veins (DSC: 0.54) and adrenal glands (DSC: 0.65 left, 0.61 right) revealed the need for further model optimization. Conclusion: The proposed model is a robust, tool for accurate segmentation of 40 anatomical structures in MRI and CT images. By leveraging cross-modality learning and interactive annotation, the model achieves strong performance and generalizability across diverse datasets, making it a valuable resource for researchers and clinicians. It is open source and can be downloaded from https://github.com/hhaentze/MRSegmentator.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# 適応および高次SDEソルバのためのブラウンパスと積分の単列生成

Single-seed generation of Brownian paths and integrals for adaptive and high order SDE solvers ( http://arxiv.org/abs/2405.06464v1 )

ライセンス: Link先を確認
Andraž Jelinčič, James Foster, Patrick Kidger, (参考訳) ODEシミュレーションにおける適応型タイムステッピングの成功にもかかわらず、SDE(Stochastic Differential Equations)の応用例はこれまでにない。 適応的にSDEをシミュレートするために、VBT(Virtual Brownian Tree)のような手法が開発され、非時間的にブラウン運動(BM)を生成することができる。 しかし、ほとんどのアプリケーションでは、ブラウン運動の値のみを知って高次収束を達成するには不十分であり、そのため、$\int_s^t W_r \, dr$ のようなBMの時間積分を計算する必要がある。 高次SDEソルバを適応的に使用することを目的として、我々は、ブラウン増分に加えて、これらのBM積分を生成するためにVBTを拡張した。 私たちの構築のJAXベースの実装は、人気のあるDiffraxライブラリ(https://github.com/patrick-kidger/diffrax)に含まれている。 VBTが生成するブラウンパス全体が単一のPRNGシードによって一意に決定されるため、以前に生成されたサンプルを格納する必要がなく、結果としてメモリフットプリントが一定となり、実験の再現性と強いエラー推定が可能になる。 バイナリ検索に基づいて、VBTの時間複雑性は許容パラメータ$\varepsilon$の対数である。 元のVBTアルゴリズムとは違い、我々の構成は、少なくとも$\varepsilon$の差がある場合、ブラウン運動とその時間積分の結合分布と正確に一致することを証明している。 適応型高次解法を新しいVBTで実現した2つの応用について述べる。 適応解法を用いて高揮発性CIRモデルをシミュレートし、定常ステップの収束順序を2倍以上に向上する。 MCMC問題に対して, 適応型第3次ランゲヴィン解法を応用し, 提案手法は機能評価の10分の1しか使用せず, No U-Turn Samplerよりも優れていることを示した。

Despite the success of adaptive time-stepping in ODE simulation, it has so far seen few applications for Stochastic Differential Equations (SDEs). To simulate SDEs adaptively, methods such as the Virtual Brownian Tree (VBT) have been developed, which can generate Brownian motion (BM) non-chronologically. However, in most applications, knowing only the values of Brownian motion is not enough to achieve a high order of convergence; for that, we must compute time-integrals of BM such as $\int_s^t W_r \, dr$. With the aim of using high order SDE solvers adaptively, we extend the VBT to generate these integrals of BM in addition to the Brownian increments. A JAX-based implementation of our construction is included in the popular Diffrax library (https://github.com/patrick-kidger/diffrax). Since the entire Brownian path produced by VBT is uniquely determined by a single PRNG seed, previously generated samples need not be stored, which results in a constant memory footprint and enables experiment repeatability and strong error estimation. Based on binary search, the VBT's time complexity is logarithmic in the tolerance parameter $\varepsilon$. Unlike the original VBT algorithm, which was only precise at some dyadic times, we prove that our construction exactly matches the joint distribution of the Brownian motion and its time integrals at any query times, provided they are at least $\varepsilon$ apart. We present two applications of adaptive high order solvers enabled by our new VBT. Using adaptive solvers to simulate a high-volatility CIR model, we achieve more than twice the convergence order of constant stepping. We apply an adaptive third order underdamped or kinetic Langevin solver to an MCMC problem, where our approach outperforms the No U-Turn Sampler, while using only a tenth of its function evaluations.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# Attend, Distill, Detect: Atention-aware Entropy Distillation for Anomaly Detection

Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection ( http://arxiv.org/abs/2405.06467v1 )

ライセンス: Link先を確認
Sushovan Jena, Vishwas Saini, Ujjwal Shaw, Pavitra Jain, Abhay Singh Raihal, Anoushka Banerjee, Sharad Joshi, Ananth Ganesh, Arnav Bhavsar, (参考訳) 教師なし異常検出は、高いスループットと精度が必須である産業環境での多様な応用を含んでいる。 初期の作業は1クラス1モデルパラダイムを中心に行われ、大規模生産環境において大きな課題を提起した。 知識蒸留に基づくマルチクラスの異常検出は、低レイテンシで、パフォーマンスは適度に向上するが、1クラスのバージョンに比べて大幅に低下する。 本報告では,複数のクラスやオブジェクト間の分散度が高い場合に,教師と学生のネットワーク間の蒸留プロセスを改善するDCAM(Distributed Convolutional Attention Module)を提案する。 統合されたマルチスケール特徴マッチング戦略は、2つのネットワークの特徴ピラミッドから多段階の知識を混合し、直感的に様々なサイズの異常を検出するのに役立ち、これはマルチクラスのシナリオに固有の問題である。 簡単に言うと、私たちのDCAMモジュールは、学生ネットワークの機能マップに分散された畳み込み注意ブロックで構成されています。 このプロセスには,KL-Divergence を用いた空間次元の相対エントロピーの最小化と,教師と生徒の同一特徴マップ間のチャネルワイドコサイン類似性が伴う。 この損失はスケール不変性を実現し、非線形関係を捉えることができる。 また,DCAMモジュールは,学習した特徴マップと異常スコアの損失のみを必要とするため,トレーニング中にのみ使用されるのではなく,推論中に使用されることを強調した。

Unsupervised anomaly detection encompasses diverse applications in industrial settings where a high-throughput and precision is imperative. Early works were centered around one-class-one-model paradigm, which poses significant challenges in large-scale production environments. Knowledge-distillation based multi-class anomaly detection promises a low latency with a reasonably good performance but with a significant drop as compared to one-class version. We propose a DCAM (Distributed Convolutional Attention Module) which improves the distillation process between teacher and student networks when there is a high variance among multiple classes or objects. Integrated multi-scale feature matching strategy to utilise a mixture of multi-level knowledge from the feature pyramid of the two networks, intuitively helping in detecting anomalies of varying sizes which is also an inherent problem in the multi-class scenario. Briefly, our DCAM module consists of Convolutional Attention blocks distributed across the feature maps of the student network, which essentially learns to masks the irrelevant information during student learning alleviating the "cross-class interference" problem. This process is accompanied by minimizing the relative entropy using KL-Divergence in Spatial dimension and a Channel-wise Cosine Similarity between the same feature maps of teacher and student. The losses enables to achieve scale-invariance and capture non-linear relationships. We also highlight that the DCAM module would only be used during training and not during inference as we only need the learned feature maps and losses for anomaly scoring and hence, gaining a performance gain of 3.92% than the multi-class baseline with a preserved latency.
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# マルチラベル医用画像分類のための事前学習型視覚言語モデルにおける擬似プロンプト

Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification ( http://arxiv.org/abs/2405.06468v1 )

ライセンス: Link先を確認
Yaoqin Ye, Junjie Zhang, Hongwei Shi, (参考訳) 医用画像認識の課題は,多種多様な病理所見の存在によって明らかに複雑化しており,未確認ラベルを用いた多ラベル分類において特異な課題が提示されている。 この複雑さは、マルチラベルゼロショット学習を用いたコンピュータ支援診断手法の必要性を浮き彫りにする。 近年,前訓練型視覚言語モデル(VLM)の進歩は,医用画像に顕著なゼロショット分類能力を示した。 しかしながら、これらの手法は、より広い画像データセットからの広範な事前訓練された知識の活用に制限があり、しばしば専門の放射線学者による手動のプロンプト構築に依存している。 即時チューニングのプロセスを自動化することで、VLMを下流タスクに適応させる効率的な方法として、即時学習技術が登場した。 しかし、既存のCoOpベースの戦略は、未確認のカテゴリでクラス固有のプロンプトを実行するに足りず、きめ細かいシナリオでの一般化性を制限する。 これらの制約を克服するために,自然言語処理(NLP)におけるテキスト生成によって実現される新しいプロンプト生成手法を提案する。 提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。 RNNベースのデコーダを備えたPsPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。 各種マルチラベル胸部X線写真データセットの比較評価により,先進的な医用ビジョン言語およびマルチラベル・プロンプト学習法に対するアプローチの優位性が確認された。 ソースコードはhttps://github.com/fallingnight/PsPGで入手できる。

The task of medical image recognition is notably complicated by the presence of varied and multiple pathological indications, presenting a unique challenge in multi-label classification with unseen labels. This complexity underlines the need for computer-aided diagnosis methods employing multi-label zero-shot learning. Recent advancements in pre-trained vision-language models (VLMs) have showcased notable zero-shot classification abilities on medical images. However, these methods have limitations on leveraging extensive pre-trained knowledge from broader image datasets, and often depend on manual prompt construction by expert radiologists. By automating the process of prompt tuning, prompt learning techniques have emerged as an efficient way to adapt VLMs to downstream tasks. Yet, existing CoOp-based strategies fall short in performing class-specific prompts on unseen categories, limiting generalizability in fine-grained scenarios. To overcome these constraints, we introduce a novel prompt generation approach inspirited by text generation in natural language processing (NLP). Our method, named Pseudo-Prompt Generating (PsPG), capitalizes on the priori knowledge of multi-modal features. Featuring a RNN-based decoder, PsPG autoregressively generates class-tailored embedding vectors, i.e., pseudo-prompts. Comparative evaluations on various multi-label chest radiograph datasets affirm the superiority of our approach against leading medical vision-language and multi-label prompt learning methods. The source code is available at https://github.com/fallingnight/PsPG
翻訳日:2024-05-13 15:48:10 公開日:2024-05-10
# ステアリングとブレーキ制御のためのディープデュアルモデルによる自律運転

Autonomous Driving with a Deep Dual-Model Solution for Steering and Braking Control ( http://arxiv.org/abs/2405.06473v1 )

ライセンス: Link先を確認
Ana Petra Jukić, Ana Šelek, Marija Seder, Ivana Podnar Žarko, (参考訳) 自動運転技術は現在、研究と産業の両方に大きな関心を集めている。 本稿では,自律走行車におけるブレーキとステアリングを組み合わせた2つのディープニューラルネットワークを用いた深層学習型デュアルモデルソリューションを提案する。 ステアリング制御はNVIDIAのPilotNetモデルを使用してステアリングホイール角を予測し、ブレーキ制御はMobileNet SSDに依存する。 どちらのモデルも、画像入力にはフロントカメラ1台に依存している。 MobileNet SSDモデルは制約のあるリソースを持つデバイスに適しているが、PilotNetは限られたリソースを持つ小さなデバイスで効率的に運用するのに苦労している。 このようなデバイスに適したものにするために、独自のネットワーク設計を用いてPilotNetモデルを修正し、モデルパラメータとそのメモリフットプリントを約60%削減した。 推論レイテンシも削減され、リソース制約のあるデバイス上での操作がより適したモデルになった。 修正されたPilotNetモデルは、オリジナルのPilotNetモデルと同じような損失と精度を達成する。 シミュレーション環境で評価すると、両方の自律運転システムは、修正されたPilotNetモデルと、元のPilotNetモデルを用いたステアリングの両方を使用しており、同じレベルの自律運転性能を示している。

The technology of autonomous driving is currently attracting a great deal of interest in both research and industry. In this paper, we present a deep learning dual-model solution that uses two deep neural networks for combined braking and steering in autonomous vehicles. Steering control is achieved by applying the NVIDIA's PilotNet model to predict the steering wheel angle, while braking control relies on the use of MobileNet SSD. Both models rely on a single front-facing camera for image input. The MobileNet SSD model is suitable for devices with constrained resources, whereas PilotNet struggles to operate efficiently on smaller devices with limited resources. To make it suitable for such devices, we modified the PilotNet model using our own original network design and reduced the number of model parameters and its memory footprint by approximately 60%. The inference latency has also been reduced, making the model more suitable to operate on resource-constrained devices. The modified PilotNet model achieves similar loss and accuracy compared to the original PilotNet model. When evaluated in a simulated environment, both autonomous driving systems, one using the modified PilotNet model and the other using the original PilotNet model for steering, show similar levels of autonomous driving performance.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# 人間と機械の認知科学と(技術)政治経済

Attention is all they need: Cognitive science and the (techno)political economy of attention in humans and machines ( http://arxiv.org/abs/2405.06478v1 )

ライセンス: Link先を確認
Pablo González de la Torre, Marta Pérez-Verdugo, Xabier E. Barandiaran, (参考訳) 本稿では,認知科学と技術・政治経済学の枠組みにおける「意識経済」を,人間と機械の両方の相互作用に適用した上で批判的に分析する。 我々は、現在のビジネスモデル、特にデジタルプラットフォーム資本主義において、戦略的に注意パターンを形作ることによって、ユーザエンゲージメントをどのように活用するかを考察する。 これらのプラットフォームは、高度なAIと大量のデータ分析を使用して、ユーザのエンゲージメントを高め、注目の捕捉とデータ抽出のサイクルを生成する。 我々は、注目とプラットフォームエンゲージメント設計の現代的(神経)認知理論とプラットフォームエンゲージメント設計手法をレビューし、そのようなエンゲージメントがユーザの自律性と幸福に与える影響に対処する上で、古典的認知主義と行動主義の理論を不十分であると批判する。 認知科学への4Eアプローチは、その代わりに、認識の具現化、拡張、活動、生態的側面を強調し、本質的な規範的視点と、適応的なデジタル環境によって注意パターンがアクティブに構成される方法のより統合された理解を提供する。 デジタルコンテキストにおける習慣形成の悪質性を調べることで、個人から習慣を分離することで個人の自律性を脅かす技術と経済の基盤を、AIが管理する行動パターンのコレクションに明らかにする。 私たちの現在の状況は、注意のエコロジーへのパラダイムシフトの必要性を示唆しています。 このシフトは、認知資本主義の搾取傾向に対抗して、人間の認知と社会的能力を尊重し保存する環境を育成することを目的としている。

This paper critically analyses the "attention economy" within the framework of cognitive science and techno-political economics, as applied to both human and machine interactions. We explore how current business models, particularly in digital platform capitalism, harness user engagement by strategically shaping attentional patterns. These platforms utilize advanced AI and massive data analytics to enhance user engagement, creating a cycle of attention capture and data extraction. We review contemporary (neuro)cognitive theories of attention and platform engagement design techniques and criticize classical cognitivist and behaviourist theories for their inadequacies in addressing the potential harms of such engagement on user autonomy and wellbeing. 4E approaches to cognitive science, instead, emphasizing the embodied, extended, enactive, and ecological aspects of cognition, offer us an intrinsic normative standpoint and a more integrated understanding of how attentional patterns are actively constituted by adaptive digital environments. By examining the precarious nature of habit formation in digital contexts, we reveal the techno-economic underpinnings that threaten personal autonomy by disaggregating habits away from the individual, into an AI managed collection of behavioural patterns. Our current predicament suggests the necessity of a paradigm shift towards an ecology of attention. This shift aims to foster environments that respect and preserve human cognitive and social capacities, countering the exploitative tendencies of cognitive capitalism.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# 重み付き等角予測のインフォーマル性

Informativeness of Weighted Conformal Prediction ( http://arxiv.org/abs/2405.06479v1 )

ライセンス: Link先を確認
Mufang Ying, Wenge Guo, Koulik Khamaru, Ying Hung, (参考訳) 最近提案されたフレームワークである重み付き共形予測(WCP)は、トレーニングデータとテストデータ間の異なる共変量分布に対応する柔軟性を備えた不確実な定量化を提供する。 しかし,WCPの有効性は共変量分布の重なりに大きく依存していることが指摘され,重なりが不十分なため,非形式的予測間隔が生じる可能性がある。 WCPの情報性を高めるために,共変量分布の異なる複数のソースを含むシナリオの2つの手法を提案する。 提案手法の理論的保証を確立し,シミュレーションによる有効性を示す。

Weighted conformal prediction (WCP), a recently proposed framework, provides uncertainty quantification with the flexibility to accommodate different covariate distributions between training and test data. However, it is pointed out in this paper that the effectiveness of WCP heavily relies on the overlap between covariate distributions; insufficient overlap can lead to uninformative prediction intervals. To enhance the informativeness of WCP, we propose two methods for scenarios involving multiple sources with varied covariate distributions. We establish theoretical guarantees for our proposed methods and demonstrate their efficacy through simulations.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# インセンティブ互換バンド:重要度がなくなる

Incentive-compatible Bandits: Importance Weighting No More ( http://arxiv.org/abs/2405.06480v1 )

ライセンス: Link先を確認
Julian Zimmert, Teodor V. Marinov, (参考訳) 本稿では,包括的フィードバックによるインセンティブ適合型オンライン学習の課題について検討する。 この種の問題では、専門家は自己関心のあるエージェントであり、最も頻繁に選ばれることを目標に、自分の好みを誤って表現するかもしれない。 目標は、同時にインセンティブに適合するアルゴリズムを考案することであり、これは専門家が真の嗜好を報告することにインセンティブを与え、後見において最高の固定専門家の嗜好に関して後悔することはない。 \citet{freeman 2020no} は、最適$O(\sqrt{T \log(K)})$ regret と $O(T^{2/3}(K\log(K))^{1/3})$ regret の完全な情報設定におけるアルゴリズムを提案する。 この研究では、最初のインセンティブ互換アルゴリズムを提案し、$O(\sqrt{KT})$ regret bounds を楽しむ。 さらに、単純な損失バイアスによって、Freemanらによって提案されたアルゴリズムが$\tilde O(\sqrt{KT})$ regretを楽しむことを実証する。 提案手法の副産物として, 重要重み付き推定器を必要とせず, 観測された損失列に完全に依存する逆数設定において, ほぼ最適な後悔境界を持つ最初のバンディットアルゴリズムを得る。 最後に、確率的状態における対数的後悔と最悪の$O(\sqrt{KT})$後悔という、漸近的に最適な両世界最善の後悔の保証を享受するインセンティブ互換アルゴリズムを提供する。

We study the problem of incentive-compatible online learning with bandit feedback. In this class of problems, the experts are self-interested agents who might misrepresent their preferences with the goal of being selected most often. The goal is to devise algorithms which are simultaneously incentive-compatible, that is the experts are incentivised to report their true preferences, and have no regret with respect to the preferences of the best fixed expert in hindsight. \citet{freeman2020no} propose an algorithm in the full information setting with optimal $O(\sqrt{T \log(K)})$ regret and $O(T^{2/3}(K\log(K))^{1/3})$ regret in the bandit setting. In this work we propose the first incentive-compatible algorithms that enjoy $O(\sqrt{KT})$ regret bounds. We further demonstrate how simple loss-biasing allows the algorithm proposed in Freeman et al. 2020 to enjoy $\tilde O(\sqrt{KT})$ regret. As a byproduct of our approach we obtain the first bandit algorithm with nearly optimal regret bounds in the adversarial setting which works entirely on the observed loss sequence without the need for importance-weighted estimators. Finally, we provide an incentive-compatible algorithm that enjoys asymptotically optimal best-of-both-worlds regret guarantees, i.e., logarithmic regret in the stochastic regime as well as worst-case $O(\sqrt{KT})$ regret.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# LyS at SemEval-2024 Task 3: An Early Prototype for End-to-End Multimodal Emotion Linking as Graph-based Parsing

LyS at SemEval-2024 Task 3: An Early Prototype for End-to-End Multimodal Emotion Linking as Graph-Based Parsing ( http://arxiv.org/abs/2405.06483v1 )

ライセンス: Link先を確認
Ana Ezquerro, David Vilares, (参考訳) 本稿では,会話におけるマルチモーダル感情原因分析に着目したSemEval 2024 Task 3への参加について述べる。 多人数会話における因果感情関係の同定に依存性解析からグラフベースの手法を用いたエンドツーエンドシステムのプロトタイプを開発した。 本モデルは,マルチモーダル会話データを文脈化するためのニューラルトランスフォーマーベースのエンコーダと,因果グラフの隣接行列スコアを生成するグラフベースのデコーダを備える。 私たちは、テキスト入力のみを使用して、Subtask 1の15の有効および公式の申請のうち7位にランク付けしました。 マルチモーダル入力を用いた評価後のSubtask 2への参加についても論じる。

This paper describes our participation in SemEval 2024 Task 3, which focused on Multimodal Emotion Cause Analysis in Conversations. We developed an early prototype for an end-to-end system that uses graph-based methods from dependency parsing to identify causal emotion relations in multi-party conversations. Our model comprises a neural transformer-based encoder for contextualizing multimodal conversation data and a graph-based decoder for generating the adjacency matrix scores of the causal graph. We ranked 7th out of 15 valid and official submissions for Subtask 1, using textual inputs only. We also discuss our participation in Subtask 2 during post-evaluation using multi-modal inputs.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# 存在変数の少ない量化ブール方程式の解法

Solving Quantified Boolean Formulas with Few Existential Variables ( http://arxiv.org/abs/2405.06485v1 )

ライセンス: Link先を確認
Leif Eriksson, Victor Lagerkvist, George Osipov, Sebastian Ordyniak, Fahad Panolan, Mateusz Rychlicki, (参考訳) QBF問題(Quantified Boolean formula)は、PSPACE完全性のアーキタイプとして一般的に見なされる重要な決定問題である。 AIに中心的な関心を持つ多くの問題は、一般的にNP、プランニング、モデルチェック、非モノトニック推論に含まれておらず、そのような問題に対してQBFはモデリングツールとしてうまく使われてきた。 しかし、QBFの解法は最先端のSATソルバほど進まないため、PSPACE完全問題の普遍的なモデリング言語にはならない。 理論的な説明として、QBF(他の多くのPSPACE完全問題と同様に)は、固定パラメータトラクタビリティ(FPT)を保証する自然パラメータを欠いている。 本稿では,この問題に対処し,実数量化変数の数という,単純だが見過ごされたパラメータについて考察する。 この自然パラメータは、QBFに対するFPTアルゴリズムの全般的不足を考えると、意外なことに文献ではほとんど探索されていない。 このパラメータ化により、有界節長の共役正規形(CNF)のQBFインスタンスに適用可能な新しいFPTアルゴリズムを開発する。 非有界節長のCNFにおけるQBFのW[1]-ハードネス結果と、(強い)指数時間仮説の下での有界アーニティケースのよりシャープな下界を補完する。

The quantified Boolean formula (QBF) problem is an important decision problem generally viewed as the archetype for PSPACE-completeness. Many problems of central interest in AI are in general not included in NP, e.g., planning, model checking, and non-monotonic reasoning, and for such problems QBF has successfully been used as a modelling tool. However, solvers for QBF are not as advanced as state of the art SAT solvers, which has prevented QBF from becoming a universal modelling language for PSPACE-complete problems. A theoretical explanation is that QBF (as well as many other PSPACE-complete problems) lacks natural parameters} guaranteeing fixed-parameter tractability (FPT). In this paper we tackle this problem and consider a simple but overlooked parameter: the number of existentially quantified variables. This natural parameter is virtually unexplored in the literature which one might find surprising given the general scarcity of FPT algorithms for QBF. Via this parameterization we then develop a novel FPT algorithm applicable to QBF instances in conjunctive normal form (CNF) of bounded clause length. We complement this by a W[1]-hardness result for QBF in CNF of unbounded clause length as well as sharper lower bounds for the bounded arity case under the (strong) exponential-time hypothesis.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# 決定論的不確実性ネットワークと不確実性学習を用いた心的応用のためのディープラーニングモデル校正の改善

Improving Deep Learning Model Calibration for Cardiac Applications using Deterministic Uncertainty Networks and Uncertainty-aware Training ( http://arxiv.org/abs/2405.06487v1 )

ライセンス: Link先を確認
Tareen Dawood, Bram Ruijsink, Reza Razavi, Andrew P. King, Esther Puyol-Antón, (参考訳) 深層学習(DL)分類モデルにおける校正性能の向上は,意思決定支援環境でのDLの利用を計画する上で重要である。 このようなシナリオでは、確実な誤った予測が、リスクの高いアプリケーションにおいて信頼の欠如や害をもたらす可能性がある。 DL分類モデルキャリブレーションの改善を目的とした2種類のアプローチの精度と校正への影響を,決定論的不確実性法(DUM)と不確実性学習(不確実性学習)を用いて評価した。 具体的には、3つのDUMと2つの不確実性を考慮したトレーニングアプローチ、およびそれらの組み合わせの性能を検証した。 それらの有用性を評価するために, 位相コントラスト心磁気共鳴(CMR)によるアーチファクト検出と, パブリックなACDC CMRデータセットによる疾患診断という, 心臓画像の分野での2つの現実的な臨床応用を応用した。 以上の結果から,DUMと不確実性を考慮したトレーニングの両方が,両アプリケーションの精度と校正の両面で改善できることが示唆された。 また,この2つの手法の組み合わせについて検討し,新たな決定論的不確実性認識トレーニング手法を提案する。 これにより、DUMと不確実性を認識したトレーニングアプローチの組み合わせがさらに改善される。

Improving calibration performance in deep learning (DL) classification models is important when planning the use of DL in a decision-support setting. In such a scenario, a confident wrong prediction could lead to a lack of trust and/or harm in a high-risk application. We evaluate the impact on accuracy and calibration of two types of approach that aim to improve DL classification model calibration: deterministic uncertainty methods (DUM) and uncertainty-aware training. Specifically, we test the performance of three DUMs and two uncertainty-aware training approaches as well as their combinations. To evaluate their utility, we use two realistic clinical applications from the field of cardiac imaging: artefact detection from phase contrast cardiac magnetic resonance (CMR) and disease diagnosis from the public ACDC CMR dataset. Our results indicate that both DUMs and uncertainty-aware training can improve both accuracy and calibration in both of our applications, with DUMs generally offering the best improvements. We also investigate the combination of the two approaches, resulting in a novel deterministic uncertainty-aware training approach. This provides further improvements for some combinations of DUMs and uncertainty-aware training approaches.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# 資源セマンティックスに対する推論的アプローチに関する一考察

A Note on an Inferentialist Approach to Resource Semantics ( http://arxiv.org/abs/2405.06491v1 )

ライセンス: Link先を確認
Alexander V. Gheorghiu, Tao Gu, David J. Pym, (参考訳) 情報学における中心的な概念は、それらの振る舞いと性質について推論(おそらく自動化)するためにそのようなシステムをモデル化することである。 この目的のために、システムの資源と状態の観点から論理式の解釈が必要であり、そのような解釈は論理の「資源意味論」と呼ばれる。 本稿では、推論行動の観点から意味が与えられるという「推論主義」が、リソースセマンティクスの汎用的で表現力のあるフレームワークをいかに実現しているかを示す。 特に、推論主義は、バンドル・インプリケーションの論理のアサーションに基づくアプローチ、プログラム検証の基礎(例えば、分離論理の基礎)、線形論理の有名な使用数を読むことをシームレスに取り入れている。 この統合により、共有および分離されたリソースを直感的で親しみやすい方法で推論できるだけでなく、システムコンポーネントの構成とインターフェースについても推論できる。

A central concept within informatics is in modelling such systems for the purpose of reasoning (perhaps automated) about their behaviour and properties. To this end, one requires an interpretation of logical formulae in terms of the resources and states of the system; such an interpretation is called a 'resource semantics' of the logic. This paper shows how 'inferentialism' -- the view that meaning is given in terms of inferential behaviour -- enables a versatile and expressive framework for resource semantics. Specifically, how inferentialism seamlessly incorporates the assertion-based approach of the logic of Bunched Implications, foundational in program verification (e.g., as the basis of Separation Logic), and the renowned number-of-uses reading of Linear Logic. This integration enables reasoning about shared and separated resources in intuitive and familiar ways, as well as about the composition and interfacing of system components.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# EthereumスマートコントラクトにおけるPietrzakの検証遅延関数のコスト効果検証の実装検討

Implementation Study of Cost-Effective Verification for Pietrzak's Verifiable Delay Function in Ethereum Smart Contracts ( http://arxiv.org/abs/2405.06498v1 )

ライセンス: Link先を確認
Suhyeon Lee, Euisin Jee, Junghee Lee, (参考訳) Verifiable Delay Function (VDF) は、並列処理に耐性のある逐次処理による出力の最小遅延を保証する暗号概念である。 WesolowskiとPietrzakの2つのよく知られたVDFプロトコルの中で、私たちはブロックチェーン環境の計算効率と適合性から、Pietrzak VDFに注力しています。 Pietrzak のアプローチは、Wesolowski のアプローチよりも長い証明長にもかかわらず、実際的な代替手段を提供する。 本稿では, 実用的なVDF検証実装, 特にスマートコントラクトにおける研究の不足を踏まえ, VDF検証の完全性と信頼性を損なうことなく, Ethereumベースの環境でPietrzak VDFの費用対効果検証を実現することを目的とする。 まず,潜在的効率向上のための一般化された証明生成と検証アルゴリズムを提案する。 第2に、VDF検証のためのトランザクションにおいて、各部分のガスコストを分類し、測定する。 第3に、解析に基づいて、最適化された証明構成を理論的に予測する。 最後に,理論予測が実装結果と一致することを示す。 さらに,Pietrzak VDFの証明長は,セキュリティレベルが2048ビットの8KB以下であり,従来よりもはるかに小さいことを示す。 これは、Pietrzak VDFがブロックチェーン上の暗号化アプリケーションに実用的に使用できることを意味している。

Verifiable Delay Function (VDF) is a cryptographic concept that ensures a minimum delay before output through sequential processing, which is resistant to parallel computing. Among the two well-known VDF protocols, Wesolowski and Pietrzak VDF, we focus on the Pietrzak VDF due to its computational efficiency and suitability for blockchain environments. Pietrzak's approach uses a recursive proof verification with the halving protocol, offering a practical alternative despite the longer proof length than Wesolowski's approach. Given the scarcity of research on practical VDF verification implementation, especially within smart contracts, this paper aims to implement cost-effective verification for the Pietrzak VDF in an Ethereum-based environment without compromising the VDF verification's integrity and reliability. Firstly, we propose generalized proof generation and verification algorithms for potential efficiency improvement. Secondly, we categorize and measure the gas cost of each part in a transaction for VDF verification. Thirdly, based on the analysis, we theoretically predict the optimized proof construction. Finally, we demonstrate the theoretical prediction matches the implementation results. Furthermore, our research shows that the proof length of the Pietrzak VDF is generated under 8 KB with the security level of 2048 bits, much smaller than the previous expectation. This implies that the Pietrzak VDF can be practically used for cryptographic applications on blockchains.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# Aspect-based Sentiment Evaluation of Chess Moves (ASSESS): Aspect-based Sentiment Evaluation of Chess Moves (英語)

Aspect-based Sentiment Evaluation of Chess Moves (ASSESS): an NLP-based Method for Evaluating Chess Strategies from Textbooks ( http://arxiv.org/abs/2405.06499v1 )

ライセンス: Link先を確認
Haifa Alrdahi, Riza Batista-Navarro, (参考訳) チェスドメインは、意思決定を含む現実世界の課題を模倣する人工知能(AI)システムを作成するのに適しています。 長年にわたり、非構造化のチェスデータソースから得られた洞察を調べるために、最小限の注意が払われてきた。 本研究では,チェス学習教科書における複数の参照動作間の複雑な関係について検討し,移動行動句から導かれるチェスの知識をカプセル化する手法を提案する。 本研究は, テキストに基づくチェスの動きを評価する手段として, 修正感情分析法の適用可能性について検討する。 提案手法は,参照チェスの動きに対する感情評価の進歩を示す。 移動行動句から洞察を抽出することにより,よりきめ細やかな「動き」に基づく感情分類を提供することが目的である。 実験実験と分析により, チェス領域内におけるアスペクトベース感情分類の進展において, アプローチの有効性を検証し, 微調整ABSAモデルの性能評価を行った。 本研究は,NLP技術を活用した戦略ゲームのコンテキスト理解の実践的適用性を示すとともに,マシンによるゲームプレイの領域に寄与する。

The chess domain is well-suited for creating an artificial intelligence (AI) system that mimics real-world challenges, including decision-making. Throughout the years, minimal attention has been paid to investigating insights derived from unstructured chess data sources. In this study, we examine the complicated relationships between multiple referenced moves in a chess-teaching textbook, and propose a novel method designed to encapsulate chess knowledge derived from move-action phrases. This study investigates the feasibility of using a modified sentiment analysis method as a means for evaluating chess moves based on text. Our proposed Aspect-Based Sentiment Analysis (ABSA) method represents an advancement in evaluating the sentiment associated with referenced chess moves. By extracting insights from move-action phrases, our approach aims to provide a more fine-grained and contextually aware `chess move'-based sentiment classification. Through empirical experiments and analysis, we evaluate the performance of our fine-tuned ABSA model, presenting results that confirm the efficiency of our approach in advancing aspect-based sentiment classification within the chess domain. This research contributes to the area of game-playing by machines and shows the practical applicability of leveraging NLP techniques to understand the context of strategic games.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# 外部データのないセマンティックセグメンテーションのためのマルチターゲット非教師付きドメイン適応

Multi-Target Unsupervised Domain Adaptation for Semantic Segmentation without External Data ( http://arxiv.org/abs/2405.06502v1 )

ライセンス: Link先を確認
Yonghao Xu, Pedram Ghamisi, Yannis Avrithis, (参考訳) マルチターゲット非教師付きドメイン適応(UDA)は、複数のターゲットドメイン間のドメインシフトに対応する統一モデルを学ぶことを目的としている。 密接な予測のためのアノテーションを得るのが難しいため、最近クロスドメインセマンティックセマンティックセグメンテーションに導入されている。 しかし、既存のソリューションのほとんどは、ソースドメインからのラベル付きデータと、トレーニング中に複数のターゲットドメインからのラベルなしデータが必要です。 集合的には、このデータを"external"と呼ぶ。 未知のターゲットドメインから新たにラベル付けされていないデータに直面すると、これらのソリューションはうまく一般化できないか、あるいはすべてのデータに対してスクラッチから再トレーニングを必要とする。 これらの課題に対処するために、セマンティックセグメンテーションのための「外部データ無しのマルチターゲットUDA」と呼ばれる新しい戦略を導入する。 具体的には、セグメンテーションモデルは、最初に外部データに基づいてトレーニングされる。 そして、外部データにアクセスすることなく、新しい未知のターゲットドメインに適合する。 このアプローチは既存のソリューションよりもスケーラブルであり、外部データがアクセスできない場合でも適用可能である。 本研究では,外部データから得られた知識を「一方的」逆学習を通じて適応中に保存する,自己蒸留と逆学習を取り入れた簡単な手法を用いて,この戦略を実証する。 4つのベンチマーク都市運転データセットを総合的に比較したところ、外部データがない場合でも、我々の手法は現在の最先端のソリューションを大きく上回っていることがわかった。 ソースコードはオンラインで入手できる(https://github.com/YonghaoXu/UT-KD)。

Multi-target unsupervised domain adaptation (UDA) aims to learn a unified model to address the domain shift between multiple target domains. Due to the difficulty of obtaining annotations for dense predictions, it has recently been introduced into cross-domain semantic segmentation. However, most existing solutions require labeled data from the source domain and unlabeled data from multiple target domains concurrently during training. Collectively, we refer to this data as "external". When faced with new unlabeled data from an unseen target domain, these solutions either do not generalize well or require retraining from scratch on all data. To address these challenges, we introduce a new strategy called "multi-target UDA without external data" for semantic segmentation. Specifically, the segmentation model is initially trained on the external data. Then, it is adapted to a new unseen target domain without accessing any external data. This approach is thus more scalable than existing solutions and remains applicable when external data is inaccessible. We demonstrate this strategy using a simple method that incorporates self-distillation and adversarial learning, where knowledge acquired from the external data is preserved during adaptation through "one-way" adversarial learning. Extensive experiments in several synthetic-to-real and real-to-real adaptation settings on four benchmark urban driving datasets show that our method significantly outperforms current state-of-the-art solutions, even in the absence of external data. Our source code is available online (https://github.com/YonghaoXu/UT-KD).
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# UniDM: 大規模言語モデルによるデータ操作のための統一フレームワーク

UniDM: A Unified Framework for Data Manipulation with Large Language Models ( http://arxiv.org/abs/2405.06510v1 )

ライセンス: Link先を確認
Yichen Qian, Yongyi He, Rong Zhu, Jintao Huang, Zhijian Ma, Haibin Wang, Yaohua Wang, Xiuyu Sun, Defu Lian, Bolin Ding, Jingren Zhou, (参考訳) 効果的なデータ操作方法を設計することは、データレイクにおける長年の課題である。 ルールや機械学習モデルに依存する従来の手法では、データ収集とチューニングモデルのトレーニングに広範囲な人的努力が必要となる。 最近の手法では、複数のデータ操作タスクを解決するためにLarge Language Models (LLM) を採用している。 パフォーマンス面では明るいメリットがありますが、それぞれのタスクに合うようにカスタマイズされた設計が必要です。 これは非常にコストがかかり、ビッグデータレイクプラットフォームの要件に追いつくことはできない。 本稿では,NLPタスクにおけるLLMのクロスタスク一般化に触発されて,データ操作タスクに対処するための,自動および汎用的なソリューションを設計する第一歩を練る。 LLMを用いてデータ操作タスクを処理するための新しいパラダイムを確立する統一フレームワークUniDMを提案する。 UniDMは、複数のデータ操作タスクを統一形式で形式化し、各タスクを解決するための3つの一般的なステップを抽象化する。 我々は,LLMがデータレイクからデータを取得し,証拠や事実情報を含む可能性のある,自動文脈検索を開発する。 各ステップに対して,LLMを誘導して高品質な結果を得る効果的なプロンプトを設計する。 様々なベンチマークに関する総合的な評価により、我々のUniDMは、様々なデータ操作タスクにおいて、非常に汎用性と最先端のパフォーマンスを示す。

Designing effective data manipulation methods is a long standing problem in data lakes. Traditional methods, which rely on rules or machine learning models, require extensive human efforts on training data collection and tuning models. Recent methods apply Large Language Models (LLMs) to resolve multiple data manipulation tasks. They exhibit bright benefits in terms of performance but still require customized designs to fit each specific task. This is very costly and can not catch up with the requirements of big data lake platforms. In this paper, inspired by the cross-task generality of LLMs on NLP tasks, we pave the first step to design an automatic and general solution to tackle with data manipulation tasks. We propose UniDM, a unified framework which establishes a new paradigm to process data manipulation tasks using LLMs. UniDM formalizes a number of data manipulation tasks in a unified form and abstracts three main general steps to solve each task. We develop an automatic context retrieval to allow the LLMs to retrieve data from data lakes, potentially containing evidence and factual information. For each step, we design effective prompts to guide LLMs to produce high quality results. By our comprehensive evaluation on a variety of benchmarks, our UniDM exhibits great generality and state-of-the-art performance on a wide variety of data manipulation tasks.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# 損失減少を考慮したカリキュラム学習を用いた不均一グラフニューラルネットワーク

Heterogeneous Graph Neural Networks with Loss-decrease-aware Curriculum Learning ( http://arxiv.org/abs/2405.06522v1 )

ライセンス: Link先を確認
Yili Wang, (参考訳) 近年、ヘテロジニアスグラフニューラルネットワーク(HGNN)は、ヘテロジニアス情報ネットワーク(HIN)の処理において優れた性能を発揮している。 カリキュラム学習(英: Curriculum learning)は、学習効率と一般化を改善することを目的とした、簡単な例から始まり、徐々に困難を増す、構造化された順序でトレーニング例をモデルに提示する機械学習戦略である。 HINの豊富な情報をうまく活用するため、従来の手法ではHGNNの学習にカリキュラム学習戦略を応用することを探っている。 具体的には、各トレーニングエポックにおける損失の絶対値を利用して、各トレーニングサンプルの学習困難度を評価する。 しかし、損失の絶対値ではなく相対的な損失は、学習の難しさを明らかにしている。 そこで本研究では,LDTS(Los-Decrease-Aware Training schedule)を提案する。 LDTSは,各トレーニングエポック間の損失減少傾向を利用して,トレーニングサンプルの難易度を評価し,下流タスクのためのHGNNのカリキュラム学習を向上させる。 さらに,トレーニングの不均衡問題を軽減するためのサンプリング戦略を提案する。 本手法は,HGNNの能力向上におけるカリキュラム学習の有効性をさらに実証するものである。 我々はこの手法をLos-Decrease-aware Heterogeneous Graph Neural Networks (LDHGNN)と呼ぶ。 コードはhttps://github.com/wangyili00/LDHGNNで公開されている。

In recent years, heterogeneous graph neural networks (HGNNs) have achieved excellent performance in handling heterogeneous information networks (HINs). Curriculum learning is a machine learning strategy where training examples are presented to a model in a structured order, starting with easy examples and gradually increasing difficulty, aiming to improve learning efficiency and generalization. To better exploit the rich information in HINs, previous methods have started to explore the use of curriculum learning strategy to train HGNNs. Specifically, these works utilize the absolute value of the loss at each training epoch to evaluate the learning difficulty of each training sample. However, the relative loss, rather than the absolute value of loss, reveals the learning difficulty. Therefore, we propose a novel loss-decrease-aware training schedule (LDTS). LDTS uses the trend of loss decrease between each training epoch to better evaluating the difficulty of training samples, thereby enhancing the curriculum learning of HGNNs for downstream tasks. Additionally, we propose a sampling strategy to alleviate training imbalance issues. Our method further demonstrate the efficacy of curriculum learning in enhancing HGNNs capabilities. We call our method Loss-decrease-aware Heterogeneous Graph Neural Networks (LDHGNN). The code is public at https://github.com/wangyili00/LDHGNN.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# ロングテールファクトを含む質問応答のための知識グラフを用いた大規模言語モデルの提案

Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts ( http://arxiv.org/abs/2405.06524v1 )

ライセンス: Link先を確認
Wenyu Huang, Guancheng Zhou, Mirella Lapata, Pavlos Vougiouklis, Sebastien Montella, Jeff Z. Pan, (参考訳) 大きな言語モデル(LLM)は様々なNLPタスクを実行するのに有効であるが、特にロングテールな事実(ロングテールなエンティティに関連するもの)を扱う際には、広範囲で現実世界の知識を必要とするタスクを扱うのに苦慮している。 この制限は、LLMを非パラメトリック知識で補う必要性を強調している。 この問題に対処するために,テキストパスや知識グラフ(KG)など,異なるタイプの非パラメトリック知識の効果を分析した。 LLMはすでに、我々の分析を容易にするために、事実回答データセットの大半をすでに見てきたので、私たちは、関連する疑問に答えるために、長い事実の知識を必要とするベンチマークを作成するための完全な自動パイプラインを提案しました。 このパイプラインを使用して、LTGenベンチマークを導入する。 提案したベンチマークを用いて,異なる知識環境下での最先端LLMの評価を行った。 実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。 それにもかかわらず、同じモデルの性能は、非パラメトリックな知識によって引き起こされたときに大幅に向上した。 我々は,ほとんどの場合,KGトリプルを用いたLCMは,最先端レトリバーを用いたパスベースプロンプトを超えることが観察された。 さらに、KGトリプルと文書の両方でLLMを誘導することは、知識カバレッジを継続的に改善するわけではないが、生成したコンテンツの幻覚を劇的に低減することができる。

Although Large Language Models (LLMs) are effective in performing various NLP tasks, they still struggle to handle tasks that require extensive, real-world knowledge, especially when dealing with long-tail facts (facts related to long-tail entities). This limitation highlights the need to supplement LLMs with non-parametric knowledge. To address this issue, we analysed the effects of different types of non-parametric knowledge, including textual passage and knowledge graphs (KGs). Since LLMs have probably seen the majority of factual question-answering datasets already, to facilitate our analysis, we proposed a fully automatic pipeline for creating a benchmark that requires knowledge of long-tail facts for answering the involved questions. Using this pipeline, we introduce the LTGen benchmark. We evaluate state-of-the-art LLMs in different knowledge settings using the proposed benchmark. Our experiments show that LLMs alone struggle with answering these questions, especially when the long-tail level is high or rich knowledge is required. Nonetheless, the performance of the same models improved significantly when they were prompted with non-parametric knowledge. We observed that, in most cases, prompting LLMs with KG triples surpasses passage-based prompting using a state-of-the-art retriever. In addition, while prompting LLMs with both KG triples and documents does not consistently improve knowledge coverage, it can dramatically reduce hallucinations in the generated content.
翻訳日:2024-05-13 15:38:11 公開日:2024-05-10
# セマンティックセグメンテーションのための意味的・空間的適応的画素レベル分類器

Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation ( http://arxiv.org/abs/2405.06525v1 )

ライセンス: Link先を確認
Xiaowen Ma, Zhenliang Ni, Xinghao Chen, (参考訳) セマンティックセグメンテーションのためのバニラピクセルレベルの分類器は、トレーニングセットから得られた固定プロトタイプの内部積とテスト画像中の画素特徴を含む特定のパラダイムに基づいている。 しかしこのアプローチは、意味領域における特徴偏差や空間領域における情報損失など、重大な制限に直面している。 前者は異なる画像の画素特徴間の大きなクラス内ばらつきに悩まされ、後者は意味オブジェクトの構造情報を効果的に利用できない。 これは、ぼやけたマスクの境界や、きめ細かい認識能力の欠如につながる。 本稿では,これらの課題に対処する新しい意味・空間適応型分類器を提案する。 具体的には、固定されたプロトタイプから得られた粗いマスクを用いて、テスト画像のセマンティック領域と空間領域の中心に向けて固定されたプロトタイプを調整する。 意味領域と空間領域における適応型プロトタイプは同時に分類決定を行うと考えられる。 さらに, 適応プロセスを改善するために, オンライン多ドメイン蒸留学習戦略を提案する。 3つの公開ベンチマークによる実験結果から,提案したSSAは,計算コストを最小限に抑えて,ベースラインモデルのセグメンテーション性能を大幅に向上することが示された。 コードはhttps://github.com/xwmaxwma/SSA.comで入手できる。

Vanilla pixel-level classifiers for semantic segmentation are based on a certain paradigm, involving the inner product of fixed prototypes obtained from the training set and pixel features in the test image. This approach, however, encounters significant limitations, i.e., feature deviation in the semantic domain and information loss in the spatial domain. The former struggles with large intra-class variance among pixel features from different images, while the latter fails to utilize the structured information of semantic objects effectively. This leads to blurred mask boundaries as well as a deficiency of fine-grained recognition capability. In this paper, we propose a novel Semantic and Spatial Adaptive (SSA) classifier to address the above challenges. Specifically, we employ the coarse masks obtained from the fixed prototypes as a guide to adjust the fixed prototype towards the center of the semantic and spatial domains in the test image. The adapted prototypes in semantic and spatial domains are then simultaneously considered to accomplish classification decisions. In addition, we propose an online multi-domain distillation learning strategy to improve the adaption process. Experimental results on three publicly available benchmarks show that the proposed SSA significantly improves the segmentation performance of the baseline models with only a minimal increase in computational cost. Code is available at https://github.com/xwmaxwma/SSA.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# PBR, 非現実性, 絡み合い測定

PBR, nonreality and entangled measurement ( http://arxiv.org/abs/2405.06526v1 )

ライセンス: Link先を確認
Hofer-Szabó, Gábor, (参考訳) 最近の論文でキャボレットは、量子力学のアンサンブル解釈において、PBR定理の導出に使用される絡み合いの測定は存在しないので、PBR定理は非現実的であると主張している。 しかし、Cabbolet (1) は、既に PBR 定理から知られているような、絡み合った測定の存在と $\psi$-epistemic モデルの存在の非互換性を超えて、絡み合った測定が存在しないという主張を一切示さない。 したがって、PBRの定理はそのままである。

In a recent paper, Cabbolet argues that the PBR theorem is nonreal since in the ensemble interpretation of quantum mechanics the entangled measurement used in the derivation of the PBR theorem is nonexisting. However, Cabbolet (1) doesn't provide any argument for the nonexistence of entangled measurements beyond the incompatibility of the existence of entangled measurements and the existence of $\psi$-epistemic models which we already know from the PBR theorem; and (2) he doesn't show why it is more reasonable to abandon entangled measurements instead of $\psi$-epistemic models. Hence, the PBR theorem remains intact.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# 絡み合い再正規化を含むテンソルネットワーク状態の自動構造探索

Automatic Structural Search of Tensor Network States including Entanglement Renormalization ( http://arxiv.org/abs/2405.06534v1 )

ライセンス: Link先を確認
Ryo Watanabe, Hiroshi Ueda, (参考訳) 絡み合い再正規化(ER)を含むテンソルネットワーク(TN)状態は、より幅広い絡み合い状態を含むことができる。 興味のある量子状態の絡み合い構造が実空間において非一様であるとき、その絡み合いパターンと整合するようにTNを適切に構成するときに、限られた自由度ヒンジを持つ状態を表す。 しかし,高い計算コストとアルゴリズムの柔軟性の欠如により,ERの構造探索がまだ行われていない。 本研究では, 変動エネルギーに関する局所構造の再構築に基づいて, ERを含むTNの最適構造探索を行った。 まず, スピン=1/2$四量体単体モデルのアルゴリズムが, マルチスケールエンタングルメント再正規化アンサッツ (MERA) 構造を初期TN構造として, 正確な基底エネルギーを計算することを実証した。 その後,本アルゴリズムを2つの初期構造を持つランダムXYモデルに適用した。 いずれの場合も、我々のアルゴリズムは変動エネルギー、忠実度、絡み合いエントロピーの改善を実現している。 これらの量の改善の度合いは、前者よりも後者の方が優れており、アルゴリズムの性能を最大化するためには、既存のTN設計手法を前処理ステップとして活用することが重要であることを示唆している。

Tensor network (TN) states, including entanglement renormalization (ER), can encompass a wider variety of entangled states. When the entanglement structure of the quantum state of interest is non-uniform in real space, accurately representing the state with a limited number of degrees of freedom hinges on appropriately configuring the TN to align with the entanglement pattern. However, a proposal has yet to show a structural search of ER due to its high computational cost and the lack of flexibility in its algorithm. In this study, we conducted an optimal structural search of TN, including ER, based on the reconstruction of their local structures with respect to variational energy. Firstly, we demonstrated that our algorithm for the spin-$1/2$ tetramer singlets model could calculate exact ground energy using the multi-scale entanglement renormalization ansatz (MERA) structure as an initial TN structure. Subsequently, we applied our algorithm to the random XY models with the two initial structures: MERA and the suitable structure underlying the strong disordered renormalization group. We found that, in both cases, our algorithm achieves improvements in variational energy, fidelity, and entanglement entropy. The degree of improvement in these quantities is superior in the latter case compared to the former, suggesting that utilizing an existing TN design method as a preprocessing step is important for maximizing our algorithm's performance.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# 並列トケ予測合成による制御可能な画像生成

Controllable Image Generation With Composed Parallel Token Prediction ( http://arxiv.org/abs/2405.06535v1 )

ライセンス: Link先を確認
Jamie Stirling, Noura Al-Moubayed, (参考訳) 合成画像生成は、2つ以上の入力概念が必ずしも訓練(合成一般化)で必ずしも一緒に現れない状況において、モデルをうまく一般化する必要がある。 拡散やエネルギーベースモデルのような連続的なサンプリングプロセスを構成することで合成画像の生成が近年進歩しているにもかかわらず、離散生成プロセスを構成することは、効率、解釈可能性、単純性の向上を約束する、オープンな課題である。 そこで本稿では,潜在空間の離散生成モデルの対数確率出力を構成することにより,画像の制御可能な条件生成の定式化を提案する。 提案手法は,VQ-VAEとVQ-GANと併用することで,Fr'echet Inception Distance(FID)スコアを達成しつつ,3つの異なる設定(FFHQ, positional CLEVR, Relational CLEVR)で最先端生成精度を実現する。 提案手法は, 実験環境における平均生成精度を80.71 %とする。 提案手法は,9実験中7実験において,FIDの平均値が24.23ドル(平均値が9.58ドル)である場合において,FIDの次の最良値(精度)よりも優れていた。 さらに,本手法では,ハードウェア上での連続合成手法の高速化に対して,2.3\times$から12\times$の高速化を提供する。 提案手法は,学習データ外にある入力条件(例えば,画像当たりのオブジェクト数)の組み合わせに一般化することができ,また,概念重み付けによる解釈可能な制御可能性の次元を提供する。 さらに,本手法は個別のテキスト・ツー・イメージ・モデルに対して,微調整なしで容易に適用できることを示し,テキスト・ツー・イメージ生成のきめ細かい制御を可能にする。

Compositional image generation requires models to generalise well in situations where two or more input concepts do not necessarily appear together in training (compositional generalisation). Despite recent progress in compositional image generation via composing continuous sampling processes such as diffusion and energy-based models, composing discrete generative processes has remained an open challenge, with the promise of providing improvements in efficiency, interpretability and simplicity. To this end, we propose a formulation for controllable conditional generation of images via composing the log-probability outputs of discrete generative models of the latent space. Our approach, when applied alongside VQ-VAE and VQ-GAN, achieves state-of-the-art generation accuracy in three distinct settings (FFHQ, Positional CLEVR and Relational CLEVR) while attaining competitive Fr\'echet Inception Distance (FID) scores. Our method attains an average generation accuracy of $80.71\%$ across the studied settings. Our method also outperforms the next-best approach (ranked by accuracy) in terms of FID in seven out of nine experiments, with an average FID of $24.23$ (an average improvement of $-9.58$). Furthermore, our method offers a $2.3\times$ to $12\times$ speedup over comparable continuous compositional methods on our hardware. We find that our method can generalise to combinations of input conditions that lie outside the training data (e.g. more objects per image) in addition to offering an interpretable dimension of controllability via concept weighting. We further demonstrate that our approach can be readily applied to an open pre-trained discrete text-to-image model without any fine-tuning, allowing for fine-grained control of text-to-image generation.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# Mesh Denoising Transformer

Mesh Denoising Transformer ( http://arxiv.org/abs/2405.06536v1 )

ライセンス: Link先を確認
Wenbo Zhao, Xianming Liu, Deming Zhai, Junjun Jiang, Xiangyang Ji, (参考訳) 入力メッシュからノイズを取り除き、特徴構造を保存することを目的としたメッシュデノイングは、実用的ながら難しいタスクである。 近年の学習ベースのメッシュ記述手法の顕著な進歩にもかかわらず、ネットワーク設計では、メッシュの多面的属性のキャプチャに不足する単一モーダルな幾何学的表現への依存と、効果的なグローバルな機能集約の欠如という、メッシュの包括的な構造を完全に理解する能力の2つの主な欠点に直面することが多い。 これらの問題に対処するために、TransformerベースのメッシュDenoisingフレームワークであるSurfaceFormerを提案する。 最初のコントリビューションはローカル表面記述子と呼ばれる新しい表現の開発であり、これは各メッシュ面に極系を確立し、次いで測地線を用いて隣接する表面から点をサンプリングすることで実現されている。 これらの点の正規は2Dパッチに分類され、局所的な幾何学的複雑さを捉えるために画像を模倣する一方、極と頂点座標は空間情報を具現化するために点雲に統合される。 この進歩はメッシュデータの不規則および非ユークリッド特性によって引き起こされるハードルを克服し、Transformerアーキテクチャとのスムーズな統合を容易にする。 次に,幾何エンコーダ分枝と空間エンコーダ分枝からなる二重ストリーム構造を提案する。 その後のDenoising Transformerモジュールは、マルチモーダル情報を受け取り、自己注意演算子を介して効率的なグローバルな特徴集約を実現する。 実験により,本手法は客観評価と主観評価の両方において既存手法よりも優れており,メッシュデノイングの飛躍的な進歩を示している。

Mesh denoising, aimed at removing noise from input meshes while preserving their feature structures, is a practical yet challenging task. Despite the remarkable progress in learning-based mesh denoising methodologies in recent years, their network designs often encounter two principal drawbacks: a dependence on single-modal geometric representations, which fall short in capturing the multifaceted attributes of meshes, and a lack of effective global feature aggregation, hindering their ability to fully understand the mesh's comprehensive structure. To tackle these issues, we propose SurfaceFormer, a pioneering Transformer-based mesh denoising framework. Our first contribution is the development of a new representation known as Local Surface Descriptor, which is crafted by establishing polar systems on each mesh face, followed by sampling points from adjacent surfaces using geodesics. The normals of these points are organized into 2D patches, mimicking images to capture local geometric intricacies, whereas the poles and vertex coordinates are consolidated into a point cloud to embody spatial information. This advancement surmounts the hurdles posed by the irregular and non-Euclidean characteristics of mesh data, facilitating a smooth integration with Transformer architecture. Next, we propose a dual-stream structure consisting of a Geometric Encoder branch and a Spatial Encoder branch, which jointly encode local geometry details and spatial information to fully explore multimodal information for mesh denoising. A subsequent Denoising Transformer module receives the multimodal information and achieves efficient global feature aggregation through self-attention operators. Our experimental evaluations demonstrate that this novel approach outperforms existing state-of-the-art methods in both objective and subjective assessments, marking a significant leap forward in mesh denoising.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# ATSumm: スパーストレーニングデータを用いた抽象的災害つぶやき要約のための補助情報強化アプローチ

ATSumm: Auxiliary information enhanced approach for abstractive disaster Tweet Summarization with sparse training data ( http://arxiv.org/abs/2405.06541v1 )

ライセンス: Link先を確認
Piyush Kumar Garg, Roshni Chakraborty, Sourav Kumar Dandapat, (参考訳) Twitter上の状況情報の豊富さは、災害時にユーザーが手動で重要な情報や関連情報を識別することの難しさを招いている。 この情報の簡潔で人間の解釈可能な概要は、意思決定者が効率的かつ迅速な災害対応を実装するのに役立ちます。 既存の抽象的な要約アプローチは、文ベースまたはキーフレーズベースのアプローチに分類される。 本論文は文型アプローチに着目し, 典型的には文学における二重相手続きとして実装される。 最初のフェーズは抽出フェーズと呼ばれ、最も関連性の高いツイートを識別する。 その後のフェーズは抽象フェーズと呼ばれ、より人間的に解釈可能な要約を生成する。 本研究では,抽出段階の先行研究から方法論を取り入れた。 要約の抽象的なフェーズでは、既存のアプローチのほとんどはディープラーニングベースのフレームワークを採用しています。 しかし、パフォーマンスの適切なレベルを達成するためには、両方のメソッドに対して実質的なトレーニングデータを持つことが不可欠であり、これは容易には利用できない。 本稿では、補助情報を用いてデータ空間の問題に効果的に対処する抽象ツイート要約器(ATSumm)を提案する。 我々はキーフレーズアテンションと呼ばれるユニークなアテンション機構を利用するAuxPGN(Auxiliary Pointer Generator Network)モデルを導入した。 このアテンションメカニズムは、入力されたツイートから、キーフレーズの形式で補助情報と、それに対応する重要なスコアを組み込む。 提案手法を,13の災害データセットを対象とした10の最先端手法と比較することにより評価した。 評価の結果, ROUGE-N F1スコアの4-80%向上により, ATSummは最先端のアプローチよりも優れた性能が得られることがわかった。

The abundance of situational information on Twitter poses a challenge for users to manually discern vital and relevant information during disasters. A concise and human-interpretable overview of this information helps decision-makers in implementing efficient and quick disaster response. Existing abstractive summarization approaches can be categorized as sentence-based or key-phrase-based approaches. This paper focuses on sentence-based approach, which is typically implemented as a dual-phase procedure in literature. The initial phase, known as the extractive phase, involves identifying the most relevant tweets. The subsequent phase, referred to as the abstractive phase, entails generating a more human-interpretable summary. In this study, we adopt the methodology from prior research for the extractive phase. For the abstractive phase of summarization, most existing approaches employ deep learning-based frameworks, which can either be pre-trained or require training from scratch. However, to achieve the appropriate level of performance, it is imperative to have substantial training data for both methods, which is not readily available. This work presents an Abstractive Tweet Summarizer (ATSumm) that effectively addresses the issue of data sparsity by using auxiliary information. We introduced the Auxiliary Pointer Generator Network (AuxPGN) model, which utilizes a unique attention mechanism called Key-phrase attention. This attention mechanism incorporates auxiliary information in the form of key-phrases and their corresponding importance scores from the input tweets. We evaluate the proposed approach by comparing it with 10 state-of-the-art approaches across 13 disaster datasets. The evaluation results indicate that ATSumm achieves superior performance compared to state-of-the-art approaches, with improvement of 4-80% in ROUGE-N F1-score.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# パウリサンプリングによる効率的な内部積推定

Efficient distributed inner product estimation via Pauli sampling ( http://arxiv.org/abs/2405.06544v1 )

ライセンス: Link先を確認
Marcel Hinsche, Marios Ioannou, Sofiene Jerbi, Lorenzo Leone, Jens Eisert, Jose Carrasco, (参考訳) クロスプラットフォーム検証は、ローカルな量子演算と古典的な通信のみを用いて、異なる物理プラットフォームによって生成された出力状態を比較するタスクである。 これまでプロトコルは提案されてきたが、その指数的なサンプルの複雑さは、中間スケールの量子システムでさえ実践的ではない。 本研究では,パウリ基底における量子状態の拡大において,その重みに応じて分布したパウリを生成するサブルーチンであるパウリサンプリングに基づく,このタスクのための新しいプロトコルを提案する。 パウリサンプリングとクロスプラットフォーム検証の両方のプロトコルは、魔法と絡み合いの低い量子状態(すなわち、$O(\log n)$)に対して効率的であることを示す。 逆に、$\omega(\log n)$ magic と tanglement を持つ状態に対する両方のタスクの複雑さに関する超多項式的な下界を示す。 興味深いことに、実際の振幅を持つ状態を考えると、クロスプラットフォーム検証のためのプロトコルの要件は大幅に低下する可能性がある。

Cross-platform verification is the task of comparing the output states produced by different physical platforms using solely local quantum operations and classical communication. While protocols have previously been suggested for this task, their exponential sample complexity renders them unpractical even for intermediate-scale quantum systems. In this work, we propose a novel protocol for this task based on Pauli sampling, a subroutine which generates Paulis distributed according to their weight in the expansion of a quantum state in the Pauli basis. We show that our protocols for both Pauli sampling and cross-platform verification are efficient for quantum states with low magic and entanglement (i.e., of the order $O(\log n)$). Conversely, we show super-polynomial lower bounds on the complexity of both tasks for states with $\omega(\log n)$ magic and entanglement. Interestingly, when considering states with real amplitudes the requirements of our protocol for cross-platform verification can be significantly weakened.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# 自己精製強化知識検索による大規模言語モデルにおける幻覚の緩和

Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval ( http://arxiv.org/abs/2405.06545v1 )

ライセンス: Link先を確認
Mengjia Niu, Hao Li, Jie Shi, Hamed Haddadi, Fan Mo, (参考訳) 大規模言語モデル(LLM)は、様々な領域で顕著な能力を示してきたが、幻覚への感受性は、医療などの重要な領域に展開する上で大きな課題となっている。 この問題に対処するため、知識グラフ(KG)から関連する事実を検索することは有望な方法と考えられる。 既存のKG拡張アプローチはリソース集約的であり、各ファクトイドに対して複数のラウンドの検索と検証が必要であり、現実のシナリオでの応用を妨げる。 本研究では,LLMの回答の事実性を高めるために,医療分野での検索努力を減らし,自己改善型知識グラフ検索(Re-KGR)を提案する。 提案手法は,各トークンにまたがる次世代予測確率分布の帰結を生かし,各種モデル層を用いて幻覚の可能性が高いトークンを同定し,これらのトークンに関連付けられた知識を3倍にすることで検証ラウンドを短縮する。 さらに、検索した知識を用いて、後処理段階で不正確なコンテンツを修正し、生成した応答の真偽を改善する。 医学データセットを用いた実験結果から,本手法は様々な基礎モデルにまたがるLCMの現実的能力を高めることができることが示された。

Large language models (LLMs) have demonstrated remarkable capabilities across various domains, although their susceptibility to hallucination poses significant challenges for their deployment in critical areas such as healthcare. To address this issue, retrieving relevant facts from knowledge graphs (KGs) is considered a promising method. Existing KG-augmented approaches tend to be resource-intensive, requiring multiple rounds of retrieval and verification for each factoid, which impedes their application in real-world scenarios. In this study, we propose Self-Refinement-Enhanced Knowledge Graph Retrieval (Re-KGR) to augment the factuality of LLMs' responses with less retrieval efforts in the medical field. Our approach leverages the attribution of next-token predictive probability distributions across different tokens, and various model layers to primarily identify tokens with a high potential for hallucination, reducing verification rounds by refining knowledge triples associated with these tokens. Moreover, we rectify inaccurate content using retrieved knowledge in the post-processing stage, which improves the truthfulness of generated responses. Experimental results on a medical dataset demonstrate that our approach can enhance the factual capability of LLMs across various foundational models as evidenced by the highest scores on truthfulness.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# 過パラメータ化状態における「重要度重み付き」推定器の分布外誤差のシャープ解析

Sharp analysis of out-of-distribution error for "importance-weighted" estimators in the overparameterized regime ( http://arxiv.org/abs/2405.06546v1 )

ライセンス: Link先を確認
Kuo-Wei Lai, Vidya Muthukumar, (参考訳) トレーニングエラーをゼロとする過度パラメータ化モデルは, 平均でよく一般化されるが, トレーニングサンプルに不足したデータに直面すると, 性能が低下する。 本研究では, 過パラメータ化ガウス混合モデルに突発的特徴を付与し, 「重要重み」を組み込んだコスト感受性補間溶液の分布内および分布外試験誤差を鋭く解析する。 近年の Wang et al (2021), Behnia et al (2022) と比較すると,我々の分析は上界と下界の一致で鋭く,データ次元に関する要求仮定を著しく弱めている。 誤差特性は重みの任意の選択にも適用でき、最短ケースのロバスト性から分布シフト、および重みの関数としての平均精度との新たなトレードオフが明らかにされる。

Overparameterized models that achieve zero training error are observed to generalize well on average, but degrade in performance when faced with data that is under-represented in the training sample. In this work, we study an overparameterized Gaussian mixture model imbued with a spurious feature, and sharply analyze the in-distribution and out-of-distribution test error of a cost-sensitive interpolating solution that incorporates "importance weights". Compared to recent work Wang et al. (2021), Behnia et al. (2022), our analysis is sharp with matching upper and lower bounds, and significantly weakens required assumptions on data dimensionality. Our error characterizations also apply to any choice of importance weights and unveil a novel tradeoff between worst-case robustness to distribution shift and average accuracy as a function of the importance weight magnitude.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# OneTo3D:ダイナミックな3Dモデルとビデオ生成を再編集できるワンイメージ

OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation ( http://arxiv.org/abs/2405.06547v1 )

ライセンス: Link先を確認
Jinwei Lin, (参考訳) 編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。 ガウススプラッティングは、オリジナルのニューラルレイディアンス場と比較して、暗黙の3次元再構成においてその利点を証明している。 技術や原則の急速な発展に伴い、人々はテキスト命令でターゲットモデルを生成するために安定拡散モデルを使おうとした。 しかし、通常の暗黙的な機械学習手法を用いることで、正確な動きやアクション制御を得ることは困難であり、さらに、長いコンテンツとセマンティックな連続した3Dビデオを生成することは困難である。 この問題に対処するために,1つの画像を用いて編集可能な3Dモデルを生成し,対象とするセマンティックな連続時間無制限の3Dビデオを生成する方法と理論であるOneTo3Dを提案する。 画像から3次元モデルを生成するため,通常の基本ガウススプラッティングモデルを用いて,ビデオメモリの容量削減とコンピュータ計算能力の向上を図った。 その後,自動生成と自己適応型結合機構を設計した。 提案したアルゴリズムと組み合わせることで、3Dモデル精密動作と動作制御の領域におけるSOTAプロジェクトよりも優れたパフォーマンスを実現し、入力されたテキスト命令で安定したセマンティックな連続時間無制限の3Dビデオを生成することができる。 ここでは、詳細な実装方法と理論分析について分析する。 相対的な比較と結論が提示される。 プロジェクトコードはオープンソースである。

One image to editable dynamic 3D model and video generation is novel direction and change in the research area of single image to 3D representation or 3D reconstruction of image. Gaussian Splatting has demonstrated its advantages in implicit 3D reconstruction, compared with the original Neural Radiance Fields. As the rapid development of technologies and principles, people tried to used the Stable Diffusion models to generate targeted models with text instructions. However, using the normal implicit machine learning methods is hard to gain the precise motions and actions control, further more, it is difficult to generate a long content and semantic continuous 3D video. To address this issue, we propose the OneTo3D, a method and theory to used one single image to generate the editable 3D model and generate the targeted semantic continuous time-unlimited 3D video. We used a normal basic Gaussian Splatting model to generate the 3D model from a single image, which requires less volume of video memory and computer calculation ability. Subsequently, we designed an automatic generation and self-adaptive binding mechanism for the object armature. Combined with the re-editable motions and actions analyzing and controlling algorithm we proposed, we can achieve a better performance than the SOTA projects in the area of building the 3D model precise motions and actions control, and generating a stable semantic continuous time-unlimited 3D video with the input text instructions. Here we will analyze the detailed implementation methods and theories analyses. Relative comparisons and conclusions will be presented. The project code is open source.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# 周波数推定精度向上のための量子絡み合わせの有用性

Usefulness of Quantum Entanglement for Enhancing Precision in Frequency Estimation ( http://arxiv.org/abs/2405.06548v1 )

ライセンス: Link先を確認
Marco A. Rodríguez-García, Ruynet L. de Matos Filho, Pablo Barberis-Blostein, (参考訳) 実験の各ランで使用されるプローブの数が固定された場合,周波数推定の精度の限界に達するための戦略について検討する。 この限界は量子Cram\'er-Raobound (QCRB) によって設定され、これは最大エンタングルドプローブの使用が独立プローブの使用と比較して推定精度を高めることを予測している。 しかし、推定に使用される統計モデルが手続きを通して識別可能であれば、境界は達成可能である。 これにより、絡み合った独立プローブを使用する場合、推定手順の各実行で使用される最大センシング時間に異なる制限を設定する。 これらの制約を考慮すると、プローブの総数と推定プロセスの総期間を固定資源とすると、絡み合ったプローブの使用は、実際、独立プローブの使用と比較して不利であることを示すことができる。 統計モデルの識別可能性の要求により、センシング時間に課される制限に対応するために、推定プロセスの各ステップにおいて、検知時間が適切に増大する時間適応戦略を提案し、その限界を最小化するために、その戦略に縛られる到達可能な誤差を計算し、そのパラメータを最適に選択する方法について議論する。 提案手法は,従来の固定センシング時間戦略よりも,プローブの総数,センシング時間とともに推定の不確かさのスケールアップに大きく貢献することを示す。 また, プローブの総数と検出時間の合計を資源とすると, 独立型プローブと最大エンタングルドプローブは, 最大エンタングルドプローブの使用よりも独立性の方が有利である非適応型戦略とは対照的に, ほぼ同じ性能を示した。

We investigate strategies for reaching the ultimate limit on the precision of frequency estimation when the number of probes used in each run of the experiment is fixed. That limit is set by the quantum Cram\'er-Rao bound (QCRB), which predicts that the use of maximally entangled probes enhances the estimation precision, when compared with the use of independent probes. However, the bound is only achievable if the statistical model used in the estimation remains identifiable throughout the procedure. This in turn sets different limits on the maximal sensing time used in each run of the estimation procedure, when entangled and independent probes are used. When those constraints are taken into account, one can show that, when the total number of probes and the total duration of the estimation process are counted as fixed resources, the use of entangled probes is, in fact, disadvantageous when compared with the use of independent probes. In order to counteract the limitations imposed on the sensing time by the requirement of identifiability of the statistical model, we propose a time-adaptive strategy, in which the sensing time is adequately increased at each step of the estimation process, calculate an attainable error bound for the strategy and discuss how to optimally choose its parameters in order to minimize that bound. We show that the proposed strategy leads to much better scaling of the estimation uncertainty with the total number of probes and the total sensing time than the traditional fixed-sensing-time strategy. We also show that, when the total number of probes and the total sensing time are counted as resources, independent probes and maximally entangled ones have now the same performance, in contrast to the non-adaptive strategy, where the use of independent is more advantageous than the use of maximally entangled ones.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# 類似言語を木空間で識別するSwadesh Listのサンプリング

Sampling the Swadesh List to Identify Similar Languages with Tree Spaces ( http://arxiv.org/abs/2405.06549v1 )

ライセンス: Link先を確認
Garett Ordway, Vic Patrangenaru, (参考訳) コミュニケーションは人間の相互作用において重要な役割を果たす。 言語を学ぶことは価値のある課題であり、近年は量的比較言語学や語彙統計学のような分野の発展とともに、自然界において量的になった。 著者の母国語については、英語とラテンアルファベットの祖先が主な関心事である。 インド・ヨーロッパ・ツリーは、多くの近代言語を原インド・ヨーロッパ語源に遡る。 スワデシュのコニャーテは、ゲルマン語、ケルト語、イタリア語、バルト・スラヴ語が主要な分野である歴史的視点の発展に大きな役割を果たした。 本稿では,最も単純な特異空間が3-スパイダー (3-spider) であり,その終点が0点に接着された3光線の和集合 T3 であり,これらの木空間を言語クラスタリングのために表現できるオープンブック上でのデータ解析を用いる。 これらの木は、ラテンスクリプトを使用する言語からのサンプル間の距離に基づいて、クラスタリングのための単一のリンケージメソッドを使用して構築されている。 3つの言語を一度に受け取り、バリセンタが決定される。 初期の実験では、粘着性のないサンプルと粘着性のあるサンプルの両方が検出された。 平均が非粘着性を示す場合、ある言語は他の2言語とは異なる祖先から来ている可能性がある。 平均が粘着性があると考えられる場合、言語は共通の祖先を共有するか、または全ての言語が異なる祖先を持つ可能性がある。

Communication plays a vital role in human interaction. Studying language is a worthwhile task and more recently has become quantitative in nature with developments of fields like quantitative comparative linguistics and lexicostatistics. With respect to the authors own native languages, the ancestry of the English language and the Latin alphabet are of the primary interest. The Indo-European Tree traces many modern languages back to the Proto-Indo-European root. Swadesh's cognates played a large role in developing that historical perspective where some of the primary branches are Germanic, Celtic, Italic, and Balto-Slavic. This paper will use data analysis on open books where the simplest singular space is the 3-spider - a union T3 of three rays with their endpoints glued at a point 0 - which can represent these tree spaces for language clustering. These trees are built using a single linkage method for clustering based on distances between samples from languages which use the Latin Script. Taking three languages at a time, the barycenter is determined. Some initial results have found both non-sticky and sticky sample means. If the mean exhibits non-sticky properties, then one language may come from a different ancestor than the other two. If the mean is considered sticky, then the languages may share a common ancestor or all languages may have different ancestry.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# ADSumm: 災害時つぶやき要約のためのアノテート・グラウンド・トゥルース・サマリー・データセット

ADSumm: Annotated Ground-truth Summary Datasets for Disaster Tweet Summarization ( http://arxiv.org/abs/2405.06551v1 )

ライセンス: Link先を確認
Piyush Kumar Garg, Roshni Chakraborty, Sourav Kumar Dandapat, (参考訳) Twitterのようなオンラインソーシャルメディアプラットフォームは、災害時に貴重な情報を提供する。 既存のつぶやき災害要約手法は、政府機関や人道機関等が効果的な災害対応を確実にするためにこれらの事象の要約を提供する。 文献では,災害要約,すなわち教師なしと教師なしの2つのアプローチがある。 教師付きアプローチは一般的により効果的であるが、テストやトレーニングには膨大な数の災害イベントサマリを必要とする。 しかし、トレーニングや評価には多くの災害概要データセットが欠落している。 これにより、より多くのデータセットを追加して、教師付き学習アプローチをより効率的にするためのモチベーションが得られます。 本稿では,7カ国に属する自然災害と人的災害の両方からなる8つの災害イベントについて,アノテートされた地要要約を付加したADSummを提案する。 実験により,新たに追加されたデータセットはROUGE-N F1スコアにおいて,教師付き要約手法の性能を8~28%向上することが示された。 さらに、新たにアノテートされたデータセットでは、各入力ツイートにカテゴリラベルを追加し、まとめて異なるカテゴリからの良好なカバレッジを確保するのに役立ちます。 さらに、ツイートの品質に関する情報と、ツイートの要約への含意に関する説明を提供する、関連ラベルとキーフレーズを2つ追加しました。 提案手法は, 既存の文献では説明されていないような, 詳細に適応した注釈作成手法を提供する。 実験による解析から, 地底の要約の質は, カバー, 関連性, 多様性に非常によく適合していることがわかった。

Online social media platforms, such as Twitter, provide valuable information during disaster events. Existing tweet disaster summarization approaches provide a summary of these events to aid government agencies, humanitarian organizations, etc., to ensure effective disaster response. In the literature, there are two types of approaches for disaster summarization, namely, supervised and unsupervised approaches. Although supervised approaches are typically more effective, they necessitate a sizable number of disaster event summaries for testing and training. However, there is a lack of good number of disaster summary datasets for training and evaluation. This motivates us to add more datasets to make supervised learning approaches more efficient. In this paper, we present ADSumm, which adds annotated ground-truth summaries for eight disaster events which consist of both natural and man-made disaster events belonging to seven different countries. Our experimental analysis shows that the newly added datasets improve the performance of the supervised summarization approaches by 8-28% in terms of ROUGE-N F1-score. Moreover, in newly annotated dataset, we have added a category label for each input tweet which helps to ensure good coverage from different categories in summary. Additionally, we have added two other features relevance label and key-phrase, which provide information about the quality of a tweet and explanation about the inclusion of the tweet into summary, respectively. For ground-truth summary creation, we provide the annotation procedure adapted in detail, which has not been described in existing literature. Experimental analysis shows the quality of ground-truth summary is very good with Coverage, Relevance and Diversity.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# グラフベースディープラーニングによるスケーラブルな特性評価モデル

Scalable Property Valuation Models via Graph-based Deep Learning ( http://arxiv.org/abs/2405.06553v1 )

ライセンス: Link先を確認
Enrique Riveros, Carla Vairetti, Christian Wegmann, Santiago Truffa, Sebastián Maldonado, (参考訳) 本稿では、ピア依存のグラフ表現により、既存の深層学習に基づく自動評価モデルの能力を強化し、複雑な空間関係を捉えることを目的とする。 特に、2つの新しいグラフニューラルネットワークモデルを開発し、異なるメッセージパッシングアルゴリズムを用いて、類似した特徴を持つ近隣住宅のシーケンスを効果的に識別する。 第1の戦略は標準空間グラフの畳み込みを考慮し、第2の戦略は変圧器グラフの畳み込みを利用する。 このアプローチは、モデリングプロセスにスケーラビリティを反映します。 実験はチリのサンティアゴに約20万戸の住宅からなる独自のデータセットを用いて行った。 提案手法は,特にトランスフォーマーの畳み込み型メッセージパッシング層を利用する場合の住宅価格予測の精度を著しく向上することを示す。

This paper aims to enrich the capabilities of existing deep learning-based automated valuation models through an efficient graph representation of peer dependencies, thus capturing intricate spatial relationships. In particular, we develop two novel graph neural network models that effectively identify sequences of neighboring houses with similar features, employing different message passing algorithms. The first strategy consider standard spatial graph convolutions, while the second one utilizes transformer graph convolutions. This approach confers scalability to the modeling process. The experimental evaluation is conducted using a proprietary dataset comprising approximately 200,000 houses located in Santiago, Chile. We show that employing tailored graph neural networks significantly improves the accuracy of house price prediction, especially when utilizing transformer convolutional message passing layers.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# ランダム行列理論は対称正定値行列のフレシェ平均を改善した

Random matrix theory improved Fréchet mean of symmetric positive definite matrices ( http://arxiv.org/abs/2405.06558v1 )

ライセンス: Link先を確認
Florent Bouchard, Ammar Mian, Malik Tiomoko, Guillaume Ginolhac, Frédéric Pascal, (参考訳) 本研究では、機械学習における共分散行列の領域について考察し、特にFr'echetは対称正定値行列の多様体(一般にカーチャー(Karcher)あるいは幾何学的手段(Geological means)と呼ばれる)上での計算に焦点をあてる。 このような手段は、多くの機械学習タスクで活用される。 統計的手法を応用して,Fr'echetを推定する確率行列理論に基づく手法を導入する。 人工脳波と実世界の脳波とハイパースペクトルの両方を含む実験結果から,我々は最先端の手法を大きく上回っていることが明らかとなった。

In this study, we consider the realm of covariance matrices in machine learning, particularly focusing on computing Fr\'echet means on the manifold of symmetric positive definite matrices, commonly referred to as Karcher or geometric means. Such means are leveraged in numerous machine-learning tasks. Relying on advanced statistical tools, we introduce a random matrix theory-based method that estimates Fr\'echet means, which is particularly beneficial when dealing with low sample support and a high number of matrices to average. Our experimental evaluation, involving both synthetic and real-world EEG and hyperspectral datasets, shows that we largely outperform state-of-the-art methods.
翻訳日:2024-05-13 15:28:24 公開日:2024-05-10
# リコイル自由電子を用いた量子光学

Quantum Optics with Recoiled Free Electrons ( http://arxiv.org/abs/2405.06560v1 )

ライセンス: Link先を確認
Maxim Sirotin, Andrei Rasputnyi, Tomáš Chlouba, Roy Shiloh, Peter Hommelhoff, (参考訳) 光の量子状態は現代の量子科学において重要な役割を担っているが、ハイブリッド量子光マター状態を作ることは依然として課題である。 ハイブリッド状態を作るための有望な基礎は自由電子と光子の相互作用である。 我々は、リコイルされた電子を持つ量子光学のための分析量子電磁力学に基づくフレームワークを提供し、単一のリコイルパラメータを$\sigma$で導入する。 この枠組みにより、光子および電子光子ベル、グリーンベルガー・ホルン・ゼリンジャー(GHZ)およびNOON状態、コヒーレント状態、圧縮真空(励起真空を含む)およびツインビームを生成する方法を示す。 我々は、これらの状態間の遷移を分析し、光子リコイル効果(recoil-induced shaping)で形成された新しい種類の光子と電子-光子量子状態を予測する。 これらの結果は、量子コンピューティングや光子や自由電子との通信、超高速電子顕微鏡および次世代自由電子源のための新しい道を開くなど、幅広い可能性を持つ。

Quantum states of light play a key role in modern quantum science, but creating hybrid quantum light-matter states remains a challenge. A promising basis for the creation of hybrid states is the interaction of free electrons with photons, which has so far been largely implemented without taking into account electron quantum recoil effects. We provide an analytical quantum electrodynamics-based framework for quantum optics with recoiled electrons and introduce a single recoil parameter $\sigma$. With this framework, we show how to generate photon and electron-photon Bell, Greenberger-Horne-Zeilinger (GHZ) and NOON states, coherent states, squeezed vacuum (including bright squeezed vacuum) and twin beams. We analyze the transition between these states and predict a new class of photon and electron-photon quantum states shaped with the photon recoil effect (recoil-induced shaping). These results have wide potential applications including quantum computing and communication with photons and free electrons, and open up a novel avenue for ultrafast electron microscopy and next-generation free-electron sources.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# Reservoir Computing Benchmarks: レビュー、分類、ベストプラクティス

Reservoir Computing Benchmarks: a review, a taxonomy, some best practices ( http://arxiv.org/abs/2405.06561v1 )

ライセンス: Link先を確認
Chester Wringe, Martin Trefzer, Susan Stepney, (参考訳) 貯留層計算(Reservoir Computing)は、RNNや物理材料などの様々な基板上で計算を行う非伝統的な計算モデルである。 このメソッドは"ブラックボックス"アプローチを採用し、構築されているシステムの出力のみをトレーニングする。 したがって、これらのシステムの計算能力を評価することは困難である。 本稿では,貯留層コンピューティングの分野における評価手法をレビューし,批判する。 ベンチマークタスクの分類を紹介します。 本稿では,貯水池計算に適用された文献からのベンチマークのいくつかの例を概説し,その長所と短所について述べる。 我々は,貯水池コンピューティングコミュニティの利益のために,ベンチマークとその利用方法を改善する方法を提案する。

Reservoir Computing is an Unconventional Computation model to perform computation on various different substrates, such as RNNs or physical materials. The method takes a "black-box" approach, training only the outputs of the system it is built on. As such, evaluating the computational capacity of these systems can be challenging. We review and critique the evaluation methods used in the field of Reservoir Computing. We introduce a categorisation of benchmark tasks. We review multiple examples of benchmarks from the literature as applied to reservoir computing, and note their strengths and shortcomings. We suggest ways in which benchmarks and their uses may be improved to the benefit of the reservoir computing community
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 自然言語処理はピアレビューに何ができるか?

What Can Natural Language Processing Do for Peer Review? ( http://arxiv.org/abs/2405.06563v1 )

ライセンス: Link先を確認
Ilia Kuznetsov, Osama Mohammed Afzal, Koen Dercksen, Nils Dycke, Alexander Goldberg, Tom Hope, Dirk Hovy, Jonathan K. Kummerfeld, Anne Lauscher, Kevin Leyton-Brown, Sheng Lu, Mausam, Margot Mieskes, Aurélie Névéol, Danish Pruthi, Lizhen Qu, Roy Schwartz, Noah A. Smith, Thamar Solorio, Jingyan Wang, Xiaodan Zhu, Anna Rogers, Nihar B. Shah, Iryna Gurevych, (参考訳) 毎年生産される科学論文の数は急速に増えている。 それらに対する品質管理を提供することは、科学者にとって、そして究極的には、公共の利益のために不可欠である。 現代の科学では、このプロセスは主にピアレビューに委譲され、各申請はこの分野のいくつかの独立した専門家によって評価される分散プロシージャである。 ピアレビューは広く使われているが、難しく、時間がかかり、エラーを起こしやすい。 ピアレビューに関わるアーティファクト(原稿、レビュー、議論など)は大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。 大規模言語モデル(LLM)の出現により、多くの新しいタスクに対してNLPアシストが可能になったため、機械支援ピアレビューに関する議論が加速しつつある。 しかし、どこにヘルプが必要なのか、NLPはどこで助けられるのか、どこに置けばいいのか? 本論文の目的は,NLPにおけるピアレビュー支援の今後の取り組みの基盤を提供することである。 我々は、AIカンファレンスでのレビューを例に、ピアレビューを一般的なプロセスとして議論する。 本研究は,原稿提出からカメラ対応リビジョンまでの各工程について詳述し,NLP支援の課題と可能性について考察する。 そして、データ取得とライセンス、運用と実験、倫理的問題など、NLPのピアレビューにおける大きな課題に目を向けます。 コミュニティの取り組みの統合を支援するために、ピアレビューに関連する重要なデータセットを集約するコンパニオンリポジトリを作成します。 最後に、科学コミュニティ、NLPおよびAI研究者、政策立案者、資金提供団体に対して、NLPの研究をピアレビューに進めるための詳細な行動を求める。 私たちは、AI時代やNLPコミュニティなどにおける、機械支援による科学的な品質管理の研究のアジェンダの設定を支援することを願っています。

The number of scientific articles produced every year is growing rapidly. Providing quality control over them is crucial for scientists and, ultimately, for the public good. In modern science, this process is largely delegated to peer review -- a distributed procedure in which each submission is evaluated by several independent experts in the field. Peer review is widely used, yet it is hard, time-consuming, and prone to error. Since the artifacts involved in peer review -- manuscripts, reviews, discussions -- are largely text-based, Natural Language Processing has great potential to improve reviewing. As the emergence of large language models (LLMs) has enabled NLP assistance for many new tasks, the discussion on machine-assisted peer review is picking up the pace. Yet, where exactly is help needed, where can NLP help, and where should it stand aside? The goal of our paper is to provide a foundation for the future efforts in NLP for peer-reviewing assistance. We discuss peer review as a general process, exemplified by reviewing at AI conferences. We detail each step of the process from manuscript submission to camera-ready revision, and discuss the associated challenges and opportunities for NLP assistance, illustrated by existing work. We then turn to the big challenges in NLP for peer review as a whole, including data acquisition and licensing, operationalization and experimentation, and ethical issues. To help consolidate community efforts, we create a companion repository that aggregates key datasets pertaining to peer review. Finally, we issue a detailed call for action for the scientific community, NLP and AI researchers, policymakers, and funding bodies to help bring the research in NLP for peer review forward. We hope that our work will help set the agenda for research in machine-assisted scientific quality control in the age of AI, within the NLP community and beyond.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# ピコ秒パルス光を用いた遠隔通信における多光子フォック状態の生成

Generation of multi-photon Fock states at telecommunication wavelength using picosecond pulsed light ( http://arxiv.org/abs/2405.06567v1 )

ライセンス: Link先を確認
Tatsuki Sonoyama, Kazuma Takahashi, Tomoki Sano, Takumi Suzuki, Takefumi Nomura, Masahiro Yabuno, Shigehito Miki, Hirotaka Terai, Kan Takse, Warit Asavanant, Mamoru Endo, Akira Furusawa, (参考訳) 多光子フォック状態は、光学量子情報処理のような様々な応用を持つ。 量子情報処理の実装には、特にCバンド(1530-1565nm)において、通信波長帯内でフォック状態が生成されることが望ましい。 これは、成熟した光通信技術が伝送、操作、検出に利用できるためである。 さらに、高速な量子情報処理を実現するためには、フォック状態が短い光パルスで生成されることが望ましい。 本稿では,Wigner Negativities を持つCバンドにおけるピコ秒パルス多重光子フォック状態(単光子および2光子状態)の第1世代を報告し,パルスホモダインのトモグラフィーにより検証した。 実験装置では, 高温超伝導ナノストリップ光子数分解検出器(SNSPD)を用いて, 様々な量子状態の高速生成が期待できる。 この機能は、従来のMHz帯からGHz帯までのパルス光の繰り返し周波数を増大させることができるSNSPD(50ps)の高時間分解能に起因するが、この実験では、ホモダインの検出器の帯域幅により、繰り返し周波数は10MHzに制限される。 その結果,我々の実験装置は,通信波長の超高速量子情報処理のための高速光量子状態発生器のプロトタイプとして機能することが期待されている。

Multi-photon Fock states have diverse applications such as optical quantum information processing. For the implementation of quantum information processing, it is desirable that Fock states be generated within the telecommunication wavelength band, particularly in the C-band (1530-1565 nm). This is because mature optical communication technologies can be leveraged for the transmission, manipulation, and detection. Additionally, to achieve high-speed quantum information processing, it is desirable for Fock states to be generated in short optical pulses, as this allows embedding lots of information in the time domain. In this paper, we report the first generation of picosecond pulsed multi-photon Fock states (single-photon and two-photon states) in the C-band with Wigner negativities, which are verified by pulsed homodyne tomography. In our experimental setup, we utilize a single-pixel superconducting nanostrip photon-number-resolving detector (SNSPD), which is expected to facilitate the high-rate generation of various quantum states. This capability stems from the high temporal resolution of SNSPDs (50 ps in our case) allowing us to increase the repetition frequency of pulsed light from the conventional MHz range to the GHz range, although in this experiment the repetition frequency is limited to 10 MHz due to the bandwidth of the homodyne detector. Consequently, our experimental setup is anticipated to serve as a prototype of a high-speed optical quantum state generator for ultrafast quantum information processing at telecommunication wavelength.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 効率的なフェデレート低ランクマトリックスコンプリート

Efficient Federated Low Rank Matrix Completion ( http://arxiv.org/abs/2405.06569v1 )

ライセンス: Link先を確認
Ahmed Ali Abbasi, Namrata Vaswani, (参考訳) 本研究では,低階行列補完 (LRMC) をフェデレート環境で効率的に解くために,Alternating GD and Minimization (AltGDmin) と呼ばれるGDベースのソリューションを開発し,解析する。 LRMCは$n \times q$ rank-$r$ matrix $\Xstar$を、$r \ll \min(n,q)$のときのエントリのサブセットから復元する。 我々の理論的保証は、AltGDminがフェデレートされた環境では最も通信効率のよい解であり、LRMCの反復解の中では2番目に高いサンプル複雑性を持つことを示している。 また,2つの重要な関係性も証明した。 (a)ノイズの多いLRMC問題を解くためにAltGDminを保証します。 b)最も高速な集中型ソリューションであるAltMinのサンプル複雑性保証を改善するために,我々のレムマをどのように利用できるかを示す。

In this work, we develop and analyze a Gradient Descent (GD) based solution, called Alternating GD and Minimization (AltGDmin), for efficiently solving the low rank matrix completion (LRMC) in a federated setting. LRMC involves recovering an $n \times q$ rank-$r$ matrix $\Xstar$ from a subset of its entries when $r \ll \min(n,q)$. Our theoretical guarantees (iteration and sample complexity bounds) imply that AltGDmin is the most communication-efficient solution in a federated setting, is one of the fastest, and has the second best sample complexity among all iterative solutions to LRMC. In addition, we also prove two important corollaries. (a) We provide a guarantee for AltGDmin for solving the noisy LRMC problem. (b) We show how our lemmas can be used to provide an improved sample complexity guarantee for AltMin, which is the fastest centralized solution.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 音声強調のための組み込み型マンバの検討

An Investigation of Incorporating Mamba for Speech Enhancement ( http://arxiv.org/abs/2405.06573v1 )

ライセンス: Link先を確認
Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao, (参考訳) 本研究の目的は,音声強調(SE)タスクのためのスケーラブルな状態空間モデル(SSM)であるMambaを研究することである。 我々は,マンバをベースとした回帰モデルを用いて音声信号の特徴付けと,SEMambaと呼ばれるマンバに基づくSEシステムの構築を行う。 信号レベル距離と距離指向損失関数を利用するとともに,基礎的および先進的なSEシステムにおいてコアモデルとして組み込むことにより,Mambaの特性を探求する。 SEMambaは有望な結果を示し、VoiceBank-DEMANDデータセットでPSSQスコアが3.55に達した。 知覚コントラスト伸張技術と組み合わせると、SEMambaは3.69のPESQスコアを得る。

This work aims to study a scalable state-space model (SSM), Mamba, for the speech enhancement (SE) task. We exploit a Mamba-based regression model to characterize speech signals and build an SE system upon Mamba, termed SEMamba. We explore the properties of Mamba by integrating it as the core model in both basic and advanced SE systems, along with utilizing signal-level distances as well as metric-oriented loss functions. SEMamba demonstrates promising results and attains a PESQ score of 3.55 on the VoiceBank-DEMAND dataset. When combined with the perceptual contrast stretching technique, the proposed SEMamba yields a new state-of-the-art PESQ score of 3.69.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# ディープビデオ表現学習 : サーベイ

Deep video representation learning: a survey ( http://arxiv.org/abs/2405.06574v1 )

ライセンス: Link先を確認
Elham Ravanbakhsh, Yongqing Liang, J. Ramanujam, Xin Li, (参考訳) 本稿では,ビデオの表現学習についてレビューする。 近年の時空間的特徴学習手法を逐次的視覚データに分類し,その長所と短所を比較して一般的な映像解析を行う。 ビデオ解析と理解を含むコンピュータビジョンタスクにおいて、ビデオの効果的な機能を構築することが根本的な問題である。 既存の特徴は一般に空間的特徴と時間的特徴に分けられる。 照明・閉塞・視界・背景のバリエーションによる効果について論じる。 最後に,既存の深層映像表現学習研究における課題について考察する。

This paper provides a review on representation learning for videos. We classify recent spatiotemporal feature learning methods for sequential visual data and compare their pros and cons for general video analysis. Building effective features for videos is a fundamental problem in computer vision tasks involving video analysis and understanding. Existing features can be generally categorized into spatial and temporal features. Their effectiveness under variations of illumination, occlusion, view and background are discussed. Finally, we discuss the remaining challenges in existing deep video representation learning studies.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 適応レグレット最小化による一般制約付き帯域

No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization ( http://arxiv.org/abs/2405.06575v1 )

ライセンス: Link先を確認
Martino Bernasconi, Matteo Castiglioni, Andrea Celli, (参考訳) knapsacksフレームワーク(BwK)の帯域内では、学習者はリソース消費(パッケージング)の制約が$m$である。 我々は、学習者が一般的な長期的制約の集合を持つBwKの一般化に焦点をあてる。 学習者の目標は累積報酬を最大化し、同時に最小限の累積制約違反を達成することである。 このシナリオでは、BwKの従来の手法が制約のサブ線形違反を生じさせない単純な例が存在する。 原始アルゴリズムと双対アルゴリズムを弱適応化させることにより,この問題を回避することができることを示す。 実際、問題を特徴づけるスレーターのパラメータ $\rho$ の情報がないとしても、弱適応的原始最小値と双対後悔最小値の間の相互作用は双対変数の「自己有界な」性質をもたらす。 特に、それらのノルムは、明示的な射影ステップがなくても、時間的地平線全体にわたって好適に上界を保っている。 この特性を利用することで、確率的および対角的な入力に対して、両世界の最良の保証を提供する。 第1のケースでは,アルゴリズムがサブ線形後悔を保証することを示す。 後者の場合、厳密な競合比は$\rho/(1+\rho)$とする。 どちらの設定でも、制約違反は時間内にサブリニアになることが保証される。 最後に,線形制約付き文脈的包帯問題に対する新たな結果を得ることができ,対数的文脈に対する最初のNo-$$\alpha$-regret保証を提供する。

In the bandits with knapsacks framework (BwK) the learner has $m$ resource-consumption (packing) constraints. We focus on the generalization of BwK in which the learner has a set of general long-term constraints. The goal of the learner is to maximize their cumulative reward, while at the same time achieving small cumulative constraints violations. In this scenario, there exist simple instances where conventional methods for BwK fail to yield sublinear violations of constraints. We show that it is possible to circumvent this issue by requiring the primal and dual algorithm to be weakly adaptive. Indeed, even in absence on any information on the Slater's parameter $\rho$ characterizing the problem, the interplay between weakly adaptive primal and dual regret minimizers yields a "self-bounding" property of dual variables. In particular, their norm remains suitably upper bounded across the entire time horizon even without explicit projection steps. By exploiting this property, we provide best-of-both-worlds guarantees for stochastic and adversarial inputs. In the first case, we show that the algorithm guarantees sublinear regret. In the latter case, we establish a tight competitive ratio of $\rho/(1+\rho)$. In both settings, constraints violations are guaranteed to be sublinear in time. Finally, this results allow us to obtain new result for the problem of contextual bandits with linear constraints, providing the first no-$\alpha$-regret guarantees for adversarial contexts.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 連続可変量子ボルツマンマシン

Continuous-variable Quantum Boltzmann Machine ( http://arxiv.org/abs/2405.06580v1 )

ライセンス: Link先を確認
Shikha Bangar, Leanto Sunny, Kübra Yeter-Aydeniz, George Siopsis, (参考訳) 本稿では,強力なエネルギーベースニューラルネットワークを用いた連続可変量子ボルツマンマシン(CVQBM)を提案する。 連続可変(CV)フォトニック量子コンピュータで実験的に実現可能である。 CV量子想像時間進化法 (QITE) を用いて本質的な熱状態の準備を行い, CVQBMを用いて連続確率分布を良好に生成する設計を行った。 古典データと量子データの両方に本手法を適用した。 合成開口レーダ(SAR)画像などの実世界の古典的データを用いて,確率分布を生成する。 量子データにはCV量子回路の出力を使用しました。 CVQBMが与えられたデータから分布をよく学習し,その分布から効率的にデータサンプリングを行うことを示す。 また,提案するCVQBMの有効性についても検討した。 本手法は, 適切な目標分布(例えば, SAR画像, 医療画像, ファイナンスにおけるリスク管理)を選択することで, 幅広い現実的問題に適用できる。 さらに, CVQBMは汎用性が高く, 異常検出などの生成以上のタスクを実行できる。

We propose a continuous-variable quantum Boltzmann machine (CVQBM) using a powerful energy-based neural network. It can be realized experimentally on a continuous-variable (CV) photonic quantum computer. We used a CV quantum imaginary time evolution (QITE) algorithm to prepare the essential thermal state and then designed the CVQBM to proficiently generate continuous probability distributions. We applied our method to both classical and quantum data. Using real-world classical data, such as synthetic aperture radar (SAR) images, we generated probability distributions. For quantum data, we used the output of CV quantum circuits. We obtained high fidelity and low Kuller-Leibler (KL) divergence showing that our CVQBM learns distributions from given data well and generates data sampling from that distribution efficiently. We also discussed the experimental feasibility of our proposed CVQBM. Our method can be applied to a wide range of real-world problems by choosing an appropriate target distribution (corresponding to, e.g., SAR images, medical images, and risk management in finance). Moreover, our CVQBM is versatile and could be programmed to perform tasks beyond generation, such as anomaly detection.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 集団行動における学習アルゴリズムの役割

The Role of Learning Algorithms in Collective Action ( http://arxiv.org/abs/2405.06582v1 )

ライセンス: Link先を確認
Omri Ben-Dov, Jake Fawkes, Samira Samadi, Amartya Sanyal, (参考訳) 機械学習における集合的行動(英: Collective action)とは、協調したグループが機械学習アルゴリズムよりも持つことができる制御の研究である。 これまでの研究は、ベイズ最適分類器に対する集団の影響を評価することに重点を置いてきたが、実際には分類器がベイズ最適性を達成することはめったになく、学習アルゴリズムの選択とそれ固有の帰納的バイアスの影響を受けないことを考えると、この視点は限定的である。 本研究では,学習アルゴリズムの選択が,実践的な環境での集団の成功にどのように貢献するかを研究する。 具体的には、最悪のグループエラーを改善するために人気がある分散ロバストアルゴリズム(DRO)と、その「単純」関数の帰納バイアスのため、一般的な確率勾配降下(SGD)に焦点を当てる。 理論的基礎によって支持された実験結果から,学習アルゴリズムの特性に有効サイズと成功度が強く依存していることが示唆された。 このことは、機械学習における集団行動の影響を研究する際に、学習アルゴリズムを考慮に入れる必要性を強調している。

Collective action in Machine Learning is the study of the control that a coordinated group can have over machine learning algorithms. While previous research has concentrated on assessing the impact of collectives against Bayes optimal classifiers, this perspective is limited, given that in reality, classifiers seldom achieve Bayes optimality and are influenced by the choice of learning algorithms along with their inherent inductive biases. In this work, we initiate the study of how the choice of the learning algorithm plays a role in the success of a collective in practical settings. Specifically, we focus on distributionally robust algorithms (DRO), popular for improving a worst group error, and on the popular stochastic gradient descent (SGD), due to its inductive bias for "simpler" functions. Our empirical results, supported by a theoretical foundation, show that the effective size and success of the collective are highly dependent on properties of the learning algorithm. This highlights the necessity of taking the learning algorithm into account when studying the impact of collective action in Machine learning.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 多モーダルファンデーションモデルによる弱修正セマンティックセグメンテーションの強化:エンド・ツー・エンドアプローチ

Enhancing Weakly Supervised Semantic Segmentation with Multi-modal Foundation Models: An End-to-End Approach ( http://arxiv.org/abs/2405.06586v1 )

ライセンス: Link先を確認
Elham Ravanbakhsh, Cheng Niu, Yongqing Liang, J. Ramanujam, Xin Li, (参考訳) セマンティックセグメンテーションは、コアコンピュータビジョンの問題であるが、データアノテーションのコストが高いため、幅広い応用が妨げられている。 Weakly-Supervised Semantic Segmentation (WSSS) は、部分的または不完全ラベルを用いた完全教師付き手法と比較して、広範囲なラベル付けに対するコスト効率の良い回避策を提供する。 既存のWSSSメソッドは、セグメンテーション結果の低さにつながるオブジェクトの境界を理解するのに苦労しています。 本稿では,境界ボックス内の視覚的基盤モデルを活用することにより,これらの問題に対処する,新しい効果的なフレームワークを提案する。 2段階のWSSSフレームワークを採用することで,提案するネットワークは擬似ラベル生成モジュールとセグメンテーションモジュールから構成される。 第1段階では、Segment Anything Model (SAM) を利用して高品質な擬似ラベルを生成する。 厳密な境界の定式化の問題を緩和するために、別の事前訓練された基礎モデル(例えば、Grounding-DINO)の助けを借りて、境界ボックス内でSAMを採用する。 さらに,分類にCLIPを用いることにより,画像ラベルの監督を行う必要性を解消する。 次に、生成した高品質な擬似ラベルを用いて、PASCAL VOC 2012およびMS COCO 2014の最先端性能を達成するオフ・ザ・シェルフセグメンタを訓練する。

Semantic segmentation is a core computer vision problem, but the high costs of data annotation have hindered its wide application. Weakly-Supervised Semantic Segmentation (WSSS) offers a cost-efficient workaround to extensive labeling in comparison to fully-supervised methods by using partial or incomplete labels. Existing WSSS methods have difficulties in learning the boundaries of objects leading to poor segmentation results. We propose a novel and effective framework that addresses these issues by leveraging visual foundation models inside the bounding box. Adopting a two-stage WSSS framework, our proposed network consists of a pseudo-label generation module and a segmentation module. The first stage leverages Segment Anything Model (SAM) to generate high-quality pseudo-labels. To alleviate the problem of delineating precise boundaries, we adopt SAM inside the bounding box with the help of another pre-trained foundation model (e.g., Grounding-DINO). Furthermore, we eliminate the necessity of using the supervision of image labels, by employing CLIP in classification. Then in the second stage, the generated high-quality pseudo-labels are used to train an off-the-shelf segmenter that achieves the state-of-the-art performance on PASCAL VOC 2012 and MS COCO 2014.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 逆作用を回避したキャビティオメカニクスによる感覚力勾配

Sensing force gradients with cavity optomechanics while evading backaction ( http://arxiv.org/abs/2405.06589v1 )

ライセンス: Link先を確認
Elisabet K. Arvidsson, Ermes Scarano, August K. Roos, Sofia Qvarfort, David B. Haviland, (参考訳) 本研究では,コヒーレント駆動機械共振器による力勾配検出について検討した。 2つのコヒーレントポンプに対するキャビティの応答は、古典的な運動方程式の数値積分によって解決され、モノトニック応答の領域が拡張されたことを示す。 メカニカルドライブの存在下での通常のバックアクション回避測定よりもわずかに高い揺らぎをモデル化するためにFloquet理論を用いる。 本手法は原子間力顕微鏡などの応用に有効であることを示す。

We study force gradient sensing by a coherently driven mechanical resonator with phase-sensitive detection of motion via the two-tone backaction evading measurement of cavity optomechanics. The response of the cavity to two coherent pumps is solved by numerical integration of the classical equations of motion, showing an extended region of monotonic response. We use Floquet theory to model the fluctuations, which rise only slightly above that of the usual backaction evading measurement in the presence of the mechanical drive. Our analysis indicates that this sensing technique is advantageous for applications such as Atomic Force Microscopy.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 天気予報をニューラルネットワークによる対流と対流に分解する

Decomposing weather forecasting into advection and convection with neural networks ( http://arxiv.org/abs/2405.06590v1 )

ライセンス: Link先を確認
Mengxuan Chen, Ziqi Yuan, Jinxiao Zhang, Runmin Dong, Haohuan Fu, (参考訳) 演算天気予報モデルは、明示的な数値解法と経験的物理パラメータ化スキームの両方で何十年も進歩してきた。 しかし、これらの既存のスキームにおける高い計算コストと不確実性は、代替機械学習手法による潜在的な改善を必要としている。 従来の研究は統一されたモデルを使用して、大気モデルの力学と物理を学ぶ。 対照的に,動的コアの水平移動と物理的パラメータ化の垂直移動を別々に学習する,単純で効果的な機械学習モデルを提案する。 吸着をグラフアテンションネットワークに置き換え,対流を多層パーセプトロンに置き換えることで,大気モデルにおける変数の遷移をシミュレートする新しい,効率的な視点を提供する。 また,5日間の反復予測よりもモデルの性能を評価する。 同じ入力変数とトレーニング手法の下で、我々のモデルは既存のデータ駆動手法を5.625デグの解像度で大幅に削減したパラメータ数で上回ります。 全体として、この研究は、地球温暖化予測の正確性と効率性を改善するために、機械学習技術を活用した継続的な取り組みに貢献することを目的としている。

Operational weather forecasting models have advanced for decades on both the explicit numerical solvers and the empirical physical parameterization schemes. However, the involved high computational costs and uncertainties in these existing schemes are requiring potential improvements through alternative machine learning methods. Previous works use a unified model to learn the dynamics and physics of the atmospheric model. Contrarily, we propose a simple yet effective machine learning model that learns the horizontal movement in the dynamical core and vertical movement in the physical parameterization separately. By replacing the advection with a graph attention network and the convection with a multi-layer perceptron, our model provides a new and efficient perspective to simulate the transition of variables in atmospheric models. We also assess the model's performance over a 5-day iterative forecasting. Under the same input variables and training methods, our model outperforms existing data-driven methods with a significantly-reduced number of parameters with a resolution of 5.625 deg. Overall, this work aims to contribute to the ongoing efforts that leverage machine learning techniques for improving both the accuracy and efficiency of global weather forecasting.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 広域災害からのSUAS画像における非均一空間配向誤差

Non-Uniform Spatial Alignment Errors in sUAS Imagery From Wide-Area Disasters ( http://arxiv.org/abs/2405.06593v1 )

ライセンス: Link先を確認
Thomas Manzini, Priyankari Perali, Raisa Karnik, Mihir Godbole, Hasnat Abdullah, Robin Murphy, (参考訳) 本研究は, 小型無人航空システム (SUAS) とポリゴンのプレジデント構築におけるアライメント誤差の定量的検討を行い, アライメント誤差が一様で不規則であることを見出した。 また、画像の公開データセット、ポリゴンの構築、およびポリゴンの構築とsUAS画像の整合性を評価するための既存の戦略の評価に使用できる人為的な調整も導入されている。 既存の空間データを sUAS 画像と整合させる努力は存在しないため、明確な実践状況は存在しない。 しかし、この取り組みと分析により、このタイプのデータに存在する翻訳アライメントエラーは平均82pxであり、0.65の結合上の交点であり、対処しなければ下流の機械学習システムでさらなるエラーやバイアスを引き起こすことが示されている。 本研究では, ハリケーン・アイアン, ハリケーン・ハーベイ, ハリケーン・マイケル, ハリケーン・アイダ, ハリケーン・アイダリア, ハリケーン・ローラ, メイフィールド・トルネード, ムセット・バイユー火災, キラウエア噴火の9大災害から, 16787.2 Acres (26.23平方マイル) の多角形の翻訳誤差を明らかにし, 解析した。 解析の結果,建築多角形アライメントの角度と距離の計測値には,平均等級差0.4,平均画素距離差0.45を示すため,一様性は認められなかった。 この研究は、sUASコミュニティに空間的アライメントの問題と、衛星画像のアライメントにしばしば使用される単純な線形変換が、sUASのオルソモザイク画像に空間データをアライメントするのに十分ではないことを警告する。

This work presents the first quantitative study of alignment errors between small uncrewed aerial systems (sUAS) geospatial imagery and a priori building polygons and finds that alignment errors are non-uniform and irregular. The work also introduces a publicly available dataset of imagery, building polygons, and human-generated and curated adjustments that can be used to evaluate existing strategies for aligning building polygons with sUAS imagery. There are no efforts that have aligned pre-existing spatial data with sUAS imagery, and thus, there is no clear state of practice. However, this effort and analysis show that the translational alignment errors present in this type of data, averaging 82px and an intersection over the union of 0.65, which would induce further errors and biases in downstream machine learning systems unless addressed. This study identifies and analyzes the translational alignment errors of 21,619 building polygons in fifty-one orthomosaic images, covering 16787.2 Acres (26.23 square miles), constructed from sUAS raw imagery from nine wide-area disasters (Hurricane Ian, Hurricane Harvey, Hurricane Michael, Hurricane Ida, Hurricane Idalia, Hurricane Laura, the Mayfield Tornado, the Musset Bayou Fire, and the Kilauea Eruption). The analysis finds no uniformity among the angle and distance metrics of the building polygon alignments as they present an average degree variance of 0.4 and an average pixel distance variance of 0.45. This work alerts the sUAS community to the problem of spatial alignment and that a simple linear transform, often used to align satellite imagery, will not be sufficient to align spatial data in sUAS orthomosaic imagery.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# 量子物質のための原子量子技術と基礎物理応用

Atomic Quantum Technologies for Quantum Matter and Fundamental Physics Applications ( http://arxiv.org/abs/2405.06595v1 )

ライセンス: Link先を確認
Jorge Yago Malo, Luca Lepori, Laura Gentini, Maria Luisa Chiofalo, (参考訳) 物理学は科学の様々な分野において、前例のない異種交配の時代を生きている。 本稿では, 超低温量子技術が量子シミュレーション, 計算, 気象学, センシングのプラットフォームを通じて, 基礎および応用科学において持つ多様体の影響について論じる。 原子技術を用いたテーブルトップ実験の工学が、凝縮物質や基礎物理学、宇宙物理学、天体物理学、量子力学の基礎的側面、量子化学、量子生物学の新たな分野といった問題を理解するためにどのように応用されているかを説明する。 我々は、量子アナログの作成と量子シミュレータの構築という2つの主要なアプローチの視点を捉え、普遍的な量子コンピュータの最終的な目標とは独立に、これらの成果の顕著な変換効果は変わらないことを強調した。 主なメッセージは3つです。 まず、原子量子技術は、知識の進歩を超えて、量子技術が基礎科学に使用される新しい方法を可能にしました。 第二に、量子多体物理学はフロンティア科学の中心的な段階にある。 第三に、量子科学の進歩は社会に毛細血管に影響を及ぼすだろう。 したがって、量子技術への責任ある研究と革新のアプローチの採用は、市民の意識と将来の足場構築に伴うことが義務付けられている。 これらすべての考察に続いて、この視点のレビューは、学際的な研究に興味のある科学者を対象としており、超低温原子プラットフォームが記述とシミュレーションにおいて重要な役割を果たすこれらの研究分野の現状の概要を読者に提供する。

Physics is living an era of unprecedented cross-fertilization among the different areas of science. In this perspective review, we discuss the manifold impact that ultracold-atom quantum technologies can have in fundamental and applied science through platforms for quantum simulation, computation, metrology and sensing. We illustrate how the engineering of table-top experiments with atom technologies is engendering applications to understand problems in condensed matter and fundamental physics, cosmology and astrophysics, foundational aspects of quantum mechanics, quantum chemistry and the emerging field of quantum biology. We take the perspective of two main approaches, i.e. creating quantum analogues and building quantum simulators, highlighting that independently of the ultimate goal of a universal quantum computer to be met, the remarkable transformative effects of these achievements remain unchanged. We convey three main messages. First, atomic quantum technologies have enabled a new way in which quantum technologies are used for fundamental science, even beyond the advancement of knowledge, which is characterised by truly cross-disciplinary research, extended interplay between theoretical and experimental thinking, and intersectoral approach. Second, quantum many-body physics is taking the center stage in frontier's science. Third, quantum science progress will have capillary impact on society. Thus, the adoption of a responsible research and innovation approach to quantum technologies is mandatory, to accompany citizens in building awareness and future scaffolding. Following on all these reflections, this perspective review is aimed at scientists active or interested in interdisciplinary research, providing the reader with an overview of the current status of these wide fields of research where ultracold-atomic platforms play a vital role in their description and simulation.
翻訳日:2024-05-13 15:18:23 公開日:2024-05-10
# リモートセンシング画像変更キャプション用軽量トランス

A Lightweight Transformer for Remote Sensing Image Change Captioning ( http://arxiv.org/abs/2405.06598v1 )

ライセンス: Link先を確認
Dongwei Sun, Yajie Bao, Xiangyong Cao, (参考訳) リモートセンシング画像変化キャプション(RSICC)は、リモートセンシングバイテンポラル画像における内容の違いを記述した文を自動的に生成することを目的としている。 近年、注目に基づくトランスフォーマーは、グローバルな変化の特徴を捉えるための主流のアイデアとなっている。 しかし,既存の変圧器を用いたRSICC法では,変圧器エンコーダの自己注意操作による高パラメータ,高計算量といった課題に直面している。 本稿では,これらの問題を緩和するために,RSICCタスクのためのスパースフォーカス変換器(SFT)を提案する。 具体的には、SFTネットワークは、畳み込みニューラルネットワーク(CNN)に基づく高レベルの特徴抽出器、二重時間画像における変化領域の特定とキャプチャを意図したスパースフォーカスアテンション機構ベースのトランスフォーマーエンコーダネットワーク、画像と単語を埋め込み、キャプションの差分を生成する記述デコーダの3つの主要コンポーネントから構成される。 提案したSFTネットワークは,変圧器エンコーダネットワークにスパースアテンション機構を組み込むことで,パラメータ数と計算複雑性を低減できる。 実験結果から, 変圧器エンコーダのパラメータが90%以上削減された場合でも, 提案するネットワークは, 従来のRSICC法と比較して, 競争性能が向上することを示した。 コードはこちらから入手できる。

Remote sensing image change captioning (RSICC) aims to automatically generate sentences that describe content differences in remote sensing bitemporal images. Recently, attention-based transformers have become a prevalent idea for capturing the features of global change. However, existing transformer-based RSICC methods face challenges, e.g., high parameters and high computational complexity caused by the self-attention operation in the transformer encoder component. To alleviate these issues, this paper proposes a Sparse Focus Transformer (SFT) for the RSICC task. Specifically, the SFT network consists of three main components, i.e. a high-level features extractor based on a convolutional neural network (CNN), a sparse focus attention mechanism-based transformer encoder network designed to locate and capture changing regions in dual-temporal images, and a description decoder that embeds images and words to generate sentences for captioning differences. The proposed SFT network can reduce the parameter number and computational complexity by incorporating a sparse attention mechanism within the transformer encoder network. Experimental results on various datasets demonstrate that even with a reduction of over 90\% in parameters and computational complexity for the transformer encoder, our proposed network can still obtain competitive performance compared to other state-of-the-art RSICC methods. The code can be available at
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 暗黒空間における多物体追跡

Multi-Object Tracking in the Dark ( http://arxiv.org/abs/2405.06600v1 )

ライセンス: Link先を確認
Xinzhe Wang, Kang Ma, Qiankun Liu, Yunhao Zou, Ying Fu, (参考訳) 低照度シーンは、現実世界のアプリケーション(例えば夜間の自動運転と監視)で一般的です。 近年, 様々なユースケースにおける多対象追跡が注目されているが, 暗黒領域における多対象追跡はめったに考慮されていない。 本稿では,暗黒シーンにおける多対象追跡に着目した。 データセットの欠如に対処するため、私たちはまず、低照度マルチオブジェクト追跡(LMOT)データセットを構築します。 LMOTは、我々のデュアルカメラシステムによってキャプチャされた、よく整列した低照度ビデオペアと、すべてのビデオに対する高品質なマルチオブジェクト追跡アノテーションを提供する。 そこで本研究では,LTrackと呼ばれる低照度多対象追跡手法を提案する。 センサノイズの外部の画像の低周波成分を高めるために,適応型低域ダウンサンプルモジュールを導入する。 劣化抑制学習戦略により、ノイズ障害および画質劣化下で不変情報を学習することができる。 これらのコンポーネントは暗黒シーンにおける多目的追跡の堅牢性を向上させる。 LMOTデータセットの包括的解析を行い,LTrackを提案する。 実夜の低照度シーンにおける提案手法の優位性と競争性を示す実験結果を得た。 データセットとコード:https: //github.com/ying-fu/LMOT

Low-light scenes are prevalent in real-world applications (e.g. autonomous driving and surveillance at night). Recently, multi-object tracking in various practical use cases have received much attention, but multi-object tracking in dark scenes is rarely considered. In this paper, we focus on multi-object tracking in dark scenes. To address the lack of datasets, we first build a Low-light Multi-Object Tracking (LMOT) dataset. LMOT provides well-aligned low-light video pairs captured by our dual-camera system, and high-quality multi-object tracking annotations for all videos. Then, we propose a low-light multi-object tracking method, termed as LTrack. We introduce the adaptive low-pass downsample module to enhance low-frequency components of images outside the sensor noises. The degradation suppression learning strategy enables the model to learn invariant information under noise disturbance and image quality degradation. These components improve the robustness of multi-object tracking in dark scenes. We conducted a comprehensive analysis of our LMOT dataset and proposed LTrack. Experimental results demonstrate the superiority of the proposed method and its competitiveness in real night low-light scenes. Dataset and Code: https: //github.com/ying-fu/LMOT
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 変圧器モデルにおけるテキスト類似性の説明

Explaining Text Similarity in Transformer Models ( http://arxiv.org/abs/2405.06604v1 )

ライセンス: Link先を確認
Alexandros Vasileiou, Oliver Eberle, (参考訳) トランスフォーマーは自然言語処理(NLP)タスクの最先端モデルになりつつあるため、それらの予測を理解し説明する必要がますます高まっている。 特に情報検索タスクのような教師なしのアプリケーションでは、基礎モデル表現の上に構築された類似性モデルが広く適用されている。 しかし、その内部の予測機構はほとんど不透明のままである。 説明可能なAIの最近の進歩により、レイヤワイド関連伝播(LRP)を通じてトランスフォーマーの説明の改善を活用することで、これらの制限を緩和できるようになった。 双線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを検討する。 得られた説明を検証し,文法的相互作用,多言語意味論,生物医学的テキスト検索の3つのユースケースで有用性を示す。 我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。

As Transformers have become state-of-the-art models for natural language processing (NLP) tasks, the need to understand and explain their predictions is increasingly apparent. Especially in unsupervised applications, such as information retrieval tasks, similarity models built on top of foundation model representations have been widely applied. However, their inner prediction mechanisms have mostly remained opaque. Recent advances in explainable AI have made it possible to mitigate these limitations by leveraging improved explanations for Transformers through layer-wise relevance propagation (LRP). Using BiLRP, an extension developed for computing second-order explanations in bilinear similarity models, we investigate which feature interactions drive similarity in NLP models. We validate the resulting explanations and demonstrate their utility in three corpus-level use cases, analyzing grammatical interactions, multilingual semantics, and biomedical text retrieval. Our findings contribute to a deeper understanding of different semantic similarity tasks and models, highlighting how novel explainable AI methods enable in-depth analyses and corpus-level insights.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# Calo-VQ:カロリメータシミュレーションにおけるベクトル量子化された2段階生成モデル

Calo-VQ: Vector-Quantized Two-Stage Generative Model in Calorimeter Simulation ( http://arxiv.org/abs/2405.06605v1 )

ライセンス: Link先を確認
Qibin Liu, Chase Shimmin, Xiulong Liu, Eli Shlizerman, Shu Li, Shih-Chieh Hsu, (参考訳) 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を応用した,温度計応答の高速シミュレーションのための機械学習手法を提案する。 そこで本モデルでは,まずジオメトリ・アウェア・カロリーメータデータを離散潜在空間に圧縮し,次に列モデルを用いて潜在トークンを学習・生成する。 Calo-Challengeデータセットの大規模な実験は,2000年の因子による従来の手法と比較して,生成速度が著しく向上したことを示す。 顕著なことに、我々のモデルはミリ秒以内のカロリーメータシャワーを発生させる。 さらに, 様々な測定値の総合的な定量的評価を行い, 生成の物理性能を検証した。

We introduce a novel machine learning method developed for the fast simulation of calorimeter detector response, adapting vector-quantized variational autoencoder (VQ-VAE). Our model adopts a two-stage generation strategy: initially compressing geometry-aware calorimeter data into a discrete latent space, followed by the application of a sequence model to learn and generate the latent tokens. Extensive experimentation on the Calo-challenge dataset underscores the efficiency of our approach, showcasing a remarkable improvement in the generation speed compared with conventional method by a factor of 2000. Remarkably, our model achieves the generation of calorimeter showers within milliseconds. Furthermore, comprehensive quantitative evaluations across various metrics are performed to validate physics performance of generation.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 「我々は他人の意見に慈悲を抱いている」:AIを応用したレクリエーションウィンドウショッピングにおける盲人支援

"We are at the mercy of others' opinion": Supporting Blind People in Recreational Window Shopping with AI-infused Technology ( http://arxiv.org/abs/2405.06611v1 )

ライセンス: Link先を確認
Rie Kamikubo, Hernisa Kacorri, Chieko Asakawa, (参考訳) 公共空間におけるレクリエーション活動の増大は、視覚障害者にとっての課題となり、しばしば視覚的援助に依存している。 ウィンドウショッピングは、アクセス不可能な重要なレクリエーション活動である。 本稿では,視覚障害者の探索とセレンディピティーな発見を支援するために,既存の道路工事・ナビゲーション技術の設計を通知するために,視覚障害者がレクリエーション用ウィンドウショッピングに必要とする情報ニーズ,課題,現在のアプローチについて検討する。 対象者18名(N=8)と要件分析対象者(N=10)を対象とする形式的研究を行った。 ブランドのターゲット客等の興味ある店舗について、プロモーション情報のプッシュ通知やプル通知が望まれていることが判明した。 障害物や関心点に関する情報は、移動支援や群衆、子供、車椅子利用者の存在に応じてカスタマイズが必要であった。 これらの知見を,NavCog(ターンバイターンナビゲーションアプリ)とCabot(ナビゲーションロボット)の2つの既存のAI利用支援アプリケーションのコンテキストにおける,特定の情報モダリティとレンダリングに変換する。

Engaging in recreational activities in public spaces poses challenges for blind people, often involving dependency on sighted help. Window shopping is a key recreational activity that remains inaccessible. In this paper, we investigate the information needs, challenges, and current approaches blind people have to recreational window shopping to inform the design of existing wayfinding and navigation technology for supporting blind shoppers in exploration and serendipitous discovery. We conduct a formative study with a total of 18 blind participants that include both focus groups (N=8) and interviews for requirements analysis (N=10). We find that there is a desire for push notifications of promotional information and pull notifications about shops of interest such as the targeted audience of a brand. Information about obstacles and points-of-interest required customization depending on one's mobility aid as well as presence of a crowd, children, and wheelchair users. We translate these findings into specific information modalities and rendering in the context of two existing AI-infused assistive applications: NavCog (a turn-by-turn navigation app) and Cabot (a navigation robot).
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 密度物質のハドロン化とエネルギー損失の量子シミュレーションに向けて

Steps Toward Quantum Simulations of Hadronization and Energy-Loss in Dense Matter ( http://arxiv.org/abs/2405.06620v1 )

ライセンス: Link先を確認
Roland C. Farrell, Marc Illa, Martin J. Savage, (参考訳) 量子コンピュータを用いて高密度物質中の粒子のリアルタイムダイナミクスをシミュレーションする枠組みを開発した。 実演として、シュウィンガーモデルの密度媒質を伝播する重ハドロンの古典的なシミュレーションを行う。 時間依存エネルギーと電荷密度の測定は、エネルギー損失とハドロン生成(ハドロン化)の原因となるメカニズムを特定するために用いられる。 絡み合い力学の研究は、密度媒質を構成する粒子間の量子コヒーレンスの重要性を強調している。 この研究を通じて、有限格子間隔のみから生じる現象を分離し、除去するために注意が払われる。 エンタングルメントのシグネチャは他の観測物よりも格子状アーティファクトに敏感であることが判明した。 量子シミュレーションに向けて、重中間子の存在下で基底状態を作成するための効率的な方法とそれに対応する量子回路を提案する。 これらの回路は、量子コンピュータを用いてシュウィンガーモデルにおいて、ナトリウム中のエネルギー損失とハドロン化をシミュレートするために必要な資源を推定するために用いられる。

A framework for simulating the real-time dynamics of particles in dense matter using quantum computers is developed. As a demonstration, we perform classical simulations of heavy-hadrons propagating through a dense medium in the Schwinger model. Measurements of the time-dependent energy and charge density are used to identify mechanisms responsible for energy loss and hadron production (hadronization). A study of entanglement dynamics highlights the importance of quantum coherence between the particles that make up the dense medium. Throughout this work, care is taken to isolate, and remove, phenomena that arise solely from a finite lattice spacing. It is found that signatures of entanglement are more sensitive to lattice artifacts than other observables. Toward quantum simulations, we present an efficient method and the corresponding quantum circuits for preparing ground states in the presence of heavy mesons. These circuits are used to estimate the resources required to simulate in-medium energy loss and hadronization in the Schwinger model using quantum computers.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 多体ローターにおける量子共鳴による高速絡み合い生成

Faster entanglement production driven by quantum resonance in many-body rotors ( http://arxiv.org/abs/2405.06622v1 )

ライセンス: Link先を確認
Sanku Paul, J. Bharathi Kannan, M. S. Santhanam, (参考訳) パラダイム的キックドローターモデルにおける量子共鳴は、基礎となる古典的カオスの状態を無視した純粋に量子効果である。 本研究は, 量子共鳴が$N$相互作用型キックローターの絡み合い発生に及ぼす影響について検討した。 エンタングルメント成長は時間スケールの$t^*$まで時間的に超直線的であり、その先にはエンタングルメント生成が重畳された振動を伴う対数プロファイルへと減速する。 特に、共鳴では、絡み合いのダイナミクスはローターのキック強度とは無関係であるが、相互作用強度にのみ依存する。 位置的相互作用を運動量空間にマッピングし、線形エントロピーを解析的に計算することにより、これらの異なる成長プロファイルを駆動する基盤となるメカニズムを解明する。 解析結果は,2段および3段のキックローターで行う数値シミュレーションとよく一致している。 この結果は超低温原子配置の実験的な実現に有効である。

Quantum resonance in the paradigmatic kicked rotor model is a purely quantum effect that ignores the state of underlying classical chaos. In this work, the effect of quantum resonance on entanglement generation in the $N$-interacting kicked rotors is studied. We show a compelling feature: entanglement growth is superlinear in time until the timescale $t^*$, beyond which the entanglement production slows down to a logarithmic profile with superimposed oscillations. Notably, we find that at resonance, the entanglement dynamics is independent of the kick strength of rotors, but depends solely on the interaction strength. By mapping positional interaction to momentum space and analytically calculating the linear entropy, we elucidate the underlying mechanism driving these distinct growth profiles. The analytical findings are in excellent agreement with the numerical simulations performed for two- and three-interacting kicked rotors. Our results are amenable to an experimental realization on ultracold atom setup.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 安全なAIの保証に向けて:ロバストで信頼性の高いAIシステムを保証するフレームワーク

Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems ( http://arxiv.org/abs/2405.06624v1 )

ライセンス: Link先を確認
David "davidad" Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, Alessandro Abate, Joe Halpern, Clark Barrett, Ding Zhao, Tan Zhi-Xuan, Jeannette Wing, Joshua Tenenbaum, (参考訳) AIシステムは、特に高度な自律性と汎用性を持つAIシステムや、安全クリティカルなコンテキストで使用されるシステムにとって、安全で堅牢に有害な行動や危険な行動を避けることが重要な課題である。 本稿では、安全保証(GS)AIとして言及する、AI安全性に対するアプローチのファミリーを紹介し、定義する。 これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。 これは、世界モデル(AIシステムが外界にどう影響するかを数学的に記述する)、安全仕様(どのような効果が受け入れられるかを数学的に記述する)、検証(AIが世界モデルに対して安全仕様を満足する監査可能な証明証明書を提供する)の3つのコアコンポーネントの相互作用によって達成される。 これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。 また、AIの安全性に対するこのアプローチの必要性や、主要な代替アプローチの不十分さについても議論しています。

Ensuring that AI systems reliably and robustly avoid harmful or dangerous behaviours is a crucial challenge, especially for AI systems with a high degree of autonomy and general intelligence, or systems used in safety-critical contexts. In this paper, we will introduce and define a family of approaches to AI safety, which we will refer to as guaranteed safe (GS) AI. The core feature of these approaches is that they aim to produce AI systems which are equipped with high-assurance quantitative safety guarantees. This is achieved by the interplay of three core components: a world model (which provides a mathematical description of how the AI system affects the outside world), a safety specification (which is a mathematical description of what effects are acceptable), and a verifier (which provides an auditable proof certificate that the AI satisfies the safety specification relative to the world model). We outline a number of approaches for creating each of these three core components, describe the main technical challenges, and suggest a number of potential solutions to them. We also argue for the necessity of this approach to AI safety, and for the inadequacy of the main alternative approaches.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 言語モデルにおける低階分解の精度-効率トレードオフの特徴

Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models ( http://arxiv.org/abs/2405.06626v1 )

ライセンス: Link先を確認
Chakshu Moar, Michael Pellauer, Hyoukjun Kwon, (参考訳) 大規模言語モデル(LLM)が登場し、1つのモデルでそれらの一般的な問題解決能力を示した。 しかし、モデルのサイズは数十億のパラメータで劇的に増加し、そのような広範な問題解決能力を実現している。 また, LLMにおける行列行列行列と行列ベクトル乗算の優位性により, 計算-モデルサイズ比はCNNよりも有意に低い値を示した。 このシフトは、LSMを計算バウンドな状態からメモリバウンドな状態へプッシュする。 したがって、メモリフットプリントとトラフィックの最適化は、今日のLLMにとって重要な最適化方向である。 メモリフットプリントとトラフィック最適化を実現するため,量子化やパラメータプルーニングなどのモデル圧縮手法が積極的に検討されている。 しかし、LLMのランクプルーニングの精度と効率のトレードオフはまだ十分に理解されていない。 したがって、オープンソースのLLM Llama 2を含む最近の言語モデルにおいて、低ランク分解法、特にタッカー分解の精度と効率のトレードオフを特徴付ける。 低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す(例えば、Llama2-7B に対して O($2^{37}$)。 このような広大な設計空間をナビゲートするために,BERT と Llama 2 モデル上で広く使用されている6つの LLM ベンチマークを用いて,設計空間を定式化し,精度-効率トレードオフの徹底的なケーススタディを行う。 その結果, 精度低下を最小限に抑えたモデルサイズを, 4 %p から 10 %p まで, ベンチマークの難易度に応じて, 分解後の精度を回復させることなく, 9 % のモデルサイズ縮小を達成できることが示唆された。 その結果,LLMをベースとした大規模リアルタイムサービス(AIエージェントアシストやリアルタイムコーディングアシスタントなど)を必要とするアプリケーションでは,レイテンシがモデル精度と同じくらい重要である,低ランクの分解が有望な方向であることが示唆された。

Large language models (LLMs) have emerged and presented their general problem-solving capabilities with one model. However, the model size has increased dramatically with billions of parameters to enable such broad problem-solving capabilities. In addition, due to the dominance of matrix-matrix and matrix-vector multiplications in LLMs, the compute-to-model size ratio is significantly lower than that of CNNs. This shift pushes LLMs from a computation-bound regime to a memory-bound regime. Therefore, optimizing the memory footprint and traffic is an important optimization direction for LLMs today. Model compression methods such as quantization and parameter pruning have been actively explored for achieving the memory footprint and traffic optimization. However, the accuracy-efficiency trade-off of rank pruning for LLMs is not well-understood yet. Therefore, we characterize the accuracy-efficiency trade-off of a low-rank decomposition method, specifically Tucker decomposition, on recent language models, including an open-source LLM, Llama 2. We formalize the low-rank decomposition design space and show that the decomposition design space is enormous (e.g., O($2^{37}$) for Llama2-7B). To navigate such a vast design space, we formulate the design space and perform thorough case studies of accuracy-efficiency trade-offs using six widely used LLM benchmarks on BERT and Llama 2 models. Our results show that we can achieve a 9\% model size reduction with minimal accuracy drops, which range from 4\%p to 10\%p, depending on the difficulty of the benchmark, without any retraining to recover accuracy after decomposition. The results show that low-rank decomposition can be a promising direction for LLM-based applications that require real-time service in scale (e.g., AI agent assist and real-time coding assistant), where the latency is as important as the model accuracy.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# あらゆるデータ配信のためのコンフォーマルな妥当性保証

Conformal Validity Guarantees Exist for Any Data Distribution ( http://arxiv.org/abs/2405.06627v1 )

ライセンス: Link先を確認
Drew Prinster, Samuel Stanton, Anqi Liu, Suchi Saria, (参考訳) 機械学習(ML)が広く普及するにつれて、実践者はこれらのシステムがもたらすリスクを定量化し、制御する方法を模索している。 この課題は、ブラックボックス最適化やアクティブラーニングなど、MLシステムが独自のデータ収集を自主的に行う場合、特に有益である。 コンフォーマル予測は、不確実性とリスク定量化に対する有望なアプローチとして現れてきたが、既存の変種は、データ依存シフトのシーケンスを順応できないか、エージェント誘起シフトが制御下にあるという事実を完全に活用していない。 本研究は, 共形予測が交換可能データや準交換可能データだけでなく, 理論的に「textit{any}」結合データ分布にまで拡張可能であることを証明した。 本稿では,任意のデータ分布に対して特定の共形アルゴリズムを導出する手法の概要を述べるとともに,この手法を用いて,一連のエージェント誘起共変量シフトに対するトラクタブルアルゴリズムを導出する。 提案アルゴリズムは,合成ブラックボックス最適化とアクティブ学習タスクを実証的に評価する。

As machine learning (ML) gains widespread adoption, practitioners are increasingly seeking means to quantify and control the risk these systems incur. This challenge is especially salient when ML systems have autonomy to collect their own data, such as in black-box optimization and active learning, where their actions induce sequential feedback-loop shifts in the data distribution. Conformal prediction has emerged as a promising approach to uncertainty and risk quantification, but existing variants either fail to accommodate sequences of data-dependent shifts, or do not fully exploit the fact that agent-induced shift is under our control. In this work we prove that conformal prediction can theoretically be extended to \textit{any} joint data distribution, not just exchangeable or quasi-exchangeable ones, although it is exceedingly impractical to compute in the most general case. For practical applications, we outline a procedure for deriving specific conformal algorithms for any data distribution, and we use this procedure to derive tractable algorithms for a series of agent-induced covariate shifts. We evaluate the proposed algorithms empirically on synthetic black-box optimization and active learning tasks.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# QSpace - アベリアおよび非アベリア対称性のためのオープンソースのテンソルライブラリ

QSpace - An open-source tensor library for Abelian and non-Abelian symmetries ( http://arxiv.org/abs/2405.06632v1 )

ライセンス: Link先を確認
Andreas Weichselbaum, (参考訳) これは、量子多体コンテキストにおけるテンソルネットワーク状態の '量子対称性空間' を利用するツールボックスであるテンソルライブラリ QSpace (v4.0) の文書である。 QSpace は、アーベル対称性 $\mathbb{Z}_n$ と $U(1)$ と、半単純古典リー代数(英語版)に基づくすべての非アーベル対称性:$A_n$, $B_n$, $C_n$, $D_n$ またはそれぞれ、特殊ユニタリ群 SU($n$)、奇直交群 SO($2n+1$)、シンプレクティック群 Sp($2n$)、および偶直交群 SO($2n$) を含む任意の対称性の組み合わせを許容する。 コード(MEXインターフェース経由でMatlabに埋め込まれたC++)は、Apache 2.0ライセンスのもと、https://bitbucket.org/qspace4u/でQSpace v4.0の時点でオープンソースである。 QSpaceは非アーベル対称性のボトムアップアプローチとして設計されている。 それは定義表現とそれぞれのリー代数から始まる。 一般化 Clebsch-Gordan 係数テンソルを明示的に計算し、集計することにより、QSpace はすべての対称性で実行できる操作のタイプで多用できる。 アプリケーションのレベルでは、対称性に関連する詳細の多くは、QSpace C++コアライブラリ内に隠されている。 したがって、QSpaceでテンソルネットワークアルゴリズムを開発する際には、一般の非アーベル対称性を完全に活用できるにもかかわらず、対称性が全くないかのように(ほぼ)コーディングすることができる。

This is the documentation for the tensor library QSpace (v4.0), a toolbox to exploit `quantum symmetry spaces' in tensor network states in the quantum many-body context. QSpace permits arbitrary combinations of symmetries including the abelian symmetries $\mathbb{Z}_n$ and $U(1)$, as well as all non-abelian symmetries based on the semisimple classical Lie algebras: $A_n$, $B_n$, $C_n$, and $D_n$, or respectively, the special unitary group SU($n$), the odd orthogonal group SO($2n+1$), the symplectic group Sp($2n$), and the even orthogonal group SO($2n$). The code (C++ embedded via the MEX interface into Matlab) is available open source as of QSpace v4.0 at https://bitbucket.org/qspace4u/ under the Apache 2.0 license. QSpace is designed as a bottom-up approach for non-abelian symmetries. It starts from the defining representation and the respective Lie algebra. By explicitly computing and tabulating generalized Clebsch-Gordan coefficient tensors, QSpace is versatile in the type of operations that it can perform across all symmetries. At the level of an application, much of the symmetry-related details are hidden within the QSpace C++ core libraries. Hence when developing tensor network algorithms with QSpace, these can be coded (nearly) as if there are no symmetries at all, despite being able to fully exploit general non-abelian symmetries.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 基本的ビジュアルネットワーク分析によるマルチモーダルLLMストルグル:VNAベンチマーク

Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark ( http://arxiv.org/abs/2405.06634v1 )

ライセンス: Link先を確認
Evan M. Williams, Kathleen M. Carley, (参考訳) GPT-4 と LLaVa のゼロショット能力を評価し,小型グラフ上で単純な Visual Network Analysis (VNA) タスクを実行する。 我々は,3つの基礎的ネットワーク科学概念に関連する5つのタスクについて,視覚言語モデル (VLM) の評価を行った。 これらのタスクは、基礎となるグラフ理論の概念を理解する人間にとって簡単なように構成されており、グラフの適切な要素を数えることによって全てを解決できる。 GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。 基礎的なVNAタスクにおけるVLMの評価のための最初のベンチマークを公開している。

We evaluate the zero-shot ability of GPT-4 and LLaVa to perform simple Visual Network Analysis (VNA) tasks on small-scale graphs. We evaluate the Vision Language Models (VLMs) on 5 tasks related to three foundational network science concepts: identifying nodes of maximal degree on a rendered graph, identifying whether signed triads are balanced or unbalanced, and counting components. The tasks are structured to be easy for a human who understands the underlying graph theoretic concepts, and can all be solved by counting the appropriate elements in graphs. We find that while GPT-4 consistently outperforms LLaVa, both models struggle with every visual network analysis task we propose. We publicly release the first benchmark for the evaluation of VLMs on foundational VNA tasks.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# Federated Document Visual Question Answering: パイロットスタディ

Federated Document Visual Question Answering: A Pilot Study ( http://arxiv.org/abs/2405.06636v1 )

ライセンス: Link先を確認
Khanh Nguyen, Dimosthenis Karatzas, (参考訳) 文書分析研究の重要な利点は、文書は著作権や私的な情報を含む傾向にあり、公開を禁止し、大規模な文書データセットを集中的に作成することである。 その代わりに、ドキュメントはプライベートデータサイロに分散され、異種データに対する広範なトレーニングが面倒な作業になる。 本研究では,分散化されたプライベート文書データ上での共有モデルの学習方法として,FL(Federated Learning)スキームの利用について検討する。 このアプローチに特に適したタスクであるDocument VQAの問題に注目する。 異種文書データセットによるトレーニングはDocVQAモデルを大幅に強化することができる。 既存のDocVQAデータセットをさまざまなドメインから収集し、実世界のアプリケーションにおけるデータの均一性を反映する。 このマルチモーダル環境では、事前トレーニングと微調整の両方に同じデータが使用され、プライバシー保護に関係している。 さらに,FedAvgベースラインを上回る集中型適応最適化を用いて,自己事前学習とFederated DocVQAトレーニングの併用を提案する。 広範に実験を行った結果,FLを用いたDocVQAモデルの学習における多面的解析結果が得られた。 我々は,さまざまなDocVQAデータセットを用いたフェデレーショントレーニングにおいて,事前学習戦略が効果的に学習し,スケールアップできることを示し,ハイパーパラメータをチューニングすることが,フェデレーション下の実用的な文書タスクに不可欠であることを示す。

An important handicap of document analysis research is that documents tend to be copyrighted or contain private information, which prohibits their open publication and the creation of centralised, large-scale document datasets. Instead, documents are scattered in private data silos, making extensive training over heterogeneous data a tedious task. In this work, we explore the use of a federated learning (FL) scheme as a way to train a shared model on decentralised private document data. We focus on the problem of Document VQA, a task particularly suited to this approach, as the type of reasoning capabilities required from the model can be quite different in diverse domains. Enabling training over heterogeneous document datasets can thus substantially enrich DocVQA models. We assemble existing DocVQA datasets from diverse domains to reflect the data heterogeneity in real-world applications. We explore the self-pretraining technique in this multi-modal setting, where the same data is used for both pretraining and finetuning, making it relevant for privacy preservation. We further propose combining self-pretraining with a Federated DocVQA training method using centralized adaptive optimization that outperforms the FedAvg baseline. With extensive experiments, we also present a multi-faceted analysis on training DocVQA models with FL, which provides insights for future research on this task. We show that our pretraining strategies can effectively learn and scale up under federated training with diverse DocVQA datasets and tuning hyperparameters is essential for practical document tasks under federation.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 言語モデルアライメントとパーソナライズのための値拡張サンプリング

Value Augmented Sampling for Language Model Alignment and Personalization ( http://arxiv.org/abs/2405.06639v1 )

ライセンス: Link先を確認
Seungwook Han, Idan Shenfeld, Akash Srivastava, Yoon Kim, Pulkit Agrawal, (参考訳) 異なる人間の好みに適応し、新しいスキルを習得し、有害な振る舞いを学ぶために、LLM(Large Language Models)を調整することは重要な問題である。 Best-of-N や Monte-Carlo Tree Search のような探索に基づく手法は、高い推論コストのために LLM 適応には実用的ではない。 一方,Reinforcement Learning (RL) を適応に利用することは計算的に効率的であるが,値関数とポリシーを協調学習する際の最適化上の課題により,さらに悪化する。 本稿では,初期凍結LDMのみからサンプリングしたデータを用いて,報酬関数を最大化できる新たな報酬最適化フレームワークである値拡張サンプリング(VAS)を提案する。 VASは、ポリシーと値関数を共同トレーニングすることなく、最適報酬最大化ポリシーを解決し、最適化を安定させ、標準ベンチマーク上でPPOやDPOのような確立されたベースラインよりも優れたパフォーマンスを実現し、推論コストを低くしてベスト・オブ・128に匹敵する結果を得る。 LLMの重量を変える必要のある既存のRL法とは異なり、VASは事前訓練されたLLMの重量にアクセスする必要はない。 従って、APIとしてのみ利用可能なLLM(例えばChatGPT)を適応することも可能です。 さらに,本アルゴリズムは,複数報酬を合成し,展開期間中に各報酬の程度を制御し,協調型パーソナライズされたLLMの将来に向けての道を開くという,新たな能力を開放する。

Aligning Large Language Models (LLMs) to cater to different human preferences, learning new skills, and unlearning harmful behavior is an important problem. Search-based methods, such as Best-of-N or Monte-Carlo Tree Search, are performant, but impractical for LLM adaptation due to their high inference cost. On the other hand, using Reinforcement Learning (RL) for adaptation is computationally efficient, but performs worse due to the optimization challenges in co-training the value function and the policy. We present a new framework for reward optimization, Value Augmented Sampling (VAS), that can maximize different reward functions using data sampled from only the initial, frozen LLM. VAS solves for the optimal reward-maximizing policy without co-training the policy and the value function, making the optimization stable, outperforming established baselines, such as PPO and DPO, on standard benchmarks, and achieving comparable results to Best-of-128 with lower inference cost. Unlike existing RL methods that require changing the weights of the LLM, VAS does not require access to the weights of the pre-trained LLM. Thus, it can even adapt LLMs (e.g., ChatGPT), which are available only as APIs. In addition, our algorithm unlocks the new capability of composing several rewards and controlling the extent of each one during deployment time, paving the road ahead for the future of aligned, personalized LLMs.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 大規模言語モデルの線形化

Linearizing Large Language Models ( http://arxiv.org/abs/2405.06640v1 )

ライセンス: Link先を確認
Jean Mercat, Igor Vasiljevic, Sedrick Keh, Kushal Arora, Achal Dave, Adrien Gaidon, Thomas Kollar, (参考訳) 線形変圧器はソフトマックスアテンションに代わる準四次時間として登場し、推論コストを下げる固定サイズのリカレント状態のために大きな関心を集めている。 しかし、元々の定式化は、スケーリングの貧弱さと、計算整合変換器の貧弱さに悩まされている。 RWKVやMambaのような最近の線形モデルは、新しい時間混合とゲーティングアーキテクチャを提案し、これらの欠点に対処しようと試みてきたが、大規模言語モデルの事前学習には膨大なデータと計算投資が必要である。 したがって、サブクワッドラティックアーキテクチャの検索は、計算および品質事前学習データセットの可用性によって制限される。 本稿では, 線形変圧器の事前学習に代わる費用対効果として, 繰り返し注意のためのスケーラブルな UPtraining (SUPRA) を提案する。 本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。 これにより、トレーニングコストの5%を必要としながら、既存のトランスフォーマーLLMの強力な事前トレーニングデータとパフォーマンスを活用することができます。 線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。 私たちのコードとモデルはhttps://github.com/TRI-ML/linear_open_lm.orgで参照できます。

Linear transformers have emerged as a subquadratic-time alternative to softmax attention and have garnered significant interest due to their fixed-size recurrent state that lowers inference cost. However, their original formulation suffers from poor scaling and underperforms compute-matched transformers. Recent linear models such as RWKV and Mamba have attempted to address these shortcomings by proposing novel time-mixing and gating architectures, but pre-training large language models requires significant data and compute investments. Thus, the search for subquadratic architectures is limited by the availability of compute and quality pre-training datasets. As a cost-effective alternative to pre-training linear transformers, we propose Scalable UPtraining for Recurrent Attention (SUPRA). We present a method to uptrain existing large pre-trained transformers into Recurrent Neural Networks (RNNs) with a modest compute budget. This allows us to leverage the strong pre-training data and performance of existing transformer LLMs, while requiring 5% of the training cost. We find that our linearization technique leads to competitive performance on standard benchmarks, but we identify persistent in-context learning and long-context modeling shortfalls for even the largest linear models. Our code and models can be found at https://github.com/TRI-ML/linear_open_lm.
翻訳日:2024-05-13 15:08:38 公開日:2024-05-10
# 統計的テスト理論から見た分布外同定の一考察

A View on Out-of-Distribution Identification from a Statistical Testing Theory Perspective ( http://arxiv.org/abs/2405.03052v3 )

ライセンス: Link先を確認
Alberto Caron, Chris Hicks, Vasilios Mavroudis, (参考訳) 本研究では,教師なしおよび教師なしの学習文脈において,テスト時間におけるOODサンプルを効率的に検出する問題について検討する。 MLモデルは通常、トレーニングとテストデータが同じ分散に由来するという前提でトレーニングされるが、現実的な設定ではそうではないことが多いため、デプロイメントにおいて確実に分散シフトを検出することが不可欠である。 我々は,OOD問題を統計的検定のレンズで再定式化し,OOD問題を統計的に特定可能な条件について議論する。 この枠組みに基づいて、ワッサーシュタイン距離に基づくOOD試験の収束保証について検討し、簡単な経験的評価を行う。

We study the problem of efficiently detecting Out-of-Distribution (OOD) samples at test time in supervised and unsupervised learning contexts. While ML models are typically trained under the assumption that training and test data stem from the same distribution, this is often not the case in realistic settings, thus reliably detecting distribution shifts is crucial at deployment. We re-formulate the OOD problem under the lenses of statistical testing and then discuss conditions that render the OOD problem identifiable in statistical terms. Building on this framework, we study convergence guarantees of an OOD test based on the Wasserstein distance, and provide a simple empirical evaluation.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# 深部回帰のための不確かさ定量化指標

Uncertainty Quantification Metrics for Deep Regression ( http://arxiv.org/abs/2405.04278v2 )

ライセンス: Link先を確認
Ziliang Xiong, Simon Kristoffersson Lind, Per-Erik Forssén, Volker Krüger, (参考訳) ロボットや他の物理システムにディープニューラルネットワークをデプロイする場合、学習モデルは予測の不確実性を確実に定量化する必要がある。 確実な不確実性により、下流モジュールはその動作の安全性を推論することができる。 本研究では,このような不確実性を評価するための指標について述べる。 具体的には、回帰タスクに着目し、AUSE(Area Under Sparsification Error)、Calibration Error(Calibration Error)、Spearman's Rank correlation(Spearman's Rank correlation)、NLL(Negative Log-Likelihood)を調査する。 合成回帰データセットを用いて、これらの指標が4つの典型的な不確実性、テストセットのサイズに関する安定性、強みと弱点の下でどのように振る舞うかを考察する。 その結果,キャリブレーションエラーが最も安定かつ解釈可能な指標であることが示唆されたが,AUSEとNLLにはそれぞれのユースケースがある。 我々は、不確実性を評価するためにSpearman's Rank correlationの使用を禁止し、AUSEに置き換えることを推奨する。

When deploying deep neural networks on robots or other physical systems, the learned model should reliably quantify predictive uncertainty. A reliable uncertainty allows downstream modules to reason about the safety of its actions. In this work, we address metrics for evaluating such an uncertainty. Specifically, we focus on regression tasks, and investigate Area Under Sparsification Error (AUSE), Calibration Error, Spearman's Rank Correlation, and Negative Log-Likelihood (NLL). Using synthetic regression datasets, we look into how those metrics behave under four typical types of uncertainty, their stability regarding the size of the test set, and reveal their strengths and weaknesses. Our results indicate that Calibration Error is the most stable and interpretable metric, but AUSE and NLL also have their respective use cases. We discourage the usage of Spearman's Rank Correlation for evaluating uncertainties and recommend replacing it with AUSE.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# QServe: W4A8KV4 量子化と効率的な LLM 実行のためのシステム共設計

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving ( http://arxiv.org/abs/2405.04532v2 )

ライセンス: Link先を確認
Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han, (参考訳) 量子化は大規模言語モデル(LLM)の推論を加速させる。 INT8量子化を超えて、研究コミュニティはINT4のようなより低い精度を積極的に探求している。 それでも、最先端のINT4量子化技術は、低バッチでエッジなLLM推論を加速するだけで、大規模でクラウドベースのLLMサービスではパフォーマンス向上を達成できなかった。 既存のINT4量子化メソッドは、GPUの重み付けと部分和のいずれにおいても、大きなランタイムオーバーヘッド(20-90%)に悩まされている。 この課題に対処するために,4ビット重み,8ビットアクティベーション,4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムであるQoQを導入する。 QoQ は quattuor-octo-quattuor の略で、ラテン語で 4-8-4 を表す。 QoQは、測定スピードアップを実現するQServe推論ライブラリによって実装されている。 QServeを駆動する重要な洞察は、GPU上で動作するLLMの効率が、低スループットのCUDAコアでの操作に大きく影響されていることである。 この知見に基づくQoQアルゴリズムでは、W4A8 GEMMにおける低量子化オーバーヘッドを許容できるプログレッシブ量子化を導入する。 さらに,4ビットKV量子化による精度劣化を効果的に軽減するために,SmoothAttentionを開発した。 QServeシステムでは,重み付けの重み付けを行い,レジスタレベルの並列性を利用して復号化遅延を低減する。 また、KV4量子化による性能向上を生かして、メモリバウンドを融合させる。 その結果、QServeは、Llama-3-8Bの最大サービススループットをA100上の1.2倍、L40S上の1.4倍、Qwen1.5-72BをA100上の2.4倍、L40S上の3.5倍、TensorRT-LLMと比較して改善した。 注目すべきなのは、L40S GPU上のQServeは、A100上のTensorRT-LLMよりも高いスループットを実現することができることだ。 このようにして、QServeはLLMのドルコストを3倍に効果的に削減する。 コードはhttps://github.com/mit-han-lab/qserve.comから入手できる。

Quantization can accelerate large language model (LLM) inference. Going beyond INT8 quantization, the research community is actively exploring even lower precision, such as INT4. Nonetheless, state-of-the-art INT4 quantization techniques only accelerate low-batch, edge LLM inference, failing to deliver performance gains in large-batch, cloud-based LLM serving. We uncover a critical issue: existing INT4 quantization methods suffer from significant runtime overhead (20-90%) when dequantizing either weights or partial sums on GPUs. To address this challenge, we introduce QoQ, a W4A8KV4 quantization algorithm with 4-bit weight, 8-bit activation, and 4-bit KV cache. QoQ stands for quattuor-octo-quattuor, which represents 4-8-4 in Latin. QoQ is implemented by the QServe inference library that achieves measured speedup. The key insight driving QServe is that the efficiency of LLM serving on GPUs is critically influenced by operations on low-throughput CUDA cores. Building upon this insight, in QoQ algorithm, we introduce progressive quantization that can allow low dequantization overhead in W4A8 GEMM. Additionally, we develop SmoothAttention to effectively mitigate the accuracy degradation incurred by 4-bit KV quantization. In the QServe system, we perform compute-aware weight reordering and take advantage of register-level parallelism to reduce dequantization latency. We also make fused attention memory-bound, harnessing the performance gain brought by KV4 quantization. As a result, QServe improves the maximum achievable serving throughput of Llama-3-8B by 1.2x on A100, 1.4x on L40S; and Qwen1.5-72B by 2.4x on A100, 3.5x on L40S, compared to TensorRT-LLM. Remarkably, QServe on L40S GPU can achieve even higher throughput than TensorRT-LLM on A100. Thus, QServe effectively reduces the dollar cost of LLM serving by 3x. Code is available at https://github.com/mit-han-lab/qserve.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# インド言語のための微調整済み名前付きエンティティ認識モデル

Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages ( http://arxiv.org/abs/2405.04829v2 )

ライセンス: Link先を確認
Sankalp Bahad, Pruthwik Mishra, Karunesh Arora, Rakesh Chandra Balabantaray, Dipti Misra Sharma, Parameswari Krishnamurthy, (参考訳) 名前付きエンティティ認識(NER)は自然言語処理(NLP)アプリケーションにおいて有用なコンポーネントである。 機械翻訳、要約、情報検索、質問応答システムなど様々なタスクで使用されている。 NERの研究は英語やその他の主要言語を中心にしているが、インド語には限られた注意が向けられている。 インド語における多言語名前付きエンティティ認識に適した手法を提案し,課題を分析した。 主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。 さらに、データセット上で微調整された多言語モデルを提案し、データセット上で平均0.80のF1スコアを達成する。 我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。

Named Entity Recognition (NER) is a useful component in Natural Language Processing (NLP) applications. It is used in various tasks such as Machine Translation, Summarization, Information Retrieval, and Question-Answering systems. The research on NER is centered around English and some other major languages, whereas limited attention has been given to Indian languages. We analyze the challenges and propose techniques that can be tailored for Multilingual Named Entity Recognition for Indian Languages. We present a human annotated named entity corpora of 40K sentences for 4 Indian languages from two of the major Indian language families. Additionally,we present a multilingual model fine-tuned on our dataset, which achieves an F1 score of 0.80 on our dataset on average. We achieve comparable performance on completely unseen benchmark datasets for Indian languages which affirms the usability of our model.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# NeRFFaceSpeech:1ショットのオーディオ駆動型3Dトーキングヘッド合成

NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior ( http://arxiv.org/abs/2405.05749v2 )

ライセンス: Link先を確認
Gihoon Kim, Kwanggyoon Seo, Sihun Cha, Junyong Noh, (参考訳) 音声駆動音声ヘッド生成は2Dコンテンツから3Dコンテンツへと進歩している。 特に、高品質な3D音声ヘッド出力を合成する手段として、NeRF(Neural Radiance Field)が注目されている。 残念なことに、このNeRFベースのアプローチは、通常、個々のアイデンティティに対して多数のペアのオーディオ視覚データを必要とするため、メソッドのスケーラビリティが制限される。 音声駆動の3D音声ヘッドアニメーションを1つの画像で生成する試みはあったが、画像内の不明瞭な領域に関する情報が不足しているため、しばしば不満足である。 本稿では,顔のアニメーションを主に正面の視点で合成するワンショット音声駆動領域における3D一貫性の見落とされがちな側面に焦点をあてる。 高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。 提案手法は,NeRFと組み合わせた生成モデルの事前知識を用いて,単一画像に対応する3次元顔特徴空間を作成できる。 空間同期法では、パラメトリック顔モデルの音声関連頂点ダイナミクスを用いて、静止画像の特徴を動的視覚に変換し、リアルな3次元顔の動きを確実にする。 さらに,1枚の画像からは得られない内耳領域の情報不足を補うことができるLipaintNetを導入する。 ネットワークは、追加データなしで生成能力を活用することにより、自己教師型で訓練される。 本研究では,従来の手法に比べて3次元の整合性を高めた単一画像から音声駆動音声ヘッドを生成する手法の優位性を実証した。 さらに,ポーズ変化に対するモデルのロバスト性を定量的に測定する方法を導入する。

Audio-driven talking head generation is advancing from 2D to 3D content. Notably, Neural Radiance Field (NeRF) is in the spotlight as a means to synthesize high-quality 3D talking head outputs. Unfortunately, this NeRF-based approach typically requires a large number of paired audio-visual data for each identity, thereby limiting the scalability of the method. Although there have been attempts to generate audio-driven 3D talking head animations with a single image, the results are often unsatisfactory due to insufficient information on obscured regions in the image. In this paper, we mainly focus on addressing the overlooked aspect of 3D consistency in the one-shot, audio-driven domain, where facial animations are synthesized primarily in front-facing perspectives. We propose a novel method, NeRFFaceSpeech, which enables to produce high-quality 3D-aware talking head. Using prior knowledge of generative models combined with NeRF, our method can craft a 3D-consistent facial feature space corresponding to a single image. Our spatial synchronization method employs audio-correlated vertex dynamics of a parametric face model to transform static image features into dynamic visuals through ray deformation, ensuring realistic 3D facial motion. Moreover, we introduce LipaintNet that can replenish the lacking information in the inner-mouth area, which can not be obtained from a given single image. The network is trained in a self-supervised manner by utilizing the generative capabilities without additional data. The comprehensive experiments demonstrate the superiority of our method in generating audio-driven talking heads from a single image with enhanced 3D consistency compared to previous approaches. In addition, we introduce a quantitative way of measuring the robustness of a model against pose changes for the first time, which has been possible only qualitatively.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# MasterWeaver: パーソナライズされたテキスト・ツー・イメージ生成のための編集可能性とアイデンティティのモデリング

MasterWeaver: Taming Editability and Identity for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2405.05806v2 )

ライセンス: Link先を確認
Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Lei Zhang, Wangmeng Zuo, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは,参照画像で示される人物の身元を示す新しい画像を生成することを目的とした,パーソナライズされたテキスト・ツー・イメージ生成において大きな成功を収めている。 有望なアイデンティティの忠実さはいくつかのチューニング不要な方法によって達成されているが、通常は過度に適合する問題に悩まされている。 学習されたアイデンティティは、無関係な情報と絡み合う傾向があり、特に顔において、不満足なテキスト制御が生じる。 本研究では,忠実なアイデンティティとフレキシブルな編集性の両方でパーソナライズされた画像を生成するために設計された,テスト時チューニング不要なMasterWeaverを提案する。 具体的には、MasterWeaverはエンコーダを採用して、アイデンティティ機能を抽出し、追加のクロスアテンションを通じて画像生成をステアリングする。 同一性を維持しながら編集性を向上させるため,MasterWeaverの編集方向をオリジナルのT2Iモデルと整合させる訓練用編集方向損失を提案する。 さらに、不整合性学習を容易にし、さらに編集性を向上させるために、顔拡張データセットを構築する。 大規模な実験により、MasterWeaverは、忠実なアイデンティティを持つパーソナライズされたイメージを生成できるだけでなく、テキスト制御性にも優れていることが示された。 私たちのコードはhttps://github.com/csyxwei/MasterWeaver.comで公開されます。

Text-to-image (T2I) diffusion models have shown significant success in personalized text-to-image generation, which aims to generate novel images with human identities indicated by the reference images. Despite promising identity fidelity has been achieved by several tuning-free methods, they usually suffer from overfitting issues. The learned identity tends to entangle with irrelevant information, resulting in unsatisfied text controllability, especially on faces. In this work, we present MasterWeaver, a test-time tuning-free method designed to generate personalized images with both faithful identity fidelity and flexible editability. Specifically, MasterWeaver adopts an encoder to extract identity features and steers the image generation through additional introduced cross attention. To improve editability while maintaining identity fidelity, we propose an editing direction loss for training, which aligns the editing directions of our MasterWeaver with those of the original T2I model. Additionally, a face-augmented dataset is constructed to facilitate disentangled identity learning, and further improve the editability. Extensive experiments demonstrate that our MasterWeaver can not only generate personalized images with faithful identity, but also exhibit superiority in text controllability. Our code will be publicly available at https://github.com/csyxwei/MasterWeaver.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# 仮想カメラによる自由移動物体再構成と空間推定

Free-Moving Object Reconstruction and Pose Estimation with Virtual Camera ( http://arxiv.org/abs/2405.05858v2 )

ライセンス: Link先を確認
Haixin Shi, Yinlin Hu, Daniel Koguciuk, Juan-Ting Lin, Mathieu Salzmann, David Ferstl, (参考訳) モノクロRGBビデオから自由移動物体を再構成する手法を提案する。 既存のほとんどのメソッドはシーン前、ハンドポーズ前、オブジェクトカテゴリ前、あるいは複数のシーケンスセグメントによるローカル最適化に依存している。 本研究では,移動カメラの前方の物体と自由に対話できる手法を提案し,セグメントを使わずに世界規模でシーケンスを最適化する。 対象の形状を段階的に最適化し,暗黙のニューラル表現に基づくポーズを同時に行う。 提案手法の重要な側面は,最適化の検索スペースを大幅に削減する仮想カメラシステムである。 本手法は,ヘッドマウントデバイスで取得した標準HO3Dデータセットと,エゴセントリックなRGBシーケンスのコレクションに基づいて評価する。 提案手法は,ほとんどの手法よりも優れており,先行情報を前提とした最近の手法と同等であることを示す。

We propose an approach for reconstructing free-moving object from a monocular RGB video. Most existing methods either assume scene prior, hand pose prior, object category pose prior, or rely on local optimization with multiple sequence segments. We propose a method that allows free interaction with the object in front of a moving camera without relying on any prior, and optimizes the sequence globally without any segments. We progressively optimize the object shape and pose simultaneously based on an implicit neural representation. A key aspect of our method is a virtual camera system that reduces the search space of the optimization significantly. We evaluate our method on the standard HO3D dataset and a collection of egocentric RGB sequences captured with a head-mounted device. We demonstrate that our approach outperforms most methods significantly, and is on par with recent techniques that assume prior information.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# 一般化されたレニイエントロピー累積定理と一般化された量子確率推定

Generalized Rényi entropy accumulation theorem and generalized quantum probability estimation ( http://arxiv.org/abs/2405.05912v2 )

ライセンス: Link先を確認
Amir Arqand, Thomas A. Hahn, Ernest Y. -Z. Tan, (参考訳) エントロピー累積定理とそのその後の一般化版は、多くのデバイス依存およびデバイス非依存暗号プロトコルのセキュリティ解析において強力なツールである。 しかし、それが得られる有限サイズ境界が必ずしも最適であるとは限らないという欠点があり、さらに実際は最適に構築することが難しいアフィンミントレーデフ関数の構成に依存している。 本研究では,新しいエントロピー蓄積バウンドを導出することにより,これらの課題を同時に解決する。 我々の境界は有限サイズ性能を著しく向上させ、アフィンミントレーデオフ関数の仕様を使わずに直観的に解釈可能な凸最適化として計算できる。 さらに、必要に応じてR'enyiエントロピーのレベルに直接適用することができ、完全なR'enyiセキュリティ証明が得られる。 提案手法は, エントロピー蓄積と量子確率推定の枠組み, あるいは$f$-weighted R\'enyi entropiesの関連性に基づくものである。

The entropy accumulation theorem, and its subsequent generalized version, is a powerful tool in the security analysis of many device-dependent and device-independent cryptography protocols. However, it has the drawback that the finite-size bounds it yields are not necessarily optimal, and furthermore it relies on the construction of an affine min-tradeoff function, which can often be challenging to construct optimally in practice. In this work, we address both of these challenges simultaneously by deriving a new entropy accumulation bound. Our bound yields significantly better finite-size performance, and can be computed as an intuitively interpretable convex optimization, without any specification of affine min-tradeoff functions. Furthermore, it can be applied directly at the level of R\'enyi entropies if desired, yielding fully-R\'enyi security proofs. Our proof techniques are based on elaborating on a connection between entropy accumulation and the frameworks of quantum probability estimation or $f$-weighted R\'enyi entropies, and in the process we obtain some new results with respect to those frameworks as well.
翻訳日:2024-05-13 13:16:44 公開日:2024-05-10
# テストセットと分布に関するニューラルネットワーク学習のばらつきについて

On the Variance of Neural Network Training with respect to Test Sets and Distributions ( http://arxiv.org/abs/2304.01910v3 )

ライセンス: Link先を確認
Keller Jordan, (参考訳) 典型的なニューラルネットワークトレーニングは、繰り返し実行間のテストセットのパフォーマンスにかなりのばらつきがあり、ハイパーパラメータ比較とトレーニング再現性を妨げる。 本研究では, この変化を理解するために, 以下の結果を示す。 1) CIFAR-10 と ImageNet の標準トレーニングは,テストセットに有意なばらつきがあるにもかかわらず,テストセットをサンプリングする基礎となるテスト分布に対して,性能のばらつきがほとんどないことを実証した。 2)これらのトレーニングは,テストセット上でほぼ独立にエラーを発生させることを示す。 つまり、トレーニングされたネットワークが特定の例でエラーを発生させることは、同じハイパーパラメータを持つトレーニングを繰り返し実行した場合の平均レートと比較して、他の例でエラーを発生させる可能性に影響しない。 (3) テストセットにおけるニューラルネットワークトレーニングのばらつきは,Jiang et al (2021) が発見したクラス校正特性の下流結果であることを示す。 解析により,二項分類の場合のばらつきを正確に予測する簡単な式が得られた。 (4)データ増大,学習速度,微調整不安定性,分布シフトの予備的研究を,走行間のばらつきのレンズを通して行った。

Typical neural network trainings have substantial variance in test-set performance between repeated runs, impeding hyperparameter comparison and training reproducibility. In this work we present the following results towards understanding this variation. (1) Despite having significant variance on their test-sets, we demonstrate that standard CIFAR-10 and ImageNet trainings have little variance in performance on the underlying test-distributions from which their test-sets are sampled. (2) We show that these trainings make approximately independent errors on their test-sets. That is, the event that a trained network makes an error on one particular example does not affect its chances of making errors on other examples, relative to their average rates over repeated runs of training with the same hyperparameters. (3) We prove that the variance of neural network trainings on their test-sets is a downstream consequence of the class-calibration property discovered by Jiang et al. (2021). Our analysis yields a simple formula which accurately predicts variance for the binary classification case. (4) We conduct preliminary studies of data augmentation, learning rate, finetuning instability and distribution-shift through the lens of variance between runs.
翻訳日:2024-05-13 11:27:00 公開日:2024-05-10
# DiffusionShield: 生成拡散モデルに対する著作権保護のための透かし

DiffusionShield: A Watermark for Copyright Protection against Generative Diffusion Models ( http://arxiv.org/abs/2306.04642v4 )

ライセンス: Link先を確認
Yingqian Cui, Jie Ren, Han Xu, Pengfei He, Hui Liu, Lichao Sun, Yue Xing, Jiliang Tang, (参考訳) 近年,GDM(Generative Diffusion Models)は,画像の学習と生成において顕著な能力を示した。 GDMの大規模なコミュニティが自然に出現し、様々な分野におけるGDMの多様化が促進されている。 しかし、この制限のない拡大は著作権保護に対する深刻な懸念を引き起こしている。 例えば、画家や写真家を含むアーティストは、GDMが許可なく独自のクリエイティブ作品を自由に複製できるのではないかと、ますます懸念している。 これらの課題に対応して,GDMに適した新しい透かし方式DiffusionShieldを導入する。 DiffusionShieldは、所有権情報を認識不能な透かしにエンコードし、画像に注入することで、GDMによる著作権侵害から画像を保護する。 その透かしはGDMによって容易に学習でき、生成した画像で再現される。 生成された画像から透かしを検出することにより、著作権侵害を証拠として暴露することができる。 DiffusionShieldは透かしの均一性と共同最適化法により、元の画像の歪みが低く、透かし検出性能が高く、長文を埋め込むことができる。 我々は,GDMによる侵害防止におけるDiffusionShieldの有効性と従来の透かし法よりも優れていることを示すために,厳密で包括的な実験を行った。 DiffusionShieldのコードはhttps://github.com/Yingqiancui/DiffusionShieldでアクセスできる。

Recently, Generative Diffusion Models (GDMs) have showcased their remarkable capabilities in learning and generating images. A large community of GDMs has naturally emerged, further promoting the diversified applications of GDMs in various fields. However, this unrestricted proliferation has raised serious concerns about copyright protection. For example, artists including painters and photographers are becoming increasingly concerned that GDMs could effortlessly replicate their unique creative works without authorization. In response to these challenges, we introduce a novel watermarking scheme, DiffusionShield, tailored for GDMs. DiffusionShield protects images from copyright infringement by GDMs through encoding the ownership information into an imperceptible watermark and injecting it into the images. Its watermark can be easily learned by GDMs and will be reproduced in their generated images. By detecting the watermark from generated images, copyright infringement can be exposed with evidence. Benefiting from the uniformity of the watermarks and the joint optimization method, DiffusionShield ensures low distortion of the original image, high watermark detection performance, and the ability to embed lengthy messages. We conduct rigorous and comprehensive experiments to show the effectiveness of DiffusionShield in defending against infringement by GDMs and its superiority over traditional watermarking methods. The code for DiffusionShield is accessible in https://github.com/Yingqiancui/DiffusionShield.
翻訳日:2024-05-13 11:27:00 公開日:2024-05-10
# Riemann-Lebesgue Forest for Regression (英語)

Riemann-Lebesgue Forest for Regression ( http://arxiv.org/abs/2402.04550v3 )

ライセンス: Link先を確認
Tian Qin, Wei-Min Huang, (参考訳) 本稿では,レグレッションのためのRLF(Riemann-Lebesgue Forest)と呼ばれる新しいアンサンブル手法を提案する。 RLFの中核となる考え方は、測定可能な関数を数区間に分割することで近似する方法を模倣することである。 このアイデアを念頭に置いて、リーマン・ルベーグ・ツリー(RLT)と呼ばれる新しいツリー学習者を開発し、リーマン・ルベーグ型伐採を行う機会、すなわち、ある非終端ノードで応答$Y$からノードを分割する。 最適リーベーグ型切削は,通常のCART \cite{Breiman 1984ClassificationAR} 切削(リーマン分割の類似)よりも,Y$のばらつきが大きくなることを示す。 このような性質はRLFのアンサンブル部分に有益である。 また,パラメータ設定の異なる RLF の漸近正規性を一般化する。 RLFの柔軟性を示す2つの一次元例が提供されている。 RLFの原生無作為林に対する競争性能はシミュレーションデータと実世界のデータセットの実験によって実証された。

We propose a novel ensemble method called Riemann-Lebesgue Forest (RLF) for regression. The core idea in RLF is to mimic the way how a measurable function can be approximated by partitioning its range into a few intervals. With this idea in mind, we develop a new tree learner named Riemann-Lebesgue Tree (RLT) which has a chance to perform Lebesgue type cutting,i.e splitting the node from response $Y$ at certain non-terminal nodes. We show that the optimal Lebesgue type cutting results in larger variance reduction in response $Y$ than ordinary CART \cite{Breiman1984ClassificationAR} cutting (an analogue of Riemann partition). Such property is beneficial to the ensemble part of RLF. We also generalize the asymptotic normality of RLF under different parameter settings. Two one-dimensional examples are provided to illustrate the flexibility of RLF. The competitive performance of RLF against original random forest \cite{Breiman2001RandomF} is demonstrated by experiments in simulation data and real world datasets.
翻訳日:2024-05-13 11:27:00 公開日:2024-05-10
# 多レベルアクター臨界による平均回帰RLにおける時間オラクルの混合のない大域的最適性

Global Optimality without Mixing Time Oracles in Average-reward RL via Multi-level Actor-Critic ( http://arxiv.org/abs/2403.11925v3 )

ライセンス: Link先を確認
Bhrij Patel, Wesley A. Suttle, Alec Koppel, Vaneet Aggarwal, Brian M. Sadler, Amrit Singh Bedi, Dinesh Manocha, (参考訳) 平均回帰強化学習の文脈では、混合時間のオラクル知識の要求、固定された政策の下でマルコフ連鎖の持続時間の測定は、その定常分布を達成する必要がある。 この要件は、大きな状態空間を持つ環境での混合時間推定の困難さと費用が原因で特に問題となる。 この制限に対処するために,マルチレベルモンテカルロ勾配推定器を組み込んだマルチレベルアクタ・クリティカル(MAC)フレームワークを検討する。 提案手法では, 時間知識の混合への依存を効果的に緩和する。 さらに,本手法は先行研究と比較して,$\mathcal{O}\left( \sqrt{\tau_{mix}} \right)$の厳密な依存性を示す。 2次元グリッドワールドの目標到達航法実験により,MACが従来のPG法よりも高い報酬を得られることを示す。

In the context of average-reward reinforcement learning, the requirement for oracle knowledge of the mixing time, a measure of the duration a Markov chain under a fixed policy needs to achieve its stationary distribution-poses a significant challenge for the global convergence of policy gradient methods. This requirement is particularly problematic due to the difficulty and expense of estimating mixing time in environments with large state spaces, leading to the necessity of impractically long trajectories for effective gradient estimation in practical applications. To address this limitation, we consider the Multi-level Actor-Critic (MAC) framework, which incorporates a Multi-level Monte Carlo (MLMC) gradient estimator. With our approach, we effectively alleviate the dependency on mixing time knowledge, a first for average-reward MDPs global convergence. Furthermore, our approach exhibits the tightest-available dependence of $\mathcal{O}\left( \sqrt{\tau_{mix}} \right)$ relative to prior work. With a 2D gridworld goal-reaching navigation experiment, we demonstrate that MAC achieves higher reward than a previous PG-based method for average reward, Parameterized Policy Gradient with Advantage Estimation (PPGAE), especially in cases with relatively small training sample budget restricting trajectory length.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# 非線形超伝導磁気効果

Nonlinear Superconducting Magnetoelectric Effect ( http://arxiv.org/abs/2404.18616v3 )

ライセンス: Link先を確認
Jin-Xin Hu, Oles Matsyshyn, Justin C. W. Song, (参考訳) 超電流流はスピン軌道相互作用を持つ非セントロ対称超伝導体における非消滅スピン磁化を誘導することができる。 非散逸性磁気効果としてよく知られるが、これは超電流流の線形次数でよく見られる。 ここでは、非線形超伝導磁気効果(NSM)が自然に変化マグネット/超伝導体(ALM/SC)ヘテロ構造に現れることを論じる: NSMは、駆動超電流に対する2次応答として生じるスピン偏極として現れる。 厳密には、NSMはALM/SCヘテロ構造における第一次磁化反応であり、中心対称性の存在下でも存続する。 これにより、NSMは超伝導スピントロニクスのための有望なプラットフォームであるALM/SCヘテロ構造における磁化を制御する強力な電気的および非散逸的な手段となる。

A supercurrent flow can induce a nonvanishing spin magnetization in noncentrosymmetric superconductors with spin-orbit interaction. Often known as the non-dissipative magnetoelectric effect, these are most commonly found at linear order in supercurrent flow. Here, we argue that a nonlinear superconducting magnetoelectric effect (NSM) can naturally manifest in altermagnet/superconductor (ALM/SC) heterostructures: NSM manifests as a spin polarization generated as a second-order response to a driving supercurrent. Strikingly, we find NSM is the leading order magnetization response in ALM/SC heterostructures and survives even in the presence of centrosymmetry; $C_4 \mathcal{T}$ symmetry in altermagnets zeroes both the equilibrium magnetization as well as out-of-plane linear magnetoelectric response. This renders NSM a powerful electric and non-dissipative means of controlling magnetization in ALM/SC heterostructures, a promising platform for superconducting spintronics.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# 単項ブロック最適化スキームと古典的後処理を組み合わせた変分量子固有解法の最適化

Better Optimization of Variational Quantum Eigensolvers by combining the Unitary Block Optimization Scheme with Classical Post-Processing ( http://arxiv.org/abs/2404.19027v3 )

ライセンス: Link先を確認
Xiaochuan Ding, Bryan K. Clark, (参考訳) 変分量子固有解法(VQE)は、ハミルトンの古典的に難解な基底状態を見つけるための有望なアプローチである。 Unitary Block Optimization Scheme (UBOS) は最先端のVQE方式であり、ゲートを網羅し、他のゲート環境における各ゲートの最適パラメータを求める。 UBOSは、SGD (Stochastic Gradient Descent) に対する等級によって、基底状態への収束時間を改善する。 それにもかかわらず、ショットノイズから生じる非常にノイズの多い期待値に直面して、収束率と最終的な収束エネルギーの両方に苦しむ。 ここではUBOSを改良する2つの古典的後処理手法について述べる。 ガウス過程回帰(GPR)を用いて、量子コンピュータからの原データを用いて人工的な拡張現実データを生成し、改良されたパラメータを解く際の全体的なエラーを低減する。 DROPR(Double Robust Optimization plus Rejection)を用いることで、非典型的にノイズの多いデータの外部への流出を防止し、特に誤った単一最適化ステップを発生させ、ノイズ測定に対するロバスト性を高める。 これらの手法を組み合わせることで、UBOSが3倍の誤差で到達する最終的な相対誤差をさらに削減し、追加の量子測定やサンプリングオーバーヘッドを追加することなく実現できる。 この研究は、古典的資源を用いて量子計測結果を後処理する技術を開発することにより、VQEアルゴリズムを著しく改善することを示した。

Variational Quantum Eigensolvers (VQE) are a promising approach for finding the classically intractable ground state of a Hamiltonian. The Unitary Block Optimization Scheme (UBOS) is a state-of-the-art VQE method which works by sweeping over gates and finding optimal parameters for each gate in the environment of other gates. UBOS improves the convergence time to the ground state by an order of magnitude over Stochastic Gradient Descent (SGD). It nonetheless suffers in both rate of convergence and final converged energies in the face of highly noisy expectation values coming from shot noise. Here we develop two classical post-processing techniques which improve UBOS especially when measurements have large noise. Using Gaussian Process Regression (GPR), we generate artificial augmented data using original data from the quantum computer to reduce the overall error when solving for the improved parameters. Using Double Robust Optimization plus Rejection (DROPR), we prevent outlying data which are atypically noisy from resulting in a particularly erroneous single optimization step thereby increasing robustness against noisy measurements. Combining these techniques further reduces the final relative error that UBOS reaches by a factor of three without adding additional quantum measurement or sampling overhead. This work further demonstrates that developing techniques which use classical resources to post-process quantum measurement results can significantly improve VQE algorithms.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# FER-YOLO-Mamba:選択状態空間に基づく表情の検出と分類

FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space ( http://arxiv.org/abs/2405.01828v3 )

ライセンス: Link先を確認
Hui Ma, Sen Lei, Turgay Celik, Heng-Chao Li, (参考訳) 表情認識(FER)は人間の感情的手がかりを理解する上で重要な役割を担っている。 しかし,視覚情報に基づく従来のFER手法には,前処理や特徴抽出,多段階分類などの制限がある。 これらは計算複雑性を増大させるだけでなく、膨大な計算資源を必要とする。 畳み込みニューラルネットワーク(CNN)に基づくFERスキームは,表情画像に埋め込まれた深度,長距離依存性,およびトランスフォーマー固有の2次計算複雑性の同定に不適切であることをしばしば証明することを考えると,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提示し,表情画像認識と局所化の効率的な調整を容易にする。 FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強みと,長距離依存性を明らかにするための状態空間モデル(SSM)の例外的機能を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。 私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。 提案したFER-YOLO-Mambaモデルの性能を評価するため,RAF-DBとSFEWの2つのベンチマークデータセットを用いて実験を行った。 実験結果から,FER-YOLO-Mambaモデルが他のモデルよりも優れた結果を得たことが示唆された。 コードはhttps://github.com/SwjtuMa/FER-YOLO-Mambaから入手できる。

Facial Expression Recognition (FER) plays a pivotal role in understanding human emotional cues. However, traditional FER methods based on visual information have some limitations, such as preprocessing, feature extraction, and multi-stage classification procedures. These not only increase computational complexity but also require a significant amount of computing resources. Considering Convolutional Neural Network (CNN)-based FER schemes frequently prove inadequate in identifying the deep, long-distance dependencies embedded within facial expression images, and the Transformer's inherent quadratic computational complexity, this paper presents the FER-YOLO-Mamba model, which integrates the principles of Mamba and YOLO technologies to facilitate efficient coordination in facial expression image recognition and localization. Within the FER-YOLO-Mamba model, we further devise a FER-YOLO-VSS dual-branch module, which combines the inherent strengths of convolutional layers in local feature extraction with the exceptional capability of State Space Models (SSMs) in revealing long-distance dependencies. To the best of our knowledge, this is the first Vision Mamba model designed for facial expression detection and classification. To evaluate the performance of the proposed FER-YOLO-Mamba model, we conducted experiments on two benchmark datasets, RAF-DB and SFEW. The experimental results indicate that the FER-YOLO-Mamba model achieved better results compared to other models. The code is available from https://github.com/SwjtuMa/FER-YOLO-Mamba.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# ランダム遅延時のPoWセキュリティレイテンシとトランザクションフィーの効果

PoW Security-Latency under Random Delays and the Effect of Transaction Fees ( http://arxiv.org/abs/2405.04526v2 )

ライセンス: Link先を確認
Mustafa Doger, Sennur Ulukus, Nail Akar, (参考訳) 中本コンセンサスの安全性保証とセキュリティレイテンシ問題については, 境界遅延モデルを用いて過去10年間に広く研究されてきた。 近年の研究では、PoWプロトコルはランダム遅延モデルでも安全であることが示されている。 本稿では,ブロックチェーンのKディープ化後のブロックの安全性を,一般的なランダム遅延分布の下で解析する。 ランダム遅延時のポアソン到着数の分布のみを決定できる厳密で明示的な境界を提供する。 弊社は、最近のBitcoinの半減期がセキュリティレイテンシーの問題に与える影響をさらに検討している。

Safety guarantees and security-latency problem of Nakamoto consensus have been extensively studied in the last decade with a bounded delay model. Recent studies have shown that PoW protocol is secure under random delay models as well. In this paper, we analyze the security-latency problem, i.e., how secure a block is, after it becomes k-deep in the blockchain, under general random delay distributions. We provide tight and explicit bounds which only require determining the distribution of the number of Poisson arrivals during the random delay. We further consider potential effects of recent Bitcoin halving on the security-latency problem by extending our results.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# 無限文脈変圧器の経路積分形式論における折り畳みコンテキスト凝縮

Folded context condensation in Path Integral formalism for infinite context transformers ( http://arxiv.org/abs/2405.04620v2 )

ライセンス: Link先を確認
Won-Gi Paeng, Daesuk Kwon, (参考訳) この短いメモは、長期のコンテキストトレーニングの迅速なコミュニケーションと、それを低メモリ使用量でトレーニングする方法のアイデアを共有するために書かれています。 本稿では、生成前訓練変圧器の注意アルゴリズムとニューラルネットワークを一般化し、パス積分形式に再解釈する。 まず、トランスの役割をトークン状態の時間的進化と解釈し、クエリトークン状態と同時に全てのキートークン状態がクエリトークン状態に注意を払っていることを示唆する。 繰り返し時間進化の結果、過去シーケンスのトークン状態が現在のシーケンスのトークン状態を肉食し、分離されたシーケンス間の注意が、シーケンスの限られたサイズに低メモリを使用することで、無限のコンテキスト情報を維持することができるようにすることについて議論した。 実験では、12ドルの入力トークンウィンドウサイズが取り込まれ、事前トレーニングには24ドルのメモリを持つGPUが使用された。 150ドル以上のコンテキストが保存されていることが確認された。 トレーニングのサンプリング結果、コード、その他の詳細は、後にこのノートの改訂版に含まれます。

This short note is written for rapid communication of long context training and to share the idea of how to train it with low memory usage. In the note, we generalize the attention algorithm and neural network of Generative Pre-Trained Transformers and reinterpret it in Path integral formalism. First, the role of the transformer is understood as the time evolution of the token state and second, it is suggested that the all key-token states in the same time as the query-token can attend to the attention with the query token states. As a result of the repetitive time evolution, it is discussed that the token states in the past sequence meats the token states in the present sequence so that the attention between separated sequences becomes possible for maintaining infinite contextual information just by using low memory for limited size of sequence. For the experiment, the $12$ input token window size was taken and one GPU with $24$GB memory was used for the pre-training. It was confirmed that more than $150$ length context is preserved. The sampling result of the training, the code and the other details will be included in the revised version of this note later.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# ハニーファイル・カモフラージュ(動画)

Honeyfile Camouflage: Hiding Fake Files in Plain Sight ( http://arxiv.org/abs/2405.04758v2 )

ライセンス: Link先を確認
Roelien C. Timmer, David Liebowitz, Surya Nepal, Salil S. Kanhere, (参考訳) ハニーファイルは特に有用なタイプのハニーポットであり、悪意のある振る舞いから情報を検知して推測するためにデプロイされた偽のファイルである。 本稿では,ハニーファイルの命名の課題について考察する。 意味ベクトル空間における余弦距離に基づいて、ファイル名カモフラージュのための2つの指標を開発する。 私たちはメトリクスを評価して比較し、どちらも公開のGitHubソフトウェアリポジトリデータセットでうまく機能していることを示す。

Honeyfiles are a particularly useful type of honeypot: fake files deployed to detect and infer information from malicious behaviour. This paper considers the challenge of naming honeyfiles so they are camouflaged when placed amongst real files in a file system. Based on cosine distances in semantic vector spaces, we develop two metrics for filename camouflage: one based on simple averaging and one on clustering with mixture fitting. We evaluate and compare the metrics, showing that both perform well on a publicly available GitHub software repository dataset.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# FreeBind:知識融合による統一マルチモーダル空間におけるフリーランチ

FreeBind: Free Lunch in Unified Multimodal Space via Knowledge Fusion ( http://arxiv.org/abs/2405.04883v2 )

ライセンス: Link先を確認
Zehan Wang, Ziang Zhang, Xize Cheng, Rongjie Huang, Luping Liu, Zhenhui Ye, Haifeng Huang, Yang Zhao, Tao Jin, Peng Gao, Zhou Zhao, (参考訳) 統一マルチモデル表現空間は、マルチモーダル理解と生成の基礎である。 しかし、何十億ものモデルパラメータと破滅的な忘れの問題により、事前訓練された統一空間をさらに強化することは困難である。 本研究では,マルチモーダル表現空間を基本単位として扱うアイデアであるFreeBindを提案する。 具体的には,2種類の基本空間結合を導入する。 1)空間変位ボンドと空間変位ボンド 2)スペースコンバレーションボンド。 これらの基本結合に基づいて、複数の空間を同時に効率的に統合する複素系列および並列結合を設計する。 モジュラー化の概念を活かして、異なる目的のために拡張された統一空間を柔軟に調整する粗大なカスタマイズ推論戦略を提案する。 ImageBind++、InternVL_IB、InternVL_IB++の3つの主な変種が存在する。 これらの結果の空間は、9つのデータセットにわたる5つのオーディオ-画像-テキストダウンストリームタスクにおいて、ImageBindよりも優れています。 さらに、カスタマイズされた推論により、高度なオーディオテキストおよび画像テキスト専門家スペースを超越する。

Unified multi-model representation spaces are the foundation of multimodal understanding and generation. However, the billions of model parameters and catastrophic forgetting problems make it challenging to further enhance pre-trained unified spaces. In this work, we propose FreeBind, an idea that treats multimodal representation spaces as basic units, and freely augments pre-trained unified space by integrating knowledge from extra expert spaces via "space bonds". Specifically, we introduce two kinds of basic space bonds: 1) Space Displacement Bond and 2) Space Combination Bond. Based on these basic bonds, we design Complex Sequential & Parallel Bonds to effectively integrate multiple spaces simultaneously. Benefiting from the modularization concept, we further propose a coarse-to-fine customized inference strategy to flexibly adjust the enhanced unified space for different purposes. Experimentally, we bind ImageBind with extra image-text and audio-text expert spaces, resulting in three main variants: ImageBind++, InternVL_IB, and InternVL_IB++. These resulting spaces outperform ImageBind on 5 audio-image-text downstream tasks across 9 datasets. Moreover, via customized inference, it even surpasses the advanced audio-text and image-text expert spaces.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# TGTM:HDRセンサのためのTinyMLによるグローバルトーンマッピング

TGTM: TinyML-based Global Tone Mapping for HDR Sensors ( http://arxiv.org/abs/2405.05016v2 )

ライセンス: Link先を確認
Peter Todorov, Julian Hartig, Jan Meyer-Siemon, Martin Fiedler, Gregor Schewior, (参考訳) 複数のカメラに頼っている高度な運転支援システム(ADAS)は、自動車技術でますます普及している。 しかし、従来の撮像センサーは、トンネル出口のような強い照明コントラストのある条件下では、ダイナミックレンジが限られているため、鮮明な画像を捉えるのに苦労している。 高ダイナミックレンジ(HDR)センサーの導入はこの問題に対処する。 しかし、HDRコンテンツをトーンマッピングによって表示可能な範囲に変換するプロセスは、ピクセルデータ上で直接実行される場合、しばしば非効率な計算につながる。 本稿では,画像ヒストグラムデータに適用した軽量ニューラルネットワークを用いたHDR画像トーンマッピングに着目した。 提案手法はTGTMと呼ばれ,任意の解像度のRGB画像に対して9000FLOPSで動作する。 さらに、TGTMは任意の古典的なトーンマッピング法に組み込むことができる一般的なアプローチを提供する。 実験により、TGTMは実際のHDRカメラ画像における最先端の手法よりも、最大5.85dB高いPSNRを桁違いに少ない計算で上回ることを示した。

Advanced driver assistance systems (ADAS) relying on multiple cameras are increasingly prevalent in vehicle technology. Yet, conventional imaging sensors struggle to capture clear images in conditions with intense illumination contrast, such as tunnel exits, due to their limited dynamic range. Introducing high dynamic range (HDR) sensors addresses this issue. However, the process of converting HDR content to a displayable range via tone mapping often leads to inefficient computations, when performed directly on pixel data. In this paper, we focus on HDR image tone mapping using a lightweight neural network applied on image histogram data. Our proposed TinyML-based global tone mapping method, termed as TGTM, operates at 9,000 FLOPS per RGB image of any resolution. Additionally, TGTM offers a generic approach that can be incorporated to any classical tone mapping method. Experimental results demonstrate that TGTM outperforms state-of-the-art methods on real HDR camera images by up to 5.85 dB higher PSNR with orders of magnitude less computations.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# フィードバック遅延を伴う不正確なマクスウェルのデーモン:厳密に解決可能な情報エンジンモデル

An Imprecise Maxwell's Demon with Feedback Delay: An Exactly Solvable Information Engine Model ( http://arxiv.org/abs/2405.05123v2 )

ライセンス: Link先を確認
Kiran V, Toby Joseph, (参考訳) 熱貯留層に接触する2レベルシステムに基づく有限サイクル時間情報エンジンを解析的に検討した。 エンジンのモデルは、測定とフィードバックプロセスの間のシステム状態と時間遅延を測定する際の誤差を含む。 エンジンの定常状態における効率とパワーは、レベル間隔、フィードバック遅延時間、エンジンサイクル時間、測定誤差の関数として導出される。 レベル間隔とフィードバック遅延の固定値に対して、エンジンが正の作業を引き出すことができるように、測定誤差に上限がある。 この誤差のしきい値がサイクル時間に依存しないことが分かる。 レベル間隔とフィードバック遅延時間の範囲において、効率は測定誤差に非単調な依存性を持ち、情報エンジンが効率的に動作するための最適な測定誤差が存在することを示唆する。 高温かつ正確な測定では、エンジンの正の働きを抽出する能力は、より広い範囲のフィードバック遅延時間で拡張される。

A finite cycle time information engine based on a two-level system in contact with a thermal reservoir is studied analytically. The model for the engine incorporates an error in measuring the system's state and time delay between the measurement and the feedback process. The efficiency and power of the engine in steady state are derived as a function of level spacing, feedback delay time, engine cycle time, and measurement error. For a fixed value of level spacing and feedback delay, there is an upper bound on measurement error such that the engine can extract positive work. This threshold value of error is found to be independent of the cycle time. For a range of values of level spacing and feedback delay time, efficiency has a non-monotonic dependence on the measurement error, implying that there is an optimal measurement error for the information engine to operate efficiently. At high temperatures and with precise measurement, the engine's ability to extract positive work is extended over a larger range of feedback delay time.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10
# SO(3)同変非線形表現学習の枠組みと電子構造ハミルトニアン予測への応用

A Framework of SO(3)-equivariant Non-linear Representation Learning and its Application to Electronic-Structure Hamiltonian Prediction ( http://arxiv.org/abs/2405.05722v2 )

ライセンス: Link先を確認
Shi Yin, Xinyang Pan, Fengyan Wang, Feng Wu, Lixin He, (参考訳) 電子構造ハミルトニアンのようなSO(3)-同変量の予測において,非線形表現性とSO(3)-同変の調和という,物理系にディープラーニングを適用する上で重要な課題に対処する理論的および方法論的枠組みを提示する。 物理学における共変理論に着想を得て、SO(3)-不変量とSO(3)-同変量とそれらの表現の間の数学的関係を探求することによってこの問題に対処する。 まず、SO(3)-同変回帰目標から導かれる理論SO(3)-不変量を構築し、これらの不変量を用いて、高品質なSO(3)-不変特徴の学習を指導する。 非線型演算の下でSO(3)-不変性が保存されることを考えると、不変特徴の符号化プロセスは非線型写像を広範囲に利用し、物理的システムに固有の非線形パターンを完全に捉えることができる。 そこで本研究では, 学習したSO(3)不変特徴量から, 様々な次数のSO(3)同変符号化を誘導する勾配に基づく機構を提案する。 このメカニズムは、非線型表現能力をSO(3)-同変表現に組み込むことができ、理論上は我々が証明した同変特性を保っている。 本手法は,ディープラーニング手法における等価性と非線形表現性の間の臨界ジレンマに対して,有望な一般解を提供する。 この理論と手法を電子構造ハミルトン予測タスクに適用し、6つのベンチマークデータベースにおける最先端性能を実証する。

We present both a theoretical and a methodological framework that addresses a critical challenge in applying deep learning to physical systems: the reconciliation of non-linear expressiveness with SO(3)-equivariance in predictions of SO(3)-equivariant quantities, such as the electronic-structure Hamiltonian. Inspired by covariant theory in physics, we address this problem by exploring the mathematical relationships between SO(3)-invariant and SO(3)-equivariant quantities and their representations. We first construct theoretical SO(3)-invariant quantities derived from the SO(3)-equivariant regression targets, and use these invariant quantities as supervisory labels to guide the learning of high-quality SO(3)-invariant features. Given that SO(3)-invariance is preserved under non-linear operations, the encoding process for invariant features can extensively utilize non-linear mappings, thereby fully capturing the non-linear patterns inherent in physical systems. Building on this foundation, we propose a gradient-based mechanism to induce SO(3)-equivariant encodings of various degrees from the learned SO(3)-invariant features. This mechanism can incorporate non-linear expressive capabilities into SO(3)-equivariant representations, while theoretically preserving their equivariant properties as we prove. Our approach offers a promising general solution to the critical dilemma between equivariance and non-linear expressiveness in deep learning methodologies. We apply our theory and method to the electronic-structure Hamiltonian prediction tasks, demonstrating state-of-the-art performance across six benchmark databases.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-10