このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240423となっている論文です。

PDF登録状況(公開日: 20240423)

TitleAuthorsAbstract論文公表日・翻訳日
# SHED:インストラクションファインチューニングのためのシェープベース自動データセットリファインメント

SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning ( http://arxiv.org/abs/2405.00705v1 )

ライセンス: Link先を確認
Yexiao He, Ziyao Wang, Zheyu Shen, Guoheng Sun, Yucong Dai, Yongkai Wu, Hongyi Wang, Ang Li, (参考訳) 事前訓練されたLarge Language Models (LLM) は多くの下流タスクに適応でき、微調整によって人間の好みに合わせて調整できる。 近年の研究では、LLMは少量の高品質なデータだけで望ましい性能を達成できることが発見されており、これらの膨大なデータセットにある大量のデータが冗長であるか、有害であるかが示唆されている。 大規模なデータセットから高品質なデータを識別して、小さいが効果的なデータセットをキュレートすることが、重要な課題である。 本稿では,Shapley値に基づく自動データセット精錬フレームワークSHEDを紹介する。 SHEDは人間の介入や商業LLMの使用の必要性を排除している。 さらに、SHEDによってキュレートされたデータセットは転送可能性を示し、一貫して高いパフォーマンスで異なるLLM間で再利用可能であることを示す。 SHEDによって計算されたデータセットを評価するために、広範な実験を行う。 その結果、SHEDは様々なタスクやLLMにわたる最先端のメソッドよりも優れており、特にSHEDが選択した元のデータのうち10%しか含まれていないデータセットは、完全なデータセットと同等かそれ以上のパフォーマンスを達成した。

The pre-trained Large Language Models (LLMs) can be adapted for many downstream tasks and tailored to align with human preferences through fine-tuning. Recent studies have discovered that LLMs can achieve desirable performance with only a small amount of high-quality data, suggesting that a large amount of the data in these extensive datasets is redundant or even harmful. Identifying high-quality data from vast datasets to curate small yet effective datasets has emerged as a critical challenge. In this paper, we introduce SHED, an automated dataset refinement framework based on Shapley value for instruction fine-tuning. SHED eliminates the need for human intervention or the use of commercial LLMs. Moreover, the datasets curated through SHED exhibit transferability, indicating they can be reused across different LLMs with consistently high performance. We conduct extensive experiments to evaluate the datasets curated by SHED. The results demonstrate SHED's superiority over state-of-the-art methods across various tasks and LLMs; notably, datasets comprising only 10% of the original data selected by SHED achieve performance comparable to or surpassing that of the full datasets.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-23
# ジェネレーティブAIによって書かれた科学は、人間によって書かれた科学よりも知能が低いが信頼できると認識される

Science Written by Generative AI is Perceived as Less Intelligent, but More Credible and Trustworthy than Science Written by Humans ( http://arxiv.org/abs/2405.00706v1 )

ライセンス: Link先を確認
David M. Markowitz, (参考訳) 本稿では, 科学コミュニケーションを簡素化し, 科学への信頼を高めるために, 生成AIの有効性を評価した。 この研究は、PNASの論文をAIによって生成されたものと比較することで、このような要約と大衆の認識を言語学的にシンプルに評価した。 研究1aは,PNAS要約(科学要約)と重要文(レイ要約)の単純さを解析し,レイ要約が言語学的にシンプルであるが,効果サイズの違いは小さいことを示した。 研究1bでは, GPT-4を用いて論文の要約に基づく意味表現を作成し, 微調整をせずに平均効果サイズを2倍以上に向上させた。 最後に、Studio 2は、単純書きのGPTサマリーが、より複雑書きのヒトPNASサマリーよりも、科学者(信頼性、信頼性)の公衆の認識を促進することを実験的に実証した。 AIは、単純な言語ヒューリスティックを通じて科学コミュニティと一般市民を巻き込む可能性があり、より情報のある社会のための科学的普及への統合を提唱している。

This paper evaluated the effectiveness of using generative AI to simplify science communication and enhance public trust in science. By comparing lay summaries of journal articles from PNAS, yoked to those generated by AI, this work assessed linguistic simplicity across such summaries and public perceptions. Study 1a analyzed simplicity features of PNAS abstracts (scientific summaries) and significance statements (lay summaries), observing that lay summaries were indeed linguistically simpler, but effect size differences were small. Study 1b used GPT-4 to create significance statements based on paper abstracts and this more than doubled the average effect size without fine-tuning. Finally, Study 2 experimentally demonstrated that simply-written GPT summaries facilitated more favorable public perceptions of scientists (their credibility, trustworthiness) than more complexly-written human PNAS summaries. AI has the potential to engage scientific communities and the public via a simple language heuristic, advocating for its integration into scientific dissemination for a more informed society.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-23
# 量子力学の決定論的解釈に向けて:力学系からの考察

Towards a Deterministic Interpretation of Quantum Mechanics: Insights from Dynamical Systems ( http://arxiv.org/abs/2405.00707v1 )

ライセンス: Link先を確認
Aminur Rahman, (参考訳) ベルの不等式に違反する実験は、決定論的モデルが量子力学の現実的な理論に対応していないことを示すように見える。 パイロット波の理論は、非局所性や統計的依存によってこのハードルを克服しているように見えるが、それは「ゴースト波」の存在を必要とする。 この写本は局所的な相互作用を伴う決定論的力学系を発達させる。 軌道の集合的挙動は、Schr\"{o}dinger方程式の下で進化する量子粒子を思い起こさせ、ファインマンの経路積分解釈を3つの標準的な例(自由空間における運動、二重スリット回折、超光障壁トラバーサル)で思い出させる。 さらに、この系は古典的極限を含む様々な力学系に分岐する。 これらの結果は確率論的解釈の代替として決定論的であり、量子力学から古典力学への遷移に光を当てることを目的としている。

Experiments violating Bell's inequality appear to indicate deterministic models do not correspond to a realistic theory of quantum mechanics. The theory of pilot waves seemingly overcomes this hurdle via nonlocality and statistical dependence, however it necessitates the existence of "ghost waves". This manuscript develops a deterministic dynamical system with local interactions. The aggregate behavior of the trajectories are reminiscent of a quantum particle evolving under the Schr\"{o}dinger equation and reminiscent of Feynman's path integral interpretation in three canonical examples: motion in free space, double slit diffraction, and superluminal barrier traversal. Moreover, the system bifurcates into various dynamical regimes including a classical limit. These results illustrate a deterministic alternative to probabilistic interpretations and aims to shed light on the transition from quantum to classical mechanics.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-23
# 実測値を用いたLCMの対話的解析

Interactive Analysis of LLMs using Meaningful Counterfactuals ( http://arxiv.org/abs/2405.00708v1 )

ライセンス: Link先を確認
Furui Cheng, Vilém Zouhar, Robin Shing Moon Chan, Daniel Fürst, Hendrik Strobelt, Mennatallah El-Assady, (参考訳) カウンターファクトの例は、機械学習モデルの意思決定境界を探索し、特徴属性を決定するのに有用である。 LLMの分析・説明に反事実的手法をどう適用すればいいのか? 主な課題は以下の通りである。 まず、生成されたテキストの偽造物は、ユーザにとって有意義で読みやすいものでなければならないので、結論を引き出すために精神的に比較できる。 第二に、このソリューションを長文テキストにスケーラブルにするために、ユーザーは様々な粒度の摂動から反ファクトのバッチを作成し、結果をインタラクティブに分析するツールを備える必要がある。 本稿では、上記の課題に取り組み、貢献する。 1 異なる粒度のテキストセグメントを除去し、置換することにより、完全かつ意味のあるテキストカウンターファクトのバッチを生成する新しいアルゴリズム 2) LLM Analyzerは,LLMの行動を理解するための対話型可視化ツールである。 提案アルゴリズムは, 医療, 法律, 財務, 教育, ニュースデータセットから得られた1,000のサンプルを用いて, 生成した反事実の文法的正しさを用いて評価する。 我々の実験では、カウンターファクトの97.2%が文法的に正しい。 ユースケース,ユーザスタディ,専門家からのフィードバックを通じて,提案したインタラクティブ視覚化ツールの有用性とユーザビリティを実証する。

Counterfactual examples are useful for exploring the decision boundaries of machine learning models and determining feature attributions. How can we apply counterfactual-based methods to analyze and explain LLMs? We identify the following key challenges. First, the generated textual counterfactuals should be meaningful and readable to users and thus can be mentally compared to draw conclusions. Second, to make the solution scalable to long-form text, users should be equipped with tools to create batches of counterfactuals from perturbations at various granularity levels and interactively analyze the results. In this paper, we tackle the above challenges and contribute 1) a novel algorithm for generating batches of complete and meaningful textual counterfactuals by removing and replacing text segments in different granularities, and 2) LLM Analyzer, an interactive visualization tool to help users understand an LLM's behaviors by interactively inspecting and aggregating meaningful counterfactuals. We evaluate the proposed algorithm by the grammatical correctness of its generated counterfactuals using 1,000 samples from medical, legal, finance, education, and news datasets. In our experiments, 97.2% of the counterfactuals are grammatically correct. Through a use case, user studies, and feedback from experts, we demonstrate the usefulness and usability of the proposed interactive visualization tool.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-23
# リモートセンシングプラットフォームにおけるツール強化エージェントの評価

Evaluating Tool-Augmented Agents in Remote Sensing Platforms ( http://arxiv.org/abs/2405.00709v1 )

ライセンス: Link先を確認
Simranjit Singh, Michael Fore, Dimitrios Stamoulis, (参考訳) ツール強化された大規模言語モデル(LLM)は、リモートセンシング(RS)アプリケーションにおいて印象的な機能を示している。 しかし、既存のベンチマークでは、事前に定義された画像-テキストデータペアに対して質問応答型入力テンプレートを仮定している。 これらのスタンドアロン命令は、現実的なユーザ基底タスクの複雑さを無視する。 地理空間アナリストは、地図エリアを拡大し、衛星画像の収集を行う領域を描画し、簡潔に「ここで全ての物体を抽出する」と問う。 もしイメージテキストテンプレートで明示的にハードコードされていない場合、代わりにシステム状態、例えばライブマップの配置によって暗示されますか? このギャップを埋めるために、実際のUIプラットフォーム上での言語、視覚、クリックベースのアクションの長いシーケンスをキャプチャするために設計されたベンチマークであるGeoLLM-QAを紹介する。 1000のタスクからなる多種多様なタスクに対して、最先端のLCMを詳細に評価することにより、RSアプリケーションのためのより強力なエージェントに対する洞察を提供する。

Tool-augmented Large Language Models (LLMs) have shown impressive capabilities in remote sensing (RS) applications. However, existing benchmarks assume question-answering input templates over predefined image-text data pairs. These standalone instructions neglect the intricacies of realistic user-grounded tasks. Consider a geospatial analyst: they zoom in a map area, they draw a region over which to collect satellite imagery, and they succinctly ask "Detect all objects here". Where is `here`, if it is not explicitly hardcoded in the image-text template, but instead is implied by the system state, e.g., the live map positioning? To bridge this gap, we present GeoLLM-QA, a benchmark designed to capture long sequences of verbal, visual, and click-based actions on a real UI platform. Through in-depth evaluation of state-of-the-art LLMs over a diverse set of 1,000 tasks, we offer insights towards stronger agents for RS applications.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-23
# グラフベース協調フィルタリングにおけるグループ内特性の探索と利用

Revealing and Utilizing In-group Favoritism for Graph-based Collaborative Filtering ( http://arxiv.org/abs/2404.17598v1 )

ライセンス: Link先を確認
Hoin Jung, Hyunsoo Cho, Myungje Choi, Joowon Lee, Jung Ho Park, Myungjoo Kang, (参考訳) パーソナライズされたアイテムレコメンデーションシステムに関しては,ユーザの好みや購入パターンを抽出することが不可欠である。 実世界のユーザがクラスタを形成し、各クラスタに共通の好意があると仮定すると、この作業では、Co-Clustering Wrapper (CCW)を導入します。 ユーザとアイテムの共同クラスタをクラスタリングアルゴリズムで計算し、各クラスタにCFサブネットワークを追加して、グループ内の好意を抽出する。 ネットワークからの機能を組み合わせることで,ユーザに関するリッチで統一された情報が得られる。 2つの側面から実世界のデータセットを実験し、グループ内での嗜好に応じて分割されたグループ数を求め、性能改善の量を測定した。

When it comes to a personalized item recommendation system, It is essential to extract users' preferences and purchasing patterns. Assuming that users in the real world form a cluster and there is common favoritism in each cluster, in this work, we introduce Co-Clustering Wrapper (CCW). We compute co-clusters of users and items with co-clustering algorithms and add CF subnetworks for each cluster to extract the in-group favoritism. Combining the features from the networks, we obtain rich and unified information about users. We experimented real world datasets considering two aspects: Finding the number of groups divided according to in-group preference, and measuring the quantity of improvement of the performance.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-23
# Nested Inheritance Dynamics

Nested Inheritance Dynamics ( http://arxiv.org/abs/2404.17601v1 )

ライセンス: Link先を確認
Bahman Moraffah, (参考訳) 発生過程や生物のライフサイクルなどの生物学的過程の継承という考え方は生物学の文献で論じられているが、形式的な数学的記述や妥当なデータ分析の枠組みは欠落している。 ネストしたディリクレプロセス(nDP)をマルチスケールモデルに拡張し、生物学的プロセスが継承され、安定し、世代にわたって修正されるメカニズムの理解を支援する。 これらの問題に対処するため,Nested Inheritance Dynamics Algorithm (NIDA)を導入する。 NIDAの一次レベルでは、個々の生物の寿命内で展開される全ての過程を包含する。 二次レベルは、これらのプロセスが時間とともに進化するか、安定するかというダイナミクスを記述している。 このフレームワークは、両方のスケールで物理システムモデルの仕様化を可能にし、確立された開発と遺伝のモデルとのシームレスな統合を促進する。

The idea of the inheritance of biological processes, such as the developmental process or the life cycle of an organism, has been discussed in the biology literature, but formal mathematical descriptions and plausible data analysis frameworks are lacking. We introduce an extension of the nested Dirichlet Process (nDP) to a multiscale model to aid in understanding the mechanisms by which biological processes are inherited, remain stable, and are modified across generations. To address these issues, we introduce Nested Inheritance Dynamics Algorithm (NIDA). At its primary level, NIDA encompasses all processes unfolding within an individual organism's lifespan. The secondary level delineates the dynamics through which these processes evolve or remain stable over time. This framework allows for the specification of a physical system model at either scale, thus promoting seamless integration with established models of development and heredity.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-23
# Atomas: 分子の統一理解と生成のための分子テキストの階層的アライメント

Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation ( http://arxiv.org/abs/2404.16880v1 )

ライセンス: Link先を確認
Yikun Zhang, Geyan Ye, Chaohao Yuan, Bo Han, Long-Kai Huang, Jianhua Yao, Wei Liu, Yu Rong, (参考訳) 分子とテキストの相互表現学習は、分子表現の質を高めるための有望な方向として現れ、薬物発見や材料科学を含む様々な科学分野のパフォーマンスを向上させる。 既存の研究では、異なるモダリティから知識を学ぶために、グローバルアライメントアプローチを採用している。 これらのグローバルアライメントアプローチは、下流のタスクに不可欠である分子断片やそれに対応するテキスト記述など、きめ細かい情報をキャプチャできない。 さらに、類似のグローバルアライメント戦略を用いて、既存のデータセットからアノテートされたペアのローカル部分のデータ不足により、そのような情報をモデル化することができない。 本稿では,SMILES文字列とテキストから表現を共同学習するマルチモーダル分子表現学習フレームワークAtomasを提案する。 階層型適応アライメントモデルを設計し、2つのモード間の細粒度フラグメント対応を同時に学習し、これらのフラグメントの表現を3つのレベルに調整する。 さらに、Atomasのエンドツーエンドのトレーニングフレームワークは、分子の理解と生成のタスクを取り入れ、より幅広い下流タスクをサポートする。 検索タスクでは、Atomasは堅牢な一般化能力を示し、ベースラインを平均30.8%上回っている。 生成タスクでは、Atomasは分子キャプションタスクと分子生成タスクの両方で最先端の結果を達成する。 さらに,階層型適応アライメントモデルの可視化により,我々のアプローチの化学的意義をさらに確認する。 私たちのコードはhttps://anonymous.4open.science/r/Atomas-03C3で確認できます。

Molecule-and-text cross-modal representation learning has emerged as a promising direction for enhancing the quality of molecular representation, thereby improving performance in various scientific fields, including drug discovery and materials science. Existing studies adopt a global alignment approach to learn the knowledge from different modalities. These global alignment approaches fail to capture fine-grained information, such as molecular fragments and their corresponding textual description, which is crucial for downstream tasks. Furthermore, it is incapable to model such information using a similar global alignment strategy due to data scarcity of paired local part annotated data from existing datasets. In this paper, we propose Atomas, a multi-modal molecular representation learning framework to jointly learn representations from SMILES string and text. We design a Hierarchical Adaptive Alignment model to concurrently learn the fine-grained fragment correspondence between two modalities and align these representations of fragments in three levels. Additionally, Atomas's end-to-end training framework incorporates the tasks of understanding and generating molecule, thereby supporting a wider range of downstream tasks. In the retrieval task, Atomas exhibits robust generalization ability and outperforms the baseline by 30.8% of recall@1 on average. In the generation task, Atomas achieves state-of-the-art results in both molecule captioning task and molecule generation task. Moreover, the visualization of the Hierarchical Adaptive Alignment model further confirms the chemical significance of our approach. Our codes can be found at https://anonymous.4open.science/r/Atomas-03C3.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-23
# 不確実性補償ベイズ情報基準について

On uncertainty-penalized Bayesian information criterion ( http://arxiv.org/abs/2404.16881v1 )

ライセンス: Link先を確認
Pongpisit Thanasutives, Ken-ichi Fukui, (参考訳) データ駆動偏微分方程式(PDE)発見のための新しいモデル選択基準として,不確実性補償情報基準(UBIC)が提案されている。 本稿では, UBIC を用いた場合, 複雑性尺度の潜在的な回帰モデルから得られた過パラメータ化モデルに対して, 従来の BIC を用いることと等価であることを示す。 その結果,UBICおよびBICの漸近性は無関心に保たれていることが示唆された。

The uncertainty-penalized information criterion (UBIC) has been proposed as a new model-selection criterion for data-driven partial differential equation (PDE) discovery. In this paper, we show that using the UBIC is equivalent to employing the conventional BIC to a set of overparameterized models derived from the potential regression models of different complexity measures. The result indicates that the asymptotic property of the UBIC and BIC holds indifferently.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-23
# ThermoPore: 深層学習を用いた熱画像に基づくポーシティの予測

ThermoPore: Predicting Part Porosity Based on Thermal Images Using Deep Learning ( http://arxiv.org/abs/2404.16882v1 )

ライセンス: Link先を確認
Peter Myung-Won Pak, Francis Ogoke, Andrew Polonsky, Anthony Garland, Dan S. Bolintineanu, Dan R. Moser, Michael J. Heiden, Amir Barati Farimani, (参考訳) In-situ thermal image monitoring data を用いて,レーザー粉体融合法で作製した試料中の擬似ポロシティの定量化と局在化のための深層学習手法を提案する。 私たちの目標は、ビルド中に取得した熱画像に基づいて、パーツのリアルタイムポロシティマップを構築することです。 量子化タスクは、細孔数を予測するために確立された畳み込みニューラルネットワークモデルアーキテクチャに基づいて構築され、ローカライゼーションタスクは、新しいビデオビジョントランスフォーマーモデルの空間的および時間的注意機構を利用して、期待されるポロシティの領域を示す。 ポロシティ定量化モデルではR^2$スコアが0.57、ポロシティ局在化モデルでは平均IoUスコアが0.32、最大1.0が得られた。 本研究は, 付加的製造監視データに基づいて, パートポーシティ"デジタルツイン"の基礎を設定し, パート資格・認定期間中の時間集中検査・テスト活動を減らすために下流に応用することができる。 さらに,プロセス監視データの機械学習解析により,通常利用可能な重要な洞察の獲得を,前部評価によって促進することを目指す。

We present a deep learning approach for quantifying and localizing ex-situ porosity within Laser Powder Bed Fusion fabricated samples utilizing in-situ thermal image monitoring data. Our goal is to build the real time porosity map of parts based on thermal images acquired during the build. The quantification task builds upon the established Convolutional Neural Network model architecture to predict pore count and the localization task leverages the spatial and temporal attention mechanisms of the novel Video Vision Transformer model to indicate areas of expected porosity. Our model for porosity quantification achieved a $R^2$ score of 0.57 and our model for porosity localization produced an average IoU score of 0.32 and a maximum of 1.0. This work is setting the foundations of part porosity "Digital Twins" based on additive manufacturing monitoring data and can be applied downstream to reduce time-intensive post-inspection and testing activities during part qualification and certification. In addition, we seek to accelerate the acquisition of crucial insights normally only available through ex-situ part evaluation by means of machine learning analysis of in-situ process monitoring data.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-23
# 安全な制御と学習のための神秘的検証可能な確率的証明書

Myopically Verifiable Probabilistic Certificates for Safe Control and Learning ( http://arxiv.org/abs/2404.16883v1 )

ライセンス: Link先を確認
Zhuoyuan Wang, Haoming Jing, Christian Kurniawan, Albert Chern, Yorie Nakahira, (参考訳) 本稿では,高速リアルタイム制御による長期安全確保に焦点をあて,確率システムの安全証明書の設計について述べる。 確率的環境においては、無限小の時間間隔におけるリスク事象の確率を制限する集合不変性に基づく手法は、累積的不確実性/リスクによる重大な長期的リスクを示す可能性がある。 一方、長期的未来を考慮に入れた到達可能性に基づくアプローチは、リアルタイム意思決定において禁止的な計算を必要とする可能性がある。 厳密な長期的安全性対計算トレードオフに関わるこの課題を克服するために,我々はまず,確率的不変性(probabilistic invariance)と呼ばれる新しい手法を導入する。 この手法は興味の確率の不変条件を特徴づける。 長期軌道を用いて目標確率を定義する場合、この手法は長期安全確率を保証した筋電図条件/コントローラの設計に使用できる。 そして、この手法を安全な制御と学習に統合する。 提案した制御手法は,ニューラルネットワークやモデル予測コントローラを用いた長期的安全性の確保に有効である。 提案手法は,訓練前後の長期的安全確保に有効である。 最後に,提案手法の性能を数値シミュレーションで示す。

This paper addresses the design of safety certificates for stochastic systems, with a focus on ensuring long-term safety through fast real-time control. In stochastic environments, set invariance-based methods that restrict the probability of risk events in infinitesimal time intervals may exhibit significant long-term risks due to cumulative uncertainties/risks. On the other hand, reachability-based approaches that account for the long-term future may require prohibitive computation in real-time decision making. To overcome this challenge involving stringent long-term safety vs. computation tradeoffs, we first introduce a novel technique termed `probabilistic invariance'. This technique characterizes the invariance conditions of the probability of interest. When the target probability is defined using long-term trajectories, this technique can be used to design myopic conditions/controllers with assured long-term safe probability. Then, we integrate this technique into safe control and learning. The proposed control methods efficiently assure long-term safety using neural networks or model predictive controllers with short outlook horizons. The proposed learning methods can be used to guarantee long-term safety during and after training. Finally, we demonstrate the performance of the proposed techniques in numerical simulations.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-23
# ニューラルネットワークから生成した人為的知識グラフの特定課題におけるアライメント

Aligning Knowledge Graphs Provided by Humans and Generated from Neural Networks in Specific Tasks ( http://arxiv.org/abs/2404.16884v1 )

ライセンス: Link先を確認
Tangrui Li, Jun Zhou, (参考訳) 本稿では,ニューラルネットワークが知識グラフを生成・活用するための革新的な手法を開発し,その概念レベルの知識を記述し,人為的な知識と整合してネットワークパラメータを最適化する。 この研究は、従来のネットワーク生成知識が下流のシンボリック分析やネットワーク透過性向上の応用に限られているギャップに対処する。 VSA(Vector Symbolic Architecture)に新しいオートエンコーダ設計を組み込むことで,エンド・ツー・エンドのトレーニングを支援する補助的タスクを導入した。 我々のアプローチは、オントロジーや単語埋め込みモデルへの従来の依存を排除し、ニューラルネットワークから概念をマイニングし、それらを人間の知識と直接整合させる。 実験により,本手法は,人間の知識と密接に一致したネットワーク生成概念を連続的に捕捉し,これまでヒトが認識していなかった新しい有用な概念を発見できることを示した。 このプラグアンドプレイ戦略は、ニューラルネットワークの解釈可能性を高めるだけでなく、これらのシステム内での記号的論理的推論の統合を促進する。

This paper develops an innovative method that enables neural networks to generate and utilize knowledge graphs, which describe their concept-level knowledge and optimize network parameters through alignment with human-provided knowledge. This research addresses a gap where traditionally, network-generated knowledge has been limited to applications in downstream symbolic analysis or enhancing network transparency. By integrating a novel autoencoder design with the Vector Symbolic Architecture (VSA), we have introduced auxiliary tasks that support end-to-end training. Our approach eschews traditional dependencies on ontologies or word embedding models, mining concepts from neural networks and directly aligning them with human knowledge. Experiments show that our method consistently captures network-generated concepts that align closely with human knowledge and can even uncover new, useful concepts not previously identified by humans. This plug-and-play strategy not only enhances the interpretability of neural networks but also facilitates the integration of symbolic logical reasoning within these systems.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-23
# 人工知能による性感染症の症状チェックツールをMpox検出に適用する:健康体験

Adapting an Artificial Intelligence Sexually Transmitted Diseases Symptom Checker Tool for Mpox Detection: The HeHealth Experience ( http://arxiv.org/abs/2404.16885v1 )

ライセンス: Link先を確認
Rayner Kay Jin Tan, Dilruk Perera, Salomi Arasaratnam, Yudara Kularathne, (参考訳) 人工知能の応用はパンデミックの管理において有望であり、医療画像の識別、分類、診断を支援するために広く利用されている。 Monkeypox(Mpox)の世界的な流行に応えて、HeHealth.aiチームは既存のツールを活用して、性感染症のスクリーニングを行い、AIアプローチを通じて交感神経Mpoxのデジタルスクリーニングテストを開発した。 Mpoxのグローバル展開に先立ち、チームはスマートフォンアプリを開発した。アプリユーザーは自分のスマートフォンカメラを使って自分のペニスの写真を撮り、症状のあるSTDを見ることができる。 AIモデルは最初、5000のケースを使用して開発され、修正された畳み込みニューラルネットワークを使用して、梅毒、単純ヘルペスウイルス、ヒトパピローマウイルスなどの視覚診断可能な陰茎病理の予測スコアを出力した。 2022年6月から2022年10月まで、合計22,000人のユーザーがHeHealthアプリをダウンロードし、約21,000枚の画像がHeHealth AI技術を使って分析されている。 その後,2022年7月からは,形式研究,ステークホルダエンゲージメント,迅速な統合イメージ,検証研究,ツールの実施に従事した。 2022年7月から2022年10月まで、1000枚のMpox関連画像がMpox症状チェッカーの訓練に使用された。 Mpoxは87%,Mpoxは90%であった。 いくつかのハードルとして、アプリのユーザのデータプライバシとセキュリティの問題、AIツールをトレーニングするデータの初期欠如、入力データの潜在的な一般化可能性などが挙げられる。 例えば、幅広い利害関係者の関与、多分野のチームを持つこと、プラグマティズムの優先順位付け、ビッグデータが実際に小さなデータで構成されているという概念などです。

Artificial Intelligence applications have shown promise in the management of pandemics and have been widely used to assist the identification, classification, and diagnosis of medical images. In response to the global outbreak of Monkeypox (Mpox), the HeHealth.ai team leveraged an existing tool to screen for sexually transmitted diseases to develop a digital screening test for symptomatic Mpox through AI approaches. Prior to the global outbreak of Mpox, the team developed a smartphone app, where app users can use their own smartphone cameras to take pictures of their own penises to screen for symptomatic STD. The AI model was initially developed using 5000 cases and use a modified convolutional neural network to output prediction scores across visually diagnosable penis pathologies including Syphilis, Herpes Simplex Virus, and Human Papilloma Virus. From June 2022 to October 2022, a total of about 22,000 users downloaded the HeHealth app, and about 21,000 images have been analyzed using HeHealth AI technology. We then engaged in formative research, stakeholder engagement, rapid consolidation images, a validation study, and implementation of the tool from July 2022. From July 2022 to October 2022, a total of 1000 Mpox related images had been used to train the Mpox symptom checker tool. Our digital symptom checker tool showed accuracy of 87% to rule in Mpox and 90% to rule out symptomatic Mpox. Several hurdles identified included issues of data privacy and security for app users, initial lack of data to train the AI tool, and the potential generalizability of input data. We offer several suggestions to help others get started on similar projects in emergency situations, including engaging a wide range of stakeholders, having a multidisciplinary team, prioritizing pragmatism, as well as the concept that big data in fact is made up of small data.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-23
# 予測符号化とバックプロパゲーションの関係について

On the relationship between predictive coding and backpropagation ( http://arxiv.org/abs/2106.13082v6 )

ライセンス: Link先を確認
Robert Rosenbaum, (参考訳) ニューラルネットワークはしばしば生物学的ニューラルネットワークの抽象モデルとして解釈されるが、通常は生物学的に非現実的なバックプロパゲーションアルゴリズムとその変種を用いて訓練される。 予測符号化は、ニューラルネットワークのトレーニングのためのバックプロパゲーションに代わる、潜在的に生物学的に現実的な代替物として提案されている。 この原稿は、教師付き学習タスクにおけるフィードフォワード人工ニューラルネットワークのトレーニングにおける予測符号化とバックプロパゲーションの数学的関係に関する最近の研究をレビューし、拡張している。 PyTorchニューラルネットワークモデルを用いて予測符号化を行うために,生物学習のモデルとしての予測符号化と深部ニューラルネットワークの解釈にこれらの結果の意義を,関数のリポジトリであるTorch2PCとともに論じる。

Artificial neural networks are often interpreted as abstract models of biological neuronal networks, but they are typically trained using the biologically unrealistic backpropagation algorithm and its variants. Predictive coding has been proposed as a potentially more biologically realistic alternative to backpropagation for training neural networks. This manuscript reviews and extends recent work on the mathematical relationship between predictive coding and backpropagation for training feedforward artificial neural networks on supervised learning tasks. Implications of these results for the interpretation of predictive coding and deep neural networks as models of biological learning are discussed along with a repository of functions, Torch2PC, for performing predictive coding with PyTorch neural network models.
翻訳日:2024-04-27 00:45:56 公開日:2024-04-23
# O-RANオープンインターフェースのセキュア化

Securing O-RAN Open Interfaces ( http://arxiv.org/abs/2404.15076v1 )

ライセンス: Link先を確認
Joshua Groen, Salvatore D'Oro, Utku Demir, Leonardo Bonati, Davide Villa, Michele Polese, Tommaso Melodia, Kaushik Chowdhury, (参考訳) 次世代のセルネットワークは、オープン性、インテリジェンス、仮想化、分散コンピューティングによって特徴づけられる。 Open Radio Access Network (Open RAN) フレームワークは,これらの理想の実現に向けた大きな飛躍であり,学術分野と産業分野の両方でプロトタイプのデプロイが行われている。 既存のベンダのロックインを妨害する可能性を秘めているが、Open RANの解体された性質は、重大なセキュリティ上の懸念を引き起こす。 データの保護とインターフェースの確保はOpen RANの設計に不可欠なものでなければならない。 本稿では、E2インタフェース、基地局とほぼリアルタイムのRAN Intelligent Controller、Radio UnitとDistributed Unitを接続するOpen Fronthaulの2つの重要なOpen RANインターフェースに対する暗号化の影響を包括的に調査する。 本研究は、Colosseumネットワークエミュレータ内でのフルスタックO-RAN ALLIANCE準拠の実装と、プロダクション対応のOpen RANおよび5G対応のプライベートセルネットワークを活用する。 本研究は,様々な暗号化プロトコルを用いたレイテンシとスループット低下に関する定量的知見を提供する。 さらに、Open RANシステム内に設計によるセキュリティを構築するための4つの基本原則を提案し、Open RANセキュリティの複雑な環境をナビゲートするためのロードマップを提供する。

The next generation of cellular networks will be characterized by openness, intelligence, virtualization, and distributed computing. The Open Radio Access Network (Open RAN) framework represents a significant leap toward realizing these ideals, with prototype deployments taking place in both academic and industrial domains. While it holds the potential to disrupt the established vendor lock-ins, Open RAN's disaggregated nature raises critical security concerns. Safeguarding data and securing interfaces must be integral to Open RAN's design, demanding meticulous analysis of cost/benefit tradeoffs. In this paper, we embark on the first comprehensive investigation into the impact of encryption on two pivotal Open RAN interfaces: the E2 interface, connecting the base station with a near-real-time RAN Intelligent Controller, and the Open Fronthaul, connecting the Radio Unit to the Distributed Unit. Our study leverages a full-stack O-RAN ALLIANCE compliant implementation within the Colosseum network emulator and a production-ready Open RAN and 5G-compliant private cellular network. This research contributes quantitative insights into the latency introduced and throughput reduction stemming from using various encryption protocols. Furthermore, we present four fundamental principles for constructing security by design within Open RAN systems, offering a roadmap for navigating the intricate landscape of Open RAN security.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-23
# 機械学習による飽和星の測光

Photometry of Saturated Stars with Machine Learning ( http://arxiv.org/abs/2404.15405v1 )

ライセンス: Link先を確認
Dominek Winecki, Christopher S. Kochanek, (参考訳) 超新星のためのオールスカイオートマチックサーベイ(ASAS-SN)において、飽和星の測光を行うディープニューラルネットワーク(DNN)を開発した。 DNNは、飽和(g<11.5 Mag)星に対して0.12マグの分散(15%-85%の1シグマの範囲)を持つg=4から14マグまでの恒星の非偏光度を求めることができる。 さらに重要なことに、変光星の光度曲線は0.037マグの中央分散しか持たない。 DNNの光度曲線は、多くの場合、標準ASAS-SNパイプラインよりも驚くほど良い。 ネットワークはASAS-SNの20台のカメラのうちの1台のみからgバンドのデータに基づいて訓練されたが、最初の実験では任意のカメラと古いASAS-SN Vのバンドデータにも使用できることが示唆された。 主な問題は、DNN自体よりも飽和星のASAS-SNデータ削減パイプラインの修正可能な問題と関連しているようである。 この方法はASAS-SN Sky Patrol v1.0で光曲線オプションとして公開されている。

We develop a deep neural network (DNN) to obtain photometry of saturated stars in the All-Sky Automated Survey for Supernovae (ASAS-SN). The DNN can obtain unbiased photometry for stars from g=4 to 14 mag with a dispersion (15%-85% 1sigma range around median) of 0.12 mag for saturated (g<11.5 mag) stars. More importantly, the light curve of a non-variable saturated star has a median dispersion of only 0.037 mag. The DNN light curves are, in many cases, spectacularly better than provided by the standard ASAS-SN pipelines. While the network was trained on g band data from only one of ASAS-SN's 20 cameras, initial experiments suggest that it can be used for any camera and the older ASAS-SN V band data as well. The dominant problems seem to be associated with correctable issues in the ASAS-SN data reduction pipeline for saturated stars more than the DNN itself. The method is publicly available as a light curve option on ASAS-SN Sky Patrol v1.0.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-23
# 著者の強化 - 学術著作におけるAIコラボレーションの可能性を探る

Augmenting the Author: Exploring the Potential of AI Collaboration in Academic Writing ( http://arxiv.org/abs/2404.16071v1 )

ライセンス: Link先を確認
Joseph Tu, Hilda Hadan, Derrick M. Wang, Sabrina A Sgandurra, Reza Hadi Mogavi, Lennart E. Nacke, (参考訳) 本稿では,ジェネレーティブAI(Gen AI)を学術書記プロセスに統合する上での批判的考察を行い,AIを協調ツールとして活用することに焦点を当てた。 GeminiとChatGPTという2つのAIモデルのパフォーマンスと相互作用は、研究者が研究概要を作成するために特定のAI反応を誘発する設計プロンプトのために、協力的な調査アプローチを通じて対照的である。 このケーススタディは、学術的な仕事において、責任と効果的なAI統合を保証するためのAIの限界を認識し、設計、出力分析、そして認識することの重要性を強調します。 予備的な知見は、即時変動が出力品質に大きく影響を与え、各モデルの異なる機能と制約を明らかにすることを示唆している。 本論文は,AIを活用した学術的文章の充実と,HCIコミュニティ内でのより深い対話の促進を目的として,効果的なプロンプト戦略を探求し,ゲン・AIモデルの比較分析を提供することにより,ヒューマン・コンピュータ・インタラクションの分野に貢献する。

This workshop paper presents a critical examination of the integration of Generative AI (Gen AI) into the academic writing process, focusing on the use of AI as a collaborative tool. It contrasts the performance and interaction of two AI models, Gemini and ChatGPT, through a collaborative inquiry approach where researchers engage in facilitated sessions to design prompts that elicit specific AI responses for crafting research outlines. This case study highlights the importance of prompt design, output analysis, and recognizing the AI's limitations to ensure responsible and effective AI integration in scholarly work. Preliminary findings suggest that prompt variation significantly affects output quality and reveals distinct capabilities and constraints of each model. The paper contributes to the field of Human-Computer Interaction by exploring effective prompt strategies and providing a comparative analysis of Gen AI models, ultimately aiming to enhance AI-assisted academic writing and prompt a deeper dialogue within the HCI community.
翻訳日:2024-04-26 18:22:04 公開日:2024-04-23
# ビームサーチアルゴリズムの予測結果を用いたボードゲーム

Playing Board Games with the Predict Results of Beam Search Algorithm ( http://arxiv.org/abs/2404.16072v1 )

ライセンス: Link先を確認
Sergey Pastukhov, (参考訳) 本稿では,PROBS(Predict Results of Beam Search)と呼ばれる完全情報を持つ2プレイヤー決定型ゲームのための新しいアルゴリズムを提案する。 決定過程においてモンテカルロ木探索(MCTS)に大きく依存する既存の手法とは異なり,本手法は単純なビーム探索アルゴリズムを利用する。 提案手法は,ベースライン対戦相手に対する勝利率の増大を連続的に示すボードゲームの中から,アルゴリズムの性能を評価する。 この研究の重要な結果は、ビーム探索サイズがゲームの平均ターン数よりもかなり小さい場合でも、PROBSアルゴリズムが効果的に動作することである。

This paper introduces a novel algorithm for two-player deterministic games with perfect information, which we call PROBS (Predict Results of Beam Search). Unlike existing methods that predominantly rely on Monte Carlo Tree Search (MCTS) for decision processes, our approach leverages a simpler beam search algorithm. We evaluate the performance of our algorithm across a selection of board games, where it consistently demonstrates an increased winning ratio against baseline opponents. A key result of this study is that the PROBS algorithm operates effectively, even when the beam search size is considerably smaller than the average number of turns in the game.
翻訳日:2024-04-26 18:22:04 公開日:2024-04-23
# AIの決定を説明する - スマートホーム環境における人間中心の説明可能性の実現に向けて

Explaining AI Decisions: Towards Achieving Human-Centered Explainability in Smart Home Environments ( http://arxiv.org/abs/2404.16074v1 )

ライセンス: Link先を確認
Md Shajalal, Alexander Boden, Gunnar Stevens, Delong Du, Dean-Robin Kern, (参考訳) スマートホームシステムは、エネルギー消費を最小化しながら、住宅所有者が生活環境と労働環境を強化しようとする中で、人気が高まっている。 しかし、スマートホームシステムにおける人工知能(AI)対応意思決定モデルの採用は、これらのシステムの複雑さとブラックボックスの性質による課題に直面し、説明可能性、信頼、透明性、説明責任、公正性に関する懸念につながっている。 説明可能な人工知能(XAI)の新たな分野は、モデルの判断と行動の説明を提供することによって、これらの問題に対処する。 最先端のXAI手法は、AI開発者や実践者にとって有益であるが、一般ユーザ、特に家庭メンバーからは容易には理解できないかもしれない。 本稿では、ユーザの満足度を高め、スマートホームシステムの導入を促進するために、理解しやすい説明を提供することの重要性を強調し、人間中心のXAI手法を提唱する。 我々は、スマートホームアプリケーションにおける一般ユーザのための最先端のXAI手法と人間中心の説明に焦点を当てた先行研究についてレビューする。 2つのスマートホームアプリケーションシナリオの実験を通じて,XAI技術が生み出す説明が,ユーザの理解と意思決定に有効でないことを実証した。 そこで我々は、スマートホームシステムにおける説明を表現し、ユーザスタディ、プロトタイピング、技術プローブ分析、ヒューリスティック評価を含む人間とコンピュータの相互作用(HCI)の方法論を強調する上で、人間中心のアプローチの必要性を論じる。

Smart home systems are gaining popularity as homeowners strive to enhance their living and working environments while minimizing energy consumption. However, the adoption of artificial intelligence (AI)-enabled decision-making models in smart home systems faces challenges due to the complexity and black-box nature of these systems, leading to concerns about explainability, trust, transparency, accountability, and fairness. The emerging field of explainable artificial intelligence (XAI) addresses these issues by providing explanations for the models' decisions and actions. While state-of-the-art XAI methods are beneficial for AI developers and practitioners, they may not be easily understood by general users, particularly household members. This paper advocates for human-centered XAI methods, emphasizing the importance of delivering readily comprehensible explanations to enhance user satisfaction and drive the adoption of smart home systems. We review state-of-the-art XAI methods and prior studies focusing on human-centered explanations for general users in the context of smart home applications. Through experiments on two smart home application scenarios, we demonstrate that explanations generated by prominent XAI techniques might not be effective in helping users understand and make decisions. We thus argue for the necessity of a human-centric approach in representing explanations in smart home systems and highlight relevant human-computer interaction (HCI) methodologies, including user studies, prototyping, technology probes analysis, and heuristic evaluation, that can be employed to generate and present human-centered explanations to users.
翻訳日:2024-04-26 18:22:04 公開日:2024-04-23
# 高点OTOCによるSUSYサドル支配スクランブルの遅延時間ダイナミクス

Late time dynamics in SUSY saddle-dominated scrambling through higher-point OTOC ( http://arxiv.org/abs/2010.07089v4 )

ライセンス: Link先を確認
Rathindra Nath Das, Sourav Dutta, Archana Maji, (参考訳) 本稿では,超対称性量子力学系におけるスクランブルダイナミクスについて考察する。 そのような超対称系の固有状態表現は、2つの等価な形式的ビズを用いて、2N$ポイントの時間外相関器(OTOC)の明示的な形式を提示することができる。 テンソル・プロダクツ・フォーマリズム」と「パートナー・ハミルトン・フォーマリズム」。 超対称1D高調波発振器の2N$-point OTOCを解析的に計算し、1D高調波発振器のOTOCと正確に一致していることを確認した。 高点OTOCは通常の4点OTOCよりも感度の高いスクランブル尺度である。 この特徴を示すために、フェミオン系に存在しない位相空間にボソニックパートナー系が不安定なサドルを有する超対称性1D発振器を考える。 そのような系に対して、ボソニック、フェルミオン、および超対称OTOCは、超対称性の制約によって同様のダイナミクスを示すことを示す。 最後に、サドルに支配されたスクランブル系とアンハーモニック発振器系における高点OTOCの深夜発振挙動について述べ、高速な早期発振を示す非カオス系における遅延発振ダイナミクスのプローブとして提案する。

In this article, we study the scrambling dynamics in supersymmetric quantum mechanical systems. The eigenstate representation of such supersymmetric systems allows us to present an explicit form of the $2N$-point out-of-time-order correlator (OTOC) using two equivalent formalisms viz. "Tensor Product formalism" and "Partner Hamiltonian formalism". We analytically compute the $2N$-point OTOC for the supersymmetric 1D harmonic oscillator and find that the result is in exact agreement with that of the OTOC of the 1D bosonic harmonic oscillator system. The higher-point OTOC is a more sensitive measure of scrambling than the usual 4-point OTOC. To demonstrate this feature, we consider a supersymmetric sextic 1D oscillator for which the bosonic partner system has an unstable saddle in the phase space, which is absent in the fermionic counterpart. For such a system we show that the bosonic, the fermionic as well as the supersymmetric OTOC exhibit similar dynamics due to supersymmetry constraints. Finally, we illustrate the late-time oscillatory behaviour of higher-point OTOC for saddle-dominated scrambling and anharmonic oscillator systems and propose it to be a probe of late-time dynamics in non-chaotic systems that exhibit fast early-time scrambling.
翻訳日:2024-04-25 16:38:11 公開日:2024-04-23
# バイアス軽減技術はディープラーニングに有効か?

Are Bias Mitigation Techniques for Deep Learning Effective? ( http://arxiv.org/abs/2104.00170v4 )

ライセンス: Link先を確認
Robik Shrestha, Kushal Kafle, Christopher Kanan, (参考訳) ディープラーニングにおける重要な問題は、システムが不適切なバイアスを学習し、少数派グループでうまく機能できないことである。 これにより、バイアスを軽減するために複数のアルゴリズムが作成されました。 しかし,これらの手法がどの程度有効かは明らかでない。 これは、研究プロトコルが論文によって異なり、システムは多くの形式のバイアスをテストできないデータセット上でテストされ、システムは隠れた知識にアクセスするか、テストセットに特別に調整されるためである。 これを解決するために、改良された評価プロトコル、有能なメトリクス、新しいデータセットを導入し、バイアス軽減アルゴリズムに関する重要な質問に答えることを可能にする。 我々は,3つのベンチマークデータセットで同じネットワークアーキテクチャとハイパーパラメータ選択ポリシーを用いて,最先端の7つのアルゴリズムを評価する。 我々は、複数のバイアス源に対するロバスト性の評価を可能にするBiased MNISTと呼ばれる新しいデータセットを導入する。 隠れバイアスに対するロバスト性を評価するために、Biased MNISTとVQAベンチマークを使用します。 テストセット分布をチューニングするだけでなく、異なるチューニング分布にまたがるロバスト性も研究している。 アルゴリズムは隠れバイアスを悪用し、複数の形式のバイアスにスケールできず、チューニングセットの選択に非常に敏感であることがわかった。 本研究は,今後の偏見緩和手法の厳密な評価をコミュニティに導入することを示唆するものである。 すべてのデータ、コード、結果は、https://github.com/erobic/bias-mitigatorsで公開されている。

A critical problem in deep learning is that systems learn inappropriate biases, resulting in their inability to perform well on minority groups. This has led to the creation of multiple algorithms that endeavor to mitigate bias. However, it is not clear how effective these methods are. This is because study protocols differ among papers, systems are tested on datasets that fail to test many forms of bias, and systems have access to hidden knowledge or are tuned specifically to the test set. To address this, we introduce an improved evaluation protocol, sensible metrics, and a new dataset, which enables us to ask and answer critical questions about bias mitigation algorithms. We evaluate seven state-of-the-art algorithms using the same network architecture and hyperparameter selection policy across three benchmark datasets. We introduce a new dataset called Biased MNIST that enables assessment of robustness to multiple bias sources. We use Biased MNIST and a visual question answering (VQA) benchmark to assess robustness to hidden biases. Rather than only tuning to the test set distribution, we study robustness across different tuning distributions, which is critical because for many applications the test distribution may not be known during development. We find that algorithms exploit hidden biases, are unable to scale to multiple forms of bias, and are highly sensitive to the choice of tuning set. Based on our findings, we implore the community to adopt more rigorous assessment of future bias mitigation methods. All data, code, and results are publicly available at: https://github.com/erobic/bias-mitigators.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# 吸収スケールグラフを用いたランダムウォークの吸収に対するInfoMapの適応

An adaptation of InfoMap to absorbing random walks using absorption-scaled graphs ( http://arxiv.org/abs/2112.10953v4 )

ライセンス: Link先を確認
Esteban Vargas Bernal, Mason A. Porter, Joseph H. Tien, (参考訳) InfoMapは、ネットワーク内のノードの密結合された"コミュニティ"を検出する一般的なアプローチである。 このようなコミュニティを検出するためにInfoMapは、ランダムウォークと情報理論からのアイデアを使用している。 ノードが不均一な疾患除去率を持つネットワーク上に広がる病気のダイナミクスに触発されて、InfoMapはランダムウォークの吸収に適応する。 これを実現するために、吸収スケールグラフ(吸収率に応じてエッジウェイトをスケールする)とマルコフ時間スイーピングを用いる。 InfoMapの適応の1つは、ノード吸収率が0ドルに近づく制限の中でInfoMapの標準バージョンに収束する。 本研究では,InfoMapの適応を用いて得られるコミュニティ構造が,ノード吸収率を考慮しない手法を用いて検出するコミュニティ構造とは大きく異なることを示す。 また、不均一吸収率によって引き起こされるコミュニティ構造が、リングラテックスネットワーク上での感受性感染回復(SIR)ダイナミクスに重要な意味を持つことを示す。 例えば、ある状況では、中程度の数のノードが大きなノード吸収率を持つ場合、発生期間が最大になる。

InfoMap is a popular approach to detect densely connected "communities" of nodes in networks. To detect such communities, InfoMap uses random walks and ideas from information theory. Motivated by the dynamics of disease spread on networks, whose nodes can have heterogeneous disease-removal rates, we adapt InfoMap to absorbing random walks. To do this, we use absorption-scaled graphs (in which edge weights are scaled according to absorption rates) and Markov time sweeping. One of our adaptations of InfoMap converges to the standard version of InfoMap in the limit in which the node-absorption rates approach $0$. We demonstrate that the community structure that one obtains using our adaptations of InfoMap can differ markedly from the community structure that one detects using methods that do not account for node-absorption rates. We also illustrate that the community structure that is induced by heterogeneous absorption rates can have important implications for susceptible-infected-recovered (SIR) dynamics on ring-lattice networks. For example, in some situations, the outbreak duration is maximized when a moderate number of nodes have large node-absorption rates.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# ITER:マルチロケーションパッチの反復神経修復

ITER: Iterative Neural Repair for Multi-Location Patches ( http://arxiv.org/abs/2304.12015v2 )

ライセンス: Link先を確認
He Ye, Martin Monperrus, (参考訳) 自動プログラム修復(APR)は、特にニューラルネットワークを用いて、有望な結果を得た。 しかし、APRツールが生成するパッチの圧倒的多数は、1つの場所に限られている。 神経修復で生成されたパッチを見ると、ほとんどのパッチはコンパイルに失敗し、コンパイル不可能なパッチは正しい方向に進む。 どちらの場合も、根本的な問題は部分パッチの可能性を無視することである。 本稿では、部分パッチの改善という概念に基づいて、ITERと呼ばれる反復的なプログラム修復パラダイムを提案する。 まず、ITERはコンパイルエラーを修正し、以前に生成されたコードをさらに精査することで、部分的な単一ロケーションパッチを反復的に改善する。 第二に、ITERは部分パッチを反復的に改善してマルチロケーションパッチを構築し、フォールトローカライゼーションを再実行する。 ITERは、バトルによって実現されたディープニューラルネットワークとコード表現に基づいて、Java向けに実装されている。 ITERはDefects4J 2.0の10のオープンソースプロジェクトから476のバグについて評価されている。 ITERは15.5%の修復に成功した。

Automated program repair (APR) has achieved promising results, especially using neural networks. Yet, the overwhelming majority of patches produced by APR tools are confined to one single location. When looking at the patches produced with neural repair, most of them fail to compile, while a few uncompilable ones go in the right direction. In both cases, the fundamental problem is to ignore the potential of partial patches. In this paper, we propose an iterative program repair paradigm called ITER founded on the concept of improving partial patches until they become plausible and correct. First, ITER iteratively improves partial single-location patches by fixing compilation errors and further refining the previously generated code. Second, ITER iteratively improves partial patches to construct multi-location patches, with fault localization re-execution. ITER is implemented for Java based on battle-proven deep neural networks and code representation. ITER is evaluated on 476 bugs from 10 open-source projects in Defects4J 2.0. ITER succeeds in repairing 15.5% of them, including 9 uniquely repaired multi-location bugs.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# Rapid-INR: 命令型ニューラル表現を用いたCPUフリーDNNトレーニング

Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation ( http://arxiv.org/abs/2306.16699v3 )

ライセンス: Link先を確認
Hanqiu Chen, Hang Yang, Stephen Fitzmeyer, Cong Hao, (参考訳) Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。 代わりに、INRはオブジェクトを連続関数として表現する。 従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。 しかし、INRは画像圧縮以外の様々な応用の可能性を秘めている。 本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。 我々の手法では、トレーニング中のCPUとGPU間の重要なデータ通信オーバーヘッドを軽減するため、データセット全体をGPU上でINR形式で直接保存する。 さらに、INRからRGBフォーマットへの復号処理は高度に並列化され、オンザフライで実行される。 圧縮をさらに強化するため,従来の作業に基づいて,反復的かつ動的プルーニングとレイヤワイド量子化を提案する。 本稿では、ResNet-18バックボーンネットワークと、画像サイズが異なる3つの一般的なデータセットを用いて、画像分類タスクの枠組みを評価する。 Rapid-INRは、RGBフォーマットのオリジナルのデータセットサイズの約5%までメモリ消費を削減し、PyTorchトレーニングパイプラインの最大6$\times$スピードアップ、DALIトレーニングパイプラインの最大1.2倍のスピードアップを実現し、精度はわずかに低下する。 重要なことに、Rapid-INRは他のコンピュータビジョンタスクやバックボーンネットワークに適切なエンジニアリング努力で容易に適用できる。 実装コードはhttps://github.com/sharc-lab/Rapid-INR.comで公開されています。

Implicit Neural Representation (INR) is an innovative approach for representing complex shapes or objects without explicitly defining their geometry or surface structure. Instead, INR represents objects as continuous functions. Previous research has demonstrated the effectiveness of using neural networks as INR for image compression, showcasing comparable performance to traditional methods such as JPEG. However, INR holds potential for various applications beyond image compression. This paper introduces Rapid-INR, a novel approach that utilizes INR for encoding and compressing images, thereby accelerating neural network training in computer vision tasks. Our methodology involves storing the whole dataset directly in INR format on a GPU, mitigating the significant data communication overhead between the CPU and GPU during training. Additionally, the decoding process from INR to RGB format is highly parallelized and executed on-the-fly. To further enhance compression, we propose iterative and dynamic pruning, as well as layer-wise quantization, building upon previous work. We evaluate our framework on the image classification task, utilizing the ResNet-18 backbone network and three commonly used datasets with varying image sizes. Rapid-INR reduces memory consumption to only about 5% of the original dataset size in RGB format and achieves a maximum 6$\times$ speedup over the PyTorch training pipeline, as well as a maximum 1.2x speedup over the DALI training pipeline, with only a marginal decrease in accuracy. Importantly, Rapid-INR can be readily applied to other computer vision tasks and backbone networks with reasonable engineering efforts. Our implementation code is publicly available at https://github.com/sharc-lab/Rapid-INR.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# DNNに基づく適応型クルーズ制御システムに対する実行時定常認識攻撃

Runtime Stealthy Perception Attacks against DNN-based Adaptive Cruise Control Systems ( http://arxiv.org/abs/2307.08939v3 )

ライセンス: Link先を確認
Xugui Zhou, Anqi Chen, Maxfield Kouzel, Haotian Ren, Morgan McCarty, Cristina Nita-Rotaru, Homa Alemzadeh, (参考訳) アダプティブ・クルーズ・コントロール(ACC、Adaptive Cruise Control)は、先導車への所望の速度と安全な距離を維持するための運転補助技術である。 本稿では, カメラデータに摂動を戦略的に注入して前方衝突を引き起こす, 実行時ステルス知覚攻撃下でのディープニューラルネットワーク(DNN)ベースのACCシステムのセキュリティを評価する。 本稿では、攻撃を誘発する最も重要な時間を選択するためのコンテキスト認識戦略と、実行時に画像摂動を適応的に生成するための新しい最適化手法を提案する。 本研究では,実車,公用運転データセット,実動シミュレーションプラットフォームを用いた実車による攻撃の有効性を評価し,実動ACCシステム,物理世界運転シミュレータ,運転者による介入,高度緊急ブレーキシステム(AEBS)などの安全機能について検討した。 実験結果から,提案攻撃はリスク発生時の142.9倍の成功率,ベースラインよりも89.6%高い回避率を示すとともに,現実世界の要因や環境の動的変化に対してステルス的で堅牢であることがわかった。 本研究は,攻撃防止における人間ドライバーの役割と基本的な安全メカニズムを明らかにする。

Adaptive Cruise Control (ACC) is a widely used driver assistance technology for maintaining the desired speed and safe distance to the leading vehicle. This paper evaluates the security of the deep neural network (DNN) based ACC systems under runtime stealthy perception attacks that strategically inject perturbations into camera data to cause forward collisions. We present a context-aware strategy for the selection of the most critical times for triggering the attacks and a novel optimization-based method for the adaptive generation of image perturbations at runtime. We evaluate the effectiveness of the proposed attack using an actual vehicle, a publicly available driving dataset, and a realistic simulation platform with the control software from a production ACC system, a physical-world driving simulator, and interventions by the human driver and safety features such as Advanced Emergency Braking System (AEBS). Experimental results show that the proposed attack achieves 142.9 times higher success rate in causing hazards and 89.6% higher evasion rate than baselines, while being stealthy and robust to real-world factors and dynamic changes in the environment. This study highlights the role of human drivers and basic safety mechanisms in preventing attacks.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# PCNN:AIと人間のための細粒度画像分類の精度を向上する予測可能なクラスNearest-Neighbor説明

PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans ( http://arxiv.org/abs/2308.13651v3 )

ライセンス: Link先を確認
Giang Nguyen, Valerie Chen, Mohammad Reza Taesiri, Anh Totti Nguyen, (参考訳) 最寄りの隣人(NN)は、伝統的にSupport Vector Machinesやk-NNの分類器で最終決定を計算したり、モデルの判断を説明するために使用される。 本稿では,CUB-200,Cars-196,Dogs-120の詳細な画像分類精度を常に向上させ,(1)入力画像をトップKのNN画像と比較する画像コンパレータSを活用し,(2)出力スコアを用いてCの信頼性スコアを重み付けする手法を提案する。 また、人間による研究では、有望な隣人(PCNN)が、最上位の1クラスのみを示す以前の作業よりも、意思決定の精度が向上していることが判明した。

Nearest neighbors (NN) are traditionally used to compute final decisions, e.g., in Support Vector Machines or k-NN classifiers, and to provide users with explanations for the model's decision. In this paper, we show a novel utility of nearest neighbors: To improve predictions of a frozen, pretrained classifier C. We leverage an image comparator S that (1) compares the input image with NN images from the top-K most probable classes; and (2) uses S's output scores to weight the confidence scores of C. Our method consistently improves fine-grained image classification accuracy on CUB-200, Cars-196, and Dogs-120. Also, a human study finds that showing lay users our probable-class nearest neighbors (PCNN) improves their decision accuracy over prior work which only shows only the top-1 class examples.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# フラクソニウム量子ビット上の高忠実トランスモンカプラ活性化CCZゲート

High-fidelity transmon coupler activated CCZ gate on fluxonium qubits ( http://arxiv.org/abs/2308.15229v3 )

ライセンス: Link先を確認
Ilya A. Simakov, Grigoriy S. Mazhorin, Ilya N. Moskalenko, Seidali S. Seidov, Ilya S. Besedin, (参考訳) トフォリゲートは量子情報理論において特別な位置を占める。 複雑な量子アルゴリズムの効率的な実装の道を開く。 超伝導量子ビットに基づく量子プロセッサの著しい進歩にもかかわらず、高忠実度3量子ビット演算の実現は依然として難しい問題である。 そこで本研究では,カプラ上のマイクロ波パルスによって活性化されるトランスモン量子ビットを介して容量的に接続されたフラキソニウム上で,高忠実CCZゲートを動作させる新しい方法を提案する。 アプローチの主な利点は、相対的速さ、校正の単純さ、望ましくない縦ZZ相互作用の顕著な抑制である。 ノイズレスモデルでは,95n長ゲートの99.99%以上の忠実度を実測回路パラメータで数値シミュレーションし,従来のデコヒーレンス率で約0.25%の誤差を推定する。

The Toffoli gate takes a special place in the quantum information theory. It opens up a path for efficient implementation of complex quantum algorithms. Despite tremendous progress of the quantum processors based on the superconducting qubits, realization of a high-fidelity three-qubit operation is still a challenging problem. Here, we propose a novel way to perform a high-fidelity CCZ gate on fluxoniums capacitively connected via a transmon qubit, activated by a microwave pulse on the coupler. The main advantages of the approach are relative quickness, simplicity of calibration and significant suppression of the unwanted longitudinal ZZ interaction. We provide numerical simulation of 95-ns long gate of higher than 99.99% fidelity with realistic circuit parameters in the noiseless model and estimate an error of about 0.25% under the conventional decoherence rates.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# 多体相関法によるフェルミオン状態の分類

Classifying fermionic states via many-body correlation measures ( http://arxiv.org/abs/2309.07956v2 )

ライセンス: Link先を確認
Mykola Semenyakin, Yevheniia Cheipesh, Yaroslav Herasymenko, (参考訳) 多体系における量子相関の構造を理解することが、その計算処理の鍵となる。 フェルミオン系では、相関はスレーター行列式からの偏差として定義される。 フェルミオン相関と効率的な計算物理法との関係は活発に研究されているが、あいまいなままである。 我々はこの接続を数学的に確立する。 特に、$k$-fermion相関に対する厳密な状態の分類があり、計算物理学的な解釈が認められる。 相関は、ツイスト純度と呼ばれる$k$フェルミオン還元密度行列の関数である$\omega_k$で表される。 与えられた$k$に対して$\omega_k$を無効にすると、相関状態のクラス$G_k$に状態が配置される。 sets $G_k$ is nested in $k$, Slater determinants は $k = 1$ に対応する。 様々な物理的に関係のある状態が$G_{k=O(1)}$に近づき、1Dハバードモデルのいくつかの非摂動固有状態(英語版)を含む、切り離された構成-相互作用状態、スレーター行列周りの摂動級数を含む。 各$k = O(1)$に対して、$G_k$の全ての状態をカバーするパラメータの多項式数を持つ明示的なアンサッツを与える。 このアンザッツの潜在的な応用とその結合クラスタ波動関数への接続について論じる。

Understanding the structure of quantum correlations in a many-body system is key to its computational treatment. For fermionic systems, correlations can be defined as deviations from Slater determinant states. The link between fermionic correlations and efficient computational physics methods is actively studied but remains ambiguous. We make progress in establishing this connection mathematically. In particular, we find a rigorous classification of states relative to $k$-fermion correlations, which admits a computational physics interpretation. Correlations are captured by a measure $\omega_k$, a function of $k$-fermion reduced density matrix that we call twisted purity. Vanishing of $\omega_k$ for a given $k$ puts the state in a class $G_k$ of correlated states. Sets $G_k$ are nested in $k$, Slater determinants correspond to $k = 1$. Various physically relevant states are in or close to $G_{k=O(1)}$, including truncated configuration-interaction states, perturbation series around Slater determinants, and some nonperturbative eigenstates of the 1D Hubbard model. For each $k = O(1)$, we give an explicit ansatz with a polynomial number of parameters that covers all states in $G_k$. Potential applications of this ansatz and its connections to the coupled-cluster wavefunction are discussed.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# LLMによる誤報検出は可能か?

Can LLM-Generated Misinformation Be Detected? ( http://arxiv.org/abs/2309.13788v5 )

ライセンス: Link先を確認
Canyu Chen, Kai Shu, (参考訳) LLM(Large Language Models)の出現は、変革的な影響をもたらした。 しかし、ChatGPTのようなLCMを悪用して誤報を発生させる可能性は、オンラインの安全と公衆の信頼に深刻な懸念を抱いている。 LLMが生成した誤報は、人間が書いた誤報よりも有害か? 本稿では,検出困難の観点からこの問題に取り組むことを提案する。 まず LLM 生成の誤情報を分類する。 次に,LLMを用いた誤情報生成の潜在的な現実的手法を分類し,検証する。 そして、広範囲にわたる実証調査により、LLMが生成する誤報は、人間や検出者にとって同じ意味を持つ人間が書いた誤報に比べて検出が難しいことが判明した。 また,LLM時代の誤報と対策について考察した。

The advent of Large Language Models (LLMs) has made a transformative impact. However, the potential that LLMs such as ChatGPT can be exploited to generate misinformation has posed a serious concern to online safety and public trust. A fundamental research question is: will LLM-generated misinformation cause more harm than human-written misinformation? We propose to tackle this question from the perspective of detection difficulty. We first build a taxonomy of LLM-generated misinformation. Then we categorize and validate the potential real-world methods for generating misinformation with LLMs. Then, through extensive empirical investigation, we discover that LLM-generated misinformation can be harder to detect for humans and detectors compared to human-written misinformation with the same semantics, which suggests it can have more deceptive styles and potentially cause more harm. We also discuss the implications of our discovery on combating misinformation in the age of LLMs and the countermeasures.
翻訳日:2024-04-25 16:34:44 公開日:2024-04-23
# 軌道生成による汎用ツールスキルの学習

Learning Generalizable Tool-use Skills through Trajectory Generation ( http://arxiv.org/abs/2310.00156v4 )

ライセンス: Link先を確認
Carl Qi, Yilin Wu, Lifan Yu, Haoyue Liu, Bowen Jiang, Xingyu Lin, David Held, (参考訳) ツールを効果的に活用する自律システムは、調理やクリーニングといった多くの一般的なタスクを完了させるのを助けることができる。 しかし、現在のシステムは、新しいツールに適応するという意味では、人間のレベルの知性に合わない。 余裕に基づく先行研究は、しばしば環境について強い仮定をし、より複雑で接触に富んだタスクにスケールできない。 本研究では、この課題に取り組み、以前は目に見えないツールを使って変形可能なオブジェクトを操作する方法を学ぶ。 本稿では,ツールポイント雲の列としてツール利用軌跡の生成モデルを学習し,様々なツール形状に一般化することを提案する。 どのような新しいツールであっても、最初にツール使用軌跡を生成し、生成した軌跡に合わせるために、ツールポーズのシーケンスを最適化する。 私たちは、タスクごとに1つのツールからのみデモデータを使用して、4つの異なる難解な変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。 モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。 トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。 追加資料はプロジェクトのWebサイト(https://sites.google.com/view/toolgen.com)で参照できます。

Autonomous systems that efficiently utilize tools can assist humans in completing many common tasks such as cooking and cleaning. However, current systems fall short of matching human-level of intelligence in terms of adapting to novel tools. Prior works based on affordance often make strong assumptions about the environments and cannot scale to more complex, contact-rich tasks. In this work, we tackle this challenge and explore how agents can learn to use previously unseen tools to manipulate deformable objects. We propose to learn a generative model of the tool-use trajectories as a sequence of tool point clouds, which generalizes to different tool shapes. Given any novel tool, we first generate a tool-use trajectory and then optimize the sequence of tool poses to align with the generated trajectory. We train a single model on four different challenging deformable object manipulation tasks, using demonstration data from only one tool per task. The model generalizes to various novel tools, significantly outperforming baselines. We further test our trained policy in the real world with unseen tools, where it achieves the performance comparable to human. Additional materials can be found on our project website: https://sites.google.com/view/toolgen.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# 未知分散を持つガウス平均に対する任意の有価t検定と信頼系列

Anytime-valid t-tests and confidence sequences for Gaussian means with unknown variance ( http://arxiv.org/abs/2310.03722v3 )

ライセンス: Link先を確認
Hongjian Wang, Aaditya Ramdas, (参考訳) 1976年、レイは未知の分散$\sigma^2$を持つガウス分布の平均$\mu$に対して非自明な自信列を構築した。 奇妙なことに、彼は$\sigma$以上の不適切な(右ハール)混合物と$\mu$以上の不適切な(フラット)混合物の両方を使っていた。 ここでは、一般化された非可積分なマルティンガレと拡張されたヴィルの不等式を用いる彼の構成の詳細について詳しく述べる。 これはシーケンシャルなt検定をもたらすが、「e過程」は生じない(これはマルティンゲールの不積分性による)。 本稿では,2つの新しいE-プロセスと信頼性シーケンスを同一設定で開発する。一方は,縮小フィルタにおけるテストマーチンゲールであり,他方は標準データフィルタリングにおけるE-プロセスである。 これらはそれぞれ、ライの平らな混合物をガウス混合に置き換え、右ハール混合物を$\sigma$ に置き換えることによって得られる。 また、誤差確率 $\alpha$ に好奇な多項式依存を持つ結果の信頼シーケンスの幅を分析することで、避けられないだけでなく、古典的な固定サンプル t-テストよりも(普遍推論のために)優れていることを証明できる。 数値実験は、近年のいくつかの準最適手法を含む様々なアプローチを比較し、対比する過程で提供される。

In 1976, Lai constructed a nontrivial confidence sequence for the mean $\mu$ of a Gaussian distribution with unknown variance $\sigma^2$. Curiously, he employed both an improper (right Haar) mixture over $\sigma$ and an improper (flat) mixture over $\mu$. Here, we elaborate carefully on the details of his construction, which use generalized nonintegrable martingales and an extended Ville's inequality. While this does yield a sequential t-test, it does not yield an "e-process" (due to the nonintegrability of his martingale). In this paper, we develop two new e-processes and confidence sequences for the same setting: one is a test martingale in a reduced filtration, while the other is an e-process in the canonical data filtration. These are respectively obtained by swapping Lai's flat mixture for a Gaussian mixture, and swapping the right Haar mixture over $\sigma$ with the maximum likelihood estimate under the null, as done in universal inference. We also analyze the width of resulting confidence sequences, which have a curious polynomial dependence on the error probability $\alpha$ that we prove to be not only unavoidable, but (for universal inference) even better than the classical fixed-sample t-test. Numerical experiments are provided along the way to compare and contrast the various approaches, including some recent suboptimal ones.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# 変圧器の追加を理解する

Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v9 )

ライセンス: Link先を確認
Philip Quirke, Fazl Barez, (参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。 本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。 提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。 さらに,高い損失を特徴とする稀なシナリオを特定し,その説明を行う。 モデルのアルゴリズムを徹底的に解明することにより、その機能に関する新たな洞察を提供する。 これらの知見は厳密なテストと数学的モデリングを通じて検証され、モデル理解と解釈可能性の幅広い分野に寄与する。 我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper provides a comprehensive analysis of a one-layer Transformer model trained to perform n-digit integer addition. Our findings suggest that the model dissects the task into parallel streams dedicated to individual digits, employing varied algorithms tailored to different positions within the digits. Furthermore, we identify a rare scenario characterized by high loss, which we explain. By thoroughly elucidating the model's algorithm, we provide new insights into its functioning. These findings are validated through rigorous testing and mathematical modeling, thereby contributing to the broader fields of model understanding and interpretability. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# 選択的共有体験はマルチエージェント強化学習を改善する

Selectively Sharing Experiences Improves Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.00865v2 )

ライセンス: Link先を確認
Matthias Gerstgrasser, Tom Danino, Sarah Keren, (参考訳) エージェントを他のエージェントと共有し、トレーニング中に観察する遷移を限定的に行う、新しいマルチエージェントRL手法であるSelective Multi-Agent Prioritized Experience Relayを提案する。 この背景にある直感は、他のエージェントからの少数の関連する経験でさえ、各エージェントが学習するのに役立ちます。 他の多くのマルチエージェントRLアルゴリズムとは異なり、このアプローチはエージェント間の限られた通信チャネルのみを必要とする、主に分散化されたトレーニングを可能にする。 提案手法は,ベースラインの非共有型分散トレーニングと最先端のマルチエージェントRLアルゴリズムより優れていることを示す。 さらに、エージェント間のすべてのエクスペリエンスを共有することよりも、少数の非常に関連性の高いエクスペリエンスを共有することの方が優れており、選択的なエクスペリエンス共有によるパフォーマンス向上は、ハイパーパラメータとDQNの亜種の範囲で堅牢である。 アルゴリズムのリファレンス実装はhttps://github.com/mgerstgrasser/super.comで公開されている。

We present a novel multi-agent RL approach, Selective Multi-Agent Prioritized Experience Relay, in which agents share with other agents a limited number of transitions they observe during training. The intuition behind this is that even a small number of relevant experiences from other agents could help each agent learn. Unlike many other multi-agent RL algorithms, this approach allows for largely decentralized training, requiring only a limited communication channel between agents. We show that our approach outperforms baseline no-sharing decentralized training and state-of-the art multi-agent RL algorithms. Further, sharing only a small number of highly relevant experiences outperforms sharing all experiences between agents, and the performance uplift from selective experience sharing is robust across a range of hyperparameters and DQN variants. A reference implementation of our algorithm is available at https://github.com/mgerstgrasser/super.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# AfriMTEとAfriCOMET: COMETをアンダーソースのアフリカ言語にエンベッドする

AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages ( http://arxiv.org/abs/2311.09828v3 )

ライセンス: Link先を確認
Jiayi Wang, David Ifeoluwa Adelani, Sweta Agrawal, Marek Masiak, Ricardo Rei, Eleftheria Briakou, Marine Carpuat, Xuanli He, Sofia Bourhim, Andiswa Bukula, Muhidin Mohamed, Temitayo Olatoye, Tosin Adewumi, Hamam Mokayed, Christine Mwase, Wangui Kimotho, Foutse Yuehgoh, Anuoluwapo Aremu, Jessica Ojo, Shamsuddeen Hassan Muhammad, Salomey Osei, Abdul-Hakeem Omotayo, Chiamaka Chukwuneke, Perez Ogayo, Oumaima Hourrane, Salma El Anigri, Lolwethu Ndolela, Thabiso Mangwana, Shafie Abdi Mohamed, Ayinde Hassan, Oluwabusayo Olufunke Awoyomi, Lama Alkhaled, Sana Al-Azzawi, Naome A. Etori, Millicent Ochieng, Clemencia Siro, Samuel Njoroge, Eric Muchiri, Wangari Kimotho, Lyse Naomi Wamba Momo, Daud Abolade, Simbiat Ajao, Iyanuoluwa Shode, Ricky Macharm, Ruqayya Nasir Iro, Saheed S. Abdullahi, Stephen E. Moore, Bernard Opoku, Zainab Akinjobi, Abeeb Afolabi, Nnaemeka Obiefuna, Onyekachi Raphael Ogbu, Sam Brian, Verrah Akinyi Otiende, Chinedu Emmanuel Mbonu, Sakayo Toadoum Sari, Yao Lu, Pontus Stenetorp, (参考訳) 近年、マルチリンガル機械翻訳(MT)をいくつかのアンダーリソースアフリカ諸言語に拡張しているにもかかわらず、BLEUのようなn-gramマッチングメトリクスで評価されることがよくあるため、正確な測定は依然として困難である。 COMETのような学習メトリクスは高い相関関係にあるが、低リソース言語に対する評価データと評価データの欠如、多次元品質基準(MQM)のようなガイドラインガイドラインの複雑さ、多言語エンコーダの言語カバレッジの制限によりアフリカ語への適用が妨げられている。 本稿では,13のアフリカ言語に対して,誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化した高品質な人的評価データを作成することで,これらの課題に対処する。 AfriCOMET: AfriXLM-R (AfroXLM-R) によるアフリカ言語のDAデータを利用して,スピアマンランクと人間の判断との相関(0.441)に関して,アフリカ言語の最先端のMT評価指標を作成する。

Despite the recent progress on scaling multilingual machine translation (MT) to several under-resourced African languages, accurately measuring this progress remains challenging, since evaluation is often performed on n-gram matching metrics such as BLEU, which typically show a weaker correlation with human judgments. Learned metrics such as COMET have higher correlation; however, the lack of evaluation data with human ratings for under-resourced languages, complexity of annotation guidelines like Multidimensional Quality Metrics (MQM), and limited language coverage of multilingual encoders have hampered their applicability to African languages. In this paper, we address these challenges by creating high-quality human evaluation data with simplified MQM guidelines for error detection and direct assessment (DA) scoring for 13 typologically diverse African languages. Furthermore, we develop AfriCOMET: COMET evaluation metrics for African languages by leveraging DA data from well-resourced languages and an African-centric multilingual encoder (AfroXLM-R) to create the state-of-the-art MT evaluation metrics for African languages with respect to Spearman-rank correlation with human judgments (0.441).
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# Controlgym: ベンチマーク強化学習アルゴリズムのための大規模制御環境

Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms ( http://arxiv.org/abs/2311.18736v2 )

ライセンス: Link先を確認
Xiangyuan Zhang, Weichao Mao, Saviz Mowlavi, Mouhacine Benosman, Tamer Başar, (参考訳) そこで本研究では, 産業用制御システム36のライブラリと, 無限次元偏微分方程式(PDE)に基づく10の制御問題を紹介する。 OpenAI Gym/Gymnasium(Gym)フレームワークに統合されたコントロールジャムは、Stable-baselines3のような標準強化学習(RL)アルゴリズムの直接的な適用を可能にする。 我々の制御環境は、現実の制御アプリケーションによって動機づけられた、連続的かつ非有界な行動および観測空間でGymの環境を補完する。 さらに、PDE制御環境は、ユーザが本質的なダイナミクスを保ちながらシステムの状態次元を無限大に拡張することを可能にする。 この機能は制御のためのRLアルゴリズムのスケーラビリティを評価するために重要である。 このプロジェクトは、学習制御ポリシにおけるRLアルゴリズムの収束、学習ベースのコントローラの安定性と堅牢性の問題、高次元および潜在的無限次元システムへのRLアルゴリズムのスケーラビリティなど、重要な課題を探求することを目的とした、力学と制御(L4DC)コミュニティの学習を支援する。 controlgymプロジェクトはhttps://github.com/xiangyuan-zhang/controlgym.comでオープンソース化しました。

We introduce controlgym, a library of thirty-six industrial control settings, and ten infinite-dimensional partial differential equation (PDE)-based control problems. Integrated within the OpenAI Gym/Gymnasium (Gym) framework, controlgym allows direct applications of standard reinforcement learning (RL) algorithms like stable-baselines3. Our control environments complement those in Gym with continuous, unbounded action and observation spaces, motivated by real-world control applications. Moreover, the PDE control environments uniquely allow the users to extend the state dimensionality of the system to infinity while preserving the intrinsic dynamics. This feature is crucial for evaluating the scalability of RL algorithms for control. This project serves the learning for dynamics & control (L4DC) community, aiming to explore key questions: the convergence of RL algorithms in learning control policies; the stability and robustness issues of learning-based controllers; and the scalability of RL algorithms to high- and potentially infinite-dimensional systems. We open-source the controlgym project at https://github.com/xiangyuan-zhang/controlgym.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# ChatPose:3Dヒューマン・ポースについて聞く

ChatPose: Chatting about 3D Human Pose ( http://arxiv.org/abs/2311.18836v2 )

ライセンス: Link先を確認
Yao Feng, Jing Lin, Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Michael J. Black, (参考訳) 画像やテキストによる記述から3次元の人間のポーズを理解し、推論するために、LLM(Large Language Models)を利用するフレームワークChatPoseを紹介した。 我々の研究は、一つの画像や簡単な説明から姿勢を直感的に理解する能力、画像解釈、世界知識、身体言語を理解するプロセスによって動機付けられている。 従来の人間のポーズ推定と生成方法は、意味的理解と推論能力の欠如により、しばしば孤立して機能する。 ChatPose は、SMPL のポーズを異なる信号トークンとしてマルチモーダル LLM に埋め込むことでこれらの制限に対処し、テキスト入力と視覚入力の両方から3Dボディのポーズを直接生成できる。 マルチモーダルLLMの強力な機能を活用して、ChatPoseはユーザインタラクションを提供しながら、古典的な3Dのポーズと生成タスクを統合する。 加えて、ChatPose は LLM に対して、人間のポーズについての推論において、広範囲な世界知識を適用する権限を与え、投機的なポーズ生成とポーズ推定に関する推論という2つの高度なタスクに繋がる。 これらのタスクは、微妙なテキストクエリから人間の3Dポーズを推論する。 従来の3Dポーズ生成および推定方法を超えて,これらのタスクのベンチマークを確立する。 この結果から,ChatPose は既存のマルチモーダル LLM やタスク固有手法よりも優れた性能を示した。 さらに、複雑な推論に基づいて3D人間のポーズを理解し、生成するChatPoseの能力は、人間のポーズ分析において新しい方向を開く。

We introduce ChatPose, a framework employing Large Language Models (LLMs) to understand and reason about 3D human poses from images or textual descriptions. Our work is motivated by the human ability to intuitively understand postures from a single image or a brief description, a process that intertwines image interpretation, world knowledge, and an understanding of body language. Traditional human pose estimation and generation methods often operate in isolation, lacking semantic understanding and reasoning abilities. ChatPose addresses these limitations by embedding SMPL poses as distinct signal tokens within a multimodal LLM, enabling the direct generation of 3D body poses from both textual and visual inputs. Leveraging the powerful capabilities of multimodal LLMs, ChatPose unifies classical 3D human pose and generation tasks while offering user interactions. Additionally, ChatPose empowers LLMs to apply their extensive world knowledge in reasoning about human poses, leading to two advanced tasks: speculative pose generation and reasoning about pose estimation. These tasks involve reasoning about humans to generate 3D poses from subtle text queries, possibly accompanied by images. We establish benchmarks for these tasks, moving beyond traditional 3D pose generation and estimation methods. Our results show that ChatPose outperforms existing multimodal LLMs and task-specific methods on these newly proposed tasks. Furthermore, ChatPose's ability to understand and generate 3D human poses based on complex reasoning opens new directions in human pose analysis.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# AV-RIR:音響視覚室インパルス応答推定

AV-RIR: Audio-Visual Room Impulse Response Estimation ( http://arxiv.org/abs/2312.00834v2 )

ライセンス: Link先を確認
Anton Ratnarajah, Sreyan Ghosh, Sonal Kumar, Purva Chiniya, Dinesh Manocha, (参考訳) 環境の音響特性を捉えた室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。 本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。 AV-RIRは、環境の幾何学や材料特性を効果的に捉え、マルチタスク学習を用いて音声の残響を補助的なタスクとして解決する、新しいニューラルコーデックベースのアーキテクチャの上に構築されている。 また,画像からRIRの検索によって推定されたRIRの残響成分を86%改善するビジュアルキューとCRIPに素材情報を付加するGeo-Mat機能を提案する。 AV-RIRは、RIR推定における様々な音響指標の36%から63%の改善によって、従来の音声のみのアプローチと視覚のみのアプローチを定量的に上回ることを示す。 また、人間の評価において高い嗜好スコアを得る。 補助的な利点として、AV-RIRから派生した音声は、様々な音声言語処理タスクにおける最先端技術との競合性能を示し、実世界のAVSpeechデータセットにおける残響時間誤差スコアよりも優れていた。 合成残響音声と拡張音声の質的な例はhttps://www.youtube.com/watch? v=tTsKhviukAE。

Accurate estimation of Room Impulse Response (RIR), which captures an environment's acoustic properties, is important for speech processing and AR/VR applications. We propose AV-RIR, a novel multi-modal multi-task learning approach to accurately estimate the RIR from a given reverberant speech signal and the visual cues of its corresponding environment. AV-RIR builds on a novel neural codec-based architecture that effectively captures environment geometry and materials properties and solves speech dereverberation as an auxiliary task by using multi-task learning. We also propose Geo-Mat features that augment material information into visual cues and CRIP that improves late reverberation components in the estimated RIR via image-to-RIR retrieval by 86%. Empirical results show that AV-RIR quantitatively outperforms previous audio-only and visual-only approaches by achieving 36% - 63% improvement across various acoustic metrics in RIR estimation. Additionally, it also achieves higher preference scores in human evaluation. As an auxiliary benefit, dereverbed speech from AV-RIR shows competitive performance with the state-of-the-art in various spoken language processing tasks and outperforms reverberation time error score in the real-world AVSpeech dataset. Qualitative examples of both synthesized reverberant speech and enhanced speech can be found at https://www.youtube.com/watch?v=tTsKhviukAE.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# キャビティマグノニクスにおける結合相を通したエンジニアリング合成ゲージ場

Engineering synthetic gauge fields through the coupling phases in cavity magnonics ( http://arxiv.org/abs/2312.04915v4 )

ライセンス: Link先を確認
Alan Gardin, Guillaume Bourcin, Jeremy Bourhill, Vincent Vlaminck, Christian Person, Christophe Fumeaux, Giuseppe C. Tettamanzi, Vincent Castel, (参考訳) キャビティ・マグノニクス(Cavity Magnonics)は、光とキャビティ内の磁気系の相互作用を研究するもので、量子トランスデューサと量子メモリにとって有望なプラットフォームである。 マイクロ波では、空洞光子とマグノンの間の結合は、スピン波励起の準粒子であり、空洞の磁場とマグネットのマクロスピンの間のゼーマン相互作用の結果である。 それぞれの光子/マグノン相互作用には結合相因子が存在するが、単純な系では無視されることが多い。 しかし、モードとして少なくとも多くのカップリングが存在する「ループ結合系」では、結合相は物理学に関係し、合成ゲージ場につながる。 我々はイットリウム・アイアン・ガーネットと2つの異なる再入射キャビティからなる2つの球体を考慮し,そのような結合相の存在を実験的に証明した。 我々は結合相の値を数値的に予測し、理論と実験データの間に良い一致を見出す。 これらの結果は、空洞磁気学において、空洞を介する結合やダークモード物理学に有用な合成ゲージ場を設計できることを示している。

Cavity magnonics, which studies the interaction of light with magnetic systems in a cavity, is a promising platform for quantum transducers and quantum memories. At microwave frequencies, the coupling between a cavity photon and a magnon, the quasi-particle of a spin wave excitation, is a consequence of the Zeeman interaction between the cavity's magnetic field and the magnet's macroscopic spin. For each photon/magnon interaction, a coupling phase factor exists, but is often neglected in simple systems. However, in "loop-coupled" systems, where there are at least as many couplings as modes, the coupling phases become relevant for the physics and lead to synthetic gauge fields. We present experimental evidence of the existence of such coupling phases by considering two spheres made of Yttrium-Iron-Garnet and two different re-entrant cavities. We predict numerically the values of the coupling phases, and we find good agreement between theory and the experimental data. These results show that in cavity magnonics, one can engineer synthetic gauge fields, which can be useful for cavity-mediated coupling and engineering dark mode physics.
翻訳日:2024-04-25 16:25:00 公開日:2024-04-23
# 微調整拡散モデルに対するブラックボックスメンバーシップ推論攻撃

Black-box Membership Inference Attacks against Fine-tuned Diffusion Models ( http://arxiv.org/abs/2312.08207v4 )

ライセンス: Link先を確認
Yan Pang, Tianhao Wang, (参考訳) 拡散に基づく画像生成モデルの急速な進歩により、生成画像の品質はますますフォトリアリスティックになりつつある。 さらに、高品質なトレーニング済み画像生成モデルのリリースにより、多くのユーザーがこれらのトレーニング済みモデルをダウンロードして、さまざまな画像生成タスクのための下流データセットで微調整している。 しかし、下流タスクにそのような強力なトレーニング済みモデルを採用すると、重大なプライバシー漏洩のリスクが生じる。 本稿では,近年の拡散モデルに適した再構成型メンバシップ推論攻撃フレームワークと,より厳密なブラックボックスアクセス設定を提案する。 4つの異なる攻撃シナリオと3種類の攻撃を考えると、このフレームワークは一般的な条件付きジェネレータモデルをターゲットにし、0.95ドルの印象的なAUCによって証明された高い精度を達成することができる。

With the rapid advancement of diffusion-based image-generative models, the quality of generated images has become increasingly photorealistic. Moreover, with the release of high-quality pre-trained image-generative models, a growing number of users are downloading these pre-trained models to fine-tune them with downstream datasets for various image-generation tasks. However, employing such powerful pre-trained models in downstream tasks presents significant privacy leakage risks. In this paper, we propose the first reconstruction-based membership inference attack framework, tailored for recent diffusion models, and in the more stringent black-box access setting. Considering four distinct attack scenarios and three types of attacks, this framework is capable of targeting any popular conditional generator model, achieving high precision, evidenced by an impressive AUC of $0.95$.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# KDAS:ポリプセグメンテーションのための意識監視フレームワークによる知識蒸留

KDAS: Knowledge Distillation via Attention Supervision Framework for Polyp Segmentation ( http://arxiv.org/abs/2312.08555v3 )

ライセンス: Link先を確認
Quoc-Huy Trinh, Minh-Van Nguyen, Phuoc-Thao Vo Thi, (参考訳) 医療画像における論争的な問題であるポリプセグメンテーションでは、セグメンテーションマスクの品質向上を目的とした多くの手法が提案されている。 現在の最先端技術は印象的な結果をもたらすが、これらのモデルのサイズと計算コストは、実用的な産業アプリケーションのための課題を生み出している。 この課題に対処するために,注目の監視を取り入れた知識蒸留フレームワークであるKDASと,提案したシンメトリカルガイドモジュールを提案する。 このフレームワークは、より少ないパラメータでコンパクトな学生モデルを促進するために設計されており、教師モデルの強みを学習し、教師の特徴と生徒の特徴との整合性を緩和することができる。 より広範な実験により, 提案するコンパクトモデルは, 最先端の手法を用いて, 競合する結果を達成し, ポリープセグメンテーションや医用画像分野において高い精度でコンパクトなモデルを作成するための有望なアプローチを提供することによって, それらの強みを実証した。 実装はhttps://github.com/huyquoctrinh/KDASで公開されている。

Polyp segmentation, a contentious issue in medical imaging, has seen numerous proposed methods aimed at improving the quality of segmented masks. While current state-of-the-art techniques yield impressive results, the size and computational cost of these models create challenges for practical industry applications. To address this challenge, we present KDAS, a Knowledge Distillation framework that incorporates attention supervision, and our proposed Symmetrical Guiding Module. This framework is designed to facilitate a compact student model with fewer parameters, allowing it to learn the strengths of the teacher model and mitigate the inconsistency between teacher features and student features, a common challenge in Knowledge Distillation, via the Symmetrical Guiding Module. Through extensive experiments, our compact models demonstrate their strength by achieving competitive results with state-of-the-art methods, offering a promising approach to creating compact models with high accuracy for polyp segmentation and in the medical imaging field. The implementation is available on https://github.com/huyquoctrinh/KDAS.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# 効率的な忠実度推定:オルタナティブな導出とその応用

Efficient fidelity estimation: Alternative derivation and related applications ( http://arxiv.org/abs/2312.12438v2 )

ライセンス: Link先を確認
Diego S. Starke, Marcos L. W. Basso, Jonas Maziero, (参考訳) A. J. Baldwin と J. A. Jones は、[Phys. Rev. A 107, 012427 (2023)] において、Uhlmann-Jozsa の二つの量子状態 $\rho$ と $\sigma$,====(Tr\sqrt{\sqrt{\rho}\sigma\sqrt{\rho}})^2$ の間の忠実さが、$F(\rho,\sigma) = (Tr\sqrt{\rho\sigma})^2$ として単純形式で書けることを証明した。 本稿では、関数列展開とトレース関数の性質を用いて、この結果の代替的証明を与える。 我々のアプローチは、単純化された式の有効性を補強するだけでなく、量子状態に対する新しい相似関数や密度作用素のより複雑なトレース関数の探索も促進する。

In [Phys. Rev. A 107, 012427 (2023)], A. J. Baldwin and J. A. Jones proved that Uhlmann-Jozsa's fidelity between two quantum states $\rho$ and $\sigma$, i.e., $F(\rho,\sigma)~:=~(Tr\sqrt{\sqrt{\rho}\sigma\sqrt{\rho}})^2$, can be written in a simplified form as $F(\rho,\sigma) = (Tr\sqrt{\rho\sigma})^2$. In this article, we give an alternative proof of this result, using a function power series expansion and the properties of the trace function. Our approach not only reinforces the validity of the simplified expression but also facilitates the exploration of novel dissimilarity functions for quantum states and more complex trace functions of a density operator.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# 潜在空間におけるドメイン不変表現学習による侵入検出の改善

Improving Intrusion Detection with Domain-Invariant Representation Learning in Latent Space ( http://arxiv.org/abs/2312.17300v3 )

ライセンス: Link先を確認
Padmaksha Roy, Tyler Cody, Himanshu Singhal, Kevin Choi, Ming Jin, (参考訳) ドメインの一般化は、十分なトレーニングデータとラベルを持つ複数の関連ドメインからの知識を活用することに焦点を当て、目に見えないin-distriion(IN)とout-of-distriion(OOD)ドメインの推論を強化する。 本研究では,マルチタスク学習を用いた2相表現学習手法を提案する。 このアプローチは、ネイティブドメインとクロスドメインの両方を含む複数のドメインにまたがる機能から潜伏空間を育み、INおよびOOD領域への一般化を促進することを目的としている。 さらに,先行空間と潜時空間の相互情報の最小化により,潜時空間のアンタングル化を図り,スプリアス的特徴相関を効果的に非相関化する。 共同最適化により、ドメイン不変の機能学習が容易になる。 複数のサイバーセキュリティデータセットにまたがるモデルの有効性を評価し、未確認のINおよびOODセットの標準分類基準を用いて、同時代のドメイン一般化手法で結果を集計する。

Domain generalization focuses on leveraging knowledge from multiple related domains with ample training data and labels to enhance inference on unseen in-distribution (IN) and out-of-distribution (OOD) domains. In our study, we introduce a two-phase representation learning technique using multi-task learning. This approach aims to cultivate a latent space from features spanning multiple domains, encompassing both native and cross-domains, to amplify generalization to IN and OOD territories. Additionally, we attempt to disentangle the latent space by minimizing the mutual information between the prior and latent space, effectively de-correlating spurious feature correlations. Collectively, the joint optimization will facilitate domain-invariant feature learning. We assess the model's efficacy across multiple cybersecurity datasets, using standard classification metrics on both unseen IN and OOD sets, and juxtapose the results with contemporary domain generalization methods.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# サンプリング不変パラメトリゼーションによる平均場ゲームに対する教師なし解演算子学習

Unsupervised Solution Operator Learning for Mean-Field Games via Sampling-Invariant Parametrizations ( http://arxiv.org/abs/2401.15482v2 )

ライセンス: Link先を確認
Han Huang, Rongjie Lai, (参考訳) 近年のディープラーニングの進歩は、高次元平均場ゲーム(MFG)を正確かつ効率的に解決する多くの革新的なフレームワークを目撃してきた。 しかし、これらの手法は単一インスタンスのMFGを解くことに制限されており、インスタンス毎に広範囲な計算時間を必要とし、実用性を制限する。 そこで我々は,MFGソリューション演算子を学習するための新しいフレームワークを開発した。 我々のモデルはMFGインスタンスを入力として取り出し、1つのフォワードパスで解を出力する。 提案したパラメトリゼーションが演算子学習に適することを保証するため,本モデルに対するサンプリング不変性の概念を導入,証明し,サンプリング限界における連続演算子への収束性を確立する。 我々の方法には2つの利点がある。 第一に、離散化フリーであり、特に高次元MFGの学習演算子に適している。 第二に、教師付きラベルへのアクセスを必要とせずにトレーニングが可能で、既存のオペレータ学習メソッドでトレーニングデータセットを作成する際の計算オーバーヘッドを大幅に削減できる。 我々は、その頑健さを裏付けるために、様々な複雑さと次元を持つ合成および現実的なデータセットについて、我々のフレームワークを検証した。

Recent advances in deep learning has witnessed many innovative frameworks that solve high dimensional mean-field games (MFG) accurately and efficiently. These methods, however, are restricted to solving single-instance MFG and demands extensive computational time per instance, limiting practicality. To overcome this, we develop a novel framework to learn the MFG solution operator. Our model takes a MFG instances as input and output their solutions with one forward pass. To ensure the proposed parametrization is well-suited for operator learning, we introduce and prove the notion of sampling invariance for our model, establishing its convergence to a continuous operator in the sampling limit. Our method features two key advantages. First, it is discretization-free, making it particularly suitable for learning operators of high-dimensional MFGs. Secondly, it can be trained without the need for access to supervised labels, significantly reducing the computational overhead associated with creating training datasets in existing operator learning methods. We test our framework on synthetic and realistic datasets with varying complexity and dimensionality to substantiate its robustness.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# 非分解性性能対策のための雑音ラベルからのマルチクラス学習

Multiclass Learning from Noisy Labels for Non-decomposable Performance Measures ( http://arxiv.org/abs/2402.01055v3 )

ライセンス: Link先を確認
Mingyuan Zhang, Shivani Agarwal, (参考訳) 近年、ノイズのあるラベルを持つデータから優れた分類器を学ぶことに多くの関心が寄せられている。 ノイズの多いラベルから学習する作業の多くは、標準的な損失ベースのパフォーマンス対策に重点を置いている。 しかし、多くの機械学習問題は、個々の例における損失の期待や総和として表現できない非分解不能なパフォーマンス尺度を使用する必要があり、例えば、クラス不均衡設定におけるH平均、Q平均、G平均、情報検索におけるMicro $F_1$などである。 本稿では,2種類の広帯域非分解性性能尺度,すなわち単調凸と線形比の2種類の雑音ラベルから学習するアルゴリズムを設計する。 本研究は,Narasimhan et al (2015) のフランク=ウルフ法とバイセクション法に基づく。 どちらの場合も、広範に研究されているクラス条件ノイズモデルに基づいて、アルゴリズムのノイズ補正バージョンを開発する。 アルゴリズムはノイズの多いデータで訓練されているにもかかわらず、その性能がクリーンな(ノイズのない)分布の最適性能に収束するという意味でベイズ一貫したものであることを証明し、後悔する(過剰なリスク)境界を提供する。 実験では,ラベルノイズ処理におけるアルゴリズムの有効性を実証した。

There has been much interest in recent years in learning good classifiers from data with noisy labels. Most work on learning from noisy labels has focused on standard loss-based performance measures. However, many machine learning problems require using non-decomposable performance measures which cannot be expressed as the expectation or sum of a loss on individual examples; these include for example the H-mean, Q-mean and G-mean in class imbalance settings, and the Micro $F_1$ in information retrieval. In this paper, we design algorithms to learn from noisy labels for two broad classes of multiclass non-decomposable performance measures, namely, monotonic convex and ratio-of-linear, which encompass all the above examples. Our work builds on the Frank-Wolfe and Bisection based methods of Narasimhan et al. (2015). In both cases, we develop noise-corrected versions of the algorithms under the widely studied family of class-conditional noise models. We provide regret (excess risk) bounds for our algorithms, establishing that even though they are trained on noisy data, they are Bayes consistent in the sense that their performance converges to the optimal performance w.r.t. the clean (non-noisy) distribution. Our experiments demonstrate the effectiveness of our algorithms in handling label noise.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# OpenFOAMとSmartSimを用いた機械学習と計算流体力学の併用

Combining Machine Learning with Computational Fluid Dynamics using OpenFOAM and SmartSim ( http://arxiv.org/abs/2402.16196v2 )

ライセンス: Link先を確認
Tomislav Maric, Mohammed Elwardi Fadeli, Alessandro Rigazzi, Andrew Shao, Andre Weiner, (参考訳) 機械学習(ML)と計算流体力学(CFD)を組み合わせることで、技術的および自然システムのシミュレーションを改善する多くの可能性が開ける。 しかし、CFD+MLアルゴリズムは異種ハードウェア上でのデータ交換、同期、計算を必要とするため、大規模な問題への実装は非常に困難である。 オープンソースソフトウェア OpenFOAM と SmartSim を使って CFD+ML アルゴリズムを開発するための,効率的かつスケーラブルなソリューションを提供する。 SmartSimは、CFD+MLアルゴリズムのプログラミングを著しく単純化するOrchestratorと、MLとCFDクライアント間の高度にスケーラブルなデータ交換を保証するRedisデータベースを提供する。 我々はSmartSimを利用してOpenFOAMのさまざまなセグメントをMLに効果的に結合する方法を示し、これにはプリ/ポスト処理アプリケーション、ソルバ、関数オブジェクト、メッシュモーションソルバが含まれる。 また、CFD+MLにおける実世界のアプリケーションの出発点として使用できる例を含むOpenFOAMサブモジュールも提供します。

Combining machine learning (ML) with computational fluid dynamics (CFD) opens many possibilities for improving simulations of technical and natural systems. However, CFD+ML algorithms require exchange of data, synchronization, and calculation on heterogeneous hardware, making their implementation for large-scale problems exceptionally challenging. We provide an effective and scalable solution to developing CFD+ML algorithms using open source software OpenFOAM and SmartSim. SmartSim provides an Orchestrator that significantly simplifies the programming of CFD+ML algorithms and a Redis database that ensures highly scalable data exchange between ML and CFD clients. We show how to leverage SmartSim to effectively couple different segments of OpenFOAM with ML, including pre/post-processing applications, solvers, function objects, and mesh motion solvers. We additionally provide an OpenFOAM sub-module with examples that can be used as starting points for real-world applications in CFD+ML.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# バイオメディカル・ヘルスインフォマティクスにおける大規模言語モデル

Large Language Models in Biomedical and Health Informatics: A Bibliometric Review ( http://arxiv.org/abs/2403.16303v3 )

ライセンス: Link先を確認
Huizi Yu, Lizhou Fan, Lingyao Li, Jiayan Zhou, Zihui Ma, Lu Xian, Wenyue Hua, Sijia He, Mingyu Jin, Yongfeng Zhang, Ashvin Gandhi, Xin Ma, (参考訳) 大規模言語モデル(LLM)は、バイオメディカルおよびヘルスインフォマティクス(BHI)において急速に重要なツールとなり、データを分析し、患者を治療し、研究を行う新しい方法を可能にしている。 本書評は,2022年から2023年までの研究論文やコラボレーションネットワークを調査し,LLMがBHIでどのように使われているかを示すパノラマ的な視点を提供することを目的とする。 LLMは、医療診断、患者のエンゲージメント、電子カルテ管理、パーソナライズドメディカル医療など、さまざまなBHI領域における自然言語処理(NLP)の応用をどのように改善するかについても検討している。 これを実現するために,本書評では,重要なトレンドを特定し,研究ネットワークをマップアウトし,この急速移動分野における主要な発展点を明らかにする。 最後に、データプライバシや信頼できる医療レコメンデーションなど、BHIにおけるLLMの使用に関する倫理的懸念と実践的課題について論じる。 今後は、LLMが医療提供や患者の成果だけでなく、バイオメディカル研究をさらに変えていくかを検討する。 この文献学的レビューは、BHIにおけるLLMの現状と将来の可能性を理解するために、研究者、臨床医、政策立案者を含む医療関係者のリソースとなる。

Large Language Models (LLMs) have rapidly become important tools in Biomedical and Health Informatics (BHI), enabling new ways to analyze data, treat patients, and conduct research. This bibliometric review aims to provide a panoramic view of how LLMs have been used in BHI by examining research articles and collaboration networks from 2022 to 2023. It further explores how LLMs can improve Natural Language Processing (NLP) applications in various BHI areas like medical diagnosis, patient engagement, electronic health record management, and personalized medicine. To do this, our bibliometric review identifies key trends, maps out research networks, and highlights major developments in this fast-moving field. Lastly, it discusses the ethical concerns and practical challenges of using LLMs in BHI, such as data privacy and reliable medical recommendations. Looking ahead, we consider how LLMs could further transform biomedical research as well as healthcare delivery and patient outcomes. This bibliometric review serves as a resource for stakeholders in healthcare, including researchers, clinicians, and policymakers, to understand the current state and future potential of LLMs in BHI.
翻訳日:2024-04-25 16:15:09 公開日:2024-04-23
# 局所拡散を用いた画像翻訳における構造的幻覚への対処

Tackling Structural Hallucination in Image Translation with Local Diffusion ( http://arxiv.org/abs/2404.05980v3 )

ライセンス: Link先を確認
Seunghoi Kim, Chen Jin, Tom Diethe, Matteo Figini, Henry F. J. Tregidgo, Asher Mullokandov, Philip Teare, Daniel C. Alexander, (参考訳) 拡散モデルにおける最近の進展は、条件付き画像の生成が進んでいるが、医療画像の未確認腫瘍などのアウト・オブ・ディストリビューション(OOD)画像の再構成に苦慮し、「イメージ幻覚」を引き起こし、誤診断のリスクを負っている。 このような幻覚は条件画像中の局所的なOOD領域から生じると仮定する。 我々は、OOD領域を分割し、別々の画像生成を行うことで幻覚を軽減できることを検証する。 そこで本研究では,複数の局所拡散プロセスによる幻覚を緩和する学習自由拡散フレームワークを提案する。 アプローチでは,OOD領域内と外部の両方でローカルに生成する"ブランチ"モジュールと,これらの予測をひとつのモジュールに統合する"フュージョン"モジュールという,2つのモジュールが続く。 本手法は, 実世界の医療・自然画像データセットの40%, 25%の誤診を減らし, ベースラインモデルに対する幻覚を定量的に, 質的に緩和するものである。 また、様々な事前訓練された拡散モデルとの互換性を示す。

Recent developments in diffusion models have advanced conditioned image generation, yet they struggle with reconstructing out-of-distribution (OOD) images, such as unseen tumors in medical images, causing "image hallucination" and risking misdiagnosis. We hypothesize such hallucinations result from local OOD regions in the conditional images. We verify that partitioning the OOD region and conducting separate image generations alleviates hallucinations in several applications. From this, we propose a training-free diffusion framework that reduces hallucination with multiple Local Diffusion processes. Our approach involves OOD estimation followed by two modules: a "branching" module generates locally both within and outside OOD regions, and a "fusion" module integrates these predictions into one. Our evaluation shows our method mitigates hallucination over baseline models quantitatively and qualitatively, reducing misdiagnosis by 40% and 25% in the real-world medical and natural image datasets, respectively. It also demonstrates compatibility with various pre-trained diffusion models.
翻訳日:2024-04-25 16:15:08 公開日:2024-04-23
# IDD-X:Ego-relative important Object Localization and Explanation in Dense and Unstructured Trafficのためのマルチビューデータセット

IDD-X: A Multi-View Dataset for Ego-relative Important Object Localization and Explanation in Dense and Unstructured Traffic ( http://arxiv.org/abs/2404.08561v2 )

ライセンス: Link先を確認
Chirag Parikh, Rohit Saluja, C. V. Jawahar, Ravi Kiran Sarvadevabhatla, (参考訳) インテリジェントな車両システムは、安全かつ効率的なナビゲーションのために、道路の状態、周囲のエンティティ、およびエゴ車両の運転行動の間の相互作用を深く理解する必要がある。 これは、交通状況がしばしば密集し、異質な道路利用者で非構造化されている発展途上国において特に重要である。 既存のデータセットは、主に構造化され、スパースなトラフィックシナリオを対象としており、そのような環境での運転の複雑さを捉えていない。 このギャップを埋めるために、大規模なデュアルビュー駆動ビデオデータセットであるIDD-Xを提案する。 697Kのバウンディングボックス、9Kの重要なオブジェクトトラック、ビデオ毎の1-12のオブジェクトにより、IDD-Xは10のカテゴリと19の説明ラベルカテゴリをカバーする複数の重要なロードオブジェクトに対する包括的なエゴ相対アノテーションを提供する。 データセットにはバックビュー情報も組み込まれており、運転環境のより完全な表現を提供する。 また、複数の重要なオブジェクトのローカライゼーションとオブジェクトごとの説明予測を目的とした、カスタムデザインのディープネットワークも導入する。 総合的に、私たちのデータセットと導入した予測モデルは、複雑な交通状況下での運転行動がどのように影響するかを研究する基盤となる。

Intelligent vehicle systems require a deep understanding of the interplay between road conditions, surrounding entities, and the ego vehicle's driving behavior for safe and efficient navigation. This is particularly critical in developing countries where traffic situations are often dense and unstructured with heterogeneous road occupants. Existing datasets, predominantly geared towards structured and sparse traffic scenarios, fall short of capturing the complexity of driving in such environments. To fill this gap, we present IDD-X, a large-scale dual-view driving video dataset. With 697K bounding boxes, 9K important object tracks, and 1-12 objects per video, IDD-X offers comprehensive ego-relative annotations for multiple important road objects covering 10 categories and 19 explanation label categories. The dataset also incorporates rearview information to provide a more complete representation of the driving environment. We also introduce custom-designed deep networks aimed at multiple important object localization and per-object explanation prediction. Overall, our dataset and introduced prediction models form the foundation for studying how road conditions and surrounding entities affect driving behavior in complex traffic situations.
翻訳日:2024-04-25 16:05:24 公開日:2024-04-23
# SegFormer3D: 3次元医用画像分割のための効率的な変換器

SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation ( http://arxiv.org/abs/2404.10156v2 )

ライセンス: Link先を確認
Shehan Perera, Pouyan Navard, Alper Yilmaz, (参考訳) ビジョントランスフォーマー(ViT)ベースのアーキテクチャの採用は、3Dメディカルイメージ(MI)セグメンテーションの大幅な進歩を意味し、グローバルな文脈理解を強化することで従来の畳み込みニューラルネットワーク(CNN)モデルを上回っている。 このパラダイムシフトは3Dセグメンテーション性能を大幅に向上させたが、最先端のアーキテクチャでは、トレーニングと展開のために大規模なコンピューティングリソースを備えた、非常に大規模で複雑なアーキテクチャを必要とする。 さらに、医療画像でしばしば発生する限られたデータセットの文脈では、より大きなモデルはモデル一般化と収束の両方においてハードルを提示することができる。 これらの課題に対応し、軽量モデルが3次元医用画像の貴重な研究領域であることを実証するために、多スケールのボリューム特徴にまたがる注意を計算する階層型トランスフォーマーであるSegFormer3Dを提案する。 さらに、SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して局所的およびグローバルな注意機能を集約し、高精度なセグメンテーションマスクを生成する。 提案したメモリ効率の良いトランスフォーマーは、コンパクトな設計において、かなり大きなモデルの性能特性を保っている。 SegFormer3Dは、現在の最先端技術(SOTA)と比較して、パラメータが33倍、GFLOPSが13倍のモデルを提供することで、3D画像セグメンテーションのためのディープラーニングを民主化する。 我々は、SegFormer3DをSynapse、BRaTs、ACDCの3つの広く使われているデータセット上の現在のSOTAモデルと比較し、競争力のある結果を得た。 コード:https://github.com/OSUPCVLab/SegFormer3D.git

The adoption of Vision Transformers (ViTs) based architectures represents a significant advancement in 3D Medical Image (MI) segmentation, surpassing traditional Convolutional Neural Network (CNN) models by enhancing global contextual understanding. While this paradigm shift has significantly enhanced 3D segmentation performance, state-of-the-art architectures require extremely large and complex architectures with large scale computing resources for training and deployment. Furthermore, in the context of limited datasets, often encountered in medical imaging, larger models can present hurdles in both model generalization and convergence. In response to these challenges and to demonstrate that lightweight models are a valuable area of research in 3D medical imaging, we present SegFormer3D, a hierarchical Transformer that calculates attention across multiscale volumetric features. Additionally, SegFormer3D avoids complex decoders and uses an all-MLP decoder to aggregate local and global attention features to produce highly accurate segmentation masks. The proposed memory efficient Transformer preserves the performance characteristics of a significantly larger model in a compact design. SegFormer3D democratizes deep learning for 3D medical image segmentation by offering a model with 33x less parameters and a 13x reduction in GFLOPS compared to the current state-of-the-art (SOTA). We benchmark SegFormer3D against the current SOTA models on three widely used datasets Synapse, BRaTs, and ACDC, achieving competitive results. Code: https://github.com/OSUPCVLab/SegFormer3D.git
翻訳日:2024-04-25 16:05:24 公開日:2024-04-23
# 拡張時系列予測のための量子畳み込みニューラルネットワークのフーリエシリーズガイド設計

Fourier Series Guided Design of Quantum Convolutional Neural Networks for Enhanced Time Series Forecasting ( http://arxiv.org/abs/2404.15377v1 )

ライセンス: Link先を確認
Sandra Leticia Juárez Osorio, Mayra Alejandra Rivera Ruiz, Andres Mendez-Vazquez, Eduardo Rodriguez-Tello, (参考訳) 本研究では,時系列予測の課題に1次元量子畳み込みを適用した。 複数の点を量子回路に符号化して後続のデータを予測することで、各点が特徴となり、問題を多次元に変換する。 可変量子回路(VQC)を多次元フーリエ級数として表現できることを実証した先行研究の理論的基礎に基づいて、異なるアーキテクチャとアンザッツの能力について検討する。 この分析は、回路表現可能性の概念とバレンプラトーの存在を考察する。 Fourierシリーズのフレームワーク内での問題を分析することで、データ再アップロードを組み込んだアーキテクチャの設計が可能となり、パフォーマンスが向上した。 フーリエ級数の自由度を超える自由パラメータの数に対する厳密な要件ではなく、限られた数のパラメータでさえ高い次数のフーリエ函数を生成できることを示す。 これは量子回路の顕著な表現力を強調している。 この観察は、トレーニング時間を短縮する上でも重要である。 表現性が高く、非ゼロフーリエ係数の数が多いアンサッツは、キュービット数が増加するにつれてパフォーマンス指標が向上するなど、異なるシナリオで常に良好な結果をもたらす。

In this study, we apply 1D quantum convolution to address the task of time series forecasting. By encoding multiple points into the quantum circuit to predict subsequent data, each point becomes a feature, transforming the problem into a multidimensional one. Building on theoretical foundations from prior research, which demonstrated that Variational Quantum Circuits (VQCs) can be expressed as multidimensional Fourier series, we explore the capabilities of different architectures and ansatz. This analysis considers the concepts of circuit expressibility and the presence of barren plateaus. Analyzing the problem within the framework of the Fourier series enabled the design of an architecture that incorporates data reuploading, resulting in enhanced performance. Rather than a strict requirement for the number of free parameters to exceed the degrees of freedom of the Fourier series, our findings suggest that even a limited number of parameters can produce Fourier functions of higher degrees. This highlights the remarkable expressive power of quantum circuits. This observation is also significant in reducing training times. The ansatz with greater expressibility and number of non-zero Fourier coefficients consistently delivers favorable results across different scenarios, with performance metrics improving as the number of qubits increases.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-23
# 階層型ハイブリッドスライスワッサースタイン:不均一な関節分布のスケーラブルな計量

Hierarchical Hybrid Sliced Wasserstein: A Scalable Metric for Heterogeneous Joint Distributions ( http://arxiv.org/abs/2404.15378v1 )

ライセンス: Link先を確認
Khai Nguyen, Nhat Ho, (参考訳) Sliced Wasserstein (SW) と Generalized Sliced Wasserstein (GSW) は、その計算的および統計的スケーラビリティのために、アプリケーションで広く使われている。 しかし、SW と GSW は同質領域でサポートされている分布の間でのみ定義される。 この制限は、複数の異なる領域でサポートされている境界分布を持つ不均一な関節分布を持つアプリケーションにおいて、それらの使用を妨げている。 関節領域上でSWとGSWを直接使用すると、同種スライシング演算子、すなわちRadon Transform(RT)とGeneralized Radon Transform(GRT)が関節支持集合の構造を捉えるのに十分表現できないため、意味のある比較はできない。 この問題に対処するため, 部分一般化ラドン変換 (PGRT) と階層ハイブリッドラドン変換 (HHRT) という2つの新しいスライシング演算子を提案する。 PGRT は部分ラドン変換 (Partial Radon Transform, PRT) の一般化であり、HHRT は PRT と複数のドメイン固有の PGRT の合成である。 HHRTを用いて、SWを階層型ハイブリッドスライスワッサースタイン(H2SW)距離に拡張し、異種関節分布の比較に特化して設計する。 次に、H2SWの位相的、統計的、および計算的性質について議論する。 最後に,3次元メッシュ変形,深部3次元メッシュオートエンコーダ,データセット比較におけるH2SWの性能を示す。

Sliced Wasserstein (SW) and Generalized Sliced Wasserstein (GSW) have been widely used in applications due to their computational and statistical scalability. However, the SW and the GSW are only defined between distributions supported on a homogeneous domain. This limitation prevents their usage in applications with heterogeneous joint distributions with marginal distributions supported on multiple different domains. Using SW and GSW directly on the joint domains cannot make a meaningful comparison since their homogeneous slicing operator i.e., Radon Transform (RT) and Generalized Radon Transform (GRT) are not expressive enough to capture the structure of the joint supports set. To address the issue, we propose two new slicing operators i.e., Partial Generalized Radon Transform (PGRT) and Hierarchical Hybrid Radon Transform (HHRT). In greater detail, PGRT is the generalization of Partial Radon Transform (PRT), which transforms a subset of function arguments non-linearly while HHRT is the composition of PRT and multiple domain-specific PGRT on marginal domain arguments. By using HHRT, we extend the SW into Hierarchical Hybrid Sliced Wasserstein (H2SW) distance which is designed specifically for comparing heterogeneous joint distributions. We then discuss the topological, statistical, and computational properties of H2SW. Finally, we demonstrate the favorable performance of H2SW in 3D mesh deformation, deep 3D mesh autoencoders, and datasets comparison.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-23
# 時間的配列のクラスタリング --ケア経路の解析への応用-

Clustering of timed sequences -- Application to the analysis of care pathways ( http://arxiv.org/abs/2404.15379v1 )

ライセンス: Link先を確認
Thomas Guyet, Pierre Pinson, Enoal Gesny, (参考訳) 医療の未来は、病院における現在の実践をよりよく理解することから始まる。 これは、患者データから典型的なケア経路を発見することの目的である。 ケアパスの均質なグループを探索することは、クラスタリングによって達成できる。 タイムスタンプされたイベントのシーケンスで表されるクラスタリングケアパスの難しさは、意味的に適切なメトリックとクラスタリングアルゴリズムを定義することである。 本稿では,Drop-DTW メトリックと DBA アプローチという,時系列から時系列へ展開する2つの手法を,平均時間列の構築に適用する。 これらの手法をクラスタリングアルゴリズムに適用し、時間付きシーケンスのオリジナルおよびサウンドクラスタリングアルゴリズムを提案する。 このアプローチは、合成および実際のユースケースで実験的に評価され、評価される。

Improving the future of healthcare starts by better understanding the current actual practices in hospitals. This motivates the objective of discovering typical care pathways from patient data. Revealing homogeneous groups of care pathways can be achieved through clustering. The difficulty in clustering care pathways, represented by sequences of timestamped events, lies in defining a semantically appropriate metric and clustering algorithms. In this article, we adapt two methods developed for time series to time sequences: the drop-DTW metric and the DBA approach for the construction of averaged time sequences. These methods are then applied in clustering algorithms to propose original and sound clustering algorithms for timed sequences. This approach is experimented with and evaluated on synthetic and real use cases.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-23
# ControlTraj: 位相制約拡散モデルによる制御可能な軌道生成

ControlTraj: Controllable Trajectory Generation with Topology-Constrained Diffusion Model ( http://arxiv.org/abs/2404.15380v1 )

ライセンス: Link先を確認
Yuanshao Zhu, James Jianqiao Yu, Xiangyu Zhao, Qidong Liu, Yongchao Ye, Wei Chen, Zijian Zhang, Xuetao Wei, Yuxuan Liang, (参考訳) トラジェクトリデータの生成は、プライバシー問題、収集コスト、そして人間のモビリティ分析に関連するプロプライエタリな制約に対処するための有望な解決策の1つである。 しかし、既存の軌道生成法は、人間の活動の固有の多様性と予測不可能さのためにまだ初期段階にあり、忠実さ、柔軟性、一般化可能性といった問題に悩まされている。 これらの障害を克服するために,トポロジ制約付き拡散モデルを用いた制御可能なトラジェクトリ生成フレームワークである ControlTraj を提案する。 ControlTrajは、従来のアプローチとは違い、拡散モデルを用いて、道路ネットワークトポロジの構造的制約を統合しながら、高忠実度軌道を生成する。 具体的には,道路セグメントの微細な埋め込みを抽出する新しい道路セグメントオートエンコーダを開発する。 符号化された特徴と旅行属性は、後にGeoUNetと呼ばれる提案された地理的デノナイズされたUNetアーキテクチャにマージされ、ホワイトノイズから地理的トラジェクトリを合成する。 ControlTrajは、現実世界の3つのデータ設定の実験を通じて、探索されていない地理的コンテキストに適応可能な、人間指向の高忠実な軌道生成を生成できることを実証する。

Generating trajectory data is among promising solutions to addressing privacy concerns, collection costs, and proprietary restrictions usually associated with human mobility analyses. However, existing trajectory generation methods are still in their infancy due to the inherent diversity and unpredictability of human activities, grappling with issues such as fidelity, flexibility, and generalizability. To overcome these obstacles, we propose ControlTraj, a Controllable Trajectory generation framework with the topology-constrained diffusion model. Distinct from prior approaches, ControlTraj utilizes a diffusion model to generate high-fidelity trajectories while integrating the structural constraints of road network topology to guide the geographical outcomes. Specifically, we develop a novel road segment autoencoder to extract fine-grained road segment embedding. The encoded features, along with trip attributes, are subsequently merged into the proposed geographic denoising UNet architecture, named GeoUNet, to synthesize geographic trajectories from white noise. Through experimentation across three real-world data settings, ControlTraj demonstrates its ability to produce human-directed, high-fidelity trajectory generation with adaptability to unexplored geographical contexts.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-23
# ファウンデーションモデルによるフェデレーションラーニングの進展とオープンチャレンジ

Advances and Open Challenges in Federated Learning with Foundation Models ( http://arxiv.org/abs/2404.15381v1 )

ライセンス: Link先を確認
Chao Ren, Han Yu, Hongyi Peng, Xiaoli Tang, Anran Li, Yulan Gao, Alysa Ziying Tan, Bo Zhao, Xiaoxiao Li, Zengxiang Li, Qiang Yang, (参考訳) ファンデーションモデル(FM)とフェデレートラーニング(FL)の統合は、プライバシ、データ分散化、計算効率に関する懸念に対処しながら、強化された能力を提供する人工知能(AI)において、変革的なパラダイムを提供する。 本稿では,フェデレーション・ファンデーション・モデル (FedFM) の新興分野を包括的に調査し,そのシナジスティックな関係を解明し,基礎モデルの発展に向け,FL研究分野が集中する必要がある新たな方法論,課題,今後の方向性を探求する。 モデルトレーニング、アグリゲーション、信頼性、インセンティブ化のための既存のFedFMアプローチを分類し、体系的な多層分類を提案する。 FLの計算要求の複雑さへの対処、プライバシーの考慮、コントリビューション評価、通信効率など、主な課題について詳しく論じる。 さらに、FLによるトレーニング/微調整FMに固有の通信、スケーラビリティ、セキュリティの複雑な課題について検討し、トレーニング、推論、最適化、データ暗号化プロセスに革命をもたらす量子コンピューティングの可能性を強調した。 この調査は、FedFMにおけるイノベーションを促進するためのさらなる研究の重要性を強調し、信頼できるソリューションを開発する必要性を強調している。 これは、この学際的で急速に進歩する分野に貢献することに興味を持つ研究者や実践者のための基礎的なガイドとして機能する。

The integration of Foundation Models (FMs) with Federated Learning (FL) presents a transformative paradigm in Artificial Intelligence (AI), offering enhanced capabilities while addressing concerns of privacy, data decentralization, and computational efficiency. This paper provides a comprehensive survey of the emerging field of Federated Foundation Models (FedFM), elucidating their synergistic relationship and exploring novel methodologies, challenges, and future directions that the FL research field needs to focus on in order to thrive in the age of foundation models. A systematic multi-tiered taxonomy is proposed, categorizing existing FedFM approaches for model training, aggregation, trustworthiness, and incentivization. Key challenges, including how to enable FL to deal with high complexity of computational demands, privacy considerations, contribution evaluation, and communication efficiency, are thoroughly discussed. Moreover, the paper explores the intricate challenges of communication, scalability and security inherent in training/fine-tuning FMs via FL, highlighting the potential of quantum computing to revolutionize the training, inference, optimization and data encryption processes. This survey underscores the importance of further research to propel innovation in FedFM, emphasizing the need for developing trustworthy solutions. It serves as a foundational guide for researchers and practitioners interested in contributing to this interdisciplinary and rapidly advancing field.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-23
# 侵入検知のためのコントラスト前処理による特徴分布シフト緩和

Feature Distribution Shift Mitigation with Contrastive Pretraining for Intrusion Detection ( http://arxiv.org/abs/2404.15382v1 )

ライセンス: Link先を確認
Weixing Wang, Haojin Yang, Christoph Meinel, Hasan Yagiz Özkan, Cristian Bermudez Serna, Carmen Mas-Machuca, (参考訳) 近年,機械学習(ML),特にディープラーニング(DL)を用いてネットワーク侵入検出(NID)問題を解決することへの関心が高まっている。 しかし、時間とともに特徴分布の変化がモデルの性能に悪影響を及ぼすため、特徴分布シフト問題は依然として困難である。 1つの有望な解決策として、モデル事前訓練は、特徴分布シフトに対する堅牢性をもたらす新しいトレーニングパラダイムとして現れ、コンピュータビジョン(CV)と自然言語処理(NLP)で成功している。 このパラダイムがNID問題に有用かどうかを検証するため,NIDの文脈におけるMLモデルであるSwapConを提案する。 京都2006+データセットを用いて特徴分布シフトの証拠を実証する。 適切なサイズでモデルを事前学習することで,特徴分布シフトに対するロバスト性が8%以上向上することを示す。 さらに,適切な数値埋め込み戦略により,事前学習モデルの性能が向上することを示す。 さらに,提案したSwapConモデルでは,eXtreme Gradient Boosting (XGBoost) とK-Nearest Neighbor (KNN) を大きなマージンで比較した。

In recent years, there has been a growing interest in using Machine Learning (ML), especially Deep Learning (DL) to solve Network Intrusion Detection (NID) problems. However, the feature distribution shift problem remains a difficulty, because the change in features' distributions over time negatively impacts the model's performance. As one promising solution, model pretraining has emerged as a novel training paradigm, which brings robustness against feature distribution shift and has proven to be successful in Computer Vision (CV) and Natural Language Processing (NLP). To verify whether this paradigm is beneficial for NID problem, we propose SwapCon, a ML model in the context of NID, which compresses shift-invariant feature information during the pretraining stage and refines during the finetuning stage. We exemplify the evidence of feature distribution shift using the Kyoto2006+ dataset. We demonstrate how pretraining a model with the proper size can increase robustness against feature distribution shifts by over 8%. Moreover, we show how an adequate numerical embedding strategy also enhances the performance of pretrained models. Further experiments show that the proposed SwapCon model also outperforms eXtreme Gradient Boosting (XGBoost) and K-Nearest Neighbor (KNN) based models by a large margin.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# WANDR:インテンション誘導型ヒューマンモーションジェネレーション

WANDR: Intention-guided Human Motion Generation ( http://arxiv.org/abs/2404.15383v1 )

ライセンス: Link先を確認
Markos Diomataris, Nikos Athanasiou, Omid Taheri, Xi Wang, Otmar Hilliges, Michael J. Black, (参考訳) 自然の人間の動きを合成することで、人間のアバターが歩けるようにし、3D空間で任意の目標を達成することは、多くの応用において未解決の問題である。 既存の手法(データ駆動学習、強化学習)は、一般化と運動自然性の点で制限されている。 主な障害は、ロコモーションとゴールリーチを組み合わせたトレーニングデータの不足である。 そこで本研究では,アバターの初期ポーズとゴールの3D位置を取り,ゴール位置にエンドエフェクタを配置する自然な人間の動きを生成するデータ駆動モデルWANDRを紹介する。 そこで本研究では,リッチな目標志向運動を駆動する新たな意図的特徴を導入する。 インテンションはエージェントをゴールに誘導し、サブゴールやモーションパス全体を定義することなく、新しい状況にインタラクティブに世代を適応させる。 重要なこととして、意図はゴール指向のモーションを持つデータセットと、そうでないデータセットのトレーニングを可能にする。 WANDRは条件付き変分自動エンコーダ(c-VAE)であり、AMASSとCIRCLEデータセットを使用してトレーニングする。 提案手法を広範に評価し,3次元目標に到達し,未知の目標地点に一般化する自然および長期の動作を生成する能力を示す。 私たちのモデルとコードは、wandr.is.tue.mpg.deで研究目的で利用可能です。

Synthesizing natural human motions that enable a 3D human avatar to walk and reach for arbitrary goals in 3D space remains an unsolved problem with many applications. Existing methods (data-driven or using reinforcement learning) are limited in terms of generalization and motion naturalness. A primary obstacle is the scarcity of training data that combines locomotion with goal reaching. To address this, we introduce WANDR, a data-driven model that takes an avatar's initial pose and a goal's 3D position and generates natural human motions that place the end effector (wrist) on the goal location. To solve this, we introduce novel intention features that drive rich goal-oriented movement. Intention guides the agent to the goal, and interactively adapts the generation to novel situations without needing to define sub-goals or the entire motion path. Crucially, intention allows training on datasets that have goal-oriented motions as well as those that do not. WANDR is a conditional Variational Auto-Encoder (c-VAE), which we train using the AMASS and CIRCLE datasets. We evaluate our method extensively and demonstrate its ability to generate natural and long-term motions that reach 3D goals and generalize to unseen goal locations. Our models and code are available for research purposes at wandr.is.tue.mpg.de.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# FL-TAC:低ランクタスク特化アダプタクラスタリングによるフェデレーション学習におけるファインチューニングの強化

FL-TAC: Enhanced Fine-Tuning in Federated Learning via Low-Rank, Task-Specific Adapter Clustering ( http://arxiv.org/abs/2404.15384v1 )

ライセンス: Link先を確認
Siqi Ping, Yuzhu Mao, Yang Liu, Xiao-Ping Zhang, Wenbo Ding, (参考訳) 大規模な事前学習モデルでは、微調整により下流タスクに適応する大きな可能性を秘めているが、そのような微調整モデルの性能は、十分な高品質なタスク固有データを集めることの難しさによって制限されることが多い。 Federated Learning (FL) は,さまざまなタスクデータを持つ大規模クライアント間の微調整を可能にすることで,有望なソリューションを提供する。 本稿では,FLフレームワーク内の大規模事前学習モデルを低ランク微調整により微調整する際の通信コストについて述べる。 具体的には、クライアント側の各タスクに対して低ランクのアダプタをトレーニングし、それに続いてサーバ側のクラスタリングを行い、類似のアダプタ群に対してタスク固有のアグリゲーションを実現する。 GLUE や CIFAR-10/100 などの様々な言語および視覚タスクに関する広範な実験により、FL トレーニングプロセス全体を通してタスク固有アダプタの進化を明らかにし、提案した低ランクタスク固有アダプタクラスタリング(TAC)法の有効性を検証する。

Although large-scale pre-trained models hold great potential for adapting to downstream tasks through fine-tuning, the performance of such fine-tuned models is often limited by the difficulty of collecting sufficient high-quality, task-specific data. Federated Learning (FL) offers a promising solution by enabling fine-tuning across large-scale clients with a variety of task data, but it is bottlenecked by significant communication overhead due to the pre-trained models' extensive size. This paper addresses the high communication cost for fine-tuning large pre-trained models within FL frameworks through low-rank fine-tuning. Specifically, we train a low-rank adapter for each individual task on the client side, followed by server-side clustering for similar group of adapters to achieve task-specific aggregation. Extensive experiments on various language and vision tasks, such as GLUE and CIFAR-10/100, reveal the evolution of task-specific adapters throughout the FL training process and verify the effectiveness of the proposed low-rank task-specific adapter clustering (TAC) method.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 集団誤差の総和:生体認証におけるバイアス評価と2次元測定の批判的検討

Sum of Group Error Differences: A Critical Examination of Bias Evaluation in Biometric Verification and a Dual-Metric Measure ( http://arxiv.org/abs/2404.15385v1 )

ライセンス: Link先を確認
Alaa Elobaid, Nathan Ramoly, Lara Younes, Symeon Papadopoulos, Eirini Ntoutsi, Ioannis Kompatsiaris, (参考訳) バイオメトリック検証(BV)システムは、しばしば異なる集団間で精度の相違を示し、BVアプリケーションにバイアスをもたらす。 これらのバイアスを評価し定量化することは、BVシステムの公平性を保証するために不可欠である。 しかしながら、BVの既存のバイアス評価指標には、マッチまたは非マッチエラー率にのみフォーカスする、パフォーマンスレベルが最高と最悪のパフォーマンスレベルの間で低下する人口集団のバイアスを見渡す、現在のバイアスの大きさを無視する、といった制限がある。 本稿では,BVにおける現在のバイアス評価指標の限界を詳細に分析し,その文脈的適合性,メリット,限界を実験的に示す。 さらに、新しい汎用バイアス評価尺度である ``Sum of Group Error differences (SEDG)' を導入する。 制御された合成データセットに対する実験結果は,既存の指標と提案した測定値を用いて,人口統計学的偏りの定量化の有効性を示した。 シミュレーションされた階層的バイアスシナリオの集合におけるバイアス評価指標の適用性について論じ,シナリオベースのメトリクスレコメンデーションを提供する。 我々のコードは \url{https://github.com/alaaobeid/SEDG} で公開されている。

Biometric Verification (BV) systems often exhibit accuracy disparities across different demographic groups, leading to biases in BV applications. Assessing and quantifying these biases is essential for ensuring the fairness of BV systems. However, existing bias evaluation metrics in BV have limitations, such as focusing exclusively on match or non-match error rates, overlooking bias on demographic groups with performance levels falling between the best and worst performance levels, and neglecting the magnitude of the bias present. This paper presents an in-depth analysis of the limitations of current bias evaluation metrics in BV and, through experimental analysis, demonstrates their contextual suitability, merits, and limitations. Additionally, it introduces a novel general-purpose bias evaluation measure for BV, the ``Sum of Group Error Differences (SEDG)''. Our experimental results on controlled synthetic datasets demonstrate the effectiveness of demographic bias quantification when using existing metrics and our own proposed measure. We discuss the applicability of the bias evaluation metrics in a set of simulated demographic bias scenarios and provide scenario-based metric recommendations. Our code is publicly available under \url{https://github.com/alaaobeid/SEDG}.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# データ駆動型深層学習による配水ネットワーク評価のための大規模多目的ベンチマークデータセット

Large-Scale Multipurpose Benchmark Datasets For Assessing Data-Driven Deep Learning Approaches For Water Distribution Networks ( http://arxiv.org/abs/2404.15386v1 )

ライセンス: Link先を確認
Andres Tello, Huy Truong, Alexander Lazovik, Victoria Degeler, (参考訳) 現在、研究者がデータ駆動型ディープラーニングアプローチを評価するためにすぐに使用できる一般的なベンチマークデータセットの数は、非常に限られています。 ほとんどの研究は構成ファイルとしてデータを提供する。 各実践者は、特定のデータ生成方法に従い、計算集約的なシミュレーションを実行し、モデルトレーニングと評価に使用可能なデータを得る必要がある。 本研究では,Anytown, Modena, Balerma, C-Town, D-Town, L-Town, Ky1, Ky6, Ky8, Ky13など,いくつかの小規模かつ中規模で利用可能な水分散ネットワーク(WDN)を含むデータセットのコレクションを提供する。 通常の条件下で運用されているWDNの合計1,394,400時間がコミュニティで利用可能である。

Currently, the number of common benchmark datasets that researchers can use straight away for assessing data-driven deep learning approaches is very limited. Most studies provide data as configuration files. It is still up to each practitioner to follow a particular data generation method and run computationally intensive simulations to obtain usable data for model training and evaluation. In this work, we provide a collection of datasets that includes several small and medium size publicly available Water Distribution Networks (WDNs), including Anytown, Modena, Balerma, C-Town, D-Town, L-Town, Ky1, Ky6, Ky8, and Ky13. In total 1,394,400 hours of WDNs data operating under normal conditions is made available to the community.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 食品中のマイコトキシン検出における機械学習の応用

Machine Learning Applied to the Detection of Mycotoxin in Food: A Review ( http://arxiv.org/abs/2404.15387v1 )

ライセンス: Link先を確認
Alan Inglis, Andrew Parnell, Natarajan Subramani, Fiona Doohan, (参考訳) 特定の菌類によって産生される毒性二次代謝物であるマイコトキシンは、世界的な食品安全と公衆衛生に重大な脅威をもたらす。 これらの化合物は様々な作物を汚染し、経済的な損失と人間と動物の両方に健康リスクをもたらす。 従来のマイコトキシン検出法は時間がかかり、大規模なスクリーニングには必ずしも適していない。 しかし近年、機械学習(ML)手法は、その正確でタイムリーな予測のため、マイコトキシンの検出や食品安全産業全般での利用に人気を集めている。 各種食品成分にマイコトキシンが存在することを検出・予測するための最近のML応用の体系的なレビューを行い,その利点,課題,今後の進歩の可能性を明らかにする。 我々は、データやコードへのオープンアクセスを通じて、ML研究における再現性と透明性の必要性に対処する。 本研究から得られた知見は,多くの研究においてハイパーパラメータに関する詳細な報告の欠如と,オープンソースコードの欠如が頻繁であり,MLモデルの再現性と最適化に関する懸念を提起するものである。 研究の大半はマイコトキシン検出にニューラルネットワークを利用したが、ニューラルネットワークアーキテクチャのタイプには顕著な多様性があり、畳み込みニューラルネットワークが最も人気である。

Mycotoxins, toxic secondary metabolites produced by certain fungi, pose significant threats to global food safety and public health. These compounds can contaminate a variety of crops, leading to economic losses and health risks to both humans and animals. Traditional lab analysis methods for mycotoxin detection can be time-consuming and may not always be suitable for large-scale screenings. However, in recent years, machine learning (ML) methods have gained popularity for use in the detection of mycotoxins and in the food safety industry in general, due to their accurate and timely predictions. We provide a systematic review on some of the recent ML applications for detecting/predicting the presence of mycotoxin on a variety of food ingredients, highlighting their advantages, challenges, and potential for future advancements. We address the need for reproducibility and transparency in ML research through open access to data and code. An observation from our findings is the frequent lack of detailed reporting on hyperparameters in many studies as well as a lack of open source code, which raises concerns about the reproducibility and optimisation of the ML models used. The findings reveal that while the majority of studies predominantly utilised neural networks for mycotoxin detection, there was a notable diversity in the types of neural network architectures employed, with convolutional neural networks being the most popular.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 局所モデルと非局所モデルの結合のためのMLによるインタフェース領域の同定

ML-based identification of the interface regions for coupling local and nonlocal models ( http://arxiv.org/abs/2404.15388v1 )

ライセンス: Link先を確認
Noujoud Nader, Patrick Diehl, Marta D'Elia, Christian Glusa, Serge Prudhomme, (参考訳) 局所非局所カップリングアプローチは、局所モデルの計算効率と非局所モデルの精度を組み合わせる。 しかし、結合プロセスは困難であり、局所領域と非局所領域のインターフェースを特定する専門知識が必要である。 本研究では、局所モデルと非局所モデルが結合アプローチで使用されるべき領域を自動的に検出する機械学習アプローチを提案する。 この識別プロセスはロード関数を使用し、選択したモデルをグリッドポイントで出力する。 トレーニングは、参照結合構成を正確な結合解を用いて計算するロード関数のデータセットに基づいており、解とカップリングアプローチの相対誤差と非局所モデルとの解との相対誤差から精度を計測する。 データ構造の観点から異なる2つのアプローチについて検討する。 最初のアプローチはフルドメイン入力データアプローチと呼ばれ、フルロードベクターを入力し、フルラベルベクターを出力する。 この場合、世界規模で分類処理が行われる。 第2のアプローチは、ロードを前処理してウィンドウに分割するウィンドウベースのアプローチと、各ウィンドウの中心点を個別に扱うノードワイズ分類アプローチからなる。 分類問題は畳み込みニューラルネットワークに基づくディープラーニングアルゴリズムによって解決される。 これらの手法の性能をF1スコアと精度測定値を用いて一次元数値例で検討した。 特に、ウィンドウリング手法は有望な結果をもたらし、精度は0.96、F1スコアは0.97である。 これらの結果は、カップリングプロセスを自動化するアプローチの可能性を強調し、物質科学応用のためのより正確で計算効率の良いソリューションを生み出した。

Local-nonlocal coupling approaches combine the computational efficiency of local models and the accuracy of nonlocal models. However, the coupling process is challenging, requiring expertise to identify the interface between local and nonlocal regions. This study introduces a machine learning-based approach to automatically detect the regions in which the local and nonlocal models should be used in a coupling approach. This identification process uses the loading functions and provides as output the selected model at the grid points. Training is based on datasets of loading functions for which reference coupling configurations are computed using accurate coupled solutions, where accuracy is measured in terms of the relative error between the solution to the coupling approach and the solution to the nonlocal model. We study two approaches that differ from one another in terms of the data structure. The first approach, referred to as the full-domain input data approach, inputs the full load vector and outputs a full label vector. In this case, the classification process is carried out globally. The second approach consists of a window-based approach, where loads are preprocessed and partitioned into windows and the problem is formulated as a node-wise classification approach in which the central point of each window is treated individually. The classification problems are solved via deep learning algorithms based on convolutional neural networks. The performance of these approaches is studied on one-dimensional numerical examples using F1-scores and accuracy metrics. In particular, it is shown that the windowing approach provides promising results, achieving an accuracy of 0.96 and an F1-score of 0.97. These results underscore the potential of the approach to automate coupling processes, leading to more accurate and computationally efficient solutions for material science applications.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 視覚タスクに最適化された変分オートエンコーダの潜時表現の不確かさ

Uncertainty in latent representations of variational autoencoders optimized for visual tasks ( http://arxiv.org/abs/2404.15390v1 )

ライセンス: Link先を確認
Josefina Catoni, Enzo Ferrante, Diego H. Milone, Rodrigo Echeveste, (参考訳) 深層学習の手法は、神経科学のモデリングツールとして、神経反応と知覚や行動の間の橋渡しに最適な原理を採用するようになってきています。 しかし、不確かさを適切に表現するモデルを開発することは、しばしば校正問題に悩まされるディープラーニング手法にとって困難である。 これは特に、後進平均や最大 a アフターイのような単一点推定を越えて、ベイズ推定の観点から皮質回路をモデル化する際、難しい。 本研究では,変分オートエンコーダ(VAE)の潜時表現における不確実性表現を,自然画像からの知覚的タスクとコンピュータビジョンの他の2つの標準的なタスクの両方において系統的に研究し,不確実性と情報性,曖昧性の両立を見いだした。 次に、我々がEA-VAEと呼ばれる新しい手法でこれらの問題を解決し、補間、画像の破損、さらには分布外検出など、様々なシナリオにおける不確実性についての有意義な報告を生み出す方法を示した。 EA-VAEは計算神経科学の知覚モデルやコンピュータビジョンの推論ツールとして有用であることを示す。

Deep learning methods are increasingly becoming instrumental as modeling tools in computational neuroscience, employing optimality principles to build bridges between neural responses and perception or behavior. Developing models that adequately represent uncertainty is however challenging for deep learning methods, which often suffer from calibration problems. This constitutes a difficulty in particular when modeling cortical circuits in terms of Bayesian inference, beyond single point estimates such as the posterior mean or the maximum a posteriori. In this work we systematically studied uncertainty representations in latent representations of variational auto-encoders (VAEs), both in a perceptual task from natural images and in two other canonical tasks of computer vision, finding a poor alignment between uncertainty and informativeness or ambiguities in the images. We next showed how a novel approach which we call explaining-away variational auto-encoders (EA-VAEs), fixes these issues, producing meaningful reports of uncertainty in a variety of scenarios, including interpolation, image corruption, and even out-of-distribution detection. We show EA-VAEs may prove useful both as models of perception in computational neuroscience and as inference tools in computer vision.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 作物収量予測のためのナイーブ湾とランダム林

Naïve Bayes and Random Forest for Crop Yield Prediction ( http://arxiv.org/abs/2404.15392v1 )

ライセンス: Link先を確認
Abbas Maazallahi, Sreehari Thota, Naga Prasad Kondaboina, Vineetha Muktineni, Deepthi Annem, Abhi Stephen Rokkam, Mohammad Hossein Amini, Mohammad Amir Salari, Payam Norouzzadeh, Eli Snir, Bahareh Rahmani, (参考訳) 本研究は、1997年から2020年までのインドにおける作物収量予測を、様々な作物や重要な環境要因に着目して分析した。 線形回帰、決定木、KNN、Na\"ive Bayes、K-Mean Clustering、Random Forestといった先進的な機械学習技術を活用して、農業の収量を予測することを目的としている。 モデル、特に「Na\」ベイズとランダムフォレストは、データビジュアライゼーションで示されているように、高い有効性を示している。 本研究は,これらの分析手法を統合することにより,収量予測の精度と信頼性が著しく向上し,農業データ科学への重要な貢献が期待できると結論付けた。

This study analyzes crop yield prediction in India from 1997 to 2020, focusing on various crops and key environmental factors. It aims to predict agricultural yields by utilizing advanced machine learning techniques like Linear Regression, Decision Tree, KNN, Na\"ive Bayes, K-Mean Clustering, and Random Forest. The models, particularly Na\"ive Bayes and Random Forest, demonstrate high effectiveness, as shown through data visualizations. The research concludes that integrating these analytical methods significantly enhances the accuracy and reliability of crop yield predictions, offering vital contributions to agricultural data science.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# ブールXORのリバースを用いた共振器型バイオメトリックテンプレートの生成について

On Generating Cancelable Biometric Template using Reverse of Boolean XOR ( http://arxiv.org/abs/2404.15394v1 )

ライセンス: Link先を確認
Manisha, Nitin Kumar, (参考訳) Cancelable Biometricは、元のBiometricイメージに反復的歪みを埋め込んで、不正アクセスから保護する。 本稿では,Reverse Boolean XOR を用いた Cancelable Biometric template を作成した。 Visual Secret Sharingスキームに基づくCancelable Biometric templatesの生成には,3つの異なる方法が提案されている。 それぞれの方法において、1つのシークレット画像とn-1カバー画像を使用する: (M1) 1つのオリジナルバイオメトリック画像(Secret)とn-1がランダムに選択されたグレイカバー画像(M2) n-1カバー画像は、元のシークレット画像(M3) 1つのシークレット画像とn-1カバー画像の両方がランダムに変化する。 ORL FaceデータベースとIIT Delhi Irisデータベースで実験が行われた。 提案手法の性能は,コリレーション係数 (Cr), 平均角誤差 (MSE), 平均絶対誤差 (MAE), 構造類似度 (SSIM), ピーク信号対雑音比 (PSNR), 画素数変化率 (NPCR), 平均変化強度 (UACI) の観点から比較する。 提案した3つの手法のうち,M3は高品質なCancelableテンプレートを生成し,品質面で最高の性能を示す。 M2とM3はIIT Delhi Irisデータセットに匹敵する。

Cancelable Biometric is repetitive distortion embedded in original Biometric image for keeping it secure from unauthorized access. In this paper, we have generated Cancelable Biometric templates with Reverse Boolean XOR technique. Three different methods have been proposed for generation of Cancelable Biometric templates based on Visual Secret Sharing scheme. In each method, one Secret image and n-1 Cover images are used as: (M1) One original Biometric image (Secret) with n- 1 randomly chosen Gray Cover images (M2) One original Secret image with n-1 Cover images, which are Randomly Permuted version of the original Secret image (M3) One Secret image with n-1 Cover images, both Secret image and Cover images are Randomly Permuted version of original Biometric image. Experiment works have performed on publicly available ORL Face database and IIT Delhi Iris database. The performance of the proposed methods is compared in terms of Co-relation Coefficient (Cr), Mean Square Error (MSE), Mean Absolute Error (MAE), Structural Similarity (SSIM), Peak Signal to Noise Ratio (PSNR), Number of Pixel Change Rate (NPCR), and Unified Average Changing Intensity (UACI). It is found that among the three proposed method, M3 generates good quality Cancelable templates and gives best performance in terms of quality. M3 is also better in quantitative terms on ORL dataset while M2 and M3 are comparable on IIT Delhi Iris dataset.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 量子断熱アルゴリズムは誤りの拡散を抑制する

The quantum adiabatic algorithm suppresses the proliferation of errors ( http://arxiv.org/abs/2404.15397v1 )

ライセンス: Link先を確認
Benjamin F. Schiffer, Adrian Franco Rubio, Rahul Trivedi, J. Ignacio Cirac, (参考訳) 誤りの伝播は、量子計算の信頼性を著しく損なう。 量子アディアバティックアルゴリズム(quantum adiabatic algorithm)は、古典的および量子ハミルトニアンの基底状態を作成する物理的動機付けの手法である。 ここでは,アディバティックアルゴリズムにおける単一エラー事象の拡散を解析する。 テンソルネットワーク法を用いて,幾何学的局所ハミルトニアンの進化過程における誤差の増幅を効果的に抑制できることを示す。 この結果から, 単一誤差事象が存在する場合でも, 低エネルギー状態は引き続き達成可能であることが示唆された。

The propagation of errors severely compromises the reliability of quantum computations. The quantum adiabatic algorithm is a physically motivated method to prepare ground states of classical and quantum Hamiltonians. Here, we analyze the proliferation of a single error event in the adiabatic algorithm. We give numerical evidence using tensor network methods that the intrinsic properties of adiabatic processes effectively constrain the amplification of errors during the evolution for geometrically local Hamiltonians. Our findings indicate that low energy states could remain attainable even in the presence of a single error event, which contrasts with results for error propagation in typical quantum circuits.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 非平衡電流雑音における空間相関のナノスケールセンシング

Nanoscale sensing of spatial correlations in nonequilibrium current noise ( http://arxiv.org/abs/2404.15398v1 )

ライセンス: Link先を確認
Yifan Zhang, Rhine Samajdar, Sarang Gopalakrishnan, (参考訳) 窒素空調センターは、電流ノイズの空間分解プローブである。 これまでのところ、NV中心による電流ノイズセンシングは、平衡輸送係数を探索する手段として主に用いられてきた。 我々はボルツマン系における非平衡電流雑音の時空間相関を計算し、電流バイアス定常状態の2次元金属に応用する枠組みを開発した。 ノイズの空間構造は電子分布関数の非平衡性を明らかにし、より一般的には輸送に寄与する励起の性質と寿命を明らかにする。 短期実験においてこれらのシグネチャの可視性を推定する。

Nitrogen-vacancy centers are spatially resolved probes of current noise. So far, current noise sensing with NV centers has primarily been used as a way to probe equilibrium transport coefficients. We develop a framework for computing the spatiotemporal correlations of nonequilibrium current noise in the Boltzmann regime, and apply it to two-dimensional metals in current-biased steady states. We argue that the spatial structure of the noise reveals the nonequilibrium nature of the electron distribution function, and more generally reveals the nature and lifetimes of the excitations responsible for transport. We estimate the visibility of these signatures in near-term experiments.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 量子系の高速スクランブルにおける普遍的速度限界の証明

Proof of a Universal Speed Limit on Fast Scrambling in Quantum Systems ( http://arxiv.org/abs/2404.15403v1 )

ライセンス: Link先を確認
Amit Vikram, Laura Shou, Victor Galitski, (参考訳) 我々は、ハミルトニアン量子系における持続的な情報スクランブルに必要な時間が、スクランブル状態の絡み合いエントロピーにおいて、少なくとも対数的であることを証明した。 これは非平衡量子力学における2つの基礎的な問題に対処する。 1) 有限温度で浴に結合した量子系における平衡統計力学の適用性について, 最初期の時間を設定する。 (2) 量子力学自体の基本的な性質として、元々はブラックホールに関連するモデルに動機づけられた高速スクランブル予想(英語版)のバージョンを証明している。 この結果は、量子カオスにおける無限温度スペクトル形成係数の観点から、エネルギー時間不確実性原理の洗練に基づいている。 この定式化を有限温度状態を含む浴の任意の初期状態に一般化し、ハミルトン力学を任意の初期状態と無限温度で非単項力学にマッピングする。 規則化されたスペクトル形成因子はこの過程から自然に出現し、その崩壊は複素時間における解析性によって普遍的に制限される。 これにより、局所性や相互作用の性質に制限を課すことなく、最も一般的な量子力学のハミルトニアンによってスクランブルされる情報の正確な速度制限が確立される。

We prove that the time required for sustained information scrambling in any Hamiltonian quantum system is universally at least logarithmic in the entanglement entropy of scrambled states. This addresses two foundational problems in nonequilibrium quantum dynamics. (1) It sets the earliest possible time for the applicability of equilibrium statistical mechanics in a quantum system coupled to a bath at a finite temperature. (2) It proves a version of the fast scrambling conjecture, originally motivated in models associated with black holes, as a fundamental property of quantum mechanics itself. Our result builds on a refinement of the energy-time uncertainty principle in terms of the infinite temperature spectral form factor in quantum chaos. We generalize this formulation to arbitrary initial states of the bath, including finite temperature states, by mapping Hamiltonian dynamics with any initial state to nonunitary dynamics at infinite temperature. A regularized spectral form factor emerges naturally from this procedure, whose decay is universally constrained by analyticity in complex time. This establishes an exact speed limit on information scrambling by the most general quantum mechanical Hamiltonian, without any restrictions on locality or the nature of interactions.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# Wiki-LLaVA:マルチモーダルLLMのための階層型検索型生成

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs ( http://arxiv.org/abs/2404.15406v1 )

ライセンス: Link先を確認
Davide Caffagni, Federico Cocchi, Nicholas Moratelli, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) マルチモーダル LLM は LLM の自然な進化であり、その能力を純粋にテキストのモダリティを超えて機能するように拡張する。 本稿では、新しいアーキテクチャや視覚・言語対応のアダプタを設計するために研究が進められているため、外部知識を必要とする疑問に答える能力を備えたモデルの提供に焦点をあてる。 我々のアプローチはWiki-LLaVAと呼ばれ、階層的な検索パイプラインを通してアクセスされるマルチモーダル文書の外部知識ソースを統合することを目的としている。 この手法を用いて、関連するパスを外部知識ソースから検索し、LLMのための追加コンテキストとして使用し、生成された対話の有効性と精度を高める。 我々は,外部データによる視覚的質問応答に適したデータセットについて広範な実験を行い,その妥当性を実証する。

Multimodal LLMs are the natural evolution of LLMs, and enlarge their capabilities so as to work beyond the pure textual modality. As research is being carried out to design novel architectures and vision-and-language adapters, in this paper we concentrate on endowing such models with the capability of answering questions that require external knowledge. Our approach, termed Wiki-LLaVA, aims at integrating an external knowledge source of multimodal documents, which is accessed through a hierarchical retrieval pipeline. Relevant passages, using this approach, are retrieved from the external knowledge source and employed as additional context for the LLM, augmenting the effectiveness and precision of generated dialogues. We conduct extensive experiments on datasets tailored for visual question answering with external data and demonstrate the appropriateness of our approach.
翻訳日:2024-04-25 15:32:54 公開日:2024-04-23
# 単純コンプレックスの量子ウォークと調和ホモロジー:スーパーポリノミカルスピードアップを用いたトポロジカルデータ解析への応用

Quantum Walks on Simplicial Complexes and Harmonic Homology: Application to Topological Data Analysis with Superpolynomial Speedups ( http://arxiv.org/abs/2404.15407v1 )

ライセンス: Link先を確認
Ryu Hayakawa, Kuo-Chin Chen, Min-Hsiu Hsieh, (参考訳) 情報処理に高次のインタラクションを組み込むことで、より正確なモデルの構築、複雑なシステムに対する深い洞察の獲得、現実の課題へのより効果的な対処が可能になる。 しかし、これらの相互作用をとらえるランダムウォークやホモロジーのような既存の手法は効率的ではない。 本研究は, 単純錯体上の量子ウォークが量子的優位性を示すかどうかを考察する。 合成ラプラシアン(Laplacian)を符号化する新しい量子ウォークを導入する。これは、スペクトル特性が基礎となる単体複合体の位相を反映する重要な数学的対象である。 さらに、複素体のホモロジーにおける調和サイクルの空間を表すラプラシアンの核に射影するユニタリ符号化を構築する。 私たちが提示した斜め複体に対する量子ウォークユニタリの効率的な構築と組み合わせることで、この方法では、トポロジカル構造内の高次相互作用を量子ウォークを利用することができる。 以上の結果から,大規模データセットの量子オラクルを必要とせずに,量子ウォークによる超ポリノミカル量子スピードアップを実現した。 重要なことに、ウォークは正の向きと負の向きの両方を包含する状態空間で動作し、非向きのアプローチと比較してそのサイズを効果的に倍増させる。 これらの対の単純さのコヒーレントな干渉により、組み合わせラプラシアンをエンコードすることができ、そうでなければ不可能である。 この観察は我々の主要な技術的貢献を構成する。 また、可変量子ウォークを構築することで、フレームワークを拡張します。 これらの変種は、(1)正規化された持続ベッチ数を推定し、変形過程を通して位相情報をキャプチャし、(2)特定のQMA$_1$-hard問題を検証することにより、計算複雑性理論における潜在的な応用を示す。

Incorporating higher-order interactions in information processing enables us to build more accurate models, gain deeper insights into complex systems, and address real-world challenges more effectively. However, existing methods, such as random walks on oriented simplices and homology, which capture these interactions, are not known to be efficient. This work investigates whether quantum walks on simplicial complexes exhibit quantum advantages. We introduce a novel quantum walk that encodes the combinatorial Laplacian, a key mathematical object whose spectral properties reflect the topology of the underlying simplicial complex. Furthermore, we construct a unitary encoding that projects onto the kernel of the Laplacian, representing the space of harmonic cycles in the complex's homology. Combined with the efficient construction of quantum walk unitaries for clique complexes that we present, this paves the way for utilizing quantum walks to explore higher-order interactions within topological structures. Our results achieve superpolynomial quantum speedup with quantum walks without relying on quantum oracles for large datasets. Crucially, the walk operates on a state space encompassing both positively and negatively oriented simplices, effectively doubling its size compared to unoriented approaches. Through coherent interference of these paired simplices, we are able to successfully encode the combinatorial Laplacian, which would otherwise be impossible. This observation constitutes our major technical contribution. We also extend the framework by constructing variant quantum walks. These variants enable us to: (1) estimate the normalized persistent Betti numbers, capturing topological information throughout a deformation process, and (2) verify a specific QMA$_1$-hard problem, showcasing potential applications in computational complexity theory.
翻訳日:2024-04-25 15:32:53 公開日:2024-04-23
# 不十分な統計摂動:プライベートリーストスクエアの安定推定器

Insufficient Statistics Perturbation: Stable Estimators for Private Least Squares ( http://arxiv.org/abs/2404.15409v1 )

ライセンス: Link先を確認
Gavin Brown, Jonathan Hayase, Samuel Hopkins, Weihao Kong, Xiyang Liu, Sewoong Oh, Juan C. Perdomo, Adam Smith, (参考訳) 通常の最小二乗に対するサンプルおよび時間効率の微分プライベートアルゴリズムを提案し、誤差は次元に線形に依存し、X^\top X$の条件数とは独立であり、ここでは設計行列が$X$である。 このタスクの全ての以前のプライベートアルゴリズムは、$d^{3/2}$例、条件数と多項式的に誤差が増加すること、指数時間を必要とする。 我々の準最適精度保証は、統計レバレッジと有界残差を持つ任意のデータセットに対して成り立つ。 技術的には、プライベート平均推定のためのBrown et al (2023) のアプローチに基づいて、慎重に設計された経験的回帰ベクトルの安定な非プライベート推定器にスケールドノイズを付加する。

We present a sample- and time-efficient differentially private algorithm for ordinary least squares, with error that depends linearly on the dimension and is independent of the condition number of $X^\top X$, where $X$ is the design matrix. All prior private algorithms for this task require either $d^{3/2}$ examples, error growing polynomially with the condition number, or exponential time. Our near-optimal accuracy guarantee holds for any dataset with bounded statistical leverage and bounded residuals. Technically, we build on the approach of Brown et al. (2023) for private mean estimation, adding scaled noise to a carefully designed stable nonprivate estimator of the empirical regression vector.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# 強化学習による経路計画:ロボカップ小型リーグ環境における最適なロボット運動計画

Planning the path with Reinforcement Learning: Optimal Robot Motion Planning in RoboCup Small Size League Environments ( http://arxiv.org/abs/2404.15410v1 )

ライセンス: Link先を確認
Mateus G. Machado, João G. Melo, Cleber Zanchettin, Pedro H. M. Braga, Pedro V. Cunha, Edna N. S. Barros, Hansenclever F. Bassani, (参考訳) 本研究では,RoboCup Small Size League (SSL)におけるロボット運動計画課題に取り組むための強化学習(RL)の可能性を検討する。 ヒューリスティック制御手法を用いて,障害物のない単一障害物経路計画環境におけるRLの有効性を評価する。 アブレーション研究は大幅な性能向上を示した。 本手法は, 障害物のない環境において, ベースラインアルゴリズムと比較して60%の時間ゲインを達成した。 さらに,移動ブロックの周囲を急速走行する動的障害物回避機能を示した。 これらの知見は、難易度と予測不可能なSSL環境において、ロボットの動作計画を強化するRLの可能性を強調している。

This work investigates the potential of Reinforcement Learning (RL) to tackle robot motion planning challenges in the dynamic RoboCup Small Size League (SSL). Using a heuristic control approach, we evaluate RL's effectiveness in obstacle-free and single-obstacle path-planning environments. Ablation studies reveal significant performance improvements. Our method achieved a 60% time gain in obstacle-free environments compared to baseline algorithms. Additionally, our findings demonstrated dynamic obstacle avoidance capabilities, adeptly navigating around moving blocks. These findings highlight the potential of RL to enhance robot motion planning in the challenging and unpredictable SSL environment.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# オンライン強化学習におけるリセットの力

The Power of Resets in Online Reinforcement Learning ( http://arxiv.org/abs/2404.15417v1 )

ライセンス: Link先を確認
Zakaria Mhammedi, Dylan J. Foster, Alexander Rakhlin, (参考訳) シミュレータは強化学習において普及するツールであるが、既存のアルゴリズムのほとんどはシミュレータアクセスを効率的に活用することはできない。 エージェントが以前に観測された状態にリセットし、トレーニング中にそのダイナミクスに従うことができるRLプロトコルであるローカルシミュレータアクセス(またはローカルプランニング)を用いて、オンライン強化学習を通じてシミュレータのパワーを探索する。 我々は、以前到達できなかった新しい統計的保証をアンロックするために、ローカルシミュレーターアクセスを使用します。 - カバー性の低いMDP Xie et al 2023 – Block MDPとLow-Rank MDPを仮定する一般的な構造条件 -- は、サンプル効率のよい方法で、Q^{\star}$-realizability(最適状態値関数の実現可能性)で学習できることを示し、既存のオンラインRLアルゴリズムは、非常に強い表現条件を必要とする。 その結果,Efroni et al 2022はローカル・シミュレーター・アクセスにおいてトラクタブルであることが判明した。 上記の結果は計算的に非効率なアルゴリズムによって達成される。 本稿では,より計算効率のよい RVFS (Recursive Value Function Search) を用いて補足する。 RVFSは、再帰的探索(例えばMCTS)と値関数近似を組み合わせた経験的パラダイムの原則であり、証明可能なものであると見なすことができる。

Simulators are a pervasive tool in reinforcement learning, but most existing algorithms cannot efficiently exploit simulator access -- particularly in high-dimensional domains that require general function approximation. We explore the power of simulators through online reinforcement learning with {local simulator access} (or, local planning), an RL protocol where the agent is allowed to reset to previously observed states and follow their dynamics during training. We use local simulator access to unlock new statistical guarantees that were previously out of reach: - We show that MDPs with low coverability Xie et al. 2023 -- a general structural condition that subsumes Block MDPs and Low-Rank MDPs -- can be learned in a sample-efficient fashion with only $Q^{\star}$-realizability (realizability of the optimal state-value function); existing online RL algorithms require significantly stronger representation conditions. - As a consequence, we show that the notorious Exogenous Block MDP problem Efroni et al. 2022 is tractable under local simulator access. The results above are achieved through a computationally inefficient algorithm. We complement them with a more computationally efficient algorithm, RVFS (Recursive Value Function Search), which achieves provable sample complexity guarantees under a strengthened statistical assumption known as pushforward coverability. RVFS can be viewed as a principled, provable counterpart to a successful empirical paradigm that combines recursive search (e.g., MCTS) with value function approximation.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# 薬物とアルコールのリハビリテーションの完了予測のための公正な機械学習技術

Machine Learning Techniques with Fairness for Prediction of Completion of Drug and Alcohol Rehabilitation ( http://arxiv.org/abs/2404.15418v1 )

ライセンス: Link先を確認
Karen Roberts-Licklider, Theodore Trafalis, (参考訳) 本研究の目的は, 薬物・アルコールのリハビリテーションプログラムが完了するか, 出席回数を予測することである。 本研究は、オクラホマ州の薬物・アルコールリハビリテーションセンターの入院および退院データから、サブスタンス・アブユース・メンタルヘルス・サービス・マネジメント(SAMHSA)から得られた人口統計に基づく。 デモグラフィーデータは非常に分類学的であり、バイナリエンコーディングが使用され、9つの人口統計変数のバイアスを軽減するために様々な公正度対策が用いられる。 線形, 多項式, シグモイド, 放射基底関数などのカーネル法を, 様々なパラメータ範囲の支持ベクトルマシンを用いて比較し, 最適値を求める。 これらは、決定木、ランダム森林、ニューラルネットワークなどの手法と比較された。 分類データに対する合成マイノリティオーバーサンプリング技術(SMOTEN)は、欠落データに対する計算とデータのバランスをとるために用いられた。 9つのバイアス変数は、バイアスを軽減するために交叉化され、2つの相互作用と3つの相互作用は、最悪のケース比の公平性を軽減するために確率を利用するために統合された。 等化オッド比,等化オッド比,等化オッド比,等化オポチュニティ比,等化オポチュニティ比,等化オポチュニティ比は,いずれも二進・多進のシナリオで検討された。

The aim of this study is to look at predicting whether a person will complete a drug and alcohol rehabilitation program and the number of times a person attends. The study is based on demographic data obtained from Substance Abuse and Mental Health Services Administration (SAMHSA) from both admissions and discharge data from drug and alcohol rehabilitation centers in Oklahoma. Demographic data is highly categorical which led to binary encoding being used and various fairness measures being utilized to mitigate bias of nine demographic variables. Kernel methods such as linear, polynomial, sigmoid, and radial basis functions were compared using support vector machines at various parameter ranges to find the optimal values. These were then compared to methods such as decision trees, random forests, and neural networks. Synthetic Minority Oversampling Technique Nominal (SMOTEN) for categorical data was used to balance the data with imputation for missing data. The nine bias variables were then intersectionalized to mitigate bias and the dual and triple interactions were integrated to use the probabilities to look at worst case ratio fairness mitigation. Disparate Impact, Statistical Parity difference, Conditional Statistical Parity Ratio, Demographic Parity, Demographic Parity Ratio, Equalized Odds, Equalized Odds Ratio, Equal Opportunity, and Equalized Opportunity Ratio were all explored at both the binary and multiclass scenarios.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# 深層学習を用いたENSO予測の初期誤差感度の同定

Using Deep Learning to Identify Initial Error Sensitivity of ENSO Forecasts ( http://arxiv.org/abs/2404.15419v1 )

ライセンス: Link先を確認
Kinya Toride, Matthew Newman, Andrew Hoell, Antonietta Capotondi, Jaköb Schlor, Dillon Amaya, (参考訳) モデルシミュレーションのレポジトリにおいて,モデル・アナログ予測と深層学習を統合するハイブリッド手法を提案する。 このハイブリッドフレームワークは、畳み込みニューラルネットワークを使用して、状態依存の重みを推定し、アナログ状態を特定する。 提案手法の利点は, 推定重みによる初期エラー感応領域の洞察と, アナログ予測によるシステムの物理的時間的進化を追跡できる点にある。 我々は,コミュニティアースシステムモデルバージョン2大アンサンブルを用いて,季節ごとの時間スケールでエルニコ~南方振動(ENSO)を予測した。 その結果,9~12ヶ月の赤道太平洋における海面温度異常の予測は従来のモデルアナログ法と比較して10%改善した。 さらに,本モデルでは, 実冬と春の初生化が, リアナリシスデータセットと比較した場合に改善されることが示されている。 深層学習に基づくアプローチでは,太平洋メリディショナルモード,赤道リチャージ発振器,確率風力など,季節によって変化する様々な物理過程に関連付けられた状態依存感度が明らかになった。 特に、El Ni\no および La Ni\~na イベントに関連する感度に相違が生じる。 熱帯太平洋の海面温度はエル・ニ・ナの予測においてより重要な役割を担っているのに対し、同じ地域の帯状風力はラ・ニ・ナの予測においてより重要な役割を担っている。 このアプローチは、地域温度や降水量を含む多様な気候現象を予測するために幅広い意味を持ち、従来のモデル・アナログ予測法では難しい。

We introduce a hybrid method that integrates deep learning with model-analog forecasting, a straightforward yet effective approach that generates forecasts from similar initial climate states in a repository of model simulations. This hybrid framework employs a convolutional neural network to estimate state-dependent weights to identify analog states. The advantage of our method lies in its physical interpretability, offering insights into initial-error-sensitive regions through estimated weights and the ability to trace the physically-based temporal evolution of the system through analog forecasting. We evaluate our approach using the Community Earth System Model Version 2 Large Ensemble to forecast the El Ni\~no-Southern Oscillation (ENSO) on a seasonal-to-annual time scale. Results show a 10% improvement in forecasting sea surface temperature anomalies over the equatorial Pacific at 9-12 months leads compared to the traditional model-analog technique. Furthermore, our hybrid model demonstrates improvements in boreal winter and spring initialization when evaluated against a reanalysis dataset. Our deep learning-based approach reveals state-dependent sensitivity linked to various seasonally varying physical processes, including the Pacific Meridional Modes, equatorial recharge oscillator, and stochastic wind forcing. Notably, disparities emerge in the sensitivity associated with El Ni\~no and La Ni\~na events. We find that sea surface temperature over the tropical Pacific plays a more crucial role in El Ni\~no forecasting, while zonal wind stress over the same region exhibits greater significance in La Ni\~na prediction. This approach has broad implications for forecasting diverse climate phenomena, including regional temperature and precipitation, which are challenging for the traditional model-analog forecasting method.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# XCキャッシュ: 効率的なLLM推論のためのキャッシュコンテキストへのクロスエージェント

XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference ( http://arxiv.org/abs/2404.15420v1 )

ライセンス: Link先を確認
João Monteiro, Étienne Marcotte, Pierre-André Noël, Valentina Zantedeschi, David Vázquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian, (参考訳) In-context Learning (ICL) アプローチは通常、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。 コンテキストのジャスト・イン・タイム処理は、自己アテンション操作の二次的なコストのために非効率であり、キャッシュが望ましい。 しかし、キャッシングトランスフォーマー状態はモデルパラメータと同じくらいのスペースを必要とする。 適切なコンテキストが事前に分かっていない場合、ICLのキャッシュは難しい可能性がある。 この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。 より正確には、トレーニング済みのデコーダのみのモデルを活用し、少数の追加レイヤのみをトレーニングします。 質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシングに対する空間フットプリントを2桁の精度で大幅に削減する。

In-context learning (ICL) approaches typically leverage prompting to condition decoder-only language model generation on reference information. Just-in-time processing of a context is inefficient due to the quadratic cost of self-attention operations, and caching is desirable. However, caching transformer states can easily require almost as much space as the model parameters. When the right context isn't known in advance, caching ICL can be challenging. This work addresses these limitations by introducing models that, inspired by the encoder-decoder architecture, use cross-attention to condition generation on reference text without the prompt. More precisely, we leverage pre-trained decoder-only models and only train a small number of added layers. We use Question-Answering (QA) as a testbed to evaluate the ability of our models to perform conditional generation and observe that they outperform ICL, are comparable to fine-tuned prompted LLMs, and drastically reduce the space footprint relative to standard KV caching by two orders of magnitude.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# ウェーハマップ欠陥パターンに対する反復的クラスタハーベスティング

Iterative Cluster Harvesting for Wafer Map Defect Patterns ( http://arxiv.org/abs/2404.15436v1 )

ライセンス: Link先を確認
Alina Pleli, Simon Baeuerle, Michel Janus, Jonas Barth, Ralf Mikut, Hendrik P. A. Lensch, (参考訳) ウェーハマップ欠陥パターンの無監督クラスタリングは、特定の欠陥パターンの出現が著しく異なるため、困難である。 これには、ウエハ上の欠陥領域の形状、位置、密度、回転の変化が含まれる。 我々は、ウェハマップの欠陥パターンをうまくクラスタリングできる収穫手法を提案する。 提案手法では,特徴抽出,次元縮小,クラスタリングという,よく知られた3段階の手順を用いる。 このアプローチの斬新さは、そのシルエットスコアに従って、1イテレーション毎に1つのクラスタをフィルタリングしながら、次元削減と反復的にクラスタ化を繰り返していることです。 この手法はクラスタリング性能を全般的に向上させ,特に難解な欠陥パターンに有効である。 計算能力の低い作業は、大規模なデータセットの迅速な評価を可能にし、手動ラベリング作業のサポートに使用することができる。 文献からの関連するアプローチをベンチマークし、実世界の産業データセットで改善された結果を示す。

Unsupervised clustering of wafer map defect patterns is challenging because the appearance of certain defect patterns varies significantly. This includes changing shape, location, density, and rotation of the defect area on the wafer. We present a harvesting approach, which can cluster even challenging defect patterns of wafer maps well. Our approach makes use of a well-known, three-step procedure: feature extraction, dimension reduction, and clustering. The novelty in our approach lies in repeating dimensionality reduction and clustering iteratively while filtering out one cluster per iteration according to its silhouette score. This method leads to an improvement of clustering performance in general and is especially useful for difficult defect patterns. The low computational effort allows for a quick assessment of large datasets and can be used to support manual labeling efforts. We benchmark against related approaches from the literature and show improved results on a real-world industrial dataset.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# 深層多目的カプセルネットワーク

Deep multi-prototype capsule networks ( http://arxiv.org/abs/2404.15445v1 )

ライセンス: Link先を確認
Saeid Abbassi, Kamaledin Ghiasi-Shirazi, Ahad Harati, (参考訳) カプセルネットワーク(Capsule Network)は、画像の部分を特定し、階層的に全体のインスタンス化パラメータを形成するニューラルネットワークの一種である。 ネットワークの背後にある目標は、逆コンピュータグラフィックスタスクを実行することであり、ネットワークパラメータは、部品全体を全体に変換するマッピングウェイトである。 高いクラス内または部分内変動を伴う複雑なデータにおけるカプセルネットワークの訓練性は困難である。 本稿では,画像部品のバリエーションを表現するためにカプセルネットワークを誘導するマルチプロトタイプアーキテクチャを提案する。 この目的のために、各クラスと部分の1つのカプセルを考える代わりに、提案手法は複数のカプセル(コグループカプセル)を使用し、オブジェクトの複数のプロトタイプをキャプチャする。 最終層では、コグループカプセルが競合し、そのソフトな出力が競合するクロスエントロピー損失の標的と考えられている。 さらに、中層では、最も活発なカプセルは、共群間で共有重量で次の層にマッピングされる。 その結果、パラメータの減少により、暗黙の重量共有により、より深いカプセルネットワーク層を持つことが可能である。 MNIST, SVHN, C-Cube, CEDAR, MCYT, UTSigのデータセットに対する実験結果から, 提案したモデルが画像分類精度で他のモデルよりも優れていることが明らかになった。

Capsule networks are a type of neural network that identify image parts and form the instantiation parameters of a whole hierarchically. The goal behind the network is to perform an inverse computer graphics task, and the network parameters are the mapping weights that transform parts into a whole. The trainability of capsule networks in complex data with high intra-class or intra-part variation is challenging. This paper presents a multi-prototype architecture for guiding capsule networks to represent the variations in the image parts. To this end, instead of considering a single capsule for each class and part, the proposed method employs several capsules (co-group capsules), capturing multiple prototypes of an object. In the final layer, co-group capsules compete, and their soft output is considered the target for a competitive cross-entropy loss. Moreover, in the middle layers, the most active capsules map to the next layer with a shared weight among the co-groups. Consequently, due to the reduction in parameters, implicit weight-sharing makes it possible to have more deep capsule network layers. The experimental results on MNIST, SVHN, C-Cube, CEDAR, MCYT, and UTSig datasets reveal that the proposed model outperforms others regarding image classification accuracy.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# OffRAMPS: 追加製造制御系の解析と修正のためのFPGAベースの中間体

OffRAMPS: An FPGA-based Intermediary for Analysis and Modification of Additive Manufacturing Control Systems ( http://arxiv.org/abs/2404.15446v1 )

ライセンス: Link先を確認
Jason Blocklove, Md Raz, Prithwish Basu Roy, Hammond Pearce, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, (参考訳) アダプティブ・マニュファクチャリング(AM)におけるサイバーセキュリティの脅威は、AMの採用が拡大し続けており、懸念が高まっている。 AMは現在、航空宇宙、輸送、医療の分野で使われている。 部分妥協を可能にする脅威ベクトルは特に関係があり、これらの領域の失敗は生命を脅かす結果をもたらす。 AM部分比較を調査する上での大きな課題は、識別された脅威ベクトルと敵対行動を検出する方法の両方の評価とベンチマークの難しさにある。 本研究では,3Dプリンタの攻撃・防御を系統的に解析する汎用プラットフォームを提案する。 我々の「OFFRAMPS」プラットフォームはオープンソースの3Dプリンタ制御ボード「RAMPS」をベースにしています。 OFFRAMPSは、すべての制御信号と3DプリンタのI/Oの分析、記録、修正を可能にする。 本報告では,複数のトロイの木馬を対象にしたケーススタディを提示することにより,OFRAMPSがこれらの攻撃をエミュレートし,検出できることを示す。

Cybersecurity threats in Additive Manufacturing (AM) are an increasing concern as AM adoption continues to grow. AM is now being used for parts in the aerospace, transportation, and medical domains. Threat vectors which allow for part compromise are particularly concerning, as any failure in these domains would have life-threatening consequences. A major challenge to investigation of AM part-compromises comes from the difficulty in evaluating and benchmarking both identified threat vectors as well as methods for detecting adversarial actions. In this work, we introduce a generalized platform for systematic analysis of attacks against and defenses for 3D printers. Our "OFFRAMPS" platform is based on the open-source 3D printer control board "RAMPS." OFFRAMPS allows analysis, recording, and modification of all control signals and I/O for a 3D printer. We show the efficacy of OFFRAMPS by presenting a series of case studies based on several Trojans, including ones identified in the literature, and show that OFFRAMPS can both emulate and detect these attacks, i.e., it can both change and detect arbitrary changes to the g-code print commands.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# GLoD: 画像生成におけるグローバルコンテキストとローカル詳細の構成

GLoD: Composing Global Contexts and Local Details in Image Generation ( http://arxiv.org/abs/2404.15447v1 )

ライセンス: Link先を確認
Moyuru Yamada, (参考訳) 拡散モデルは、テキストプロンプトから高品質で多様な画像を合成する能力を示した。 しかし、グローバルコンテキスト(例えば、オブジェクトレイアウトとインタラクション)とローカル詳細(例えば、色と感情)の同時制御は、依然として重要な課題である。 モデルは、複数のオブジェクトを含む複雑な記述を理解し、特定の視覚的属性を間違ったターゲットに反映したり、無視したりするのに失敗することが多い。 本稿では、訓練や微調整を必要とせず、グローバルコンテキストとローカル詳細を同時制御できる新しいフレームワークであるGlobal-Local Diffusion(\textit{GLoD})を提案する。 複数のグローバルなプロンプトとローカルなプロンプトを対応する層に割り当て、そのノイズを合成して、事前訓練された拡散モデルを用いてデノナイジングプロセスを導く。 本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。 定量的および定性的な評価は,GLoDがユーザが提供するオブジェクトインタラクションとオブジェクトの詳細の両方に従う複雑なイメージを効果的に生成することを示す。

Diffusion models have demonstrated their capability to synthesize high-quality and diverse images from textual prompts. However, simultaneous control over both global contexts (e.g., object layouts and interactions) and local details (e.g., colors and emotions) still remains a significant challenge. The models often fail to understand complex descriptions involving multiple objects and reflect specified visual attributes to wrong targets or ignore them. This paper presents Global-Local Diffusion (\textit{GLoD}), a novel framework which allows simultaneous control over the global contexts and the local details in text-to-image generation without requiring training or fine-tuning. It assigns multiple global and local prompts to corresponding layers and composes their noises to guide a denoising process using pre-trained diffusion models. Our framework enables complex global-local compositions, conditioning objects in the global prompt with the local prompts while preserving other unspecified identities. Our quantitative and qualitative evaluations demonstrate that GLoD effectively generates complex images that adhere to both user-provided object interactions and object details.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# ID-Aligner: 逆フィードバック学習によるID保存テキスト画像生成の強化

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning ( http://arxiv.org/abs/2404.15449v1 )

ライセンス: Link先を確認
Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin, (参考訳) 拡散モデルの急速な発展により、様々な応用がもたらされた。 アイデンティティを保存するテキスト・ツー・イメージ生成(ID-T2I)は、AIポートレートや広告といった幅広いアプリケーションシナリオのために特に注目されている。 既存のID-T2I法は印象的な結果を示したが,(1)参照肖像画のアイデンティティ特性を正確に維持することは困難,(2) 生成画像はアイデンティティ保持を強制する一方で審美的魅力を欠いている,(3) LoRA法とAdapter法を併用できない制限がある,といった課題が残されている。 これらの問題に対処するため,ID-T2I 性能を向上させるための一般的なフィードバック学習フレームワークである \textbf{ID-Aligner} を提案する。 失ったアイデンティティの特徴を解決するために,顔検出および認識モデルからのフィードバックを利用して生成したアイデンティティの保存を改善するために,識別整合性報酬の微調整を導入する。 さらに,人間に通知された嗜好データから報奨を生かしたアイデンティティ美容報酬の微調整を提案し,文字構造生成に対するフィードバックを自動的に構築し,美的チューニング信号を提供する。 その普遍的なフィードバックの微調整フレームワークのおかげで、我々の手法はLoRAモデルとAdapterモデルの両方に容易に適用でき、一貫した性能向上が達成できる。 SD1.5およびSDXL拡散モデルに関する大規模な実験により,本手法の有効性が検証された。 \textbf{Project Page: \url{https://idaligner.github.io/}}

The rapid development of diffusion models has triggered diverse applications. Identity-preserving text-to-image generation (ID-T2I) particularly has received significant attention due to its wide range of application scenarios like AI portrait and advertising. While existing ID-T2I methods have demonstrated impressive results, several key challenges remain: (1) It is hard to maintain the identity characteristics of reference portraits accurately, (2) The generated images lack aesthetic appeal especially while enforcing identity retention, and (3) There is a limitation that cannot be compatible with LoRA-based and Adapter-based methods simultaneously. To address these issues, we present \textbf{ID-Aligner}, a general feedback learning framework to enhance ID-T2I performance. To resolve identity features lost, we introduce identity consistency reward fine-tuning to utilize the feedback from face detection and recognition models to improve generated identity preservation. Furthermore, we propose identity aesthetic reward fine-tuning leveraging rewards from human-annotated preference data and automatically constructed feedback on character structure generation to provide aesthetic tuning signals. Thanks to its universal feedback fine-tuning framework, our method can be readily applied to both LoRA and Adapter models, achieving consistent performance gains. Extensive experiments on SD1.5 and SDXL diffusion models validate the effectiveness of our approach. \textbf{Project Page: \url{https://idaligner.github.io/}}
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# CFPFormer: セグメンテーションと検出のためのトランスフォーマーデコーダのような特徴ピラミド

CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection ( http://arxiv.org/abs/2404.15451v1 )

ライセンス: Link先を確認
Hongyi Cai, Mohammad Mahdinur Rahman, Jingyu Wu, Yulun Deng, (参考訳) 特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。 しかし、現在のモデルでは一般的にエンコーダ側のトランスフォーマーに焦点をあてて特徴を抽出し、そこからデコーダの改善により、よく設計されたアーキテクチャでさらなる可能性をもたらすことができる。 本稿では,特徴ピラミッドと変圧器を統合した新しいデコーダブロックCFPFormerを提案する。 具体的には、パッチ埋め込み、クロス層機能結合、ガウスアテンション機構を活用することで、CFPFormerは、多様なタスクをまたいだ一般化を促進しながら、特徴抽出機能を強化する。 トランスフォーマー構造とU字型接続の利点を生かして、我々の導入したモデルは、長距離依存を捕捉し、効果的にアップサンプルな特徴マップを得ることができる。 本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。 医用画像セグメンテーションデータセットとオブジェクト検出ベンチマーク(VOC 2007、VOC2012、MS-COCO)でCFPFormerを評価し、その有効性と汎用性を実証した。 ACDC Post-2017-MICCAI-Challengeオンラインテストセットでは,このモデルは非常に精度が高く,Synapseマルチ組織セグメンテーションデータセットのデコーダ設定とよく比較できる。

Feature pyramids have been widely adopted in convolutional neural networks (CNNs) and transformers for tasks like medical image segmentation and object detection. However, the currently existing models generally focus on the Encoder-side Transformer to extract features, from which decoder improvement can bring further potential with well-designed architecture. We propose CFPFormer, a novel decoder block that integrates feature pyramids and transformers. Specifically, by leveraging patch embedding, cross-layer feature concatenation, and Gaussian attention mechanisms, CFPFormer enhances feature extraction capabilities while promoting generalization across diverse tasks. Benefiting from Transformer structure and U-shaped Connections, our introduced model gains the ability to capture long-range dependencies and effectively up-sample feature maps. Our model achieves superior performance in detecting small objects compared to existing methods. We evaluate CFPFormer on medical image segmentation datasets and object detection benchmarks (VOC 2007, VOC2012, MS-COCO), demonstrating its effectiveness and versatility. On the ACDC Post-2017-MICCAI-Challenge online test set, our model reaches exceptionally impressive accuracy, and performed well compared with the original decoder setting in Synapse multi-organ segmentation dataset.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# 重力実験用物質波干渉計における慣性ねじれ騒音

Inertial Torsion Noise in Matter-Wave Interferometers for Gravity Experiments ( http://arxiv.org/abs/2404.15455v1 )

ライセンス: Link先を確認
Meng-Zhi Wu, Marko Toroš, Sougato Bose, Anupam Mazumdar, (参考訳) 物質波干渉計は、非慣性ノイズ源に感受性があり、デファス化を誘発し、結果として干渉計の可視性が失われる。 ここでは、薄線で吊り下げられた実験装置の回転運動から生じる慣性ねじりノイズ(ITN)に着目し、ランダムな外トルクを受ける。 熱環境下で実験ボックスを記述したランゲヴィン方程式から始まるITN雑音の解析式を,伝達関数とともに使用し,劣化係数を求める。 我々はモンテカルロシミュレーションを用いて理論モデリングと近似の妥当性を検証する。 応用として、重力の量子的性質のエンタングルメントに基づくテストのビルディングブロックとして使用できるフェムトグラム粒子を用いた次世代の干渉計実験の効果の大きさを推定する。 環境ガスはITNの弱い源であり, 環境圧力と温度に軽度な制約を呈し, 3つの現象パラメータでパラメータ化されたランゲヴィン方程式を仮定することにより, 一般のITNの制約に関する議論を締めくくった。

Matter-wave interferometry is susceptible to non-inertial noise sources, which can induce dephasing and a resulting loss of interferometric visibility. Here, we focus on inertial torsion noise (ITN), which arises from the rotational motion of the experimental apparatus suspended by a thin wire and subject to random external torques. We provide analytical expressions for the ITN noise starting from Langevin equations describing the experimental box in a thermal environment which can then be used together with the transfer function to obtain the dephasing factor. We verify the theoretical modelling and the validity of the approximations using Monte Carlo simulations obtaining good agreement between theory and numerics. As an application we estimate the size of the effects for the next-generation of interferometery experiments with femtogram particles, which could be used as the building block for entanglement-based tests of the quantum nature of gravity. We find that the ambient gas is a weak source of ITN, posing mild restrictions on the ambient pressure and temperature, and conclude with a discussion about the general ITN constrains by assuming a Langevin equation parameterized by three phenomenological parameters.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# メタマテリアルの物理を学習できる言語モデル : ChatGPTを用いた実証的研究

Can Large Language Models Learn the Physics of Metamaterials? An Empirical Study with ChatGPT ( http://arxiv.org/abs/2404.15458v1 )

ライセンス: Link先を確認
Darui Lu, Yang Deng, Jordan M. Malof, Willie J. Padilla, (参考訳) ChatGPT、Gemini、LlaMa、Claudeといった大規模な言語モデル(LLM)は、インターネットから解析された大量のテキストに基づいて訓練されており、人間と区別できない方法で複雑なプロンプトに応答する驚くべき能力を示している。 テキストプロンプトが変地幾何学のみを指定した場合に、最大4万データに対して微調整を行い、電磁スペクトルを様々な周波数で予測する。 結果は、フィードフォワードニューラルネットワーク、ランダムフォレスト、線形回帰、K-nearest neighbor(KNN)といった従来の機械学習手法と比較される。 注目すべきなのは、細調整されたLLM(FT-LLM)は、ディープニューラルネットワークを含むすべての機械学習アプローチと比較して、調査対象のデータセットサイズ全体のエラーが低いことだ。 また、所望のスペクトルを得るのに必要な幾何を提供することで、逆問題を解決するLLMの能力を実証する。 LLMには、膨大な量のデータを処理し、データの中に隠れたパターンを見つけ、高次元空間で操作する能力など、研究に利益をもたらすような、人間に対していくつかの利点がある。 フィールド固有の大規模データセット上での微調整 LLM は,その領域のニュアンスを把握し,研究や分析に有用なツールとなることを提案する。

Large language models (LLMs) such as ChatGPT, Gemini, LlaMa, and Claude are trained on massive quantities of text parsed from the internet and have shown a remarkable ability to respond to complex prompts in a manner often indistinguishable from humans. We present a LLM fine-tuned on up to 40,000 data that can predict electromagnetic spectra over a range of frequencies given a text prompt that only specifies the metasurface geometry. Results are compared to conventional machine learning approaches including feed-forward neural networks, random forest, linear regression, and K-nearest neighbor (KNN). Remarkably, the fine-tuned LLM (FT-LLM) achieves a lower error across all dataset sizes explored compared to all machine learning approaches including a deep neural network. We also demonstrate the LLM's ability to solve inverse problems by providing the geometry necessary to achieve a desired spectrum. LLMs possess some advantages over humans that may give them benefits for research, including the ability to process enormous amounts of data, find hidden patterns in data, and operate in higher-dimensional spaces. We propose that fine-tuning LLMs on large datasets specific to a field allows them to grasp the nuances of that domain, making them valuable tools for research and analysis.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# 要求が不明な特徴に基づくニューズベンダーのためのプライベート・インベントリ・ポリシー学習

Private Optimal Inventory Policy Learning for Feature-based Newsvendor with Unknown Demand ( http://arxiv.org/abs/2404.15466v1 )

ライセンス: Link先を確認
Tuoyi Zhao, Wen-xin Zhou, Lan Wang, (参考訳) データ駆動型ニューズベンダーの問題は最近、小売、サプライチェーン、電子商取引、ヘルスケアなど、さまざまな分野にわたるデータ拡散に起因して、重要な研究領域として浮上した。 機能ベースの分析でよく使用される顧客や組織データの繊細な性質を考えると、個人のプライバシが信頼と信頼を維持することが不可欠である。 その重要性にも拘わらず、在庫計画の文脈におけるプライバシーの保護は未解決のままである。 重要な課題は、ニュースベンダの損失関数の非平滑性であり、他の設定におけるプライバシ保護アルゴリズムに関する既存の作業とは別物である。 本稿では, 従来の$(\epsilon, \delta)$-differential privacy の拡張である f-differential privacy フレームワーク内での, プライバシ保存に最適な在庫ポリシーを推定するための新しいアプローチを提案する。 本研究では, 最適在庫推定のための畳み込み平滑化に基づくクリップ型雑音勾配降下アルゴリズムを開発し, 需要分布と不規則損失関数, (2) 個人レベルのデータのプライバシー保証, (3) 望ましい統計的精度の3つの課題に同時に対処する。 最適政策パラメータ推定と後悔解析のための有限サンプル高確率境界を導出する。 ニューズベンダー問題の構造を活用することにより, 一般の非平滑凸損失に対する既存結果の非差別的適用から得られたものと比較して, 人口過多のリスクがより速く抑えられる。 我々の境界は、強い凸と滑らかな損失関数に対してそれと一致している。 提案手法は,コストを極端に増大させることなく,望ましいプライバシー保護を実現することができることを示す。

The data-driven newsvendor problem with features has recently emerged as a significant area of research, driven by the proliferation of data across various sectors such as retail, supply chains, e-commerce, and healthcare. Given the sensitive nature of customer or organizational data often used in feature-based analysis, it is crucial to ensure individual privacy to uphold trust and confidence. Despite its importance, privacy preservation in the context of inventory planning remains unexplored. A key challenge is the nonsmoothness of the newsvendor loss function, which sets it apart from existing work on privacy-preserving algorithms in other settings. This paper introduces a novel approach to estimate a privacy-preserving optimal inventory policy within the f-differential privacy framework, an extension of the classical $(\epsilon, \delta)$-differential privacy with several appealing properties. We develop a clipped noisy gradient descent algorithm based on convolution smoothing for optimal inventory estimation to simultaneously address three main challenges: (1) unknown demand distribution and nonsmooth loss function; (2) provable privacy guarantees for individual-level data; and (3) desirable statistical precision. We derive finite-sample high-probability bounds for optimal policy parameter estimation and regret analysis. By leveraging the structure of the newsvendor problem, we attain a faster excess population risk bound compared to that obtained from an indiscriminate application of existing results for general nonsmooth convex loss. Our bound aligns with that for strongly convex and smooth loss function. Our numerical experiments demonstrate that the proposed new method can achieve desirable privacy protection with a marginal increase in cost.
翻訳日:2024-04-25 15:23:04 公開日:2024-04-23
# In situバックプロパゲーションによるタスク学習のための全機械的ニューラルネットワークのトレーニング

Training all-mechanical neural networks for task learning through in situ backpropagation ( http://arxiv.org/abs/2404.15471v1 )

ライセンス: Link先を確認
Shuaifeng Li, Xiaoming Mao, (参考訳) 最近の進歩は、物理ニューラルネットワークを有望な機械学習プラットフォームとして公開し、より高速でエネルギー効率の高い情報処理を提供する。 広範に研究されている光学ニューラルネットワークと比較して、メカニカルニューラルネットワーク(MNN)の開発はいまだに初期段階にあり、重い計算要求や近似勾配による学習など、大きな課題に直面している。 本稿では,MNNの高度に効率的なトレーニングを可能にするため,in situ backpropagationの機械的類似について紹介する。 正確な勾配を MNN で局所的に取得できることを示し,その近傍での学習を可能にした。 勾配情報を用いて、動作学習と機械学習タスクのためのMNNのトレーニングを成功させ、回帰と分類において高い精度で達成する。 さらに、タスクスイッチングと損傷を含むMNNの再トレーニング可能性を示し、レジリエンスを実証する。 本研究は,MNNの学習理論と実験的および数値的検証を統合し,機械的機械学習ハードウェアと自律的自己学習教材システムへの道を開いた。

Recent advances unveiled physical neural networks as promising machine learning platforms, offering faster and more energy-efficient information processing. Compared with extensively-studied optical neural networks, the development of mechanical neural networks (MNNs) remains nascent and faces significant challenges, including heavy computational demands and learning with approximate gradients. Here, we introduce the mechanical analogue of in situ backpropagation to enable highly efficient training of MNNs. We demonstrate that the exact gradient can be obtained locally in MNNs, enabling learning through their immediate vicinity. With the gradient information, we showcase the successful training of MNNs for behavior learning and machine learning tasks, achieving high accuracy in regression and classification. Furthermore, we present the retrainability of MNNs involving task-switching and damage, demonstrating the resilience. Our findings, which integrate the theory for training MNNs and experimental and numerical validations, pave the way for mechanical machine learning hardware and autonomous self-learning material systems.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# コヒーレンス凍結と純度挙動における位置運動量相関の役割

The role of position momentum correlations in coherence freezing and purity behavior ( http://arxiv.org/abs/2404.15473v1 )

ライセンス: Link先を確認
Pedro P. da Silva, Carlos H. S. Vieira, Jonas F. G. Santos, Lucas S. Marinho, Marcos Sampaio, Irismar G. da Paz, (参考訳) ガウス量子状態のコヒーレンスと純度に及ぼすマルコフ浴結合と初期位置-モーメント相関の影響について検討する。 我々の分析は、これらの要因が量子コヒーレンス、コヒーレンス長さ、状態純度のダイナミクスで果たす役割に焦点を当てている。 この結果から,初期位置-運動量相関は混合状態の量子的性質に顕著な影響を及ぼすことが明らかとなった。 これらの相関はコヒーレンスと純度における反対の挙動をもたらす:強い相関に反応して量子コヒーレンスが増加するにつれて、純度は減少し、その逆も起こる。 この逆関係は、これらの初期相関によって支配される状態が、より大きい混合状態は、より少ない混合状態と比較して量子コヒーレンスを増大させる現象を示す。 また,コヒーレンスの相対エントロピーによって定量された,予想外のコヒーレンス凍結現象も観測した。 特に、この凍結は初期位置-運動相関によって駆動されるが、最終凍結値はこれらの相関とは独立である。

We explore the effects of Markovian bath coupling and initial position-momentum correlations on the coherence and purity of Gaussian quantum states. Our analysis focuses on the roles these factors play in the dynamics of quantum coherence, coherence lengths, and state purity. Our results reveal that initial position-momentum correlations have a remarkable impact on the quantum properties of the mixed state. These correlations lead to opposing behaviors in coherence and purity: as quantum coherence increases in response to stronger correlations, purity diminishes, and vice versa. This inverse relationship illustrates the phenomenon where, governed by these initial correlations, a state with greater mixing can display enhanced quantum coherence compared to a less mixed state. We also observe an unanticipated coherence freezing phenomenon, quantified by the relative entropy of coherence. Notably, this freezing is driven by initial position-momentum correlations, although the final frozen value is independent of these correlations.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 量子ドットの絡み合い:動的サセプティビリティと量子漁業情報から

Entanglement in Quantum Dots: Insights from Dynamic Susceptibility and Quantum Fisher Information ( http://arxiv.org/abs/2404.15477v1 )

ライセンス: Link先を確認
Jahanfar Abouiea, Daryoosh Vashaee, (参考訳) 本研究では,量子ドット(QD)の粒子間クーロン相互作用を電荷エネルギーと交換結合項に分解するハミルトニアンの下での絡み合い特性について検討した。 この形式主義は典型的には電荷とスピン成分を分離するが、閉じ込めによって引き起こされるエネルギー分割は系の予期せぬ絡みを引き起こす。 動的感受性と量子フィッシャー情報(QFI)を解析することにより、交換定数、温度変動、閉じ込め効果に影響される興味深い挙動を明らかにする。 Ising QDsは、QDが乱れた常磁性相にあるストーナー不安定点よりはるかに低い位置にあり、予想外の温度低下によって絡み合いが減少し、従来の期待に反する。 逆に、異方性ハイゼンベルク模型は等方点付近の強い絡み合いを示す。 本研究は,QDにおける交換相互作用と絡み合いの複雑な相互作用に注目し,トポロジカルな絡み合いと絡み合いの影響に関する今後の研究の基盤となっている。 全体として、この研究は量子技術におけるQDの絡み合いの理解と潜在的な応用に寄与する。

This study investigates the entanglement properties of quantum dots (QDs) under a universal Hamiltonian where the Coulomb interaction between particles (electrons or holes) decouples into a charging energy and an exchange coupling term. While this formalism typically decouples the charge and spin components, the confinement-induced energy splitting can induce unexpected entanglement in the system. By analyzing the dynamic susceptibility and quantum Fisher information (QFI), we uncover intriguing behaviors influenced by exchange constants, temperature variations, and confinement effects. In Ising QDs, far below the Stoner instability point where the QD is in a disordered paramagnetic phase, temperature reductions unexpectedly lead to decreased entanglement, challenging conventional expectations. Conversely, anisotropic Heisenberg models exhibit enhanced entanglement near isotropic points. Our findings highlight the intricate interplay between exchange interactions and entanglement in QDs, laying the groundwork for future studies on topological entanglement and the influence of entanglement on material properties. Overall, this work contributes to advancing our understanding of entanglement in QDs and its potential applications in quantum technologies.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 未知の精度で電子メールを抽出する大規模言語モデル:性能の比較分析

Large Language Models Spot Phishing Emails with Surprising Accuracy: A Comparative Analysis of Performance ( http://arxiv.org/abs/2404.15485v1 )

ライセンス: Link先を確認
Het Patel, Umair Rehman, Farkhund Iqbal, (参考訳) 何十年にもわたるサイバー犯罪戦術であるフィッシングは、今日のデジタル世界において大きな脅威となっている。 巧妙な社会工学的要素と近代技術を活用することで、サイバー犯罪は多くの個人、企業、組織が信頼とセキュリティを利用することを狙う。 これらのサイバー攻撃者は、正統な情報源として現れる多くの信頼できる形で偽装されることが多い。 緊急性、恐怖、社会的証明、その他の操作戦略といった心理的要素を巧みに利用することで、フィッシングは個人を誘惑して、機密でパーソナライズされた情報を明らかにすることができる。 本論文は,現代技術におけるこの広範囲な課題に基づいて,フィッシングの試みを検出するための15のLarge Language Models (LLMs) の有効性を解析することを目的としており,特にランダム化された419 ScamのEメールに焦点をあてている。 本研究の目的は、予め定義された基準に基づいて、メールメタデータを含むテキストファイルを解析することにより、どのLLMがフィッシングメールを正確に検出できるかを判断することである。 実験の結果、以下のモデル(ChatGPT 3.5、GPT-3.5-Turbo-Instruct、ChatGPT)がフィッシングメールの検出に最も有効であることが判明した。

Phishing, a prevalent cybercrime tactic for decades, remains a significant threat in today's digital world. By leveraging clever social engineering elements and modern technology, cybercrime targets many individuals, businesses, and organizations to exploit trust and security. These cyber-attackers are often disguised in many trustworthy forms to appear as legitimate sources. By cleverly using psychological elements like urgency, fear, social proof, and other manipulative strategies, phishers can lure individuals into revealing sensitive and personalized information. Building on this pervasive issue within modern technology, this paper aims to analyze the effectiveness of 15 Large Language Models (LLMs) in detecting phishing attempts, specifically focusing on a randomized set of "419 Scam" emails. The objective is to determine which LLMs can accurately detect phishing emails by analyzing a text file containing email metadata based on predefined criteria. The experiment concluded that the following models, ChatGPT 3.5, GPT-3.5-Turbo-Instruct, and ChatGPT, were the most effective in detecting phishing emails.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# MEDIQA-CORR 2024におけるIryoNLP : 医療エージェントの肩における医療エラー検出・補正タスクの取り組み

IryoNLP at MEDIQA-CORR 2024: Tackling the Medical Error Detection & Correction Task On the Shoulders of Medical Agents ( http://arxiv.org/abs/2404.15488v1 )

ライセンス: Link先を確認
Jean-Philippe Corbeil, (参考訳) 臨床領域に適用された自然言語処理では, 注釈付きデータが不足する知識集約的タスクである, 臨床ノートの誤り検出と訂正のための有望な手段として, 大規模言語モデルが登場している。 本稿では,LSMをベースとした4種類の医療エージェント群を活用したMedReAct'N'MedReFlexを提案する。 MedReActエージェントは、臨床ノートの潜在的なエラーを標的に探索を誘導するための軌跡を発生させ、観察、分析、および行動を取ることによって、プロセスを開始する。 その後、MedEvalエージェントは、5つの評価器を用いて、対象のエラーと提案された修正を評価する。 MedReActのアクションが不十分である場合、MedReFlexエージェントが介入し、反射分析に従事し、代替戦略を提案する。 最後に、MedFinalParserエージェントは最終出力をフォーマットし、エラー修正プロセスの完全性を確保しながら元のスタイルを保存する。 提案手法のコアコンポーネントの1つは,臨床コーパスに基づくRAGパイプラインである。 臨床ガイドラインや情報を含む有名な情報源として,臨床RAG応用のためのオープンソースのMedWikiデータセットを前処理し,リリースする。 MedReAct'N'MedReFlex フレームワークで活用した ClinicalCorp によるRAG アプローチの中枢的な役割を実証した。 MEDIQA-CORR 2024では9位となった。

In natural language processing applied to the clinical domain, utilizing large language models has emerged as a promising avenue for error detection and correction on clinical notes, a knowledge-intensive task for which annotated data is scarce. This paper presents MedReAct'N'MedReFlex, which leverages a suite of four LLM-based medical agents. The MedReAct agent initiates the process by observing, analyzing, and taking action, generating trajectories to guide the search to target a potential error in the clinical notes. Subsequently, the MedEval agent employs five evaluators to assess the targeted error and the proposed correction. In cases where MedReAct's actions prove insufficient, the MedReFlex agent intervenes, engaging in reflective analysis and proposing alternative strategies. Finally, the MedFinalParser agent formats the final output, preserving the original style while ensuring the integrity of the error correction process. One core component of our method is our RAG pipeline based on our ClinicalCorp corpora. Among other well-known sources containing clinical guidelines and information, we preprocess and release the open-source MedWiki dataset for clinical RAG application. Our results demonstrate the central role of our RAG approach with ClinicalCorp leveraged through the MedReAct'N'MedReFlex framework. It achieved the ninth rank on the MEDIQA-CORR 2024 final leaderboard.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 生成設計に基づくマルチスケール干渉計画

Multi-scale Intervention Planning based on Generative Design ( http://arxiv.org/abs/2404.15492v1 )

ライセンス: Link先を確認
Ioannis Kavouras, Ioannis Rallis, Emmanuel Sardis, Eftychios Protopapadakis, Anastasios Doulamis, Nikolaos Doulamis, (参考訳) 都市環境における緑地の不足は、重要な課題である。 様々な副作用があり、市民の健康と幸福に影響を及ぼす。 小規模の介入、例えばポケットパークは実現可能なソリューションであるが、特定の領域の設計と実装を含む、複数の制約が伴っている。 本研究では,生成型AIのマルチスケール介入計画能力を活用し,自然対応型ソリューションに焦点をあてる。 イメージ・ツー・イメージ・インペインティング・アルゴリズムを活用することで,都市部における温室効果ガスの削減に対処する手法を提案する。 緑地が不足しているテッサロニキの2つの路地に着目し,NBS介入を可視化するためのアプローチの有効性を実証した。 本研究は, 都市介入計画プロセスの今後をめざして, 新興技術の変革の可能性を明らかにするものである。

The scarcity of green spaces, in urban environments, consists a critical challenge. There are multiple adverse effects, impacting the health and well-being of the citizens. Small scale interventions, e.g. pocket parks, is a viable solution, but comes with multiple constraints, involving the design and implementation over a specific area. In this study, we harness the capabilities of generative AI for multi-scale intervention planning, focusing on nature based solutions. By leveraging image-to-image and image inpainting algorithms, we propose a methodology to address the green space deficit in urban areas. Focusing on two alleys in Thessaloniki, where greenery is lacking, we demonstrate the efficacy of our approach in visualizing NBS interventions. Our findings underscore the transformative potential of emerging technologies in shaping the future of urban intervention planning processes.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 六方晶窒化ホウ素におけるホウ素空孔中心の温度依存性スピンフォノンカップリング

Temperature dependent spin-phonon coupling of boron-vacancy centers in hexagonal boron nitride ( http://arxiv.org/abs/2404.15493v1 )

ライセンス: Link先を確認
Zhongyuan Liu, Ruotian Gong, Benchen Huang, Yu Jin, Xinyi Du, Guanghui He, Eli Janzen, Li Yang, Erik Henriksen, James Edgar, Giulia Galli, Chong Zu, (参考訳) 六方晶窒化ホウ素 (hBN) における負電荷のホウ素空孔中心 (\mathrm{V}_{\mathrm{B}}^-$) は、近年、高い有望な量子センサとして出現している。 ダイヤモンド中の窒素空孔(NV)中心と比較して、$\mathrm{V}_{\mathrm{B}}^-$のスピン遷移エネルギーの温度変化は1等級以上であり、優れた感度を持つナノスケール温度計となる可能性がある。 しかし、観測された大きな温度依存のメカニズムは未解決のままである。 本研究では, 等方的に精製された$\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$を用いて, ゼロフィールド分割, 超微細相互作用, スピン緩和時間$\mathrm{V}_{\mathrm{B}}^-$を10から350$~$Kまで体系的に特徴づける。 我々は、$\mathrm{V}_{\mathrm{B}}^-$ spin-phonon 相互作用の第一原理計算を行い、有限温度フォノン励起による二階効果が実験において観測された変化の原因となることを示す。 実験結果を物理的に動機づけたモデルに合わせることで,シミュレーションによく適合する支配的なフォノンモードを抽出する。 最後に,低温における動的核スピン偏極過程について検討した。 この結果から, $\mathrm{V}_{\mathrm{B}}^-$センターにおける重要な知見が得られ,ナノスケール温度計やフォノンセンサとしての利用が期待できる。

The negatively charged boron-vacancy center ($\mathrm{V}_{\mathrm{B}}^-$) in hexagonal boron nitride (hBN) has recently emerged as a highly promising quantum sensor. Compared to the nitrogen-vacancy (NV) center in diamond, the change with temperature of the spin transition energy of $\mathrm{V}_{\mathrm{B}}^-$ is more than an order of magnitude larger, making it a potential nanoscale thermometer with superior sensitivity. However, the underlying mechanism of the observed large temperature dependence remains an open question. In this work, using isotopically purified $\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$, we systematically characterize the zero-field splitting, hyperfine interaction, and spin relaxation time of $\mathrm{V}_{\mathrm{B}}^-$ from 10 to 350$~$K. We carry out first-principle calculations of the $\mathrm{V}_{\mathrm{B}}^-$ spin-phonon interaction and show that a second-order effect from finite-temperature phonon excitations is responsible for the observed changes in experiments. By fitting our experimental results to a physically motivated model, we extract the dominant phonon mode which agrees well with our simulations. Finally, we investigate the dynamic nuclear spin polarization process at cryogenic temperatures. Our results provide key insights in $\mathrm{V}_{\mathrm{B}}^-$ centers and their utilization as nanoscale thermometers and phonon sensors.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 能動ニューマティクスから速度場を得る場合の深層学習光学流のPIV特性

Deep-learning Optical Flow Outperforms PIV in Obtaining Velocity Fields from Active Nematics ( http://arxiv.org/abs/2404.15497v1 )

ライセンス: Link先を確認
Phu N. Tran, Sattvic Ray, Linnea Lemma, Yunrui Li, Reef Sweeney, Aparna Baskaran, Zvonimir Dogic, Pengyu Hong, Michael F. Hagan, (参考訳) 深層学習に基づく光学フロー(DLOF)は、深層畳み込みニューラルネットワークで隣接するビデオフレームの特徴を抽出する。 それらの特徴を使って、ピクセルレベルでのオブジェクトのフレーム間の動きを推定する。 本稿では,異なるラベル付け条件下でのMT-based active nematicsの自然流れを定量化するための光フローの能力を評価する。 DLOFと一般的に使われている粒子画像速度測定法(PIV)を比較した。 フィラメントの少ない試料やパッシブトレーサビーズから半自動粒子追跡を行うことにより,流れ速度基底の真理を得る。 DLOF は高密度ラベル付き試料に対して PIV よりも精度の高い速度場を生成することがわかった。 PIVの分解は、アルゴリズムが高密度のコントラスト変動を、特にネマティックディレクタと平行な方向において確実に区別できないために生じることを示す。 DLOFはこの制限を克服する。 少ないラベル付きサンプルの場合、DLOF と PIV は同様の精度で結果を生成するが、DLOF は高分解能場を与える。 本研究は, 活性, ソフト, バイオ物理系の多種多様な流れを計測するための汎用ツールとしてDLOFを確立した。

Deep learning-based optical flow (DLOF) extracts features in adjacent video frames with deep convolutional neural networks. It uses those features to estimate the inter-frame motions of objects at the pixel level. In this article, we evaluate the ability of optical flow to quantify the spontaneous flows of MT-based active nematics under different labeling conditions. We compare DLOF against the commonly used technique, particle imaging velocimetry (PIV). We obtain flow velocity ground truths either by performing semi-automated particle tracking on samples with sparsely labeled filaments, or from passive tracer beads. We find that DLOF produces significantly more accurate velocity fields than PIV for densely labeled samples. We show that the breakdown of PIV arises because the algorithm cannot reliably distinguish contrast variations at high densities, particularly in directions parallel to the nematic director. DLOF overcomes this limitation. For sparsely labeled samples, DLOF and PIV produce results with similar accuracy, but DLOF gives higher-resolution fields. Our work establishes DLOF as a versatile tool for measuring fluid flows in a broad class of active, soft, and biophysical systems.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# GeoLLM-Engine: 地理空間コパイロット構築のための現実的な環境

GeoLLM-Engine: A Realistic Environment for Building Geospatial Copilots ( http://arxiv.org/abs/2404.15500v1 )

ライセンス: Link先を確認
Simranjit Singh, Michael Fore, Dimitrios Stamoulis, (参考訳) Geospatial Copilotsは、自然言語による地球観測(EO)の応用に先例のない可能性を解き放つ。 しかし、既存のエージェントは過剰に単純化された単一タスクとテンプレートベースのプロンプトに依存しており、現実世界のシナリオと切り離されている。 本稿では,遠隔センシングプラットフォーム上で,アナリストが日常的に行う複雑なタスクを伴うツール拡張エージェントのための環境であるGeoLLM-Engineを紹介する。 我々は地理空間APIツール、動的マップ/UI、および外部マルチモーダル知識ベースで環境を充実させ、現実的な高レベル自然言語コマンドの解釈におけるエージェントの習熟度とタスク完了時の機能的正しさを適切に評価する。 ヒューマン・イン・ザ・ループ・ベンチマーク・キュレーションに関連するオーバーヘッドを緩和することで、100のGPT-4-Turboノードにまたがる巨大な並列エンジンを活用し、50万以上の多様なマルチツールタスクと1100万の衛星画像にスケールアップします。 従来の単一タスクのイメージキャプチャパラダイムを超えて、最先端のエージェントを調査し、ロングホライズンプロンプトに対するテクニックを推し進める。

Geospatial Copilots unlock unprecedented potential for performing Earth Observation (EO) applications through natural language instructions. However, existing agents rely on overly simplified single tasks and template-based prompts, creating a disconnect with real-world scenarios. In this work, we present GeoLLM-Engine, an environment for tool-augmented agents with intricate tasks routinely executed by analysts on remote sensing platforms. We enrich our environment with geospatial API tools, dynamic maps/UIs, and external multimodal knowledge bases to properly gauge an agent's proficiency in interpreting realistic high-level natural language commands and its functional correctness in task completions. By alleviating overheads typically associated with human-in-the-loop benchmark curation, we harness our massively parallel engine across 100 GPT-4-Turbo nodes, scaling to over half a million diverse multi-tool tasks and across 1.1 million satellite images. By moving beyond traditional single-task image-caption paradigms, we investigate state-of-the-art agents and prompting techniques against long-horizon prompts.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# Killkan: モルフォシンタクティック情報を用いたキチワの自動音声認識データセット

Killkan: The Automatic Speech Recognition Dataset for Kichwa with Morphosyntactic Information ( http://arxiv.org/abs/2404.15501v1 )

ライセンス: Link先を確認
Chihiro Taguchi, Jefferson Saransig, Dayana Velásquez, David Chiang, (参考訳) 本稿では,エクアドル原住民の言語であるキチワ語における自動音声認識(ASR)のための最初のデータセットであるキルカンについて述べる。 Kichwaは、非常に低リソースの絶滅危惧言語であり、Kilkanが自然言語処理の応用に組み込まれるためのリソースはない。 このデータセットは、スペイン語への翻訳と、Universal Dependenciesの形式でのモルフォシンタクティックアノテーションを含む約4時間の音声を含む。 音声データはキチワで公開されているラジオ番組から検索された。 また, このデータセットのコーパス言語学的解析を行い, キクワの凝集形態とスペイン語の頻繁なコードスイッチングに着目した。 実験により、データセットのサイズが小さいにもかかわらず、信頼性の高い品質で、データセットが最初のASRシステムの開発を可能にすることが示された。 このデータセット、ASRモデル、およびそれらを開発するために使用されるコードは、一般公開される予定である。 そこで本研究では,低リソース言語とそのコミュニティへのリソース構築とその応用について,肯定的に紹介する。

This paper presents Killkan, the first dataset for automatic speech recognition (ASR) in the Kichwa language, an indigenous language of Ecuador. Kichwa is an extremely low-resource endangered language, and there have been no resources before Killkan for Kichwa to be incorporated in applications of natural language processing. The dataset contains approximately 4 hours of audio with transcription, translation into Spanish, and morphosyntactic annotation in the format of Universal Dependencies. The audio data was retrieved from a publicly available radio program in Kichwa. This paper also provides corpus-linguistic analyses of the dataset with a special focus on the agglutinative morphology of Kichwa and frequent code-switching with Spanish. The experiments show that the dataset makes it possible to develop the first ASR system for Kichwa with reliable quality despite its small dataset size. This dataset, the ASR model, and the code used to develop them will be publicly available. Thus, our study positively showcases resource building and its applications for low-resource languages and their community.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# FedGreen: モデルサイズ適応によるカーボンアウェアなフェデレーションラーニング

FedGreen: Carbon-aware Federated Learning with Model Size Adaptation ( http://arxiv.org/abs/2404.15503v1 )

ライセンス: Link先を確認
Ali Abbasi, Fan Dong, Xin Wang, Henry Leung, Jiayu Zhou, Steve Drew, (参考訳) フェデレートラーニング(FL)は、分散クライアントからモデルを構築するための有望な協調フレームワークを提供する。 FLクライアントをホストするクラウドおよびエッジサーバは、様々な電力源を持つ地理的な場所の影響を受け、適応的な計算と通信でローカルモデルを訓練することで、二酸化炭素排出量を減らす機会を提供する。 本稿では, モデル圧縮手法としてオーダードロップアウトを用いた炭素プロファイルと位置に基づいて, クライアントと共有する適応型モデルサイズを採用することで, モデルを効率的に訓練する, カーボン対応FLアプローチであるFedGreenを提案する。 生成した炭素排出量と収束精度のトレードオフを理論的に分析し, パラメータを最適に選択する国間での炭素強度の差を考慮した。 実証実験により、FedGreenは競争モデルの精度を維持しながら、FLのカーボンフットプリントを大幅に削減できることが示された。

Federated learning (FL) provides a promising collaborative framework to build a model from distributed clients, and this work investigates the carbon emission of the FL process. Cloud and edge servers hosting FL clients may exhibit diverse carbon footprints influenced by their geographical locations with varying power sources, offering opportunities to reduce carbon emissions by training local models with adaptive computations and communications. In this paper, we propose FedGreen, a carbon-aware FL approach to efficiently train models by adopting adaptive model sizes shared with clients based on their carbon profiles and locations using ordered dropout as a model compression technique. We theoretically analyze the trade-offs between the produced carbon emissions and the convergence accuracy, considering the carbon intensity discrepancy across countries to choose the parameters optimally. Empirical studies show that FedGreen can substantially reduce the carbon footprints of FL compared to the state-of-the-art while maintaining competitive model accuracy.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# NeuraChip: ハッシュベースのデカップリング空間加速器によるGNN計算の高速化

NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator ( http://arxiv.org/abs/2404.15510v1 )

ライセンス: Link先を確認
Kaustubh Shivdikar, Nicolas Bohm Agostini, Malith Jayaweera, Gilbert Jonatan, Jose L. Abellan, Ajay Joshi, John Kim, David Kaeli, (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析からバイオインフォマティクスまで、さまざまな領域にわたる非ユークリッドデータを処理するための、恐ろしいツールとして登場している。 その効果にもかかわらず、大規模なグラフデータセットに関連するスケーラビリティ上の課題、特にメッセージパッシングを利用した場合、採用は広範に行われていない。 これらの課題に対処するために、Gustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。 NeuraChipはスパース行列乗算における乗算と加算計算を分離する。 この分離により、独自のデータ依存関係を独立して活用することができ、効率的なリソース割り当てが容易になる。 本稿では,オンチップメモリにおけるデータのアイドリングを軽減し,スパースグラフ計算におけるメモリ肥大問題に対処するためのローリングエビクション戦略を提案する。 さらに、動的再検索ハッシュベースのマッピングによって計算リソースの負荷分散を実現し、スパーシティパターンに依存しない計算リソースの均一な利用を確保する。 最後に,包括的性能解析のためのオープンソース,サイクル精度,マルチスレッド,モジュールシミュレータであるNeuraSimを紹介する。 全体として、NeuraChipはIntelのMKLよりも平均22.1倍、NVIDIAのcuSPARSEより17.1倍、AMDのhipSPARSEより16.7倍、最先端のSpGEMMアクセラレータより1.5倍、GNNアクセラレータより平均1.3倍のスピードアップを実現している。 オープンソースシミュレータとパフォーマンスビジュアライザのソースコードはGitHub https://neurachip.usで公開されている。

Graph Neural Networks (GNNs) are emerging as a formidable tool for processing non-euclidean data across various domains, ranging from social network analysis to bioinformatics. Despite their effectiveness, their adoption has not been pervasive because of scalability challenges associated with large-scale graph datasets, particularly when leveraging message passing. To tackle these challenges, we introduce NeuraChip, a novel GNN spatial accelerator based on Gustavson's algorithm. NeuraChip decouples the multiplication and addition computations in sparse matrix multiplication. This separation allows for independent exploitation of their unique data dependencies, facilitating efficient resource allocation. We introduce a rolling eviction strategy to mitigate data idling in on-chip memory as well as address the prevalent issue of memory bloat in sparse graph computations. Furthermore, the compute resource load balancing is achieved through a dynamic reseeding hash-based mapping, ensuring uniform utilization of computing resources agnostic of sparsity patterns. Finally, we present NeuraSim, an open-source, cycle-accurate, multi-threaded, modular simulator for comprehensive performance analysis. Overall, NeuraChip presents a significant improvement, yielding an average speedup of 22.1x over Intel's MKL, 17.1x over NVIDIA's cuSPARSE, 16.7x over AMD's hipSPARSE, and 1.5x over prior state-of-the-art SpGEMM accelerator and 1.3x over GNN accelerator. The source code for our open-sourced simulator and performance visualizer is publicly accessible on GitHub https://neurachip.us
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# ToM-LM:大規模言語モデルにおける外部シンボリックエクゼクタに対する心の推論理論

ToM-LM: Delegating Theory Of Mind Reasoning to External Symbolic Executors in Large Language Models ( http://arxiv.org/abs/2404.15515v1 )

ライセンス: Link先を確認
Weizhi Tang, Vaishak Belle, (参考訳) 心の理論(りょうせい、英: Theory of Mind、ToM)とは、個人が心の状態を他人に当てはめる能力のこと。 LLM(Large Language Models)はToMの能力にいくつかの期待を示しているが、それでも複雑なToM推論に苦戦している。 提案手法では,SMCDELモデルチェッカーの外部シンボルエグゼキュータと微調整を併用し,LLMのToM推論能力を向上させる。 提案手法では,まず自然言語のペアとToM問題のシンボリック定式化表現を用いて微調整を行い,ワンショットインコンテキストの例を用いてシンボリック定式化を生成するように指示する。 生成された記号定式化はSMCDELモデルチェッカーによって実行され、透明で検証可能なToM推論を実行し、最終的な結果を与える。 提案手法であるToM-LMは, 構築されたベースラインのすべてに対して, 大幅な改善を示した。 本研究は,ToM推論の特定の構成要素の外部化,主に信念の外部化,およびToM推論の他の側面への一般化に関する新たな見解を提案する。

Theory of Mind (ToM) refers to the ability of individuals to attribute mental states to others. While Large Language Models (LLMs) have shown some promise with ToM ability, they still struggle with complex ToM reasoning. Our approach leverages an external symbolic executor, specifically the SMCDEL model checker, and fine-tuning to improve the ToM reasoning ability of LLMs. In our approach, an LLM is first fine-tuned through pairs of natural language and symbolic formulation representation of ToM problems and is then instructed to generate the symbolic formulation with a one-shot in-context example. The generated symbolic formulation is then executed by the SMCDEL model checker to perform transparent and verifiable ToM reasoning and give the final result. We demonstrate that our approach, ToM-LM, shows a significant improvement over all the constructed baselines. Our study proposes a novel view about externalizing a particular component of ToM reasoning, mainly reasoning about beliefs, and suggests generalizing it to other aspects of ToM reasoning.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 半教師付き合成画像検索のための大規模マルチモーダルモデルを用いたビジュアルデルタ発生装置

Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval ( http://arxiv.org/abs/2404.15516v1 )

ライセンス: Link先を確認
Young Kyun Jang, Donghyun Kim, Zihang Meng, Dat Huynh, Ser-Nam Lim, (参考訳) Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。 現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。 これらの特定の三重項は、単純な画像テキストペアほど一般的には利用できないため、CIRの広範な使用とスケーラビリティが制限されている。 一方、ゼロショットCIRは画像対画像の関係を考慮せずに比較的容易に画像対で訓練することができるが、このアプローチはより精度が低い傾向にある。 そこで我々は,参照と関連する対象画像を補助データで検索し,大規模言語モデルに基づくビジュアルデルタジェネレータ(VDG)を学習し,両者の視覚的差異(視覚的デルタ)を記述したテキストを生成する,新たな半教師付きCIRアプローチを提案する。 流動的な言語知識とモデル非依存を備えたVDGは、CIRモデルの性能を高めるために擬似三重項を生成することができる。 提案手法は,既存の教師付き学習手法を大幅に改善し,CIRベンチマークの最先端結果を実現する。

Composed Image Retrieval (CIR) is a task that retrieves images similar to a query, based on a provided textual modification. Current techniques rely on supervised learning for CIR models using labeled triplets of the reference image, text, target image. These specific triplets are not as commonly available as simple image-text pairs, limiting the widespread use of CIR and its scalability. On the other hand, zero-shot CIR can be relatively easily trained with image-caption pairs without considering the image-to-image relation, but this approach tends to yield lower accuracy. We propose a new semi-supervised CIR approach where we search for a reference and its related target images in auxiliary data and learn our large language model-based Visual Delta Generator (VDG) to generate text describing the visual difference (i.e., visual delta) between the two. VDG, equipped with fluent language knowledge and being model agnostic, can generate pseudo triplets to boost the performance of CIR models. Our approach significantly improves the existing supervised learning approaches and achieves state-of-the-art results on the CIR benchmarks.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 教師付き学習のためのMPP定式化:一般化された時間差学習モデル

An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models ( http://arxiv.org/abs/2404.15518v1 )

ライセンス: Link先を確認
Yangchen Pan, Junfeng Wen, Chenjun Xiao, Philip Torr, (参考訳) 従来の統計的学習では、データポイントは通常、未知の確率分布の後、独立して同じ分布(すなわち、同じ分布)であると仮定される。 本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。 我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。 理論的には、線形TD学習の解と通常の最小二乗(OLS)の間の関係を抽出する。 また、特定の条件下では、特にノイズが相関している場合、TDの解はOLSよりも効果的に推定できることを示す。 さらに,線形関数近似の下で一般化されたTDアルゴリズムの収束性を確立する。 実験的な研究により、我々の理論的結果を検証し、我々のTDアルゴリズムの重要設計を検証し、回帰や深層学習による画像分類といったタスクを含む様々なデータセットで実用性を示す。

In traditional statistical learning, data points are usually assumed to be independently and identically distributed (i.i.d.) following an unknown probability distribution. This paper presents a contrasting viewpoint, perceiving data points as interconnected and employing a Markov reward process (MRP) for data modeling. We reformulate the typical supervised learning as an on-policy policy evaluation problem within reinforcement learning (RL), introducing a generalized temporal difference (TD) learning algorithm as a resolution. Theoretically, our analysis draws connections between the solutions of linear TD learning and ordinary least squares (OLS). We also show that under specific conditions, particularly when noises are correlated, the TD's solution proves to be a more effective estimator than OLS. Furthermore, we establish the convergence of our generalized TD algorithms under linear function approximation. Empirical studies verify our theoretical results, examine the vital design of our TD algorithm and show practical utility across various datasets, encompassing tasks such as regression and image classification with deep learning.
翻訳日:2024-04-25 15:13:10 公開日:2024-04-23
# 大規模言語モデルの論理推論能力の体系的評価に向けて

Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models ( http://arxiv.org/abs/2404.15522v1 )

ライセンス: Link先を確認
Mihir Parmar, Nisarg Patel, Neeraj Varshney, Mutsumi Nakamura, Man Luo, Santosh Mashetty, Arindam Mitra, Chitta Baral, (参考訳) 最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。 しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。 しかし、「論理的推論」にまつわる重要な技術はいまだ未解明のままである。 LLMのこの推論能力を研究する既存の研究は、命題論理と一階述語論理のいくつかの推論規則(modus ponensやmodus tollensなど)にのみ焦点を当てている。 上記の制限に対処し、命題論理、一階論理、非単調論理にまたがる25の異なる推論パターンにおけるLLMの論理的推論能力を総合的に評価する。 体系的な評価を可能にするために,1つの推論規則の使用に着目した自然言語質問回答データセットであるLogicBenchを紹介する。 GPT-4, ChatGPT, Gemini, Llama-2, MistralなどのLLMをチェーン・オブ・シークレット・プロンプトを用いて詳細な解析を行った。 実験の結果,既存の LLM は LogicBench をうまく利用していないことが明らかとなった。 さらに、正しい結論に達するための推論に必要な文脈情報も見落としてしまうことがある。 我々は, LLMの論理的推論能力の評価と向上のために, 今後の研究を促進すると信じている。 データとコードはhttps://github.com/Mihir3009/LogicBench.comで入手できる。

Recently developed large language models (LLMs) have been shown to perform remarkably well on a wide range of language understanding tasks. But, can they really "reason" over the natural language? This question has been receiving significant research attention and many reasoning skills such as commonsense, numerical, and qualitative have been studied. However, the crucial skill pertaining to 'logical reasoning' has remained underexplored. Existing work investigating this reasoning ability of LLMs has focused only on a couple of inference rules (such as modus ponens and modus tollens) of propositional and first-order logic. Addressing the above limitation, we comprehensively evaluate the logical reasoning ability of LLMs on 25 different reasoning patterns spanning over propositional, first-order, and non-monotonic logics. To enable systematic evaluation, we introduce LogicBench, a natural language question-answering dataset focusing on the use of a single inference rule. We conduct detailed analysis with a range of LLMs such as GPT-4, ChatGPT, Gemini, Llama-2, and Mistral using chain-of-thought prompting. Experimental results show that existing LLMs do not fare well on LogicBench; especially, they struggle with instances involving complex reasoning and negations. Furthermore, they sometimes overlook contextual information necessary for reasoning to arrive at the correct conclusion. We believe that our work and findings facilitate future research for evaluating and enhancing the logical reasoning ability of LLMs. Data and code are available at https://github.com/Mihir3009/LogicBench.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# ハードネガティブサンプリングによるハイパーボリックメトリック学習の理解

Understanding Hyperbolic Metric Learning through Hard Negative Sampling ( http://arxiv.org/abs/2404.15523v1 )

ライセンス: Link先を確認
Yun Yue, Fangzhou Lin, Guanyi Mou, Ziming Zhang, (参考訳) 近年,双曲幾何学手法をコンピュータビジョンに取り入れる傾向が高まっている。 これらの手法は、双曲距離測定を用いた様々な計量学習タスクにおいて最先端の性能を達成しているが、この優れた性能を支える基礎となる理論的分析は未解明のままである。 本研究では,ハイパーボリック空間をメトリクス学習に統合することの効果について検討する。 既存の文献における対照的な損失における温度効果に関するユークリッド空間と双曲空間の包括的比較の必要性を明らかにする。 このギャップに対処するために、ユークリッド空間と双曲空間の損失を組み合わせたハイブリッド目的関数を用いて視覚変換器(ViT)の結果のベンチマークを行う。 さらに,観測された性能改善に関する理論的分析を行った。 また,双曲的メートル法学習は強陰性サンプリングに強く関連しており,今後の研究に洞察を与えていることも明らかにした。 この研究は、双曲像の埋め込みを理解するための貴重なデータポイントと経験を提供する。 問題の解決と、私たちのアプローチのさらなる調査を促進するために、私たちのコードはオンラインで利用可能です(https://github.com/YunYunY/HypMix.)。

In recent years, there has been a growing trend of incorporating hyperbolic geometry methods into computer vision. While these methods have achieved state-of-the-art performance on various metric learning tasks using hyperbolic distance measurements, the underlying theoretical analysis supporting this superior performance remains under-exploited. In this study, we investigate the effects of integrating hyperbolic space into metric learning, particularly when training with contrastive loss. We identify a need for a comprehensive comparison between Euclidean and hyperbolic spaces regarding the temperature effect in the contrastive loss within the existing literature. To address this gap, we conduct an extensive investigation to benchmark the results of Vision Transformers (ViTs) using a hybrid objective function that combines loss from Euclidean and hyperbolic spaces. Additionally, we provide a theoretical analysis of the observed performance improvement. We also reveal that hyperbolic metric learning is highly related to hard negative sampling, providing insights for future work. This work will provide valuable data points and experience in understanding hyperbolic image embeddings. To shed more light on problem-solving and encourage further investigation into our approach, our code is available online (https://github.com/YunYunY/HypMix).
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# BattleAgent: 歴史的戦闘に関するマルチモーダル・ダイナミック・エミュレーション

BattleAgent: Multi-modal Dynamic Emulation on Historical Battles to Complement Historical Analysis ( http://arxiv.org/abs/2404.15532v1 )

ライセンス: Link先を確認
Shuhang Lin, Wenyue Hua, Lingyao Li, Che-Jui Chang, Lizhou Fan, Jianchao Ji, Hang Hua, Mingyu Jin, Jiebo Luo, Yongfeng Zhang, (参考訳) 本稿では,大規模視覚言語モデルとマルチエージェントシステムを組み合わせたエミュレーションシステムであるBattleAgentを提案する。 このシステムは、複数のエージェント間の複雑な動的相互作用と、エージェントとその環境間の相互作用を、一定時間にわたってシミュレートすることを目的としている。 指導者の意思決定プロセスと、兵士のような一般参加者の視点の両方をエミュレートする。 エミュレーションはエージェントの現在の能力を示し、エージェントとランドスケープ間のきめ細かいマルチモーダル相互作用を特徴としている。 特定の状況条件を満たすようにカスタマイズ可能なエージェント構造を開発する。例えば、スカウトやトレンチ掘削など、様々な戦闘関連の活動を行う。 これらの構成要素は、様々な視点から個人の思考や感情についての洞察を提供しながら、活発で包括的な方法で歴史的な出来事を再現するために協力する。 バトルアジェントの技術的基盤は、歴史的戦闘の詳細な、没入的な設定を確立し、個々のエージェントが進化する戦闘シナリオに参加し、観察し、動的に対応できるようにする。 この方法論は、歴史的出来事、特に個人の説明を通じて、我々の理解を著しく深める可能性を秘めている。 このようなイニシアチブは、従来の歴史物語が文書を欠くことが多く、意思決定者の視点を優先し、普通の個人の経験を見落としているため、歴史研究にも役立てることができる。 BattelAgentは、AIが重要な社会的出来事における人間の側面を再活性化する可能性を示し、それによってより曖昧な集団的理解を育み、人間の社会の進歩的な発展を促進する。

This paper presents BattleAgent, an emulation system that combines the Large Vision-Language Model and Multi-agent System. This novel system aims to simulate complex dynamic interactions among multiple agents, as well as between agents and their environments, over a period of time. It emulates both the decision-making processes of leaders and the viewpoints of ordinary participants, such as soldiers. The emulation showcases the current capabilities of agents, featuring fine-grained multi-modal interactions between agents and landscapes. It develops customizable agent structures to meet specific situational requirements, for example, a variety of battle-related activities like scouting and trench digging. These components collaborate to recreate historical events in a lively and comprehensive manner while offering insights into the thoughts and feelings of individuals from diverse viewpoints. The technological foundations of BattleAgent establish detailed and immersive settings for historical battles, enabling individual agents to partake in, observe, and dynamically respond to evolving battle scenarios. This methodology holds the potential to substantially deepen our understanding of historical events, particularly through individual accounts. Such initiatives can also aid historical research, as conventional historical narratives often lack documentation and prioritize the perspectives of decision-makers, thereby overlooking the experiences of ordinary individuals. BattelAgent illustrates AI's potential to revitalize the human aspect in crucial social events, thereby fostering a more nuanced collective understanding and driving the progressive development of human society.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# DreamCraft:Minecraftの関数型3D環境のテキストガイド

DreamCraft: Text-Guided Generation of Functional 3D Environments in Minecraft ( http://arxiv.org/abs/2404.15538v1 )

ライセンス: Link先を確認
Sam Earle, Filippos Kokkinos, Yuhe Nie, Julian Togelius, Roberta Raileanu, (参考訳) 手続き的コンテンツ生成(PCG)アルゴリズムは、複雑で多様なアーティファクトの自動生成を可能にする。 しかし、それらは生成されたコンテンツに対して高いレベルの制御を提供しておらず、通常ドメインの専門知識を必要とします。 対照的に、テキストから3Dの手法では、ユーザーは自然言語で望ましい特徴を指定でき、高い柔軟性と表現性を提供する。 しかし、PCGとは異なり、そのようなアプローチは機能を保証することはできない。 本稿では,オープンワールドゲームMinecraftにおけるフリーフォームテキストプロンプトから,関数型3Dアーティファクトを生成する手法を提案する。 我々の手法であるDreamCraftは、与えられたテキスト記述にマッチするアーティファクトを表現するために、量子化されたNeRF(Neural Radiance Fields)を訓練する。 我々はDreamCraftが、制約のないNeRFの出力を後処理するベースラインよりも、より整列したゲーム内アーティファクトを生成することを発見した。 環境の量子化表現のおかげで、機能的制約は特別な損失項を使って統合することができる。 対象の分布にマッチする3D構造の生成や,ブロック型に対する特定の隣接ルールに従うために,これをどのように活用するかを示す。 DreamCraftは、NeRFから高い表現性と制御性を継承すると同時に、ドメイン固有の目的を通じて機能的な制約を組み込むことができる。

Procedural Content Generation (PCG) algorithms enable the automatic generation of complex and diverse artifacts. However, they don't provide high-level control over the generated content and typically require domain expertise. In contrast, text-to-3D methods allow users to specify desired characteristics in natural language, offering a high amount of flexibility and expressivity. But unlike PCG, such approaches cannot guarantee functionality, which is crucial for certain applications like game design. In this paper, we present a method for generating functional 3D artifacts from free-form text prompts in the open-world game Minecraft. Our method, DreamCraft, trains quantized Neural Radiance Fields (NeRFs) to represent artifacts that, when viewed in-game, match given text descriptions. We find that DreamCraft produces more aligned in-game artifacts than a baseline that post-processes the output of an unconstrained NeRF. Thanks to the quantized representation of the environment, functional constraints can be integrated using specialized loss terms. We show how this can be leveraged to generate 3D structures that match a target distribution or obey certain adjacency rules over the block types. DreamCraft inherits a high degree of expressivity and controllability from the NeRF, while still being able to incorporate functional constraints through domain-specific objectives.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# スプリングとストップウォッチ:時間依存多機能神経ユニット

Springs and a stopwatch: neural units with time-dependent multifunctionality ( http://arxiv.org/abs/2404.15545v1 )

ライセンス: Link先を確認
Stephen Whitelam, (参考訳) コンピューティングのいくつかの分野は、システムの物理力学を使って計算を行う。 本研究では, アンダーダム型高調波発振器の力学を多機能計算し, 1つの動的軌道内で異なるタイミングで異なる問題を解くことができることを示す。 振動子計算は通常、情報搬送コンポーネントとしての発振子の位相に焦点をあてる。 ここでは、入力が周波数に影響を与える発振器の時間分解振幅に着目し、時間依存神経ユニットのアクティビティとして自然な並列性を持つ。 一定時の単位の活性は入力の非単調関数であるため、単位は XOR のような非線形に分離可能な問題を解くことができる。 固定入力時の単位の活性は時間の非単調関数であるため、単位は時間的意味で多機能であり、同じ動的軌道内で異なるタイミングで異なる非線形計算を行うことができる。 この性質の時間分解計算は、システムの自然な時間進化によって、1つの価格で複数の計算を行うことができる。

Several branches of computing use a system's physical dynamics to do computation. We show that the dynamics of an underdamped harmonic oscillator can perform multifunctional computation, solving distinct problems at distinct times within a single dynamical trajectory. Oscillator computing usually focuses on the oscillator's phase as the information-carrying component. Here we focus on the time-resolved amplitude of an oscillator whose inputs influence its frequency, which has a natural parallel as the activity of a time-dependent neural unit. Because the activity of the unit at fixed time is a nonmonotonic function of the input, the unit can solve nonlinearly-separable problems such as XOR. Because the activity of the unit at fixed input is a nonmonotonic function of time, the unit is multifunctional in a temporal sense, able to carry out distinct nonlinear computations at distinct times within the same dynamical trajectory. Time-resolved computing of this nature can be done in or out of equilibrium, with the natural time evolution of the system giving us multiple computations for the price of one.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# 混合スピン状態を持つ回転の量子メロジ

Quantum metrology of rotations with mixed spin states ( http://arxiv.org/abs/2404.15548v1 )

ライセンス: Link先を確認
Eduardo Serrano Ensástiga, John Martin, Chryssomalis Chryssomalakos, (参考訳) 量子メートル法プロトコルの効率は、量子系とその環境との相互作用によって著しく低下し、純度が失われ、結果として、探索系に対する混合状態となる。 本稿では、任意の軸に関する無限小回転の測定における純状態と同等かつ同等の感度を実現するために、混合スピン-j$状態のポテンシャルについて検討する。 我々は、フィッシャー量子情報の最大化に基づく混合最適量子ロトセンサの概念を導入し、スピン状態の反コヒーレンスの概念とその部分空間への一般化に関連していることを示す。 反コヒーレント部分空間とその関連する混合最適量子ロトセンサのいくつかの例を示す。 また、後者は特定の二分割に対する負性度を最大化し、純状態と同じ最大値に達することを示す。 これらの結果は、混合スピン状態の枠組みにおける回転、反コヒーレンス、絡み合いの量子距離論の間の相互作用を解明する。

The efficiency of a quantum metrology protocol can be considerably reduced by the interaction of a quantum system with its environment, resulting in a loss of purity and, consequently, a mixed state for the probing system. In this paper we examine the potential of mixed spin-$j$ states to achieve sensitivity comparable, and even equal, to that of pure states in the measurement of infinitesimal rotations about arbitrary axes. We introduce the concept of mixed optimal quantum rotosensors based on a maximization of the Fisher quantum information and show that it is related to the notion of anticoherence of spin states and its generalization to subspaces. We present several examples of anticoherent subspaces and their associated mixed optimal quantum rotosensors. We also show that the latter maximize negativity for specific bipartitions, reaching the same maximum value as pure states. These results elucidate the interplay between quantum metrology of rotations, anticoherence and entanglement in the framework of mixed spin states.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# PRISM:大規模言語モデルを用いた意味的臨床試験における患者記録の解釈

PRISM: Patient Records Interpretation for Semantic Clinical Trial Matching using Large Language Models ( http://arxiv.org/abs/2404.15549v1 )

ライセンス: Link先を確認
Shashi Kant Gupta, Aditya Basu, Mauro Nievas, Jerrin Thomas, Nathan Wolfrath, Adhitya Ramamurthi, Bradley Taylor, Anai N. Kothari, Therica M. Miller, Sorena Nadaf-Rahrov, Yanshan Wang, Hrituraj Singh, (参考訳) 臨床試験マッチング(英: Clinical trial matching)とは、患者が潜在的に適する可能性のある臨床試験を識別するタスクである。 典型的には、この課題は労働集約的で、臨床試験の厳格な包摂と排除基準に対する患者の電子健康記録(EHR)の詳細な検証が必要である。 このプロセスは手動で、時間集約的で、スケールアップが難しいため、多くの患者が治療オプションを欠いている。 近年のLarge Language Models (LLMs) の進歩は、複数の同時研究で示されているように、患者と臨床のマッチングの自動化を可能にしている。 しかし、現在のアプローチは、現実の医療データで発生する複雑さを適切に反映しない、制約のある、しばしば合成データセットに限られている。 本研究では,実世界のEHRを用いた臨床治験マッチングの大規模評価を,エンド・ツー・エンドで行った最初の大規模評価を行った。 本研究は, LLMsが適切な臨床試験で患者に正確に適合する能力を示すものである。 GPT-4 や GPT-3.5 などの独自 LLM と,OncoLLM と呼ばれるカスタム微調整モデルを用いて実験を行った結果,OncoLLM は小さかったが GPT-3.5 を上回り,医師の能力に匹敵する結果となった。 実験はすべて、臨床ノートや米国の1つのがんセンターから入手可能な臨床試験を含む現実世界の EHR で実施された。

Clinical trial matching is the task of identifying trials for which patients may be potentially eligible. Typically, this task is labor-intensive and requires detailed verification of patient electronic health records (EHRs) against the stringent inclusion and exclusion criteria of clinical trials. This process is manual, time-intensive, and challenging to scale up, resulting in many patients missing out on potential therapeutic options. Recent advancements in Large Language Models (LLMs) have made automating patient-trial matching possible, as shown in multiple concurrent research studies. However, the current approaches are confined to constrained, often synthetic datasets that do not adequately mirror the complexities encountered in real-world medical data. In this study, we present the first, end-to-end large-scale empirical evaluation of clinical trial matching using real-world EHRs. Our study showcases the capability of LLMs to accurately match patients with appropriate clinical trials. We perform experiments with proprietary LLMs, including GPT-4 and GPT-3.5, as well as our custom fine-tuned model called OncoLLM and show that OncoLLM, despite its significantly smaller size, not only outperforms GPT-3.5 but also matches the performance of qualified medical doctors. All experiments were carried out on real-world EHRs that include clinical notes and available clinical trials from a single cancer center in the United States.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# クロステンポラルスペクトログラムオートエンコーダ(CTSAE):クラスタリング重力波グリッチの教師なし次元化

Cross-Temporal Spectrogram Autoencoder (CTSAE): Unsupervised Dimensionality Reduction for Clustering Gravitational Wave Glitches ( http://arxiv.org/abs/2404.15552v1 )

ライセンス: Link先を確認
Yi Li, Yunan Wu, Aggelos K. Katsaggelos, (参考訳) LIGO(Laser Interferometer Gravitational-Wave Observatory)の進歩により、重力波検出の実現可能性と信頼性が大幅に向上した。 しかし、LIGOの感度が高いため、グリッチと呼ばれる過渡的なノイズの影響を受けやすいため、実際の重力波信号と効果的に区別する必要がある。 従来のアプローチでは、グリッチ分類とクラスタリングのタスクに、完全に教師付きまたは半教師付きアルゴリズムを主に採用していた。 メインチャネルと補助チャネルをまたいでグリッチを識別し分類する将来のタスクでは、手動でラベル付けされた接地構造を持つデータセットを構築するのは現実的ではない。 さらに、グリッチのパターンは時間によって変化し、手動のラベルなしで新しいグリッチを生成することができる。 この課題に対して,重力波グリッチの次元減少とクラスタリングの先駆的手法であるCTSAE(Cross-Temporal Spectrogram Autoencoder)を導入する。 CTSAEは、新しい4分岐オートエンコーダと、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のハイブリッドを統合している。 マルチブランチにまたがる特徴を更に抽出するために,CLSトークンを用いた新しいマルチブランチ融合法を提案する。 本モデルでは,主チャネル上のGravitySpy O3データセットを用いて,最先端の半教師付き学習手法と比較して,クラスタリングタスクにおける優れた性能を示す。 我々の知る限りでは、CTSAEはLIGOデータのクラスタリングに特化した、最初の教師なしのアプローチであり、重力波研究の分野における重要な一歩である。 本論文のコードはhttps://github.com/Zod-L/CTSAEで公開されている。

The advancement of The Laser Interferometer Gravitational-Wave Observatory (LIGO) has significantly enhanced the feasibility and reliability of gravitational wave detection. However, LIGO's high sensitivity makes it susceptible to transient noises known as glitches, which necessitate effective differentiation from real gravitational wave signals. Traditional approaches predominantly employ fully supervised or semi-supervised algorithms for the task of glitch classification and clustering. In the future task of identifying and classifying glitches across main and auxiliary channels, it is impractical to build a dataset with manually labeled ground-truth. In addition, the patterns of glitches can vary with time, generating new glitches without manual labels. In response to this challenge, we introduce the Cross-Temporal Spectrogram Autoencoder (CTSAE), a pioneering unsupervised method for the dimensionality reduction and clustering of gravitational wave glitches. CTSAE integrates a novel four-branch autoencoder with a hybrid of Convolutional Neural Networks (CNN) and Vision Transformers (ViT). To further extract features across multi-branches, we introduce a novel multi-branch fusion method using the CLS (Class) token. Our model, trained and evaluated on the GravitySpy O3 dataset on the main channel, demonstrates superior performance in clustering tasks when compared to state-of-the-art semi-supervised learning methods. To the best of our knowledge, CTSAE represents the first unsupervised approach tailored specifically for clustering LIGO data, marking a significant step forward in the field of gravitational wave research. The code of this paper is available at https://github.com/Zod-L/CTSAE
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# 拡張リプキンモデル:量子プラットフォームにおける実装の提案とその位相図の機械学習解析

The extended Lipkin model: proposal for implementation in a quantum platform and machine learning analysis of its phase diagram ( http://arxiv.org/abs/2404.15558v1 )

ライセンス: Link先を確認
S. Baid, A. Sáiz, L. Lamata, P. Pérez-Fernández, A. M. Romero, A. Ríos, J. M. Arias, J. E. García-Ramos, (参考訳) IBA(Interacting Boson Approximation Model)の位相図を反映した拡張リプキンモデル(ELM)について検討する。 標準のリプキンモデルとは異なり、EMM(IBA)はモデルパラメータに依存する1階と2階の量子形状の相転移を特徴としている。 我々のゴールは量子プラットフォーム上でのEMMの実装であり、機械学習技術を活用して量子位相遷移と臨界線を識別することである。 これを実現するために、私たちは次のように提案します。 一 変分量子固有解法を用いた基底状態エネルギー計算 二 量子コンピューティングにおけるEMMダイナミクスの詳細な定式化であって、IBA位相図の実験的探索を容易にすること。 三 各種機械学習手法を用いた位相図の決定 我々は, 位相空間全体にわたって適応微分型擬似トロッターアンサッツ変分量子固有解法 (ADAPT-VQE) アルゴリズムを用いて, ELMの基底状態エネルギーの再現に成功した。 我々のフレームワークは、制御されたエラーを伴う量子プラットフォーム上でのEMM実装を保証する。 最後に、私たちのML予測はモデルに意味のあるフェーズ図を与えます。 キーワード:Quantum Platforms Nuclear Models ADAPT-VQE Quantum Shape Phase Transitions Interacting Boson Approximation Extended Lipkin Model Machine Learning

We investigate the Extended Lipkin Model (ELM), whose phase diagram mirrors that of the Interacting Boson Approximation model (IBA). Unlike the standard Lipkin model, the ELM (as the IBA) features both first- and second-order quantum shape phase transitions depending on the model parameters. Our goal is to implement the ELM on a quantum platform, leveraging Machine Learning techniques to identify its quantum phase transitions and critical lines. To achieve this, we offer: i) ground state energy calculations using a variational quantum eigensolver; ii) a detailed formulation for ELM dynamics within quantum computing, facilitating experimental exploration of the IBA phase diagram; and iii) a phase diagram determination using various Machine Learning methods. We successfully replicate the ELM ground-state energy using the Adaptive Derivative-Assembled Pseudo-Trotter ansatz Variational Quantum Eigensolver (ADAPT-VQE) algorithm across the entire phase space. Our framework ensures ELM implementation on quantum platforms with controlled errors. Lastly, our ML predictions yield a meaningful phase diagram for the model. Keywords: Quantum Platforms Nuclear Models ADAPT-VQE Quantum Shape Phase Transitions Interacting Boson Approximation Extended Lipkin Model Machine Learning
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# リング共振器の高精度状態:非減算ポンプ近似を超えて

Highly Squeezed States in Ring Resonators: Beyond the Undepleted Pump Approximation ( http://arxiv.org/abs/2404.15563v1 )

ライセンス: Link先を確認
Colin Vendromin, Yan Liu, Zhenshan Yang, John E. Sipe, (参考訳) 本稿では、任意のポンプパワーに有効な共振系における圧縮状態生成のマルチモード理論について述べる。 ハミルトニアンは、一般の相互作用を記述することができる散乱理論からの漸近的および外界の言葉で書かれる。 一例として、導波路に結合した窒化ケイ素環共振器における有効二階相互作用による高収縮状態の損失について考察する。 導波路内で発生した状態の光子数,シュミット数,および2次相関関数を計算する。 本稿では,非ガウス状態の共振系における決定論的生成について考察する。

We present a multimode theory of squeezed state generation in resonant systems valid for arbitrary pump power and including pump depletion. The Hamiltonian is written in terms of asymptotic-in and -out fields from scattering theory, capable of describing a general interaction. As an example we consider the lossy generation of a highly squeezed state by an effective second-order interaction in a silicon nitride ring resonator point-coupled to a waveguide. We calculate the photon number, Schmidt number, and the second-order correlation function of the generated state in the waveguide. The treatment we present provides a path forward to study the deterministic generation of non-Gaussian states in resonant systems.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# Guided AbsoluteGrad: Gradients Matters to Explanation's Localization and Saliency

Guided AbsoluteGrad: Magnitude of Gradients Matters to Explanation's Localization and Saliency ( http://arxiv.org/abs/2404.15564v1 )

ライセンス: Link先を確認
Jun Huang, Yan Liu, (参考訳) 本稿では,Saliency Map 説明のための勾配法である Guided AbsoluteGrad を提案する。 雑音低減のための重要な領域を識別するために,正の勾配と負の勾配の等級を併用し,勾配のばらつきを利用する。 また,ReCover And Predict (RCAP) と呼ばれる新しい評価基準を導入する。 これら2つの目的に対して2つの提案を提案し,その評価の必要性を証明した。 1) ResNet50 モデルを用いた ImageNet データセット,(2) EfficientNet モデルによる International Skin Imaging Collaboration (ISIC) データセット,(3) DenseNet161 モデルによる Places365 データセット。 本手法は他の勾配に基づくアプローチを超越し,勾配等級による塩分マップの高次説明の質を示す。

This paper proposes a new gradient-based XAI method called Guided AbsoluteGrad for saliency map explanations. We utilize both positive and negative gradient magnitudes and employ gradient variance to distinguish the important areas for noise deduction. We also introduce a novel evaluation metric named ReCover And Predict (RCAP), which considers the Localization and Visual Noise Level objectives of the explanations. We propose two propositions for these two objectives and prove the necessity of evaluating them. We evaluate Guided AbsoluteGrad with seven gradient-based XAI methods using the RCAP metric and other SOTA metrics in three case studies: (1) ImageNet dataset with ResNet50 model; (2) International Skin Imaging Collaboration (ISIC) dataset with EfficientNet model; (3) the Places365 dataset with DenseNet161 model. Our method surpasses other gradient-based approaches, showcasing the quality of enhanced saliency map explanations through gradient magnitude.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# CASPR: コントラスト要約のための自動評価基準

CASPR: Automated Evaluation Metric for Contrastive Summarization ( http://arxiv.org/abs/2404.15565v1 )

ライセンス: Link先を確認
Nirupan Ananthamurugan, Dat Duong, Philip George, Ankita Gupta, Sandeep Tata, Beliz Gunel, (参考訳) コントラッシブ・サマリゼーション(コントラスト・サマリゼーション)と呼ばれる一連のソースレビューからエンティティ(ホテル、電話など)の比較意見を要約することで、ユーザーは意思決定においてかなり役立つ。 しかし、人間の評価に頼らずに出力サマリーのコントラスト性を確実に測定することは、未解決の問題である。 従来の研究では、意味保存の語彙変動に対する感度を考慮していないコントラストを測定するために、トークンオーバーラップベースのメトリクスである Distinctiveness Score が提案されていた。 本研究では,一対の要約のコントラストをよりよく測定するための自動評価指標CASPRを提案する。 提案手法は,自然言語推論(NLI)タスクを利用して,評価を単一文に分割し,その間にNLIスコアを注意深く集約し,要約レベルのスコアを求めることによってコントラストを測定する。 我々は CASPR と Distinctiveness Score を比較し,BERTScore をベースとしたシンプルなベースラインとを比較した。 従来のデータセットであるCoCoTRIPを用いた結果から,CASPRはベースラインと比較して,要約ペアのコントラスト性をより確実に捉えることができることがわかった。

Summarizing comparative opinions about entities (e.g., hotels, phones) from a set of source reviews, often referred to as contrastive summarization, can considerably aid users in decision making. However, reliably measuring the contrastiveness of the output summaries without relying on human evaluations remains an open problem. Prior work has proposed token-overlap based metrics, Distinctiveness Score, to measure contrast which does not take into account the sensitivity to meaning-preserving lexical variations. In this work, we propose an automated evaluation metric CASPR to better measure contrast between a pair of summaries. Our metric is based on a simple and light-weight method that leverages natural language inference (NLI) task to measure contrast by segmenting reviews into single-claim sentences and carefully aggregating NLI scores between them to come up with a summary-level score. We compare CASPR with Distinctiveness Score and a simple yet powerful baseline based on BERTScore. Our results on a prior dataset CoCoTRIP demonstrate that CASPR can more reliably capture the contrastiveness of the summary pairs compared to the baselines.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# サーモスタットと入浴した小さな量子系のダイナミクス

Dynamics of a small quantum system open to a bath with thermostat ( http://arxiv.org/abs/2404.15568v1 )

ライセンス: Link先を確認
Chulan Kwon, Ju-Yeon Gyhm, (参考訳) サーモスタット付き浴槽に開放された小さな量子系の力学について検討する。 サーモスタットはリンドブラッド型かレッドフィールド型かのどちらかで, 浴槽と弱く結合し, サーモスタットが提供される。 厳密な摂動理論を用いて, システムと浴槽の相互作用を考察する。 サーモスタットのため、浴槽は散発的で確率的に振る舞うが、通常のボルン・マルコフの仮定は必要ない。 本研究では,高調波発振器システム,大型容器内のフォトニックバス,容器内面に分布するカルデイラ・レゲット発振器のスーパーバスについて考察する。 我々は全調和系に対して$P$-representationを使用する。 システムと浴の相関関係を, 環境から分離した浴と浴との相関関係が, 従来の理論では得られなかったこと, 浴の自由度を極端に制限することから, システムの時間進化方程式を導出した。 注目すべきことに、系密度行列の関連する力学方程式は、使用したサーモスタットに依存する係数の異なるレッドフィールド・マスター方程式と同じ形式である。 定常状態はサーモスタットに依存しないが、時間依存状態は共通の期待と一致する。 我々は我々の理論を一般的なシステムに適用することを期待している。 通常の量子マスター方程式とは異なり、我々の還元力学は時間依存プロトコルの研究を可能にし、非平衡量子確率力学は将来的に研究される。

We investigate dynamics of a small quantum system open to a bath with thermostat. We introduce another bath, called super bath, weakly coupled with the bath to provide it with thermostat, which has either the Lindblad or Redfield type. We treat the interaction between the system and bath via a rigorous perturbation theory. Due to the thermostat, the bath behaves dissipative and stochastic, for which the usual Born-Markov assumption is not needed. We consider a specific example of a harmonic oscillator system, and a photonic bath in a large container, and a super bath of the Caldeira-Legget oscillators distributed on the inner surface of the container. We use the $P$-representation for the total harmonic system. We derive the reduced time-evolution equation for the system by explicitly finding the correlation between the system and bath beyond the product state, that was not obtainable in the previous theory for the system and bath isolated from environment, and marginalizing bath degrees of freedom. Remarkably, the associated dynamic equation for the system density matrix is of the same form as the Redfield master equation with different coefficients depending on thermostat used. We find steady state does not depend on thermostat, but time-dependent state does, that agrees with common expectation. We expect to apply our theory to general systems. Unlike the usual quantum master equations, our reduced dynamics allows investigation for time-dependent protocols and non-equilibrium quantum stochastic dynamics will be investigated in future.
翻訳日:2024-04-25 15:03:25 公開日:2024-04-23
# 数学者のためのデータ倫理に関する非専門家の紹介

A Non-Expert's Introduction to Data Ethics for Mathematicians ( http://arxiv.org/abs/2201.07794v4 )

ライセンス: Link先を確認
Mason A. Porter, (参考訳) データ倫理について簡単に紹介します。 データ倫理に関する背景情報と社会的文脈から始めます。 次に、数理科学教育におけるデータ倫理について論じ、利用可能な教材を示す。 私は、データ倫理、社会、社会的善に関するいくつかの取り組みを、私の自宅や他の施設で簡単に強調します。 次に、研究におけるオープンデータ、研究の複製性、その他の倫理的な問題、プライバシとオープンデータとコードの緊張、そしていくつかの議論を呼んでいる研究と研究に対する反応について議論します。 次に、倫理原則、制度審査委員会、および人間のデータの科学的利用に関するいくつかの考察について論じる。 それから、データ倫理とデータプライバシに関連するさまざまな研究を短期間調査し、記事を書きます。 簡潔な要約と締めくくりの発言で締めくくります。 私の関心は数学者ですが、この章が他の人にとっても役に立つことを願っています。 私はデータ倫理の専門家ではありません。 データ倫理、数学教育における役割、およびデータとデータ分析の社会的意味について、私が議論しているリソースについて、慎重に検討することをお勧めします。 データと技術が進化し続けるにつれて、このような慎重なリフレクションがあなたの人生を通して続くことを願っています。

I give a short introduction to data ethics. I begin with some background information and societal context for data ethics. I then discuss data ethics in mathematical-science education and indicate some available course material. I briefly highlight a few efforts -- at my home institution and elsewhere -- on data ethics, society, and social good. I then discuss open data in research, research replicability and some other ethical issues in research, and the tension between privacy and open data and code, and a few controversial studies and reactions to studies. I then discuss ethical principles, institutional review boards, and a few other considerations in the scientific use of human data. I then briefly survey a variety of research and lay articles that are relevant to data ethics and data privacy. I conclude with a brief summary and some closing remarks. My focal audience is mathematicians, but I hope that this chapter will also be useful to others. I am not an expert about data ethics, and this chapter provides only a starting point on this wide-ranging topic. I encourage you to examine the resources that I discuss and to reflect carefully on data ethics, its role in mathematics education, and the societal implications of data and data analysis. As data and technology continue to evolve, I hope that such careful reflection will continue throughout your life.
翻訳日:2024-04-25 12:48:39 公開日:2024-04-23
# AWQ: LLM圧縮・高速化のためのアクティベーション対応ウェイト量子化

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration ( http://arxiv.org/abs/2306.00978v4 )

ライセンス: Link先を確認
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han, (参考訳) 大規模言語モデル(LLM)は、自然言語処理からロボット工学や自律運転におけるより複雑なドメイン固有タスクまで、多くのアプリケーションの能力を根本的に変えてきた。 さらに,近年,デバイス上でのLCMの重要性が著しく高まっている。 エッジデバイス上でのLDMの実行は、レイテンシの低減とユーザエクスペリエンスの向上を約束するだけでなく、データ処理がローカルに発生するため、ユーザのプライバシの必要性の増大とも一致している。 しかし、現代のLLMの天文学的モデルサイズとエッジデバイスの制約は、主にメモリサイズと帯域幅の点で、大きな展開課題を引き起こしている。 本稿では,LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチである,Activation-Aware Weight Quantization (AWQ)を提案する。 我々の手法は、重量が等しく重要でないという観測に基づいており、正の重量の1%しか保護していないため、量子化誤差を大幅に低減できる。 そこで我々は,重みではなく活性化を観察することによって,塩分量を保護する最適なチャネルごとのスケーリングを提案する。 AWQはバックプロパゲーションや再構成に依存しないので、キャリブレーションセットに過度に適合することなく、異なる領域やモダリティに対するLLMの一般化能力を十分に維持することができる。 AWQは、様々な言語モデリングやドメイン固有のベンチマーク(コーディングと数学)において、既存の作業よりも優れています。 より優れた一般化により、命令調整されたLMに対して優れた量子化性能を達成し、初めてマルチモーダルなLMを実現する。 AWQと並行して、私たちは、デスクトップとモバイルの両方のGPU上でHuggingface FP16実装よりも3倍以上のスピードアップを提供する、デバイス上でのLLM/VLMに適した、効率的で柔軟な推論フレームワークであるTinyChatを実装しています。 また、モバイルGPU上の70B Llama-2モデルのデプロイを民主化している。

Large language models (LLMs) have fundamentally transformed the capabilities of numerous applications, from natural language processing to more intricate domain-specific tasks in robotics and autonomous driving. Moreover, the importance of on-device LLMs has grown significantly in the recent years. Running LLMs on edge devices not only promises reduced latency and improved user experience but also aligns with the increasing need for user privacy, as data processing can occur locally. However, the astronomical model sizes of modern LLMs and constraints of the edge devices, primarily in terms of memory size and bandwidth, pose significant deployment challenges. In this paper, we propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. Our method is based on the observation that weights are not equally important: protecting only 1% of salient weights can greatly reduce quantization error. We then propose to search for the optimal per-channel scaling that protects the salient weights by observing the activation, not weights. AWQ does not rely on any backpropagation or reconstruction, so it can well preserve LLMs' generalization ability on different domains and modalities, without overfitting to the calibration set. AWQ outperforms existing work on various language modeling and domain-specific benchmarks (coding and math). Thanks to better generalization, it achieves excellent quantization performance for instruction-tuned LMs and, for the first time, multi-modal LMs. Alongside AWQ, we implement TinyChat, an efficient and flexible inference framework tailored for on-device LLM/VLMs, offering more than 3x speedup over the Huggingface FP16 implementation on both desktop and mobile GPUs. It also democratizes the deployment of the 70B Llama-2 model on mobile GPUs.
翻訳日:2024-04-25 12:48:39 公開日:2024-04-23
# アルゴリズムの変更は十分ではない: eGFR方程式からのレース調整の除去の評価

Algorithmic Changes Are Not Enough: Evaluating the Removal of Race Adjustment from the eGFR Equation ( http://arxiv.org/abs/2404.12812v2 )

ライセンス: Link先を確認
Marika M. Cusick, Glenn M. Chertow, Douglas K. Owens, Michelle Y. Williams, Sherri Rose, (参考訳) レース調整を除去するための臨床アルゴリズムの変更が提案され、複数の健康状態に対して実施されている。 推定糸球体濾過率 (eGFR) 式によるレース調整の除去は慢性腎疾患 (CKD) の相違を減少させる可能性があるが, 実施後の臨床研究は行われていない。 そこで我々は,1つの医療システムであるスタンフォード・ヘルス・ケア(Stanford Health Care,SHC)における,黒人またはアフリカ系アメリカ人の腎症紹介と訪問の四半期率の変更を伴わないeGFR式(CKD-EPI 2021)の導入を検討した。 2019年1月1日から2023年9月1日までに血清クレアチニンまたは血清シスタチンCを1回以上記録した21歳以上の成人547,194人についてコホート調査を行った。 研究期間中、CKD-EPI 2021の実装は、ブラックまたはアフリカ系アメリカ人として記録された、または全体コホートにおいて、四半期の腎学参照率を変更しなかった。 SHC腎科クリニックでの入院率の調整後, CKD-EPI 2021の受診率は34例 (95% CI 29 39) と188例 (175, 201) であった。 レース調整が実施されなかった場合、推定率は38 (95% CI: 28, 53) と189 (165, 218) とほぼ同一であった。 eGFR方程式の変更は、他の多くの構造的不等式が残っているため、CKDケア意思決定における健康的公平を達成するには不十分である可能性が高い。

Changing clinical algorithms to remove race adjustment has been proposed and implemented for multiple health conditions. Removing race adjustment from estimated glomerular filtration rate (eGFR) equations may reduce disparities in chronic kidney disease (CKD), but has not been studied in clinical practice after implementation. Here, we assessed whether implementing an eGFR equation (CKD-EPI 2021) without adjustment for Black or African American race modified quarterly rates of nephrology referrals and visits within a single healthcare system, Stanford Health Care (SHC). Our cohort study analyzed 547,194 adult patients aged 21 and older who had at least one recorded serum creatinine or serum cystatin C between January 1, 2019 and September 1, 2023. During the study period, implementation of CKD-EPI 2021 did not modify rates of quarterly nephrology referrals in those documented as Black or African American or in the overall cohort. After adjusting for capacity at SHC nephrology clinics, estimated rates of nephrology referrals and visits with CKD-EPI 2021 were 34 (95% CI 29, 39) and 188 (175, 201) per 10,000 patients documented as Black or African American. If race adjustment had not been removed, estimated rates were nearly identical: 38 (95% CI: 28, 53) and 189 (165, 218) per 10,000 patients. Changes to the eGFR equation are likely insufficient to achieve health equity in CKD care decision-making as many other structural inequities remain.
翻訳日:2024-04-25 12:48:39 公開日:2024-04-23
# ベイズ非線形系の連続時間同定のための確率的数値SMCサンプリング

Probabilistic Numeric SMC Sampling for Bayesian Nonlinear System Identification in Continuous Time ( http://arxiv.org/abs/2404.12923v2 )

ライセンス: Link先を確認
Joe D. Longbottom, Max D. Champneys, Timothy J. Rogers, (参考訳) 工学において、ノイズによって汚染されたデータから非線形力学系を正確にモデル化することは必須かつ複雑である。 これらのシステムのベイズ同定に使用される連続モンテカルロ法(SMC)は、パラメータ同定過程における不確実性の定量化を促進する。 この文脈における重要な課題は、連続時間常微分方程式(ODE)の数値積分であり、理論モデルと離散的なサンプルデータとの整合に不可欠である。 この積分は、しばしば見過ごされる要因である追加の数値の不確実性をもたらす。 この問題に対処するために、確率的数値学の分野は、数値積分のような数値的手法と確率的モデリングを組み合わせることで、全体の不確実性をより包括的に分析する。 古典的決定論的手法の精度を維持することによって、これらの確率論的アプローチは推論過程に固有の不確実性をより深く理解する。 本稿では,非線形力学系の結合パラメータ-状態同定におけるODEの確率論的数値解法の適用例を示す。 提案手法は雑音測定から潜時状態とシステムパラメータを効率的に同定する。 識別チャレンジにおいて、ODEに確率的解を同時に組み込む。 この手法の主な利点は、システムパラメータの後方分布を生成する能力であり、それによってデータと識別プロセスの両方に固有の不確実性を表現することである。

In engineering, accurately modeling nonlinear dynamic systems from data contaminated by noise is both essential and complex. Established Sequential Monte Carlo (SMC) methods, used for the Bayesian identification of these systems, facilitate the quantification of uncertainty in the parameter identification process. A significant challenge in this context is the numerical integration of continuous-time ordinary differential equations (ODEs), crucial for aligning theoretical models with discretely sampled data. This integration introduces additional numerical uncertainty, a factor that is often over looked. To address this issue, the field of probabilistic numerics combines numerical methods, such as numerical integration, with probabilistic modeling to offer a more comprehensive analysis of total uncertainty. By retaining the accuracy of classical deterministic methods, these probabilistic approaches offer a deeper understanding of the uncertainty inherent in the inference process. This paper demonstrates the application of a probabilistic numerical method for solving ODEs in the joint parameter-state identification of nonlinear dynamic systems. The presented approach efficiently identifies latent states and system parameters from noisy measurements. Simultaneously incorporating probabilistic solutions to the ODE in the identification challenge. The methodology's primary advantage lies in its capability to produce posterior distributions over system parameters, thereby representing the inherent uncertainties in both the data and the identification process.
翻訳日:2024-04-25 12:48:39 公開日:2024-04-23
# セキュリティとプライバシ製品インクルージョン

Security and Privacy Product Inclusion ( http://arxiv.org/abs/2404.13220v2 )

ライセンス: Link先を確認
Dave Kleidermacher, Emmanuel Arriaga, Eric Wang, Sebastian Porst, Roger Piqueras Jover, (参考訳) 本稿では,多様な背景からユーザに対するセキュリティとプライバシを確保することの課題について考察する。 本稿では,セキュリティとプライバシに製品が組み込まれるリスクや対策を識別するための脅威モデリング手法を提案する。 我々は、低所得層、接続性の低さ、デバイス使用の共有、MLフェアネスなど、ユーザが高いレベルのセキュリティとプライバシを達成する能力に影響を与えるさまざまな要因について論じる。 我々は,グローバルなセキュリティおよびプライバシユーザエクスペリエンス調査の結果を提示し,製品開発者への影響について論じる。 私たちの研究は、セキュリティとプライバシに対するより包括的なアプローチの必要性を強調し、研究者や実践者がさまざまなユーザのために製品やサービスを設計するとき、考慮すべきフレームワークを提供します。

In this paper, we explore the challenges of ensuring security and privacy for users from diverse demographic backgrounds. We propose a threat modeling approach to identify potential risks and countermeasures for product inclusion in security and privacy. We discuss various factors that can affect a user's ability to achieve a high level of security and privacy, including low-income demographics, poor connectivity, shared device usage, ML fairness, etc. We present results from a global security and privacy user experience survey and discuss the implications for product developers. Our work highlights the need for a more inclusive approach to security and privacy and provides a framework for researchers and practitioners to consider when designing products and services for a diverse range of users.
翻訳日:2024-04-25 12:48:39 公開日:2024-04-23
# パラメータ効率の良い微調整:アプリケーション全体にわたる包括的解析

Parameter Efficient Fine Tuning: A Comprehensive Analysis Across Applications ( http://arxiv.org/abs/2404.13506v2 )

ライセンス: Link先を確認
Charith Chandra Sai Balne, Sreyoshi Bhaduri, Tamoghna Roy, Vinija Jain, Aman Chadha, (参考訳) ディープラーニングの台頭は、コンピュータビジョン、自然言語処理、医療画像などの分野において、主に特定のタスクに対する事前訓練されたモデルの適応を通じて顕著な進歩を遂げている。 すべてのパラメータの調整を含む従来の微調整手法は、高い計算量とメモリ要求のために課題に直面している。 これによりパラメータ効率と性能のバランスをとるためにパラメータを選択的に更新するPEFT技術が開発された。 本稿では,PEFTのアプローチについて検討し,テキスト生成,医用画像,タンパク質モデリング,音声合成など,さまざまな分野の応用に焦点を当てたさまざまな戦略を詳細に比較する。 計算負荷の低減,トレーニングの高速化,メモリ使用量の削減などにおけるPEFT手法の有効性を評価することにより,ディープラーニングをよりアクセシブルかつ適応的にし,より広範な応用を促進し,モデル最適化の革新を促進することに貢献した。 究極的には、PEFTの進化する景観に対する洞察に寄与し、従来の微調整アプローチの限界を克服する研究者や実践者を導くことを目的としている。

The rise of deep learning has marked significant progress in fields such as computer vision, natural language processing, and medical imaging, primarily through the adaptation of pre-trained models for specific tasks. Traditional fine-tuning methods, involving adjustments to all parameters, face challenges due to high computational and memory demands. This has led to the development of Parameter Efficient Fine-Tuning (PEFT) techniques, which selectively update parameters to balance computational efficiency with performance. This review examines PEFT approaches, offering a detailed comparison of various strategies highlighting applications across different domains, including text generation, medical imaging, protein modeling, and speech synthesis. By assessing the effectiveness of PEFT methods in reducing computational load, speeding up training, and lowering memory usage, this paper contributes to making deep learning more accessible and adaptable, facilitating its wider application and encouraging innovation in model optimization. Ultimately, the paper aims to contribute towards insights into PEFT's evolving landscape, guiding researchers and practitioners in overcoming the limitations of conventional fine-tuning approaches.
翻訳日:2024-04-25 12:48:39 公開日:2024-04-23
# スパース高次元付加モデルにおける推定と一様推論

Estimation and Uniform Inference in Sparse High-Dimensional Additive Models ( http://arxiv.org/abs/2004.01623v2 )

ライセンス: Link先を確認
Philipp Bach, Sven Klaassen, Jannis Kueck, Martin Spindler, (参考訳) スパース加法モデル $Y=f_1(X_1)+\ldots + f_p(X_p) + \varepsilon$ において、非パラメトリック成分 $f_1$ に対して一様に有効な信頼バンドを構築する新しい方法を開発した。 本手法は,Sieve推定を高次元Z推定フレームワークに統合し,対象成分$f_1$に対して一様に有効な信頼帯域の構築を容易にする。 これらの信頼バンドを形成するには、乗算ブートストラップ方式を用いる。 さらに、独立性のある高次元における一様ラッソ推定のレートも提供する。 シミュレーション研究を通じて,提案手法は,小サンプルであっても,推定およびカバレッジの観点から信頼性の高い結果をもたらすことを示した。

We develop a novel method to construct uniformly valid confidence bands for a nonparametric component $f_1$ in the sparse additive model $Y=f_1(X_1)+\ldots + f_p(X_p) + \varepsilon$ in a high-dimensional setting. Our method integrates sieve estimation into a high-dimensional Z-estimation framework, facilitating the construction of uniformly valid confidence bands for the target component $f_1$. To form these confidence bands, we employ a multiplier bootstrap procedure. Additionally, we provide rates for the uniform lasso estimation in high dimensions, which may be of independent interest. Through simulation studies, we demonstrate that our proposed method delivers reliable results in terms of estimation and coverage, even in small samples.
翻訳日:2024-04-24 20:31:21 公開日:2024-04-23
# VQAのためのビジュアルグラウンドディングメソッドが間違った理由のために作業中!

Visual Grounding Methods for VQA are Working for the Wrong Reasons! ( http://arxiv.org/abs/2004.05704v4 )

ライセンス: Link先を確認
Robik Shrestha, Kushal Kafle, Christopher Kanan, (参考訳) 既存のVisual Question Answering (VQA) メソッドは、正しい理由のために正しい回答を生成するのではなく、データセットのバイアスと突発的な統計的相関を利用する傾向がある。 この問題に対処するため、近年のVQAのバイアス軽減手法では、視覚的手がかり(例えば、人間の注意マップ)をVQAモデルに組み込むことが提案されている。 しかし, 性能改善は視覚的接地の改善の結果ではなく, 言語的先行に過度に適合しない正規化効果を示す。 例えば、適切な人間ベースの手がかりを提供する必要はなく、ランダムで無感覚な手がかりも同様の改善をもたらす。 そこで本研究では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現した簡易な正規化手法を提案する。

Existing Visual Question Answering (VQA) methods tend to exploit dataset biases and spurious statistical correlations, instead of producing right answers for the right reasons. To address this issue, recent bias mitigation methods for VQA propose to incorporate visual cues (e.g., human attention maps) to better ground the VQA models, showcasing impressive gains. However, we show that the performance improvements are not a result of improved visual grounding, but a regularization effect which prevents over-fitting to linguistic priors. For instance, we find that it is not actually necessary to provide proper, human-based cues; random, insensible cues also result in similar improvements. Based on this observation, we propose a simpler regularization scheme that does not require any external annotations and yet achieves near state-of-the-art performance on VQA-CPv2.
翻訳日:2024-04-24 20:31:21 公開日:2024-04-23
# リンドブラッド方程式を持つPT対称非エルミートハミルトニアンに対する密度行列形式

Density Matrix Formalism for PT-Symmetric Non-Hermitian Hamiltonians with the Lindblad Equation ( http://arxiv.org/abs/2006.02445v3 )

ライセンス: Link先を確認
Tommy Ohlsson, Shun Zhou, (参考訳) リンドブラッド・デコヒーレンス(Lindblad decoherence)、すなわち環境との相互作用による開量子系における散逸効果の存在下で、非エルミート的ハミルトニアンとリンドブラッド方程式によって記述される2レベル量子系における固有状態間の遷移確率を、パリティ時間反転(PT)対称性が保存される。 まず、PT対称非エルミートハミルトニアン系に対する密度行列形式論が展開される。 リンドブラッド作用素 $L^{}_j$ は擬エルミート的であり、つまり、$\eta L^{}_j \eta^{-1} = L^\dagger_j$ で、$\eta$ は線型かつ正定値な計量であり、PT対称性も尊重する。 一般化密度行列 $\rho^{}_{\rm G}(t) \equiv \rho(t) \eta$ は正規化密度行列 $\rho^{}_{\rm N}(t) \equiv \rho(t)/{\rm tr}\left[\rho(t)\right]$ の代わりに、線型性要件に従って遷移確率の計算のために実装されるべきである。 第二に、密度行列形式は、PT対称非エルミート・ハミルトニアンの一般の場合の遷移確率を導出するために用いられる。 いくつかの具体例では、遷移確率のコンパクトな解析式を計算し、その主な特徴を数値図解を用いて探索する。 また、リンドブラッドデコヒーレンスのない状態ベクトルを用いて、現在の結果と過去の結果との比較を行う。

In the presence of Lindblad decoherence, i.e. dissipative effects in an open quantum system due to interaction with an environment, we examine the transition probabilities between the eigenstates in the two-level quantum system described by non-Hermitian Hamiltonians with the Lindblad equation, for which the parity-time-reversal (PT) symmetry is conserved. First, the density matrix formalism for PT-symmetric non-Hermitian Hamiltonian systems is developed. It is shown that the Lindblad operators $L^{}_j$ are pseudo-Hermitian, namely, $\eta L^{}_j \eta^{-1} = L^\dagger_j$ with $\eta$ being a linear and positive-definite metric, and respect the PT symmetry as well. We demonstrate that the generalized density matrix $\rho^{}_{\rm G}(t) \equiv \rho(t) \eta$, instead of the normalized density matrix $\rho^{}_{\rm N}(t) \equiv \rho(t)/{\rm tr}\left[\rho(t)\right]$, should be implemented for the calculation of the transition probabilities in accordance with the linearity requirement. Second, the density matrix formalism is used to derive the transition probabilities in general cases of PT-symmetric non-Hermitian Hamiltonians. In some concrete examples, we calculate compact analytical formulas for the transition probabilities and explore their main features with numerical illustrations. We also make a comparison between our present results and our previous ones using state vectors in the absence of Lindblad decoherence.
翻訳日:2024-04-24 20:31:21 公開日:2024-04-23
# 時空間推定における長期パターンと短期パターンの分離

Decoupling Long- and Short-Term Patterns in Spatiotemporal Inference ( http://arxiv.org/abs/2109.09506v3 )

ライセンス: Link先を確認
Junfeng Hu, Yuxuan Liang, Zhencheng Fan, Li Liu, Yifang Yin, Roger Zimmermann, (参考訳) センサは環境モニタリングの鍵であり、人間の意思決定を支援するためにリアルタイムの空気品質情報を提供するなど、多くの面でスマートシティに恩恵を与える。 しかし、コストがかかるため、大量のセンサーを配備するのは現実的ではない。 したがって、きめ細かいデータ測定の仕方は、長い間、迫り来る問題だった。 本稿では,データ間の時空間的関係の把握が重要な役割を担うセンサ(時空間推定)の観測結果に基づいて,非センサ位置の値を推定することを目的とする。 これまでの研究で検討されていない2つの重要な知見が明らかになった。 まず、データは長期の時間スケールと短期の時間スケールの両方で異なるパターンを示し、それは別々に分析されるべきである。 第二に、短期パターンは、空間的および時間的次元を同時に横断するパターンを含むより繊細な関係を持ち、一方、長期パターンは高水準の時間的傾向を含む。 これらの観測に基づいて,短期パターンと長期パターンのモデリングを分離することを提案する。 具体的には,短期パターンの空間的および時間的関係を学習するために,共同時空間グラフアテンションネットワークを導入する。 さらに,遅延解消問題を緩和し,長期依存性をモデル化するための時間スキップ戦略を備えたグラフリカレントネットワークを提案する。 4つのパブリックな実世界のデータセットによる実験結果から,本手法は長期的・短期的な関係を効果的に捉え,既存手法に対する最先端性能を実現していることが示された。

Sensors are the key to environmental monitoring, which impart benefits to smart cities in many aspects, such as providing real-time air quality information to assist human decision-making. However, it is impractical to deploy massive sensors due to the expensive costs, resulting in sparse data collection. Therefore, how to get fine-grained data measurement has long been a pressing issue. In this paper, we aim to infer values at non-sensor locations based on observations from available sensors (termed spatiotemporal inference), where capturing spatiotemporal relationships among the data plays a critical role. Our investigations reveal two significant insights that have not been explored by previous works. Firstly, data exhibits distinct patterns at both long- and short-term temporal scales, which should be analyzed separately. Secondly, short-term patterns contain more delicate relations including those across spatial and temporal dimensions simultaneously, while long-term patterns involve high-level temporal trends. Based on these observations, we propose to decouple the modeling of short-term and long-term patterns. Specifically, we introduce a joint spatiotemporal graph attention network to learn the relations across space and time for short-term patterns. Furthermore, we propose a graph recurrent network with a time skip strategy to alleviate the gradient vanishing problem and model the long-term dependencies. Experimental results on four public real-world datasets demonstrate that our method effectively captures both long- and short-term relations, achieving state-of-the-art performance against existing methods.
翻訳日:2024-04-24 20:31:21 公開日:2024-04-23
# 半有限計画法における変分量子アルゴリズム

Variational Quantum Algorithms for Semidefinite Programming ( http://arxiv.org/abs/2112.08859v2 )

ライセンス: Link先を確認
Dhrumil Patel, Patrick J. Coles, Mark M. Wilde, (参考訳) 半定値プログラム(SDP)は、操作研究、組合せ最適化、量子情報科学などにおける特定の凸最適化問題である。 本研究では,SDPを近似的に解くための変分量子アルゴリズムを提案する。 一種類のSDPに対して、それらの収束の厳密な解析を局所最適解に提供し、それらが弱制約(例えば$N\gg M$、$N$は入力行列の次元、$M$は制約の数)であると仮定する。 また、仮定の少ないより一般的なSDPのアルゴリズムも提供する。 最後に、MaxCutのような応用のための量子アルゴリズムを数値シミュレーションし、これらのシミュレーションの結果は、まだノイズの多い環境で収束が生じる証拠となる。

A semidefinite program (SDP) is a particular kind of convex optimization problem with applications in operations research, combinatorial optimization, quantum information science, and beyond. In this work, we propose variational quantum algorithms for approximately solving SDPs. For one class of SDPs, we provide a rigorous analysis of their convergence to approximate locally optimal solutions, under the assumption that they are weakly constrained (i.e., $N\gg M$, where $N$ is the dimension of the input matrices and $M$ is the number of constraints). We also provide algorithms for a more general class of SDPs that requires fewer assumptions. Finally, we numerically simulate our quantum algorithms for applications such as MaxCut, and the results of these simulations provide evidence that convergence still occurs in noisy settings.
翻訳日:2024-04-24 20:31:21 公開日:2024-04-23
# 2次元変換の体系的知識の活用

Leveraging Systematic Knowledge of 2D Transformations ( http://arxiv.org/abs/2206.00893v2 )

ライセンス: Link先を確認
Jiachen Kang, Wenjing Jia, Xiangjian He, (参考訳) 既存のディープラーニングモデルは、コンピュータビジョンタスクのパフォーマンス低下(o.o.d.)に悩まされている。 比較すると、画像のシーンは、取得した知識の体系性のおかげで、たとえ画像のシーンが希少であっても、人間は画像の解釈に顕著な能力を持っている。 この作品は焦点をあてる 1)2次元変換の体系的知識の取得,及び 2) 画像分類タスクにおける学習知識をo.o.d.設定で活用できるアーキテクチャコンポーネント。 因果的枠組みに基づいて構築された合成データセットに基づく新たなトレーニング手法により、ディープニューラルネットワークは、意味的に異なるドメイン(例えばノイズ)から知識を取得し、パラメータ推定実験において一定の体系性を示す。 これに基づいて、分類器、推定器、識別子(略して「CED」)からなる新しいアーキテクチャが考案される。 ヒトの視覚知覚における「仮説検証」過程をエミュレートすることにより、CEDは共変量シフトによるテストセットの分類精度を大幅に向上させる。

The existing deep learning models suffer from out-of-distribution (o.o.d.) performance drop in computer vision tasks. In comparison, humans have a remarkable ability to interpret images, even if the scenes in the images are rare, thanks to the systematicity of acquired knowledge. This work focuses on 1) the acquisition of systematic knowledge of 2D transformations, and 2) architectural components that can leverage the learned knowledge in image classification tasks in an o.o.d. setting. With a new training methodology based on synthetic datasets that are constructed under the causal framework, the deep neural networks acquire knowledge from semantically different domains (e.g. even from noise), and exhibit certain level of systematicity in parameter estimation experiments. Based on this, a novel architecture is devised consisting of a classifier, an estimator and an identifier (abbreviated as "CED"). By emulating the "hypothesis-verification" process in human visual perception, CED improves the classification accuracy significantly on test sets under covariate shift.
翻訳日:2024-04-24 20:31:21 公開日:2024-04-23
# 超強結合光マター系における超高速断熱通路

Ultrafast adiabatic passages in ultrastrongly coupled light-matter systems ( http://arxiv.org/abs/2207.00775v2 )

ライセンス: Link先を確認
Xun Gao, Liwei Duan, Pinghua Tang, Junlong Tian, Zhongzhou Ren, Enrique Solano, Jie Peng, (参考訳) 我々は、すべてのモードが同じ周波数$\omega$を持つとき、少なくとも$K$$(K=1,2,3,\ldots)$光子を含む暗黒状態$|\phi_K\rangle$を含む多重モード量子ラビモデルの解を得た。 マルチキュービットのケースに拡張され、スペクトルの少なくとも1つの光子を持つ別のダーク状態 $\vert \psi\rangle$ に近い。 そのような解の利点を生かして、任意の単光子 $M$-mode $W$ state $\vert W_M\rangle$ を全く同じ速度で高速に生成するために$\vert \psi\rangle$ を通じて線形で対称性に保護された断熱通路を求める。 アディバティック進化における有効最小エネルギーギャップは、スタークシフトを含むと0.63\omega$に拡大され、任意の$\vert W_M\rangle$が1.55\times 2\pi\omega^{-1}$で超高速に生成され、99\%$、不定値$M$となる。 本研究は,光物質系における線形超高速断熱通路の存在を明らかにする。

We have obtained the solutions of the multimode quantum Rabi model when all modes have identical frequencies $\omega$, including dark states $|\phi_K\rangle$ with at least $K$ $(K=1,2,3,\ldots)$ photons. Extended to the multiqubit case, they lie close to another dark state $\vert \psi\rangle$ with at most one photon in the spectrum. Taking advantages of such solutions, we find a linear and symmetry-protected adiabatic passage through $\vert \psi\rangle$ to fast generate arbitrary single-photon $M$-mode $W$ states $\vert W_M\rangle$ with exactly the same speed. The effective minimum energy gap during the adiabatic evolution is further enlarged to $0.63\omega$ when Stark shifts are included, such that arbitrary $\vert W_M\rangle$ can be ultrafast generated in $1.55\times 2\pi\omega^{-1}$ with fidelity $99\%$, indepedent of $M$. This work reveals the existence of linear ultrafast adiabatic passages in light-matter systems.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# リジェクトデータを用いたMDI-QKDのための資源効率の良いリアルタイム偏光補償

Resource-Efficient Real-Time Polarization Compensation for MDI-QKD with Rejected Data ( http://arxiv.org/abs/2209.02707v2 )

ライセンス: Link先を確認
Olinka Bedroya, Chenyang Li, Wenyuan Wang, Jianyong Hu, Hoi-Kwong Lo, Li Qian, (参考訳) 測定デバイスに依存しない量子鍵分布(MDI-QKD)は、検出システムのすべてのセキュリティホールを閉じ、秘密鍵共有のための有望なソリューションである。 偏光符号化が最も一般的なQKD符号化方式であり、準備と測定が容易である。 しかし、MDI QKDにおける偏光符号化の実装は、偏光アライメントが相互に偏光のない基底上で維持され、両方の経路(アリス=チャーリーとボブ=チャーリー)で維持されなければならないため、余分な課題を課す。 偏光アライメントは通常、QKDプロセスの中断(全体の鍵生成率の低減)や、偏光アライメントのために量子チャネルが多重化された古典的なレーザー源を使用することによって行われる。 キーレートとコストの低いことがQKDシステムの普及を妨げている2つの最も強い課題であるため、追加のリソースの使用やキーレートの削減は、QKDを商業的に実行可能にすることとは対照的である。 そこで本稿では,MDI-QKDシステムにおいて,破棄された検出イベントのリサイクル部分による上記の欠点を回避する新たな分極補償方式を提案し,実装する。 提案手法は,デコイ強度に対応する1つの測定値に基づいて,リアルタイムに偏光ドリフトを評価する。 我々の完全に自動化された実験では、少なくとも4時間の間、40kmのスプール状の繊維(絶縁ジャケットなしで)を0.13ラド以下に偏光ドリフトを維持できる。 平均量子ビットエラーレートは3.8$\%$で、平均キーレートは7.45\times 10^{-6}$psである。

Measurement-device-independent quantum key distribution (MDI-QKD) closes all the security loopholes in the detection system and is a promising solution for secret key sharing. Polarization encoding is the most common QKD encoding scheme, as it is straightforward to prepare and measure. However, implementing polarization encoding in MDI QKD imposes extra challenges, as polarization alignment must be maintained over both mutually unbiased bases and be maintained for both paths (Alice-Charlie and Bob-Charlie). Polarization alignment is usually done by interrupting the QKD process (reducing overall key generation rates) or using additional classical laser sources multiplexed with quantum channels for polarization alignment. Since low key rates and cost are the two most pressing challenges preventing wide adoption of QKD systems, using additional resources or reducing key rates runs contrary to making QKD commercially viable. Therefore, we propose and implement a novel polarization compensation scheme in the MDI-QKD system that avoids the aforementioned drawbacks by recycling part of discarded detection events. Our scheme evaluates the polarization drift in real-time based on single measurements corresponding to decoy intensities. Our fully automated experimental demonstration maintains the average polarization drift below 0.13 rad over 40 km of spooled fibre (without an insulating jacket) for at least four hours. The average quantum bit error rate is 3.8$\%$, and we achieved an average key rate of $7.45\times 10^{-6}$ bits per pulse.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# 最適収束保証を用いた2次最小最適化法

Explicit Second-Order Min-Max Optimization Methods with Optimal Convergence Guarantee ( http://arxiv.org/abs/2210.12860v4 )

ライセンス: Link先を確認
Tianyi Lin, Panayotis Mertikopoulos, Michael I. Jordan, (参考訳) 本研究では,非制約のmin-max最適化問題の大域的サドル点を求めるために,いくつかの不正確な正規化ニュートン型手法を提案し,解析する。 1次法と比較して,2次情報による収束率のグローバル化はより深く関与するため,min-max最適化のための2次法の理解は比較的限られている。 本稿では,不正確な場合であっても,2次情報を用いて段階外手法を高速化する方法について検討する。 具体的には,提案手法が有界集合内に留まるイテレートを生成し,その平均イテレートが制限ギャップ関数の項で$O(\epsilon^{-2/3})$イテレーション内に$\epsilon$-saddle点に収束することを示す。 この文脈において理論的に確立された下界と一致する。 また、各イテレーションにおいてサブプロブレムを解くための簡単なルーチンも提供し、Sur分解を1つと$O(\log\log(1/\epsilon))$を準アップパー三角形系の線形システムソルバに呼び出します。 そこで,本手法は,必要数のシュル分解において,$O(\log\log(1/\epsilon))$因子をシェービングすることで,既存のライン探索に基づく2階分極最適化法を改善する。 最後に,提案手法の有効性を示す合成および実データに関する数値実験を行った。

We propose and analyze several inexact regularized Newton-type methods for finding a global saddle point of \emph{convex-concave} unconstrained min-max optimization problems. Compared to first-order methods, our understanding of second-order methods for min-max optimization is relatively limited, as obtaining global rates of convergence with second-order information is much more involved. In this paper, we examine how second-order information can be used to speed up extra-gradient methods, even under inexactness. Specifically, we show that the proposed methods generate iterates that remain within a bounded set and that the averaged iterates converge to an $\epsilon$-saddle point within $O(\epsilon^{-2/3})$ iterations in terms of a restricted gap function. This matched the theoretically established lower bound in this context. We also provide a simple routine for solving the subproblem at each iteration, requiring a single Schur decomposition and $O(\log\log(1/\epsilon))$ calls to a linear system solver in a quasi-upper-triangular system. Thus, our method improves the existing line-search-based second-order min-max optimization methods by shaving off an $O(\log\log(1/\epsilon))$ factor in the required number of Schur decompositions. Finally, we present numerical experiments on synthetic and real data that demonstrate the efficiency of the proposed methods.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# 効率的な再同定リスク制御のための微分原始データ合成

Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control ( http://arxiv.org/abs/2212.00484v3 )

ライセンス: Link先を確認
Tânia Carvalho, Nuno Moniz, Luís Antunes, Nitesh Chawla, (参考訳) ユーザデータのプライバシ保護は、統計変換から生成モデルに至るまで、多くの方法で達成できる。 しかし、いずれも重大な欠点がある。 例えば、従来のテクニックを使って変換されたデータセットを作成するのは非常に時間がかかる。 また、近年のディープラーニングベースのソリューションは、長期トレーニングフェーズに加えて、重要な計算資源を必要としており、微分プライベートベースのソリューションはデータユーティリティを損なう可能性がある。 本稿では,再識別やリンケージ攻撃の防止を目的とした手法である$\epsilon$-PrivateSMOTEを提案する。 本提案では,ノイズによる補間による合成データ生成と,高リスクケースを難読化するための差分プライバシー原則を組み合わせる。 我々は、$\epsilon$-PrivateSMOTEが、ジェネレーティブ・敵ネットワーク、変分オートエンコーダ、差分プライバシーベースラインを含む、複数の従来および最先端のプライバシ保存手法と比較して、プライバシーリスクと予測性能の競争的な結果を達成することができることを実証した。 また,本手法が時間要求を少なくとも9倍改善し,特別なハードウェアを使わずに高い性能を実現するための資源効率のソリューションであることを示す。

Protecting user data privacy can be achieved via many methods, from statistical transformations to generative models. However, all of them have critical drawbacks. For example, creating a transformed data set using traditional techniques is highly time-consuming. Also, recent deep learning-based solutions require significant computational resources in addition to long training phases, and differentially private-based solutions may undermine data utility. In this paper, we propose $\epsilon$-PrivateSMOTE, a technique designed for safeguarding against re-identification and linkage attacks, particularly addressing cases with a high \sloppy re-identification risk. Our proposal combines synthetic data generation via noise-induced interpolation with differential privacy principles to obfuscate high-risk cases. We demonstrate how $\epsilon$-PrivateSMOTE is capable of achieving competitive results in privacy risk and better predictive performance when compared to multiple traditional and state-of-the-art privacy-preservation methods, including generative adversarial networks, variational autoencoders, and differential privacy baselines. We also show how our method improves time requirements by at least a factor of 9 and is a resource-efficient solution that ensures high performance without specialised hardware.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# 授業増分学習における効果的な意思決定境界学習

Effective Decision Boundary Learning for Class Incremental Learning ( http://arxiv.org/abs/2301.05180v2 )

ライセンス: Link先を確認
Chaoyue Ding, Kunchi Li, Jun Wan, Shan Yu, (参考訳) クラスインクリメンタルラーニング(CIL)におけるリハーサルアプローチは、知識蒸留のための古いクラスデータの不足と、記憶メモリが限られているため、学習と新しいクラス間の不均衡なデータ学習という2つの要因によって、新しいクラスに過度に適合する決定境界に悩まされる。 本研究では,これらの2つの要因に対処するための,単純かつ効果的なアプローチを提案する。 まず、再サンプリング戦略とMixup K {\displaystyle K}nowledge D}istillation (Re-MKD)を用いて、KDの性能を改善する。 具体的には、学習されたクラスと新しいクラス間の潜伏分布とより整合したKDトレーニングで使用される適切なデータを合成するために、ミックスアップと再サンプリングの戦略を組み合わせる。 次に, インフルエンスバランス法をCIL設定に拡張することにより, インクリメンタルインフルエンスバランス(IIB)法を提案する。 これら2つの改善により、KDの性能を改善し、不均衡なデータ学習を同時に扱う効果的な決定境界学習アルゴリズム(EDBL)を提案する。 実験の結果、EDBLはいくつかのCILベンチマークで最先端のパフォーマンスを達成できた。

Rehearsal approaches in class incremental learning (CIL) suffer from decision boundary overfitting to new classes, which is mainly caused by two factors: insufficiency of old classes data for knowledge distillation and imbalanced data learning between the learned and new classes because of the limited storage memory. In this work, we present a simple but effective approach to tackle these two factors. First, we employ a re-sampling strategy and Mixup K}nowledge D}istillation (Re-MKD) to improve the performances of KD, which would greatly alleviate the overfitting problem. Specifically, we combine mixup and re-sampling strategies to synthesize adequate data used in KD training that are more consistent with the latent distribution between the learned and new classes. Second, we propose a novel incremental influence balance (IIB) method for CIL to tackle the classification of imbalanced data by extending the influence balance method into the CIL setting, which re-weights samples by their influences to create a proper decision boundary. With these two improvements, we present the effective decision boundary learning algorithm (EDBL) which improves the performance of KD and deals with the imbalanced data learning simultaneously. Experiments show that the proposed EDBL achieves state-of-the-art performances on several CIL benchmarks.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# 親に対するカリキュラム学習の数学的モデル

A Mathematical Model for Curriculum Learning for Parities ( http://arxiv.org/abs/2301.13833v2 )

ライセンス: Link先を確認
Elisabetta Cornacchia, Elchanan Mossel, (参考訳) カリキュラム学習(CL: Curriculum Learning) - 10年ほど前に機械学習のコンテキストで導入された、意味のある順序で生成されたサンプルを使用したトレーニング。 CLは経験的に広く使われ、分析されてきたが、その利点に対する数学的正当性はほとんどない。 本稿では,確率勾配勾配(SGD)により学習されたニューラルネットワークを用いて,二進弦のdビット上のk-パリティのクラスを学習するためのCLモデルを提案する。 2つ以上の製品分布を含む訓練例の賢明な選択は、一様分布下での学習と比較して、このクラスの関数を学習する際の計算コストを大幅に削減できることを示す。 さらに、別の種類の関数、すなわち 'Hamming Mixs' に対して、有界な積分布を含む CL 戦略は有益ではないことを示す。

Curriculum learning (CL) - training using samples that are generated and presented in a meaningful order - was introduced in the machine learning context around a decade ago. While CL has been extensively used and analysed empirically, there has been very little mathematical justification for its advantages. We introduce a CL model for learning the class of k-parities on d bits of a binary string with a neural network trained by stochastic gradient descent (SGD). We show that a wise choice of training examples involving two or more product distributions, allows to reduce significantly the computational cost of learning this class of functions, compared to learning under the uniform distribution. Furthermore, we show that for another class of functions - namely the `Hamming mixtures' - CL strategies involving a bounded number of product distributions are not beneficial.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# 計算双対性と目的超知能

Computational Dualism and Objective Superintelligence ( http://arxiv.org/abs/2302.00843v4 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) インテリジェントソフトウェアの概念には欠陥がある。 ソフトウェアの振る舞いは、それを解釈するハードウェアに依存する。 これは、理論化されたソフトウェア超知能の振る舞いに関する主張を損なう。 ここでは、この問題を「計算双対性」と特徴づけ、心的・物理的物質の代わりに、ソフトウェアとハードウェアがある。 性能に関する客観的な主張を行うためには、計算双対性を避ける必要がある。 本研究では,パンコンピュテーション主義に基づく代替手法を提案し,環境のあらゆる側面が既約状態間の関係である。 我々は、システムを行動(インプットとアウトプット)として形式化し、認識を具体化、組込み、拡張、活動的とします。 結果は、インタプリタではなく環境と相互作用する非身体的政策として、環境の一部として形式化されている。 これにより、インテリジェンスに関する客観的な主張が可能になり、それは'一般化'し、原因を特定し、適応する能力である、と我々は主張する。 次に,知的行動に対する客観的な上限を提案する。

The concept of intelligent software is flawed. The behaviour of software depends upon the hardware that interprets it. This undermines claims regarding the behaviour of theorised, software superintelligence. Here we characterise this problem as ``computational dualism'', where instead of mental and physical substance, we have software and hardware. We argue that to make objective claims regarding performance we must avoid computational dualism. We propose using an alternative based upon pancomputationalism, wherein every aspect of the environment is a relation between irreducible states. We formalise systems as behaviour (inputs and outputs), and cognition as embodied, embedded, extended and enactive. The result is cognition formalised as a part of the environment, rather than as a disembodied policy interacting with the environment though an interpreter. This allows us to make objective claims regarding intelligence, which we argue is the ability to ``generalise'', identify causes and adapt. We then propose objective upper bounds for intelligent behaviour.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# リニア・オプティカル・トランスポート・エンベディング

Linear Optimal Partial Transport Embedding ( http://arxiv.org/abs/2302.03232v5 )

ライセンス: Link先を確認
Yikun Bai, Ivan Medri, Rocio Diaz Martin, Rana Muhammad Shahroz Khan, Soheil Kolouri, (参考訳) 最適トランスポート(OT)は、機械学習、統計処理、信号処理など様々な分野で応用されている。 しかし、バランスの取れた質量要件は、実用上の問題においてその性能を制限している。 これらの制限に対処するため、不均衡なOT、最適部分輸送(OPT)、Hellinger Kantorovich(HK)を含むOT問題の変種が提案されている。 本稿では,OTおよびHK上の(局所的な)線形化手法をOPT問題に拡張したリニア最適部分輸送(LOPT)埋め込みを提案する。 提案手法は,2組の正測度間のOPT距離の計算を高速化する。 理論的な貢献に加えて,ポイントクラウド補間およびPCA解析におけるLOPT埋め込み手法の実証を行った。

Optimal transport (OT) has gained popularity due to its various applications in fields such as machine learning, statistics, and signal processing. However, the balanced mass requirement limits its performance in practical problems. To address these limitations, variants of the OT problem, including unbalanced OT, Optimal partial transport (OPT), and Hellinger Kantorovich (HK), have been proposed. In this paper, we propose the Linear optimal partial transport (LOPT) embedding, which extends the (local) linearization technique on OT and HK to the OPT problem. The proposed embedding allows for faster computation of OPT distance between pairs of positive measures. Besides our theoretical contributions, we demonstrate the LOPT embedding technique in point-cloud interpolation and PCA analysis.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# RETVec: レジリエントで効率的なテキストベクタライザ

RETVec: Resilient and Efficient Text Vectorizer ( http://arxiv.org/abs/2302.09207v3 )

ライセンス: Link先を確認
Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, Alexey Kurakin, (参考訳) 本稿では,ニューラルベーステキスト処理用に設計された,効率的でレジリエントな多言語テキストベクタライザRETVecについて述べる。 RETVecは、256次元ベクトル空間に単語を埋め込むために、新しい文字エンコーディングとオプションの小さな埋め込みモデルを組み合わせる。 RETVec埋め込みモデルは、ペアワイドメトリック学習を用いて事前訓練され、タイプミスやキャラクターレベルの敵攻撃に対して堅牢である。 本稿では,RETVecと最先端ベクタライザと,一般的なモデルアーキテクチャやデータセット上での単語埋め込みの評価と比較を行う。 これらの比較は、RETVecがタイポスや敵対的テキスト攻撃に対して非常に耐性のある、競争力のある多言語モデルをもたらすことを示している。 RETVecはApache 2ライセンスでhttps://github.com/google-research/retvec.comから入手できる。

This paper describes RETVec, an efficient, resilient, and multilingual text vectorizer designed for neural-based text processing. RETVec combines a novel character encoding with an optional small embedding model to embed words into a 256-dimensional vector space. The RETVec embedding model is pre-trained using pair-wise metric learning to be robust against typos and character-level adversarial attacks. In this paper, we evaluate and compare RETVec to state-of-the-art vectorizers and word embeddings on popular model architectures and datasets. These comparisons demonstrate that RETVec leads to competitive, multilingual models that are significantly more resilient to typos and adversarial text attacks. RETVec is available under the Apache 2 license at https://github.com/google-research/retvec.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# VideoXum:ビデオの視覚的およびテクスチャ的要約

VideoXum: Cross-modal Visual and Textural Summarization of Videos ( http://arxiv.org/abs/2303.12060v3 )

ライセンス: Link先を確認
Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo, (参考訳) ビデオ要約は、ソースビデオから最も重要な情報を抽出して、短縮されたクリップまたはテキストナラティブを生成することを目的としている。 伝統的に、出力がビデオかテキストかによって異なる方法が提案されており、視覚的要約とテキスト要約の2つの意味的関連タスクの相関を無視している。 我々は新しい共同ビデオとテキスト要約タスクを提案する。 目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成し、まとめてクロスモーダル要約と呼ぶことである。 生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。 この目的のために、私たちはまず、大規模な人間アノテーション付きデータセットであるVideoXum(Xは異なるモダリティを指す)を構築しました。 データセットはActivityNetに基づいて再注釈される。 長さ要件を満たさない動画をフィルタリングした後、新しいデータセットには14,001本のビデオが残っています。 再注釈されたデータセットの各ビデオには、人間の注釈付きビデオ要約と、対応する物語要約がある。 次に、提案課題に対処するため、新しいエンドツーエンドモデルであるVTSUM-BILPを設計する。 さらに,VT-CLIPScoreと呼ばれる新しい尺度を提案し,モダリティ間要約のセマンティクスの整合性を評価する。 提案手法は,本課題において有望な性能を達成し,今後の研究のためのベンチマークを確立する。

Video summarization aims to distill the most important information from a source video to produce either an abridged clip or a textual narrative. Traditionally, different methods have been proposed depending on whether the output is a video or text, thus ignoring the correlation between the two semantically related tasks of visual summarization and textual summarization. We propose a new joint video and text summarization task. The goal is to generate both a shortened video clip along with the corresponding textual summary from a long video, collectively referred to as a cross-modal summary. The generated shortened video clip and text narratives should be semantically well aligned. To this end, we first build a large-scale human-annotated dataset -- VideoXum (X refers to different modalities). The dataset is reannotated based on ActivityNet. After we filter out the videos that do not meet the length requirements, 14,001 long videos remain in our new dataset. Each video in our reannotated dataset has human-annotated video summaries and the corresponding narrative summaries. We then design a novel end-to-end model -- VTSUM-BILP to address the challenges of our proposed task. Moreover, we propose a new metric called VT-CLIPScore to help evaluate the semantic consistency of cross-modality summary. The proposed model achieves promising performance on this new task and establishes a benchmark for future research.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# RGB画像からスペクトル反射率を復元する学習

Learning to Recover Spectral Reflectance from RGB Images ( http://arxiv.org/abs/2304.02162v2 )

ライセンス: Link先を確認
Dong Huo, Jian Wang, Yiming Qian, Yee-Hong Yang, (参考訳) 本稿ではRGB画像からのスペクトル反射率回復(SRR)に取り組む。 地表面のスペクトル反射率とカメラスペクトル感度の取得は困難でコストがかかるため、既存のほとんどのアプローチは合成画像に基づいて訓練されており、テスト画像の内部情報を決して利用しないため、特に訓練されたモデルが実画像上でテストされる場合、すべての未確認画像に対して同じパラメータを使用する。 この問題に対処するために、よく訓練されたネットワークパラメータを各テスト画像に微調整して、外部情報と内部情報を組み合わせる、自己教師付きメタ補助学習(MAXL)戦略を採用する。 私たちの知る限りでは、MAXLの戦略をこの問題に適応させるのに成功した最初の作品です。 また,本手法では,素質的なエンドツーエンドトレーニングに頼る代わりに,スペクトル反射率と対応するRGB画像との物理的関係を数学的解析に基づいてネットワークに組み込む新しいアーキテクチャを提案する。 さらに、対応するRGB画像がなければ、シーンのスペクトル反射は照明とは独立であるので、複数の照明下で撮影されたRGB画像からシーンのスペクトル反射を復元し、未知の画像をさらに低減する。 定性的かつ定量的な評価は,提案したネットワークとMAXLの有効性を示す。 私たちのコードとデータはhttps://github.com/Dong-Huo/SRR-MAXL.comで公開されています。

This paper tackles spectral reflectance recovery (SRR) from RGB images. Since capturing ground-truth spectral reflectance and camera spectral sensitivity are challenging and costly, most existing approaches are trained on synthetic images and utilize the same parameters for all unseen testing images, which are suboptimal especially when the trained models are tested on real images because they never exploit the internal information of the testing images. To address this issue, we adopt a self-supervised meta-auxiliary learning (MAXL) strategy that fine-tunes the well-trained network parameters with each testing image to combine external with internal information. To the best of our knowledge, this is the first work that successfully adapts the MAXL strategy to this problem. Instead of relying on naive end-to-end training, we also propose a novel architecture that integrates the physical relationship between the spectral reflectance and the corresponding RGB images into the network based on our mathematical analysis. Besides, since the spectral reflectance of a scene is independent to its illumination while the corresponding RGB images are not, we recover the spectral reflectance of a scene from its RGB images captured under multiple illuminations to further reduce the unknown. Qualitative and quantitative evaluations demonstrate the effectiveness of our proposed network and of the MAXL. Our code and data are available at https://github.com/Dong-Huo/SRR-MAXL.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# マルコフ決定過程における静的リスク対策の動的プログラミング分解について

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes ( http://arxiv.org/abs/2304.12477v4 )

ライセンス: Link先を確認
Jia Lin Hau, Erick Delage, Mohammad Ghavamzadeh, Marek Petrik, (参考訳) マルコフ決定過程における静的リスク-逆目標の最適化は、強化学習(RL)アルゴリズムに共通する標準的な動的プログラミング方程式を認めないため困難である。 個別のリスクレベルを持つ状態空間を拡大する動的プログラミング分解は、最近RLコミュニティで人気を集めている。 従来の研究では、リスクレベルが十分に離散化されている場合、これらの分解が最適であることが示されている。 しかし, 条件値-at-Risk (CVaR) とエントロピー-値-at-Risk (EVaR) の分解は, 離散化レベルに関係なく本質的に準最適であることを示す。 特に,先行文献において保持されると考えられるサドル点特性が侵害される可能性があることを示す。 しかしながら、分解はバリュー・アット・リスクを保ち、このリスク尺度がCVaRとEVaRとどのように異なるかを示す。 リスク・アバースアルゴリズムはハイテイク環境で利用されており,その正しさがより重要になるため,本研究の成果は重要である。

Optimizing static risk-averse objectives in Markov decision processes is difficult because they do not admit standard dynamic programming equations common in Reinforcement Learning (RL) algorithms. Dynamic programming decompositions that augment the state space with discrete risk levels have recently gained popularity in the RL community. Prior work has shown that these decompositions are optimal when the risk level is discretized sufficiently. However, we show that these popular decompositions for Conditional-Value-at-Risk (CVaR) and Entropic-Value-at-Risk (EVaR) are inherently suboptimal regardless of the discretization level. In particular, we show that a saddle point property assumed to hold in prior literature may be violated. However, a decomposition does hold for Value-at-Risk and our proof demonstrates how this risk measure differs from CVaR and EVaR. Our findings are significant because risk-averse algorithms are used in high-stake environments, making their correctness much more critical.
翻訳日:2024-04-24 20:24:35 公開日:2024-04-23
# 1ビット行列補完のための正規化最小化ガウスニュートン法

A Majorization-Minimization Gauss-Newton Method for 1-Bit Matrix Completion ( http://arxiv.org/abs/2304.13940v2 )

ライセンス: Link先を確認
Xiaoqian Liu, Xu Han, Eric C. Chi, Boaz Nadler, (参考訳) 1ビット行列の完備化では、基礎となる低ランク行列をバイナリー観測の部分集合から推定することを目的としている。 MMGNと呼ばれる新しい1ビット行列補完法を提案する。 本手法は,元の最適化問題を標準的な低ランク行列完備化問題に変換する,磁化最小化(MM)原理に基づいている。 これらのサブプロブレムのそれぞれを、仮定された低ランク構造を明示的に強制する分解法により解き、その後、ガウス・ニュートン法を適用する。 シミュレーションと実データ例を用いて、既存の1ビット行列補完法と比較して、MMGNはより正確な推定値でない場合に匹敵する出力を出力する。 加えて、これはしばしば著しく速く、下層のマトリックスのスパイキネスに敏感でない。 元の目的を直接最小化する3つの標準的な汎用最適化手法と比較して、MMGNは特に観測された成分のごく一部が小さい場合に、明確な計算上の優位性を示す。

In 1-bit matrix completion, the aim is to estimate an underlying low-rank matrix from a partial set of binary observations. We propose a novel method for 1-bit matrix completion called MMGN. Our method is based on the majorization-minimization (MM) principle, which converts the original optimization problem into a sequence of standard low-rank matrix completion problems. We solve each of these sub-problems by a factorization approach that explicitly enforces the assumed low-rank structure and then apply a Gauss-Newton method. Using simulations and a real data example, we illustrate that in comparison to existing 1-bit matrix completion methods, MMGN outputs comparable if not more accurate estimates. In addition, it is often significantly faster, and less sensitive to the spikiness of the underlying matrix. In comparison with three standard generic optimization approaches that directly minimize the original objective, MMGN also exhibits a clear computational advantage, especially when the fraction of observed entries is small.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# 形式的検証のための完全自動ニューラルネットワーク削減

Fully Automatic Neural Network Reduction for Formal Verification ( http://arxiv.org/abs/2305.01932v2 )

ライセンス: Link先を確認
Tobias Ladner, Matthias Althoff, (参考訳) ニューラルネットワークの形式的検証は、安全クリティカルなアプリケーションにデプロイする前に不可欠である。 しかし、ニューラルネットワークを公式に検証する既存の方法は、多数のニューロンを含む実用的な問題を扱うのに十分なスケーラビリティを持っていない。 我々は、到達可能性分析を用いて、ニューラルネットワークを完全に自動化し、音を下げることによって、この問題に対処する。 音質は、低減されたネットワークの検証が元のネットワークの検証を必要とすることを保証します。 我々の知る限りでは、ReLU、sigmoid、tanhなど、任意の種類の要素活性化関数を持つニューラルネットワークに適用可能な、最初の音量削減手法を提案する。 ネットワークリダクションは、元のネットワークとその仕様を同時に検証しながら、オンザフライで計算される。 すべてのパラメータは自動的に調整され、妥当性を損なうことなくネットワークサイズを最小化する。 さらに、類似の画素を明示的に利用することにより、畳み込みニューラルネットワークへのアプローチの適用性を示す。 評価の結果,本手法は, ニューロンの数を, 外部近似の少ないニューロン数に減らし, 検証時間を同様の程度に短縮できることが示唆された。

Formal verification of neural networks is essential before their deployment in safety-critical applications. However, existing methods for formally verifying neural networks are not yet scalable enough to handle practical problems involving a large number of neurons. We address this challenge by introducing a fully automatic and sound reduction of neural networks using reachability analysis. The soundness ensures that the verification of the reduced network entails the verification of the original network. To the best of our knowledge, we present the first sound reduction approach that is applicable to neural networks with any type of element-wise activation function, such as ReLU, sigmoid, and tanh. The network reduction is computed on the fly while simultaneously verifying the original network and its specifications. All parameters are automatically tuned to minimize the network size without compromising verifiability. We further show the applicability of our approach to convolutional neural networks by explicitly exploiting similar neighboring pixels. Our evaluation shows that our approach can reduce the number of neurons to a fraction of the original number of neurons with minor outer-approximation and thus reduce the verification time to a similar degree.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# 大規模言語モデルのための自己教師型論理強化学習の探索

Exploring Self-supervised Logic-enhanced Training for Large Language Models ( http://arxiv.org/abs/2305.13718v6 )

ライセンス: Link先を確認
Fangkai Jiao, Zhiyang Teng, Bosheng Ding, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty, (参考訳) 言語モデルの論理的推論能力を改善する努力は、主に教師付き微調整に依存し、新しいドメインやタスクへの一般化を妨げる。 LLM(Large Langauge Models)の開発は、豊富な知識を単一のプロキシに圧縮する能力を示し、複数のタスクに効果的に対処できるようにする。 予備実験では, LLMは論理的推論の能力を示していない。 論理的推論ベンチマークにおけるLLMのパフォーマンスは、既存の最先端のベースラインよりもはるかに遅れている。 本稿では,自己教師付きポストトレーニングを通じて論理知識を組み込むことの実現可能性について検討し,論理LLM(LogicLLM)と呼ぶコンテキスト内学習を通じてそれを活性化する試みを行う。 具体的には、自動回帰客観的なMERItを考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。 さらに、論理指向のプロキシタスクを設計する上で重要な要素を分析するために、広範囲にわたるアブレーション研究を行っている。

Existing efforts to improve logical reasoning ability of language models have predominantly relied on supervised fine-tuning, hindering generalization to new domains and/or tasks. The development of Large Langauge Models (LLMs) has demonstrated the capacity of compressing abundant knowledge into a single proxy, enabling them to tackle multiple tasks effectively. Our preliminary experiments, nevertheless, show that LLMs do not show capability on logical reasoning. The performance of LLMs on logical reasoning benchmarks is far behind the existing state-of-the-art baselines. In this paper, we make the first attempt to investigate the feasibility of incorporating logical knowledge through self-supervised post-training, and activating it via in-context learning, which we termed as LogicLLM. Specifically, we devise an auto-regressive objective variant of MERIt and integrate it with two LLM series, i.e., FLAN-T5 and LLaMA, with parameter size ranging from 3 billion to 13 billion. The results on two challenging logical reasoning benchmarks demonstrate the effectiveness of LogicLLM. Besides, we conduct extensive ablation studies to analyze the key factors in designing logic-oriented proxy tasks.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# 非漸近的収束速度をもつ確率微分方程式の非パラメトリック学習

Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence ( http://arxiv.org/abs/2305.15557v2 )

ライセンス: Link先を確認
Riccardo Bonalli, Alessandro Rudi, (参考訳) 状態の離散時間観測に依存する多次元非線形確率微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。 鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に当てはめ、未知のドリフトと拡散係数の正則性が高くなると、従来の研究とは異なり、より厳密になる非漸近学習率の理論的推定値が得られることである。 カーネルベースでオフラインのプリプロセッシングを行う手法は,効率的な数値実装を実現するために利益を生かし,精度と計算複雑性のバランスが良好である。

We propose a novel non-parametric learning paradigm for the identification of drift and diffusion coefficients of multi-dimensional non-linear stochastic differential equations, which relies upon discrete-time observations of the state. The key idea essentially consists of fitting a RKHS-based approximation of the corresponding Fokker-Planck equation to such observations, yielding theoretical estimates of non-asymptotic learning rates which, unlike previous works, become increasingly tighter when the regularity of the unknown drift and diffusion coefficients becomes higher. Our method being kernel-based, offline pre-processing may be profitably leveraged to enable efficient numerical implementation, offering excellent balance between precision and computational complexity.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# 再帰フーリエ変換を用いた時間依存シュレーディンガー方程式の解法

Decoupling the time dependent Schrödinger equation using recursive Fourier transforms ( http://arxiv.org/abs/2306.03107v4 )

ライセンス: Link先を確認
Sky Nelson-Isaacs, (参考訳) 時間依存型Schr\"{o}dinger equation (TDSE) や、より一般的にはダイソン級数 (Dyson Series) を再帰フーリエ変換を用いた畳み込み方程式として記述し、時間順序演算子を使わずに第二階積分を第一階から切り離す戦略を開発する。 エネルギー分布は、1階と2階の標準摂動理論の例で計算される。 量子計算におけるボソニックサンプリングと4波混合のためのフォトニックスペクトルのキャラクタリゼーション、量子力学におけるバーディーントンネル振幅などの応用が考えられる。

A strategy is developed for writing the time-dependent Schr\"{o}dinger equation (TDSE), and more generally the Dyson Series, as a convolution equation using recursive Fourier transforms, thereby decoupling the second-order integral from the first without using the time ordering operator. The energy distribution is calculated for a number of standard perturbation theory example at first- and second-order. Possible applications include characterization of photonic spectra for bosonic sampling and four-wave mixing in quantum computation, and Bardeen tunneling amplitude in quantum mechanics.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# バイオメディカル画像処理タスクにおけるDeep Learningのパフォーマンス、信頼性、スピードを高める機能イミテーションネットワーク

Feature Imitating Networks Enhance The Performance, Reliability And Speed Of Deep Learning On Biomedical Image Processing Tasks ( http://arxiv.org/abs/2306.14572v2 )

ライセンス: Link先を確認
Shangyang Min, Hassan B. Ebadian, Tuka Alhanai, Mohammad Mahdi Ghassemi, (参考訳) FIN(Feature-Imitating-Networks)は、まずクローズドフォームの統計的特徴(例えばエントロピー)を近似するよう訓練されたニューラルネットワークで、その性能を高めるために他のネットワークに埋め込まれる。 本研究では,バイオメディカル画像処理タスクにおけるFINの最初の評価を行う。 まず、FINのセットを訓練して、一般的な6つの放射能の特徴を模倣し、そして、より大きなネットワーク(FINを埋め込んだり埋め込んだりせずに)のパフォーマンスを、3つの実験的なタスクで比較する。 その結果、FINを組み込んだモデルでは、FINを含まないベースラインネットワークに比べて、FINを含まないベースラインネットワークの方が多くのパラメータを持つ場合であっても、3つのタスクに対して性能が向上することがわかった。 さらに、FINに埋め込まれたモデルは、類似またはより大きい表現能力を持つベースラインネットワークと比較して、より速く、より一貫して収束していることがわかった。 実験の結果、FINは様々なバイオメディカル画像処理タスクに最先端のパフォーマンスを提供する可能性が示唆された。

Feature-Imitating-Networks (FINs) are neural networks that are first trained to approximate closed-form statistical features (e.g. Entropy), and then embedded into other networks to enhance their performance. In this work, we perform the first evaluation of FINs for biomedical image processing tasks. We begin by training a set of FINs to imitate six common radiomics features, and then compare the performance of larger networks (with and without embedding the FINs) for three experimental tasks: COVID-19 detection from CT scans, brain tumor classification from MRI scans, and brain-tumor segmentation from MRI scans. We found that models embedded with FINs provided enhanced performance for all three tasks when compared to baseline networks without FINs, even when those baseline networks had more parameters. Additionally, we found that models embedded with FINs converged faster and more consistently compared to baseline networks with similar or greater representational capacity. The results of our experiments provide evidence that FINs may offer state-of-the-art performance for a variety of other biomedical image processing tasks.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# 大規模言語モデルを用いた効率的なウィットネスプログラム生成によるコンパイラバグの分離

Isolating Compiler Bugs by Generating Effective Witness Programs with Large Language Models ( http://arxiv.org/abs/2307.00593v2 )

ライセンス: Link先を確認
Haoxin Tu, Zhide Zhou, He Jiang, Imam Nur Bani Yusuf, Yuxian Li, Lingxiao Jiang, (参考訳) コンパイラのバグは、セーフティクリティカルなアプリケーションにとって重大な脅威となり、すぐに、そして、これらのバグを効果的に分離することは、コンパイラの品質の確保に不可欠である。 しかし、報告されたバグのデバッグ情報が限られているため、コンパイラのバグ分離タスクが複雑になる。 既存のコンパイラのバグ分離アプローチは、問題をテストプログラムの突然変異問題に変換するが、それでも非効率的な突然変異戦略や高い人間の努力の要求によって制限されている。 コード生成におけるChatGPTなどのLLM(Pre-trained Large Language Models)の最近の進歩から着想を得て,LLM4CBIと呼ばれる新しいアプローチを提案し,コンパイラバグ分離のための効率的なテストプログラムを生成する。 しかし、試験プログラムの突然変異にLSMを直接使用すると、正確なプロンプトの定式化や特別なプロンプトの選択に関連する課題のために、望ましい結果が得られない可能性がある。 これらの課題を克服するため、3つの新しいコンポーネントがLLM4CBIで設計されている。 まず、LSM4CBIは、プログラムの複雑さを誘導するプロンプト生産コンポーネントを使用し、データと制御フロー分析を利用して、突然変異のためのプログラムにおいて最も価値のある変数と場所を特定する。 第2に、LLM4CBIは記憶されたプロンプト選択コンポーネントを使用し、強化学習を採用して、テストプログラムを継続的に変更するための特別なプロンプトを選択する。 第3に、特定のフィードバックプロンプトを選択するために、突然変異プロセス中に同じミスを繰り返すことを避けるために、テストプログラム検証コンポーネントを提案する。 GCCとLLVMの120以上の実際のバグに対する最先端のアプローチと比較して、我々の評価はLLM4CBIの利点を示している。 69.70%/21.74%と24.44%/8.92%のバグをTop-1/Top-5ランキングでDiWiやRecBiよりも多く分離できる。 また, LLM4CBI で使用される LLMs コンポーネントは, 妥当な結果が得られながら, 容易に置き換えることができることを示した。

Compiler bugs pose a significant threat to safety-critical applications, and promptly as well as effectively isolating these bugs is crucial for assuring the quality of compilers. However, the limited availability of debugging information on reported bugs complicates the compiler bug isolation task. Existing compiler bug isolation approaches convert the problem into a test program mutation problem, but they are still limited by ineffective mutation strategies or high human effort requirements. Drawing inspiration from the recent progress of pre-trained Large Language Models (LLMs), such as ChatGPT, in code generation, we propose a new approach named LLM4CBI to utilize LLMs to generate effective test programs for compiler bug isolation. However, using LLMs directly for test program mutation may not yield the desired results due to the challenges associated with formulating precise prompts and selecting specialized prompts. To overcome the challenges, three new components are designed in LLM4CBI. First, LLM4CBI utilizes a program complexity-guided prompt production component, which leverages data and control flow analysis to identify the most valuable variables and locations in programs for mutation. Second, LLM4CBI employs a memorized prompt selection component, which adopts reinforcement learning to select specialized prompts for mutating test programs continuously. Third, a test program validation component is proposed to select specialized feedback prompts to avoid repeating the same mistakes during the mutation process. Compared with state-of-the-art approaches over 120 real bugs from GCC and LLVM, our evaluation demonstrates the advantages of LLM4CBI: It can isolate 69.70%/21.74% and 24.44%/8.92% more bugs than DiWi and RecBi within Top-1/Top-5 ranked results. We also demonstrate that the LLMs component used in LLM4CBI can be easily replaced while still achieving reasonable results.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# デコヒーレントヒストリーのエントロピーによる量子カオスの探索

Probing quantum chaos with the entropy of decoherent histories ( http://arxiv.org/abs/2307.10269v3 )

ライセンス: Link先を確認
Evgeny Polyakov, Nataliya Arefyeva, (参考訳) 量子カオス(Quantum chaos)は、前世紀に研究され始めた現象であり、いまだに厳密な理解を持っていない。 対応原理により、古典的なレベルでカオス力学をもたらす系の性質は、基礎となる量子系にも存在しなければならない。 古典的な場合、近傍の軌道の時間的指数的発散はリャプノフ指数(英語版)(Lyapunov exponent)によって記述される。 しかし、量子の場合、カオスの同様の記述は厳密に言えば、軌道がないため不可能である。 この状況を改善するには異なるアプローチがあるが、量子カオスの普遍的基準は欠落している。 本稿では, トラジェクトリの量子類似体としてデコヒーレントヒストリーを用いた古典的カオス定義に類似した量子カオス定義を提案する。 この目的のために、ボゾン浴である環境と相互作用するオープン量子キックトップのモデルを検討し、この考え方を説明する。 ここでは、環境が軌道記録装置の役割を担う。 古典的なレベルのキックトップモデルでは、キック強度によって、統合可能な状態とカオス的な状態の間にクロスオーバーが発生する。 このようなモデルでは、非コヒーレントな歴史のエントロピーの生成は、積分可能かつカオス的な状態において根本的に異なることを示す。 したがって、量子軌道のアンサンブルのエントロピーは、量子カオスのシグネチャとして用いられる。

Quantum chaos, a phenomenon that began to be studied in the last century, still does not have a rigorous understanding. By virtue of the correspondence principle, the properties of the system that lead to chaotic dynamics at the classical level must also be present in the underlying quantum system. In the classical case, the exponential divergence of nearby trajectories in time is described in terms of the Lyapunov exponent. However, in the quantum case, a similar description of chaos is, strictly speaking, impossible due to absence of trajectories. There are different approaches to remedy this situation, but the universal criterion of quantum chaos is absent. We propose the quantum chaos definition in the manner similar to the classical one using decoherent histories as a quantum analogue of trajectories. For this purpose, we consider the model of an open quantum kicked top interacting with the environment, which is a bosonic bath, and illustrate this idea. Here, the environment plays the role of a trajectory recording device. For the kicked top model at the classical level, depending on the kick strength, crossover occurs between the integrable and chaotic regimes. We show that for such a model, the production of entropy of decoherent histories is radically different in integrable and chaotic regimes. Thus, the entropy of an ensemble of quantum trajectories can be used as a signature of quantum chaos.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# ブラックボックス変分推論の線形収束:着地すべきか?

Linear Convergence of Black-Box Variational Inference: Should We Stick the Landing? ( http://arxiv.org/abs/2307.14642v5 )

ライセンス: Link先を確認
Kyurae Kim, Yian Ma, Jacob R. Gardner, (参考訳) 制御変数を持つブラックボックス変分推論(BBVI)、特にスタンディング・ザ・ランディング(STL)推定器は、完全に変分家族仕様の下で幾何的(伝統的に「線形」と呼ばれる)速度で収束することを示す。 特に、不特定変分族を含むSTL推定器の勾配分散の2次境界を証明した。 二次分散条件に関する以前の研究と組み合わさって、これはプロジェクテッド確率勾配勾配を用いたBBVIの収束を直接意味する。 射影作用素に対しては、射影が$\Theta(d)$時間で計算可能な三角形のスケール行列を持つ領域を考える。 また,正規閉形式エントロピー勾配推定器の既存解析を改善し,STL推定器との比較を可能にした。

We prove that black-box variational inference (BBVI) with control variates, particularly the sticking-the-landing (STL) estimator, converges at a geometric (traditionally called "linear") rate under perfect variational family specification. In particular, we prove a quadratic bound on the gradient variance of the STL estimator, one which encompasses misspecified variational families. Combined with previous works on the quadratic variance condition, this directly implies convergence of BBVI with the use of projected stochastic gradient descent. For the projection operator, we consider a domain with triangular scale matrices, which the projection onto is computable in $\Theta(d)$ time, where $d$ is the dimensionality of the target posterior. We also improve existing analysis on the regular closed-form entropy gradient estimators, which enables comparison against the STL estimator, providing explicit non-asymptotic complexity guarantees for both.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# 点雲は特殊化画像である:3次元理解のための知識伝達アプローチ

Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding ( http://arxiv.org/abs/2307.15569v2 )

ライセンス: Link先を確認
Jiachen Kang, Wenjing Jia, Xiangjian He, Kin Man Lam, (参考訳) 自己教師付き表現学習(SSRL)は,3次元データ不足と高アノテーションコストによる課題に対処するため,ポイントクラウド理解において注目を集めている。 本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。 この概念シフトにより、PCExpertは、マルチウェイトランスフォーマーアーキテクチャでトレーニング済みの画像エンコーダとパラメータを広範囲に共有することで、大規模画像モダリティから派生した知識をより直接的、より深く活用することができる。 パラメータ共有戦略は、事前学習のための新しいプレテキストタスク、すなわち変換推定と組み合わせて、PCExpertが様々なタスクで最先端のタスクを上回り、トレーニング可能なパラメータの数が大幅に減少する。 特に、LINEARファインチューニング(例えば、ScanObjectNNの90.02%の精度)におけるPCExpertのパフォーマンスは、FULLモデルファインチューニング(92.66%)の結果にすでにアプローチしており、その効果的で堅牢な表現能力を実証している。

Self-supervised representation learning (SSRL) has gained increasing attention in point cloud understanding, in addressing the challenges posed by 3D data scarcity and high annotation costs. This paper presents PCExpert, a novel SSRL approach that reinterprets point clouds as "specialized images". This conceptual shift allows PCExpert to leverage knowledge derived from large-scale image modality in a more direct and deeper manner, via extensively sharing the parameters with a pre-trained image encoder in a multi-way Transformer architecture. The parameter sharing strategy, combined with a novel pretext task for pre-training, i.e., transformation estimation, empowers PCExpert to outperform the state of the arts in a variety of tasks, with a remarkable reduction in the number of trainable parameters. Notably, PCExpert's performance under LINEAR fine-tuning (e.g., yielding a 90.02% overall accuracy on ScanObjectNN) has already approached the results obtained with FULL model fine-tuning (92.66%), demonstrating its effective and robust representation capability.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# 潜時空間歪みによるCryo-EMポス推定と3次元分類の改善

Improved Cryo-EM Pose Estimation and 3D Classification through Latent-Space Disentanglement ( http://arxiv.org/abs/2308.04956v3 )

ライセンス: Link先を確認
Weijie Chen, Yuhang Wang, Lin Yao, (参考訳) 超低信号-雑音比(SNR)と低温電子顕微鏡(cryo-EM)実験における未知のポーズ(投影角度と画像シフト)のため、2D画像から3Dボリュームを再構成することは極めて困難である。 これらの課題に加えて、不均一なCryo-EM再構成にはコンフォメーション分類が必要である。 一般的なCryo-EM再構成アルゴリズムでは、入力されたCryo-EM画像毎に、ポーズとコンフォーメーションの分類ラベルを予測しなければならない。 新たなクラスのメソッドは、償却推論アプローチを採用した。 これらの方法では、ポーズとコンフォーメーションの推定のためにニューラルネットワークをトレーニングするためには、入力データセットのサブセットのみが必要である。 トレーニングが完了すると、これらのニューラルネットワークは、推論中にデータセット全体に対して、ポーズ/コンフォーメーション予測と3D再構成を低コストで行うことができる。 残念なことに、不均一な再構成タスクに直面している場合、現在の償却推論に基づく手法では、構造分布を効果的に推定し、絡み合った潜伏変数から引き起こすことは困難である。 本稿では,自己教師付き変分オートエンコーダアーキテクチャであるHetACUMNを提案する。 我々は,エンコーダ・デコーダの順序を逆転させ,コンフォーメーションの不整合を明示的に強制し,ポーズ予測を行うことにより,補助的条件付きポーズ予測タスクを採用した。 シミュレーションデータセットの結果,HetACUMNは,他のアモータイズ法や非アモータイズ法よりも正確なコンフォメーション分類が得られた。 さらに,HetACUMNは実実験データセットの異種3次元再構成を行うことができることを示す。

Due to the extremely low signal-to-noise ratio (SNR) and unknown poses (projection angles and image shifts) in cryo-electron microscopy (cryo-EM) experiments, reconstructing 3D volumes from 2D images is very challenging. In addition to these challenges, heterogeneous cryo-EM reconstruction requires conformational classification. In popular cryo-EM reconstruction algorithms, poses and conformation classification labels must be predicted for every input cryo-EM image, which can be computationally costly for large datasets. An emerging class of methods adopted the amortized inference approach. In these methods, only a subset of the input dataset is needed to train neural networks for the estimation of poses and conformations. Once trained, these neural networks can make pose/conformation predictions and 3D reconstructions at low cost for the entire dataset during inference. Unfortunately, when facing heterogeneous reconstruction tasks, it is hard for current amortized-inference-based methods to effectively estimate the conformational distribution and poses from entangled latent variables. Here, we propose a self-supervised variational autoencoder architecture called "HetACUMN" based on amortized inference. We employed an auxiliary conditional pose prediction task by inverting the order of encoder-decoder to explicitly enforce the disentanglement of conformation and pose predictions. Results on simulated datasets show that HetACUMN generated more accurate conformational classifications than other amortized or non-amortized methods. Furthermore, we show that HetACUMN is capable of performing heterogeneous 3D reconstructions of a real experimental dataset.
翻訳日:2024-04-24 20:14:41 公開日:2024-04-23
# ALI-DPFL: 適応的局所反復による個人的フェデレーション学習

ALI-DPFL: Differentially Private Federated Learning with Adaptive Local Iterations ( http://arxiv.org/abs/2308.10457v6 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Haitao Liu, Zhili Chen, (参考訳) Federated Learning(FL)は、データではなくトレーニングパラメータを共有することによって、複数のデバイスや組織間のモデルトレーニングを可能にする分散機械学習技術である。 しかし、敵はこれらのトレーニングパラメータの推論攻撃(例えば差分攻撃)を通じて個人情報を推測することができる。 その結果、差分プライバシー(DP)はFLでそのような攻撃を防ぐために広く利用されている。 我々は、プライバシ予算とコミュニケーションラウンドの両方に制約があるリソース制約のあるシナリオにおいて、差分プライベートなフェデレーション学習を考察する。 収束を理論的に解析することにより、2つのシーケンシャルなグローバルな更新の間に、クライアントのローカルDPSGDイテレーションの最適な数を見つけることができる。 そこで我々は,適応的局所反復(ALI-DPFL)を用いた微分プライベート・フェデレーション学習のアルゴリズムを設計した。 我々は,MNIST,FashionMNIST,Cifar10データセットのアルゴリズムを実験し,資源制約シナリオにおけるこれまでの作業よりもはるかに優れた性能を示す。 コードはhttps://github.com/KnightWan/ALI-DPFL.comで入手できる。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations by sharing training parameters instead of raw data. However, adversaries can still infer individual information through inference attacks (e.g. differential attacks) on these training parameters. As a result, Differential Privacy (DP) has been widely used in FL to prevent such attacks. We consider differentially private federated learning in a resource-constrained scenario, where both privacy budget and communication rounds are constrained. By theoretically analyzing the convergence, we can find the optimal number of local DPSGD iterations for clients between any two sequential global updates. Based on this, we design an algorithm of Differentially Private Federated Learning with Adaptive Local Iterations (ALI-DPFL). We experiment our algorithm on the MNIST, FashionMNIST and Cifar10 datasets, and demonstrate significantly better performances than previous work in the resource-constraint scenario. Code is available at https://github.com/KnightWan/ALI-DPFL.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 多相ラベリングによる音声同時ジェスチャ検出

Co-Speech Gesture Detection through Multi-Phase Sequence Labeling ( http://arxiv.org/abs/2308.10680v2 )

ライセンス: Link先を確認
Esam Ghaleb, Ilya Burenko, Marlou Rasenberg, Wim Pouw, Peter Uhrig, Judith Holler, Ivan Toni, Aslı Özyürek, Raquel Fernández, (参考訳) ジェスチャーは対面コミュニケーションの不可欠な構成要素である。 時間とともに展開し、しばしば準備、ストローク、リトラクションの予測可能な動きの段階を辿る。 しかし、自動ジェスチャー検出の一般的なアプローチは、この問題をバイナリ分類として扱い、セグメントをジェスチャを含むか否かのどちらかとして分類し、本質的にシーケンシャルで文脈的な性質を捉えない。 そこで本研究では,タスクを二項分類ではなく多相シーケンスラベリング問題として再編成する新しいフレームワークを提案する。 我々のモデルは、時間ウィンドウ上で骨格の動きのシーケンスを処理し、Transformerエンコーダを使用して文脈埋め込みを学習し、条件ランダム場を利用してシーケンスラベリングを行う。 本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。 その結果,ジェスチャ・ストロークの検出において,本手法が強いベースラインモデルよりも優れていることが示された。 さらに、動作シーケンスからコンテキスト埋め込みを学習するためにTransformerエンコーダを適用することで、ジェスチャー単位の検出を大幅に改善する。 これらの結果から,より微妙で正確なジェスチャー検出と解析を行う上で,協調音声のジェスチャー位相の微粒なダイナミクスを捉えることのできるフレームワークの能力を強調した。

Gestures are integral components of face-to-face communication. They unfold over time, often following predictable movement phases of preparation, stroke, and retraction. Yet, the prevalent approach to automatic gesture detection treats the problem as binary classification, classifying a segment as either containing a gesture or not, thus failing to capture its inherently sequential and contextual nature. To address this, we introduce a novel framework that reframes the task as a multi-phase sequence labeling problem rather than binary classification. Our model processes sequences of skeletal movements over time windows, uses Transformer encoders to learn contextual embeddings, and leverages Conditional Random Fields to perform sequence labeling. We evaluate our proposal on a large dataset of diverse co-speech gestures in task-oriented face-to-face dialogues. The results consistently demonstrate that our method significantly outperforms strong baseline models in detecting gesture strokes. Furthermore, applying Transformer encoders to learn contextual embeddings from movement sequences substantially improves gesture unit detection. These results highlight our framework's capacity to capture the fine-grained dynamics of co-speech gesture phases, paving the way for more nuanced and accurate gesture detection and analysis.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# ディープラーニングのためのポイントクラウドデータ拡張の進歩: 調査

Advancements in Point Cloud Data Augmentation for Deep Learning: A Survey ( http://arxiv.org/abs/2308.12113v5 )

ライセンス: Link先を確認
Qinfeng Zhu, Lei Fan, Ningxin Weng, (参考訳) ディープラーニング(DL)は、検出、セグメンテーション、分類などのポイントクラウド分析タスクにおいて、主流で効果的な方法の1つとなっている。 訓練用DLモデルの過度な適合を低減し、特に訓練データの量及び/または多様性が制限された場合にモデル性能を向上させること。 さまざまなポイントクラウドデータ拡張手法がさまざまなポイントクラウド処理タスクで広く使用されているが、現在、これらの手法の体系的な調査やレビューは公開されていない。 そこで本稿では,これらの手法を,基本的および専門的なクラウドデータ拡張手法を含む分類体系に分類する。 本稿では,これらの拡張手法の包括的評価を通じて,それらの可能性と限界を明らかにし,適切な拡張方法を選択する上で有用な基準として機能する。 また,今後の研究の方向性も示唆されている。 この調査は、ポイントクラウドデータ拡張の現状の全体像を提供し、より広範なアプリケーションと開発を促進することに寄与します。

Deep learning (DL) has become one of the mainstream and effective methods for point cloud analysis tasks such as detection, segmentation and classification. To reduce overfitting during training DL models and improve model performance especially when the amount and/or diversity of training data are limited, augmentation is often crucial. Although various point cloud data augmentation methods have been widely used in different point cloud processing tasks, there are currently no published systematic surveys or reviews of these methods. Therefore, this article surveys these methods, categorizing them into a taxonomy framework that comprises basic and specialized point cloud data augmentation methods. Through a comprehensive evaluation of these augmentation methods, this article identifies their potentials and limitations, serving as a useful reference for choosing appropriate augmentation methods. In addition, potential directions for future research are recommended. This survey contributes to providing a holistic overview of the current state of point cloud data augmentation, promoting its wider application and development.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 量子鍵分布のためのQubitベースの分散フレーム同期

Qubit-based distributed frame synchronization for quantum key distribution ( http://arxiv.org/abs/2308.13154v2 )

ライセンス: Link先を確認
Ye Chen, Chunfeng Huang, Shuyi Huang, Zhenrong Zhang, Kejin Wei, (参考訳) QKD(Quantum Key Distribution)は、2つのリモートパーティがセキュアなキー文字列を共有できるようにする方法である。 2つのパーティ間のクロック同期は、QKDの正常な動作において重要なステップである。 クビットベースの同期は、2つのリモートパーティ間で量子状態を送信することでクロック同期を実現し、ハードウェア同期の必要性を排除し、QKDシステムのハードウェア要求を大幅に削減することができる。 それでも、古典的量子ビットベースの同期は、連続的かつ高損失なシステムでは性能が悪く、様々なシナリオにおいてその適用性を妨げている。 本稿では,連続的に動作するシステムにおいて時間回復を実現し,高い損失に耐えるキュービットベースの分散フレーム同期手法を提案する。 実験の結果,提案手法は連続的に動作するシステムにおいて,先進的なqubitベースの同期方式Qubit4Syncよりも優れていた。 我々は,ドローンによるQKDや量子ネットワーク構築など,幅広いQKDシナリオに適用できると考えている。

Quantum key distribution (QKD) is a method that enables two remote parties to share a secure key string. Clock synchronization between two parties is a crucial step in the normal operation of QKD. Qubit-based synchronization can achieve clock synchronization by transmitting quantum states between two remote parties, eliminating the necessity for hardware synchronization and thereby greatly reducing the hardware requirements of a QKD system. Nonetheless, classical qubit-based synchronization exhibits poor performance in continuous and high-loss systems, hindering its wide applicability in various scenarios. We propose a qubit-based distributed frame synchronization method that can achieve time recovery in a continuously running system and resist higher losses. Experimental results show that the proposed method outperforms the advanced qubit-based synchronization method Qubit4Sync in a continuously running system. We believe our method is applicable to a broad range of QKD scenarios, including drone-based QKD and quantum network construction.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 量子ビット同期によるコスト効率の高い量子アクセスネットワーク

A cost-efficient quantum access network with qubit-based synchronization ( http://arxiv.org/abs/2308.14385v3 )

ライセンス: Link先を確認
Chunfeng Huang, Ye Chen, Tingting Luo, Wenjie He, Xin Liu, Zhenrong Zhang, Kejin Wei, (参考訳) 量子鍵分配(Quantum Key Distribution, QKD)は、2つの異なるパーティが秘密鍵と情報理論のセキュリティを交換できる物理層暗号化技術である。 過去20年間、QKDは研究所の研究から、マルチユーザ量子アクセスネットワーク(QAN)を含む現実世界のアプリケーションへと移行してきた。 このネットワーク構造により、タイムディビジョン多重化により、単一光子検出器をネットワークノードで共有することができ、ネットワークコストを大幅に削減することができる。 しかし、現在のQAN実装では、時間同期のような補助的なタスクのために追加のハードウェアが必要である。 この問題に対処するため、我々はqubitベースの同期を用いたコスト効率の高いQANを提案する。 このアプローチでは、送信されたキュービットは時間同期を容易にし、追加の同期ハードウェアを必要としない。 我々は,2人のユーザを対象としたネットワークを実装し,50kmの商用ファイバスプール上で,ユーザ毎の平均キーレート5,3.84$kbps,7,11.90$kbpsを達成した。 さらに,クロストークおよび損失条件下でのアクセスネットワークの容量について検討した。 シミュレーションの結果,64ユーザで最大1070〜bpsのQANをサポートできることがわかった。 本研究は,マルチユーザQKDネットワークを実現するための実現可能で費用対効果の高い方法を提供し,QKDの普及を促進する。

Quantum Key Distribution (QKD) is a physical layer encryption technique that enables two distant parties to exchange secure keys with information-theoretic security. In the last two decades, QKD has transitioned from laboratory research to real-world applications, including multi-user quantum access networks (QANs). This network structure allows users to share a single-photon detector at a network node through time-division multiplexing, thereby significantly reducing the network cost. However, current QAN implementations require additional hardware for auxiliary tasks such as time synchronization. To address this issue, we propose a cost-efficient QAN that uses qubit-based synchronization. In this approach, the transmitted qubits facilitate time synchronization, eliminating the need for additional synchronization hardware. We tested our scheme by implementing a network for two users and successfully achieved average secure key rates of $53.84$ kbps and $71.90$ kbps for each user over a 50-km commercial fiber spool. In addition, we investigated the capacity of the access network under cross-talk and loss conditions. The simulation results demonstrate that this scheme can support a QAN with 64 users with key rates up to 1070~bps. Our work provides a feasible and cost-effective way to implement a multi-user QKD network, further promoting the widespread application of QKD.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 蛍光検出振動分光法による異常点近傍の振動支援エネルギー伝達の促進

Enhancement of vibrationally assisted energy transfer by proximity to exceptional points, probed by fluorescence-detected vibrational spectroscopy ( http://arxiv.org/abs/2309.02819v3 )

ライセンス: Link先を確認
Zeng-Zhao Li, K. Birgitta Whaley, (参考訳) 量子プラットフォーム上の自然系におけるエネルギー伝達過程のエミュレーションは、自然界における複雑な力学の理解をさらに深めることができる。 1つの顕著な例は、閉じ込められたイオン量子エミュレータ上での振動補助エネルギー伝達(VAET)のデモンストレーションであり、光収穫のエネルギー学的な知見を提供する。 本研究では、閉じ込められたイオンを用いたVAETシミュレーションの研究を、振動モードに弱結合した$\mathscr{PT}$-symmetric chromophore dimerからなる非エルミタン量子系に拡張する。 まず、振動のない励起エネルギー伝達過程の例外点(EP)と非エルミート特性を特徴付ける。 振動を含む系の非エルミート力学を探索し、振動モードからのフォノンの吸収に伴うエネルギー移動が、そのような縮退EPの近傍で著しく向上できることを見出した。 本計算では, 固有状態と固有エネルギーの結合に伴う特異なスペクトル特性を明らかにし, 蛍光検出振動分光法により縮退EPを探索する新しい手法を提案する。 EP近傍でのVAETプロセスの増強は、退化EPにおけるフォノン吸収の最大選択性により、複数の同時励起が可能であることが判明した。 非エルミート量子系におけるVAETプロセスの改善に関する研究は、励起エネルギー移動に関連する量子力学における非ハーミティシティの活用の道を開く。

Emulation of energy transfer processes in natural systems on quantum platforms can further our understanding of complex dynamics in nature. One notable example is the demonstration of vibrationally assisted energy transfer (VAET) on a trapped-ion quantum emulator, which offers insights for the energetics of light harvesting. In this work, we expand the study of VAET simulation with trapped ions to a non-Hermitian quantum system comprising a $\mathscr{PT}$-symmetric chromophore dimer weakly coupled to a vibrational mode. We first characterize exceptional points (EPs) and non- Hermitian features of the excitation energy transfer processes in the absence of the vibration, finding a degenerate pair of second-order EPs. Exploring the non-Hermitian dynamics of the whole system including vibrations, we find that energy transfer accompanied by absorption of phonons from a vibrational mode can be significantly enhanced near such a degenerate EP. Our calculations reveal a unique spectral feature accompanying the coalescing of eigenstates and eigenenergies that provides a novel approach to probe the degenerate EP by fluorescence-detected vibrational spectroscopy. Enhancement of the VAET process near the EP is found to be due to maximal favorability of phonon absorption at the degenerate EP, enabling multiple simultaneous excitations. Our work on improving VAET processes in non-Hermitian quantum systems paves the way for leveraging non-Hermiticity in quantum dynamics related to excitation energy transfer.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# R2D2でCygnusを深く高速にクリーニングする

CLEANing Cygnus A deep and fast with R2D2 ( http://arxiv.org/abs/2309.03291v3 )

ライセンス: Link先を確認
Arwa Dabbech, Amir Aghabiglou, Chung San Chu, Yves Wiaux, (参考訳) 近年,高ダイナミックレンジイメージングのためのResidual-to-Residual DNNシリーズ(R2D2)と呼ばれる,電波干渉計による合成イメージングのための新しいディープラーニングパラダイムが提案されている。 本研究では、R2D2のアルゴリズム構造に光を当てることから始め、CLEANの学習版として、反復的なトレーニングを行うディープニューラルネットワーク(DNN)に代えて、小さなサイクルでCLEANを解釈する。 次に、R2D2による実データの最初の実験を行い、超大型アレイ(VLA)によるSバンド観測から、電波銀河Cygnus Aの単色強度イメージングを行った。 本稿では,R2D2 の学習手法のモデリング能力により,CLEAN の解像度に取って代わり,最新の最適化アルゴリズムとプラグ・アンド・プレイアルゴリズムの精度を,それぞれ uSARA と AIRI と一致させることが可能であることを示す。 R2D2は、主要なサイクルのみを必要とするため、uSARAやAIRIよりもはるかに高速な再構築を提供する。

A novel deep learning paradigm for synthesis imaging by radio interferometry in astronomy was recently proposed, dubbed "Residual-to-Residual DNN series for high-Dynamic range imaging" (R2D2). In this work, we start by shedding light on R2D2's algorithmic structure, interpreting it as a learned version of CLEAN with minor cycles substituted with a deep neural network (DNN) whose training is iteration-specific. We then proceed with R2D2's first demonstration on real data, for monochromatic intensity imaging of the radio galaxy Cygnus A from S band observations with the Very Large Array (VLA). We show that the modeling power of R2D2's learning approach enables delivering high-precision imaging, superseding the resolution of CLEAN, and matching the precision of modern optimization and plug-and-play algorithms, respectively uSARA and AIRI. Requiring few major-cycle iterations only, R2D2 provides a much faster reconstruction than uSARA and AIRI, known to be highly iterative, and is at least as fast as CLEAN.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 古典的および量子的反識別可能性に対する最適誤差指数について

On the optimal error exponents for classical and quantum antidistinguishability ( http://arxiv.org/abs/2309.03723v2 )

ライセンス: Link先を確認
Hemant K. Mishra, Michael Nussbaum, Mark M. Wilde, (参考訳) 量子状態の非識別性の概念は、量子力学の基本的な問題を研究するために研究されている。 量子状態除去(quantum state elimination)とも呼ばれるが、これはそのようなプロトコルの目標は、ランダムに選択された有限個の状態のうち、システムが準備されていないことを推測することである(すなわち、除去の過程における最初のステップと考えることができる)。 反識別性は、量子力学の$\psi$-epistemic存在論的モデル[Pusey et al , Nat. Phys., 8(6):475-478, 2012]を除外して、量子状態の現実を調べるために用いられる。 したがって、量子力学における反識別性の重要性が確立されているため、さらなる探索が保証される。 本稿では,古典的および量子的反識別性に対する最適誤差指数(最適誤差確率が漸近的にゼロになる速度)を総合的に研究する。 古典的ケースにおける最適誤差指数の正確な式を導出し、多変量古典チャーノフ発散によって与えられることを示す。 我々の研究は、一連の確率測度を不特定にするための最適誤差指数として、有意義な操作解釈でこの分散を提供する。 量子の場合、最適誤差指数についていくつかの境界を与える: 状態の最適ペアのチャーノフ発散によって与えられる下界、一文字半有限計画上界、および極小および最大多変量量子チャーノフ発散による下界と上界。 量子異方性に対する最適誤差指数の明示的な式を得るには、依然として未解決の問題である。

The concept of antidistinguishability of quantum states has been studied to investigate foundational questions in quantum mechanics. It is also called quantum state elimination, because the goal of such a protocol is to guess which state, among finitely many chosen at random, the system is not prepared in (that is, it can be thought of as the first step in a process of elimination). Antidistinguishability has been used to investigate the reality of quantum states, ruling out $\psi$-epistemic ontological models of quantum mechanics [Pusey et al., Nat. Phys., 8(6):475-478, 2012]. Thus, due to the established importance of antidistinguishability in quantum mechanics, exploring it further is warranted. In this paper, we provide a comprehensive study of the optimal error exponent -- the rate at which the optimal error probability vanishes to zero asymptotically -- for classical and quantum antidistinguishability. We derive an exact expression for the optimal error exponent in the classical case and show that it is given by the multivariate classical Chernoff divergence. Our work thus provides this divergence with a meaningful operational interpretation as the optimal error exponent for antidistinguishing a set of probability measures. For the quantum case, we provide several bounds on the optimal error exponent: a lower bound given by the best pairwise Chernoff divergence of the states, a single-letter semi-definite programming upper bound, and lower and upper bounds in terms of minimal and maximal multivariate quantum Chernoff divergences. It remains an open problem to obtain an explicit expression for the optimal error exponent for quantum antidistinguishability.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# ガウスの混合はポリノミアルなサンプル数でプライベートに学習できる

Mixtures of Gaussians are Privately Learnable with a Polynomial Number of Samples ( http://arxiv.org/abs/2309.03847v3 )

ライセンス: Link先を確認
Mohammad Afzali, Hassan Ashtiani, Christopher Liaw, (参考訳) 本稿では,差分プライバシー(DP)の制約下でのガウスの混合度を推定する問題について検討する。 我々の主な結果は、$\text{poly}(k,d,1/\alpha,1/\varepsilon,\log(1/\delta))$サンプルが$k$ Gaussians in $\mathbb{R}^d$から$(\varepsilon, \delta)$-DPを満足しながら全変動距離$\alpha$を推定するのに十分であるということである。 これは GMM の構造的仮定を一切含まない問題に対する最初の有限標本複雑性上界である。 この問題を解決するために、他のタスクに有用な新しいフレームワークを考案する。 高いレベルでは、(1)分布の類(ガウス類など)がデコッド可能なリストであり、(2)「局所的に小さい」被覆(Bun et al , 2021)が全変動距離に関して認められる場合、その混合の類はプライベートに学習可能である。 この証明は、ガウスとは異なり、GMMが局所的な小さな被覆(Aden-Ali et al , 2021b)を含まないことを示す既知の障壁を回避している。

We study the problem of estimating mixtures of Gaussians under the constraint of differential privacy (DP). Our main result is that $\text{poly}(k,d,1/\alpha,1/\varepsilon,\log(1/\delta))$ samples are sufficient to estimate a mixture of $k$ Gaussians in $\mathbb{R}^d$ up to total variation distance $\alpha$ while satisfying $(\varepsilon, \delta)$-DP. This is the first finite sample complexity upper bound for the problem that does not make any structural assumptions on the GMMs. To solve the problem, we devise a new framework which may be useful for other tasks. On a high level, we show that if a class of distributions (such as Gaussians) is (1) list decodable and (2) admits a "locally small'' cover (Bun et al., 2021) with respect to total variation distance, then the class of its mixtures is privately learnable. The proof circumvents a known barrier indicating that, unlike Gaussians, GMMs do not admit a locally small cover (Aden-Ali et al., 2021b).
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 心電図分類のためのマスク変圧器

Masked Transformer for Electrocardiogram Classification ( http://arxiv.org/abs/2309.07136v3 )

ライセンス: Link先を確認
Ya Zhou, Xiaolin Diao, Yanni Huo, Yang Liu, Xiaohan Fan, Wei Zhao, (参考訳) 心電図(ECG)は臨床応用において最も重要な診断ツールの一つである。 高度なアルゴリズムの出現に伴い、ECGタスクに様々なディープラーニングモデルが採用されている。 しかし、コンピュータビジョンや自然言語処理で広く成功したにもかかわらず、ECGデータに対するTransformerの可能性は完全には実現されていない。 本稿では,ECG分類における最新の最先端アルゴリズムを著しく上回る簡易かつ効果的な手法であるMasked Transformer for ECG Classification (MTECG)を提案する。 提案手法は,画像ベースのマスク付きオートエンコーダをECG時系列からの自己教師付き表現学習に適用する。 我々は、エンコーダに軽量トランスフォーマー、デコーダに1層トランスフォーマーを利用する。 ECG信号を時間次元に沿って重複しないセグメントのシーケンスに分割し、シーケンシャル情報を保存するために学習可能な位置埋め込みを追加する。 本研究では,220,251個の心電図記録を医療専門家が注釈した広い範囲の診断で構成し,Transformerの可能性を探るため,布井データセットを構築した。 実証実験から, 優れた事前学習と微調整のレシピを提案する。 実験により,提案手法は,フウェーデータセットで3.4%-27.5%,TB-XLデータセットで9.9%-32.0%,マルチセンタデータセットで9.4%-39.1%のマクロF1スコアを,代替手法と比較して増加させた。 本研究は今後,より多くのECGタスクへのTransformerの適用について研究を進めていくことを期待する。

Electrocardiogram (ECG) is one of the most important diagnostic tools in clinical applications. With the advent of advanced algorithms, various deep learning models have been adopted for ECG tasks. However, the potential of Transformer for ECG data has not been fully realized, despite their widespread success in computer vision and natural language processing. In this work, we present Masked Transformer for ECG classification (MTECG), a simple yet effective method which significantly outperforms recent state-of-the-art algorithms in ECG classification. Our approach adapts the image-based masked autoencoders to self-supervised representation learning from ECG time series. We utilize a lightweight Transformer for the encoder and a 1-layer Transformer for the decoder. The ECG signal is split into a sequence of non-overlapping segments along the time dimension, and learnable positional embeddings are added to preserve the sequential information. We construct the Fuwai dataset comprising 220,251 ECG recordings with a broad range of diagnoses, annotated by medical experts, to explore the potential of Transformer. A strong pre-training and fine-tuning recipe is proposed from the empirical study. The experiments demonstrate that the proposed method increases the macro F1 scores by 3.4%-27.5% on the Fuwai dataset, 9.9%-32.0% on the PTB-XL dataset, and 9.4%-39.1% on a multicenter dataset, compared to the alternative methods. We hope that this study could direct future research on the application of Transformer to more ECG tasks.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 神経に触発された階層型マルチモーダル学習

Neuro-Inspired Hierarchical Multimodal Learning ( http://arxiv.org/abs/2309.15877v3 )

ライセンス: Link先を確認
Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan, (参考訳) 様々な情報源やモダリティからの情報の統合と処理は、現実世界の包括的で正確な認識を得るために重要である。 神経科学からインスピレーションを得た情報理論階層知覚(ITHP)モデルを開発した。 入力としてすべてのモダリティを組み込むことを目的とした従来の融合モデルとは異なり、本モデルは入力として主モダリティを指定し、残りのモダリティは情報経路の検出器として機能する。 提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。 このアプローチは、冗長性を最小化しながら関連情報を保持し、ダウンストリームタスクの性能を大幅に向上する、コンパクトな潜在状態表現をもたらす。 MUStARDデータセットとCMU-MOSIデータセットの両方の実験評価により、我々のモデルはマルチモーダル学習シナリオにおいて、常に重要な情報を蒸留し、最先端のベンチマークより優れていることが示された。

Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Distinct from most traditional fusion models that aim to incorporate all modalities as input, our model designates the prime modality as input, while the remaining modalities act as detectors in the information pathway. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of downstream tasks. Experimental evaluations on both the MUStARD and CMU-MOSI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# 潜時空間対称性の発見

Latent Space Symmetry Discovery ( http://arxiv.org/abs/2310.00105v2 )

ライセンス: Link先を確認
Jianke Yang, Nima Dehmamy, Robin Walters, Rose Yu, (参考訳) 等変ニューラルネットワークは対称性群の明示的な知識を必要とする。 自動対称性発見法は、この制約を緩和し、データから不変性と等価性を学習することを目的としている。 しかし、既存の対称性発見法は単純な線形対称性に限られており、実世界のデータの複雑さに対処できない。 非線形群作用の対称性を同定できる新しい生成モデルLaLiGAN(Latent LieGAN)を提案する。 データ空間から潜在空間への写像を学び、そこで対称性は線型になり、同時に潜在空間における対称性を発見する。 理論的に,本手法は群作用に関する条件下では任意の非線形対称性を表現可能であることを示す。 実験により,本手法が高次元力学系の固有対称性を正確に検出できることが実証された。 LaLiGANはまた、方程式発見や長期予測を含む下流のタスクに有用な構造化された潜在空間をもたらす。

Equivariant neural networks require explicit knowledge of the symmetry group. Automatic symmetry discovery methods aim to relax this constraint and learn invariance and equivariance from data. However, existing symmetry discovery methods are limited to simple linear symmetries and cannot handle the complexity of real-world data. We propose a novel generative model, Latent LieGAN (LaLiGAN), which can discover symmetries of nonlinear group actions. It learns a mapping from the data space to a latent space where the symmetries become linear and simultaneously discovers symmetries in the latent space. Theoretically, we show that our method can express any nonlinear symmetry under some conditions about the group action. Experimentally, we demonstrate that our method can accurately discover the intrinsic symmetry in high-dimensional dynamical systems. LaLiGAN also results in a well-structured latent space that is useful for downstream tasks including equation discovery and long-term forecasting.
翻訳日:2024-04-24 20:04:56 公開日:2024-04-23
# シンプルな水平クラスのバックドアが防備を脅かす!

Watch Out! Simple Horizontal Class Backdoors Can Trivially Evade Defenses ( http://arxiv.org/abs/2310.00542v2 )

ライセンス: Link先を確認
Hua Ma, Shang Wang, Yansong Gao, Zhi Zhang, Huming Qiu, Minhui Xue, Alsharif Abuadbba, Anmin Fu, Surya Nepal, Derek Abbott, (参考訳) ディープラーニング(DL)モデルに対する現在のバックドア攻撃はすべて、クラス依存の垂直クラスバックドア(VCB)のカテゴリに該当する。 VCB攻撃では、クラスからのサンプルは、シークレットトリガーが存在するときに埋め込まれたバックドアを起動する。 既存の防衛戦略は、VCB攻撃、特にソースクラスに依存しない攻撃への対応に圧倒的に重点を置いている。 この狭い焦点は、他のより単純だが一般的なバックドア型の潜在的な脅威を無視し、誤ったセキュリティ上の影響をもたらす。 本研究は,VCBのクラス依存特性を自明に破り,コミュニティに新たな視点をもたらす水平クラスバックドア(HCB)として考案された,新しい,シンプルで一般的なバックドア攻撃を紹介した。 HCBは、クラスに関係なく、トリガーが無害な特徴と共に提示されるときに起動される。 例えば、顔認識モデルは、笑顔の無害な特徴を持つサングラスをかけた人を、どの人物であっても、管理者などの対象人物に誤分類する。 鍵となるのは、これらの無害な機能はクラス間で水平に共有されているが、クラスごとに部分的なサンプルによってのみ表示されることだ。 MNIST, 顔認識, 交通標識認識, 物体検出, 医療診断など, 様々なタスクにおける攻撃性能に関する大規模な実験により, HCBの高効率性と有効性が確認された。 本研究は, RAID 18', STRIP (ACSAC 19'), Neural Cleanse (Oakland 19'), ABS (CCS 19'), Februus (ACSAC 20'), NAD (ICLR 21'), MNTD (Oakland 21'), SCAn (USENIX SEC 21'), MOTH (Oakland 22'), Beatrix (NDSS 23'), MM-BD (Oakland 24'), MM-BD (Oakland 24'), MM-BD (Oakland 24'), MM-BD (Oakland 24'), MM-BD (Oakland 24') など, HCBの回避性について検討した。 これらの対策はいずれも、小さくて静的な白色四角いパッチのような単純なトリガーを使用する場合であっても、堅牢性を示すものではない。

All current backdoor attacks on deep learning (DL) models fall under the category of a vertical class backdoor (VCB) -- class-dependent. In VCB attacks, any sample from a class activates the implanted backdoor when the secret trigger is present. Existing defense strategies overwhelmingly focus on countering VCB attacks, especially those that are source-class-agnostic. This narrow focus neglects the potential threat of other simpler yet general backdoor types, leading to false security implications. This study introduces a new, simple, and general type of backdoor attack coined as the horizontal class backdoor (HCB) that trivially breaches the class dependence characteristic of the VCB, bringing a fresh perspective to the community. HCB is now activated when the trigger is presented together with an innocuous feature, regardless of class. For example, the facial recognition model misclassifies a person who wears sunglasses with a smiling innocuous feature into the targeted person, such as an administrator, regardless of which person. The key is that these innocuous features are horizontally shared among classes but are only exhibited by partial samples per class. Extensive experiments on attacking performance across various tasks, including MNIST, facial recognition, traffic sign recognition, object detection, and medical diagnosis, confirm the high efficiency and effectiveness of the HCB. We rigorously evaluated the evasiveness of the HCB against a series of eleven representative countermeasures, including Fine-Pruning (RAID 18'), STRIP (ACSAC 19'), Neural Cleanse (Oakland 19'), ABS (CCS 19'), Februus (ACSAC 20'), NAD (ICLR 21'), MNTD (Oakland 21'), SCAn (USENIX SEC 21'), MOTH (Oakland 22'), Beatrix (NDSS 23'), and MM-BD (Oakland 24'). None of these countermeasures prove robustness, even when employing a simplistic trigger, such as a small and static white-square patch.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# ARN: ナラティブに関するアナロジカル推論

ARN: Analogical Reasoning on Narratives ( http://arxiv.org/abs/2310.00996v3 )

ライセンス: Link先を確認
Zhivar Sourati, Filip Ilievski, Pia Sommerauer, Yifan Jiang, (参考訳) ドメイン間の情報の伝達性を可能にするコア認知技術として、人間と計算モデルの両方でアナログ推論が広く研究されている。 しかしながら、アナロジーの認知理論は、しばしば物語に焦点をあて、表面、関係性、およびシステム類似性の違いを研究するが、自然言語処理における既存の研究は、単語ペア間の関係類似性に関してより限定的な焦点を持つ。 最先端の大規模言語モデル(LLM)は、物語間のシステム類似性を検出できるだろうか? そこで我々は,この疑問に対する洞察を得るとともに,単語ベースの関係的類似語を関係系類似語に拡張するために,ナラティブ要素を用いて,類似語の主要な理論を運用する包括的計算フレームワークを考案した。 これらのマッピング間の相互作用を活用して、Narratives (ARN) に関するアナロジ的推論のためのバイナリタスクとベンチマークを作成し、遠方(クロスドメイン)/近方(非ドメイン)のアナロジーと非アナロジーの4つのカテゴリをカバーする。 すべてのLLMがほぼ類似点を認識できるが、最大のものでさえゼロショット設定では極端に類似点に苦戦し、GPT4.0はランダムにスコアが下がった。 解決された例と連鎖推論を通してモデルを導くことは、類似の推論能力を高める。 しかし、数ショットのセッティングであっても、最良のモデルはランダムと人間の間の中間でしか動作しないため、ARNは計算的なアナログ推論のためにエキサイティングな方向を開く。

As a core cognitive skill that enables the transferability of information across domains, analogical reasoning has been extensively studied for both humans and computational models. However, while cognitive theories of analogy often focus on narratives and study the distinction between surface, relational, and system similarities, existing work in natural language processing has a narrower focus as far as relational analogies between word pairs. This gap brings a natural question: can state-of-the-art large language models (LLMs) detect system analogies between narratives? To gain insight into this question and extend word-based relational analogies to relational system analogies, we devise a comprehensive computational framework that operationalizes dominant theories of analogy, using narrative elements to create surface and system mappings. Leveraging the interplay between these mappings, we create a binary task and benchmark for Analogical Reasoning on Narratives (ARN), covering four categories of far (cross-domain)/near (within-domain) analogies and disanalogies. We show that while all LLMs can largely recognize near analogies, even the largest ones struggle with far analogies in a zero-shot setting, with GPT4.0 scoring below random. Guiding the models through solved examples and chain-of-thought reasoning enhances their analogical reasoning ability. Yet, since even in the few-shot setting, the best model only performs halfway between random and humans, ARN opens exciting directions for computational analogical reasoners.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# Adaptive Online Non-Stochastic Control

Adaptive Online Non-stochastic Control ( http://arxiv.org/abs/2310.02261v3 )

ライセンス: Link先を確認
Naram Mhaisen, George Iosifidis, (参考訳) 我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。 すなわち、実際に目撃されたコストに比例した正規化子を使用することで、FTRL(Follow The Regularized Leader)フレームワークを動的システムに調整します。 主な課題は、提案された適応正則化器を状態の有無、あるいはそれに相当するメモリの存在下で使用することであり、これはオンライン決定の効果と相容れ、後悔を束縛するための新しいツールを必要とする。 NSCとFTRLの統合のための新しい解析手法により、最悪の場合であっても、コストの軌道が勾配が小さい場合に縮小するサブ線形データ適応ポリシーリフレクションバウンドを持つ新しい外乱動作制御器(DAC)を得る。

We tackle the problem of Non-stochastic Control (NSC) with the aim of obtaining algorithms whose policy regret is proportional to the difficulty of the controlled environment. Namely, we tailor the Follow The Regularized Leader (FTRL) framework to dynamical systems by using regularizers that are proportional to the actual witnessed costs. The main challenge arises from using the proposed adaptive regularizers in the presence of a state, or equivalently, a memory, which couples the effect of the online decisions and requires new tools for bounding the regret. Via new analysis techniques for NSC and FTRL integration, we obtain novel disturbance action controllers (DAC) with sub-linear data adaptive policy regret bounds that shrink when the trajectory of costs has small gradients, while staying sub-linear even in the worst case.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 不均一な自己監視学習による表現の強化

Enhancing Representations through Heterogeneous Self-Supervised Learning ( http://arxiv.org/abs/2310.05108v3 )

ライセンス: Link先を確認
Zhong-Yu Li, Bo-Wen Yin, Yongxiang Liu, Li Liu, Ming-Ming Cheng, (参考訳) 異なるアーキテクチャから異種表現を組み込むことは、様々なビジョンタスク、例えば、トランスフォーマーと畳み込みを組み合わせたハイブリッドネットワークを促進する。 しかし、このような異種アーキテクチャ間の相補性は、自己教師付き学習では十分に活用されていない。 そこで本研究では,HSSL(Heterogeneous Self-Supervised Learning)を提案する。 このプロセスでは、HSSLは構造的変化を伴わずに表現学習方式でベースモデルに新しい特徴を付与する。 HSSLを包括的に理解するために,ベースモデルと補助ヘッドを含む多種多様な異種対の実験を行った。 アーキテクチャの相違が大きくなるにつれて,ベースモデルの表現品質が向上することがわかった。 本研究の動機は,特定のベースモデルの学習に最も適した補助頭部を迅速に決定する探索戦略と,モデルの差分を増大させる単純かつ効果的な方法を提案することである。 HSSLは、画像分類、セマンティックセグメンテーション、インスタンスのセグメンテーション、オブジェクト検出など、さまざまなダウンストリームタスクにおいて優れたパフォーマンスを達成する。 私たちのソースコードは公開されます。

Incorporating heterogeneous representations from different architectures has facilitated various vision tasks, e.g., some hybrid networks combine transformers and convolutions. However, complementarity between such heterogeneous architectures has not been well exploited in self-supervised learning. Thus, we propose Heterogeneous Self-Supervised Learning (HSSL), which enforces a base model to learn from an auxiliary head whose architecture is heterogeneous from the base model. In this process, HSSL endows the base model with new characteristics in a representation learning way without structural changes. To comprehensively understand the HSSL, we conduct experiments on various heterogeneous pairs containing a base model and an auxiliary head. We discover that the representation quality of the base model moves up as their architecture discrepancy grows. This observation motivates us to propose a search strategy that quickly determines the most suitable auxiliary head for a specific base model to learn and several simple but effective methods to enlarge the model discrepancy. The HSSL is compatible with various self-supervised methods, achieving superior performances on various downstream tasks, including image classification, semantic segmentation, instance segmentation, and object detection. Our source code will be made publicly available.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 連続的不変学習

Continuous Invariance Learning ( http://arxiv.org/abs/2310.05348v2 )

ライセンス: Link先を確認
Yong Lin, Fan Zhou, Lu Tan, Lintao Ma, Jiameng Liu, Yansu He, Yuan Yuan, Yu Liu, James Zhang, Yujiu Yang, Hao Wang, (参考訳) 分散学習法は、分布シフトの下で一般化することを願って不変の特徴を学習することを目的としている。 多くのタスクは自然に連続したドメインによって特徴づけられるが、現在の不変学習技術は一般的に分類的インデックス付きドメインを仮定する。 例えば、クラウドコンピューティングにおける自動スケーリングには、異なる時間(例えば、1日と1年の日付)にわたって一般化するCPU利用予測モデルが必要だ。 本稿では,既存の不変学習手法が連続領域問題に失敗する可能性を理論的に示すことから始める。 具体的には、連続したドメインを離散的なドメインに分割するという単純な解は、ドメイン間の基盤となる関係を無視するので、潜在的に最適以下のパフォーマンスをもたらす。 この課題に対処するために、連続的なインデックス付きドメイン間で不変な特徴を抽出する連続不変学習(Continuous Invariance Learning, CIL)を提案する。 CILは、ラベルと抽出された特徴から連続したドメインインデックスの間の条件付き独立性を測定し、制御する、新しい敵の手順である。 我々の理論解析は、既存の不変学習法よりもCILの方が優れていることを示す。 合成データセットと実世界のデータセット(プロダクションシステムから収集されたデータを含む)の実証的な結果から、CILはすべてのタスクにおいて強いベースラインを一貫して上回っていることが分かる。

Invariance learning methods aim to learn invariant features in the hope that they generalize under distributional shifts. Although many tasks are naturally characterized by continuous domains, current invariance learning techniques generally assume categorically indexed domains. For example, auto-scaling in cloud computing often needs a CPU utilization prediction model that generalizes across different times (e.g., time of a day and date of a year), where `time' is a continuous domain index. In this paper, we start by theoretically showing that existing invariance learning methods can fail for continuous domain problems. Specifically, the naive solution of splitting continuous domains into discrete ones ignores the underlying relationship among domains, and therefore potentially leads to suboptimal performance. To address this challenge, we then propose Continuous Invariance Learning (CIL), which extracts invariant features across continuously indexed domains. CIL is a novel adversarial procedure that measures and controls the conditional independence between the labels and continuous domain indices given the extracted features. Our theoretical analysis demonstrates the superiority of CIL over existing invariance learning methods. Empirical results on both synthetic and real-world datasets (including data collected from production systems) show that CIL consistently outperforms strong baselines among all the tasks.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 高コンプレックス乳癌分類における注意マップの拡張

Attention-Map Augmentation for Hypercomplex Breast Cancer Classification ( http://arxiv.org/abs/2310.07633v2 )

ライセンス: Link先を確認
Eleonora Lopez, Filippo Betello, Federico Carmignani, Eleonora Grassucci, Danilo Comminiello, (参考訳) 乳癌は女性の中で最も広範な腫瘍であり、早期発見が重要である。 深層学習技術は診断性能を向上させるために大きな関心を集めている。 しかし、マンモグラム全体における悪性と良性マッサージの区別は、未訓練眼とほぼ同一に見えるため困難であり、興味領域(ROI)は全体像のごく一部を構成するのみである。 本稿では,これらの問題を解決するために,パラメータ化ハイパーコンプレックス・アテンション・マップ(PHAM)を提案する。 具体的には、コンピュータの注意マップに基づく拡張ステップをデプロイする。 そして、注意マップを用いて、原乳がん画像と対応する注意マップとからなる多次元入力を構築することにより、分類ステップを条件付ける。 このステップでは、パラメータ化ハイパーコンプレックスニューラルネットワーク(PHNN)を用いて乳癌の分類を行う。 このフレームワークには2つの大きな利点がある。 まず、注意マップはROIに関する重要な情報を提供し、ニューラルネットワークがそれに集中できるようにする。 第二に、超複素アーキテクチャは、超複素代数規則により入力次元間の局所関係をモデル化し、注意マップによって提供される情報を適切に活用する能力を持つ。 マンモグラフィ画像と病理組織像の両方に対して提案した枠組みの有効性を実証した。 私たちは、注目に基づく最先端のネットワークと、我々のアプローチの真の価値を超越しています。 私たちの作業のコードはhttps://github.com/ispamm/AttentionBCS.comで公開されています。

Breast cancer is the most widespread neoplasm among women and early detection of this disease is critical. Deep learning techniques have become of great interest to improve diagnostic performance. However, distinguishing between malignant and benign masses in whole mammograms poses a challenge, as they appear nearly identical to an untrained eye, and the region of interest (ROI) constitutes only a small fraction of the entire image. In this paper, we propose a framework, parameterized hypercomplex attention maps (PHAM), to overcome these problems. Specifically, we deploy an augmentation step based on computing attention maps. Then, the attention maps are used to condition the classification step by constructing a multi-dimensional input comprised of the original breast cancer image and the corresponding attention map. In this step, a parameterized hypercomplex neural network (PHNN) is employed to perform breast cancer classification. The framework offers two main advantages. First, attention maps provide critical information regarding the ROI and allow the neural model to concentrate on it. Second, the hypercomplex architecture has the ability to model local relations between input dimensions thanks to hypercomplex algebra rules, thus properly exploiting the information provided by the attention map. We demonstrate the efficacy of the proposed framework on both mammography images as well as histopathological ones. We surpass attention-based state-of-the-art networks and the real-valued counterpart of our approach. The code of our work is available at https://github.com/ispamm/AttentionBCS.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# あらゆる量子が役に立つ:凸性を超えた量子資源の運用上の利点

Every quantum helps: Operational advantage of quantum resources beyond convexity ( http://arxiv.org/abs/2310.09154v3 )

ライセンス: Link先を確認
Kohdai Kuroiwa, Ryuji Takagi, Gerardo Adesso, Hayata Yamasaki, (参考訳) 量子技術において優れた性能を得るのにどのような量子力学的性質が有用かを特定することは重要な問題である。 量子資源理論はそのような性質を解析し理解するための統一的な枠組みを提供し、絡み合いと一貫性の実証に成功している。 これらは常に量子上の利点を識別できる凸資源の例であるが、多くの物理資源は非凸状態の集合によって記述され、その解釈はいまだ解明されていない。 ここでは、一般資源理論における一般化ロバスト性尺度の2つの操作的解釈を提供することにより、凸性仮定のない量子資源の有用性に関する根本的な問題に取り組む。 まず、非線形資源証人の観点から一般化されたロバスト性を特徴付け、任意の状態が、ある種のマルチコピーチャネル識別タスクにおいて、自由な状態よりも有利であることを明らかにする。 次に、理論が複数の制約によって特徴づけられるシナリオを考察し、一般化されたロバスト性は、単一コピーチャネルの識別設定における最悪の利点と一致することを示す。 これらの特徴に基づいて、全ての量子資源状態は、自由状態の構造に関する仕様がなくても、一般資源理論における識別問題において質的かつ定量的な優位性を示すと結論付けている。

Identifying what quantum-mechanical properties are useful to untap a superior performance in quantum technologies is a pivotal question. Quantum resource theories provide a unified framework to analyze and understand such properties, as successfully demonstrated for entanglement and coherence. While these are examples of convex resources, for which quantum advantages can always be identified, many physical resources are described by a nonconvex set of free states and their interpretation has so far remained elusive. Here we address the fundamental question of the usefulness of quantum resources without convexity assumption, by providing two operational interpretations of the generalized robustness measure in general resource theories. First, we characterize the generalized robustness in terms of a nonlinear resource witness and reveal that any state is more advantageous than a free one in some multicopy channel discrimination task. Next, we consider a scenario where a theory is characterized by multiple constraints and show that the generalized robustness coincides with the worst-case advantage in a single-copy channel discrimination setting. Based on these characterizations, we conclude that every quantum resource state shows a qualitative and quantitative advantage in discrimination problems in a general resource theory even without any specification on the structure of the free states.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 凸性制限のないロバストネスおよび重みに基づく資源測定:静的および動的量子資源理論におけるマルチコピー証人および運用上の優位性

Robustness- and weight-based resource measures without convexity restriction: Multicopy witness and operational advantage in static and dynamical quantum resource theories ( http://arxiv.org/abs/2310.09321v3 )

ライセンス: Link先を確認
Kohdai Kuroiwa, Ryuji Takagi, Gerardo Adesso, Hayata Yamasaki, (参考訳) 量子資源理論(QRT)は、量子情報処理の利点を達成するために、量子特性をリソースとして分析するための統一的なフレームワークを提供する。 汎用ロバスト性と資源の重みは有用な資源定量化器として注目されている。 しかし、これらの対策の既存の分析は、自由状態の集合の凸性を仮定する場合に限られており、物理的に動機付けられた資源はこの制限を必ずしも満たさない。 本稿では,2つの異なるアプローチによる凸性制限を伴わない一般QRTにおいて,ロバストネスと重みに基づく尺度の特性について述べる。 一方,不規則な証人を導入することで,資源の強靭性と重みを特徴付ける。 本報告では,国家の複数のコピーから与えられた状態の資源性を検出する新たな証人観測器の一般構築について述べるとともに,これらの証人を用いて,凸性仮定がなくても,上記の資源対策の運用的解釈を行う。 一方, 一般化されたロバスト性と資源の重みは, 複数の制約に対応する複数の凸部分集合からなるチャネル識別タスクとチャネル排除タスクの変種において, 最悪の場合の最大の利点と解釈できる。 さらに、これらの結果を量子チャネルや量子機器のQRTに拡張する。 これらの特徴は、全ての量子資源が、凸性仮定のない一般のQRTにおいても、対応するタスクに有利であることを示している。 そこで,従来の凸QRTの範囲を超えて,ロバストネスと重みに基づく技術の有用性を確立し,QRTの一般的な構造をよりよく理解する。

Quantum resource theories (QRTs) provide a unified framework to analyze quantum properties as resources for achieving advantages in quantum information processing. The generalized robustness and the weight of resource have been gaining increasing attention as useful resource quantifiers. However, the existing analyses of these measures were restricted to the cases where convexity of the set of free states is assumed, and physically motivated resources do not necessarily satisfy this restriction. In this paper, we give characterizations of robustness- and weight-based measures in general QRTs without convexity restriction through two different yet related approaches. On the one hand, we characterize the generalized robustness and the weight of resource by introducing a nonlinear witness. We show a general construction of new witness observables that detect the resourcefulness of a given state from multiple copies of the state and, using these witnesses, we provide operational interpretations of the above resource measures even without any convexity assumption. On the other hand, we find that the generalized robustness and the weight of resource can also be interpreted as the worst-case maximum advantage in variants of channel-discrimination and channel-exclusion tasks, respectively, where the set of free states consists of several convex subsets corresponding to multiple restrictions. We further extend these results to QRTs for quantum channels and quantum instruments. These characterizations show that every quantum resource exhibits an advantage for the corresponding tasks, even in general QRTs without convexity assumption. Thus, we establish the usefulness of robustness-based and weight-based techniques beyond the conventional scope of convex QRTs, leading to a better understanding of the general structure of QRTs.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 大規模言語モデルのためのワンショット感性-混合スパシティ・プルーニング

One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models ( http://arxiv.org/abs/2310.09499v4 )

ライセンス: Link先を確認
Hang Shao, Bei Liu, Bo Xiao, Ke Zeng, Guanglu Wan, Yanmin Qian, (参考訳) Generative Pretrained Transformer (GPT) ファミリーの様々な大規模言語モデル~(LLM)は、幅広いテキスト生成タスクにおいて優れたパフォーマンスを実現している。 しかし、膨大なモデルサイズは、高い推論遅延のため、現実世界のアプリケーションでの使用を妨げている。 したがって, LLM の量子化, プルーニング, その他の手法による効率性の向上は, LLM 研究において重要な課題となっている。 そこで本研究では, ヘッセン系感性に配慮した混合スパシティプルーニング法を, 再トレーニングを必要とせず, 最低50%のスパシティに適用する手法を提案する。 感度に基づいて空間を適応的に割り当てることで、全体空間レベルを維持しながらプルーニングによる誤差を低減することができる。 提案手法の利点は, 空間が極めて高い場合にさらに顕著である。 さらに,本手法は量子化と互換性があり,LLMのさらなる圧縮が可能となる。 私たちは利用可能なコードをリリースした。

Various Large Language Models~(LLMs) from the Generative Pretrained Transformer(GPT) family have achieved outstanding performances in a wide range of text generation tasks. However, the enormous model sizes have hindered their practical use in real-world applications due to high inference latency. Therefore, improving the efficiencies of LLMs through quantization, pruning, and other means has been a key issue in LLM studies. In this work, we propose a method based on Hessian sensitivity-aware mixed sparsity pruning to prune LLMs to at least 50% sparsity without the need of any retraining. It allocates sparsity adaptively based on sensitivity, allowing us to reduce pruning-induced error while maintaining the overall sparsity level. The advantages of the proposed method exhibit even more when the sparsity is extremely high. Furthermore, our method is compatible with quantization, enabling further compression of LLMs. We have released the available code.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# ProteusNeRF:3次元画像コンテキストを用いた高速軽量NeRF編集

ProteusNeRF: Fast Lightweight NeRF Editing using 3D-Aware Image Context ( http://arxiv.org/abs/2310.09965v3 )

ライセンス: Link先を確認
Binglun Wang, Niladri Shekhar Dutt, Niloy J. Mitra, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、ハンドヘルドビデオ入力からでも高忠実度ボリュームコンテンツを忠実にキャプチャできるため、フォトリアリスティック・オブジェクトキャプチャの一般的な選択肢として最近登場した。 リアルタイムのトレーニングとレンダリングに繋がる効率的な最適化に多くの研究が注がれているが、インタラクティブな編集のためのNeRFの選択肢は限られている。 メモリフットプリントを低く保ちながら、高速で効率的な、非常にシンプルで効果的なニューラルネットワークアーキテクチャを提案する。 このアーキテクチャは、ユーザフレンドリーなイメージベースの編集を通じて、段階的にガイドすることができる。 我々の表現は、訓練段階における意味的特徴蒸留による簡単なオブジェクト選択を可能にする。 より重要なことは、幾何学的および外観的調整により、細調整されたNeRFに蒸留できるビュー一貫性画像編集を容易にするために、局所的な3D対応画像コンテキストを提案することである。 テキスト誘導型NeRF編集に焦点をあてた同時作業に対して,外観と幾何学的編集を実演し,10~30倍の高速化を報告した。 ビデオ結果は、プロジェクトのWebページ(https://proteusnerf.github.io.)で見ることができる。

Neural Radiance Fields (NeRFs) have recently emerged as a popular option for photo-realistic object capture due to their ability to faithfully capture high-fidelity volumetric content even from handheld video input. Although much research has been devoted to efficient optimization leading to real-time training and rendering, options for interactive editing NeRFs remain limited. We present a very simple but effective neural network architecture that is fast and efficient while maintaining a low memory footprint. This architecture can be incrementally guided through user-friendly image-based edits. Our representation allows straightforward object selection via semantic feature distillation at the training stage. More importantly, we propose a local 3D-aware image context to facilitate view-consistent image editing that can then be distilled into fine-tuned NeRFs, via geometric and appearance adjustments. We evaluate our setup on a variety of examples to demonstrate appearance and geometric edits and report 10-30x speedup over concurrent work focusing on text-guided NeRF editing. Video results can be seen on our project webpage at https://proteusnerf.github.io.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 非エルミートフロケット系における絡み合い相転移

Entanglement phase transitions in non-Hermitian Floquet systems ( http://arxiv.org/abs/2310.11351v2 )

ライセンス: Link先を確認
Longwen Zhou, (参考訳) 一元的時間進化と量子測定の競合は、量子多体ダイナミクスの絡み合い特性における相転移を引き起こす可能性がある。 本研究では、非エルミート的フロケ系の文脈におけるそのような絡み合い遷移を明らかにする。 利得/損失のバランスと周期的クエンチの下での代表的二部格子の非相互作用フェルミオンに着目し, 駆動と非エルミタン効果の相互作用による絡み合い遷移の豊富なパターンを明らかにする。 特に, クエンチされたホッピング振幅のモノトニックな増加は, 容積法と面積法で絡み合ったフロッケ相の間にシステムを反転させ, 交互に絡み合う遷移をもたらすことが判明した。 一方、ゲイン/ロス強度の上昇は、非駆動系では異常で非常に予期しない定常エンタングルメントエントロピーのスケーリング挙動において、領域法則からボリューム法則の再帰遷移を引き起こす可能性がある。 Floquetスペクトルにおける絡み合い遷移とパリティ時間反転(PT)遷移の関連性をさらに確立する。 本研究は,Floquet の非エルミートセットアップにおける絡み合い相転移の探索の基礎となるだけでなく,運転場による遷移の工学・制御にも有効であることを示す。

The competition between unitary time-evolution and quantum measurements could induce phase transitions in the entanglement characteristics of quantum many-body dynamics. In this work, we reveal such entanglement transitions in the context of non-Hermitian Floquet systems. Focusing on noninteracting fermions in a representative bipartite lattice with balanced gain/loss and under time-periodic quenches, we uncover rich patterns of entanglement transitions due to the interplay between driving and non-Hermitian effects. Specially, we find that the monotonic increase of quenched hopping amplitude could flip the system between volume-law and area-law entangled Floquet phases, yielding alternated entanglement transitions. Meanwhile, the raise of gain/loss strength could trigger area-law to volume-law reentrant transitions in the scaling behavior of steady-state entanglement entropy, which are abnormal and highly unexpected in non-driven systems. Connections between entanglement transitions and parity-time-reversal (PT) transitions in Floquet spectra are further established. Our findings not only build a foundation for exploring entanglement phase transitions in Floquet non-Hermitian setups, but also provide efficient means to engineer and control such transitions by driving fields.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# TransPose:Geometry-Aware Transformer を用いた6次元オブジェクト位置推定

TransPose: 6D Object Pose Estimation with Geometry-Aware Transformer ( http://arxiv.org/abs/2310.16279v3 )

ライセンス: Link先を確認
Xiao Lin, Deming Wang, Guangliang Zhou, Chengju Liu, Qijun Chen, (参考訳) 6Dオブジェクトのポーズを推定することは、多くのアプリケーションにおいて必須のタスクである。 奥行き情報がないため、既存のRGBベースの手法は閉塞や照明の変化に敏感である。 深度情報における幾何学的特徴の抽出と活用は、正確な予測を実現するために不可欠である。 そこで本研究では,トランスフォーマー・エンコーダと幾何認識モジュールを併用した新しい6DポーズフレームワークであるTransPoseを提案する。 具体的には、まず一様に点雲をサンプリングし、グラフ畳み込みネットワーク上に設計した局所特徴抽出器ベースを用いて局所幾何学的特徴を抽出する。 閉塞に対するロバスト性を改善するため,グローバル情報の交換を行うためにTransformerを導入し,各ローカル機能はグローバル情報を含むようにした。 最後に,Transformer Encoder にジオメトリ対応モジュールを導入し,ポイントクラウド機能学習の効果的な制約を構築し,ポイントクラウドタスクとグローバル情報交換をより緊密に結合させる。 大規模な実験はTransPoseの有効性を示し,提案するポーズ推定パイプラインは3つのベンチマークデータセットで競合する結果を得る。

Estimating the 6D object pose is an essential task in many applications. Due to the lack of depth information, existing RGB-based methods are sensitive to occlusion and illumination changes. How to extract and utilize the geometry features in depth information is crucial to achieve accurate predictions. To this end, we propose TransPose, a novel 6D pose framework that exploits Transformer Encoder with geometry-aware module to develop better learning of point cloud feature representations. Specifically, we first uniformly sample point cloud and extract local geometry features with the designed local feature extractor base on graph convolution network. To improve robustness to occlusion, we adopt Transformer to perform the exchange of global information, making each local feature contains global information. Finally, we introduce geometry-aware module in Transformer Encoder, which to form an effective constrain for point cloud feature learning and makes the global information exchange more tightly coupled with point cloud tasks. Extensive experiments indicate the effectiveness of TransPose, our pose estimation pipeline achieves competitive results on three benchmark datasets.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 定常物体の創出による固有探査の改善

Improving Intrinsic Exploration by Creating Stationary Objectives ( http://arxiv.org/abs/2310.18144v4 )

ライセンス: Link先を確認
Roger Creus Castanyer, Joshua Romoff, Glen Berseth, (参考訳) 強化学習における探索ボーナスは、カスタム固有の目的を定義することで、長期探査をガイドする。 カウントベースのボーナス、擬似カウント、状態エントロピーの最大化といった探索目的は非定常であるため、エージェントの最適化は困難である。 この問題は一般に知られているが、通常は省略され、解は未探索のままである。 私たちの研究の重要な貢献は、拡張された状態表現を通じて、元の非定常的な報酬を定常的な報酬に変換することである。 そこで本研究では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。 SOFEは、異なる探索ボーナスに対する十分な統計を識別し、深層ネットワークへの入力として使用するためにこれらの統計の効率的な符号化を見つける必要がある。 SOFEは状態空間を拡大するが、エージェントの目的の最適化を単純化するという約束を守る状態拡張の提案に基づいている。 また,SOFEは,カウントベースのボーナス,擬似カウント,状態エントロピーの最大化など,いくつかの探索目標の性能向上を図っている。 さらに、SOFEは本質的な目的の最適化を安定化しようとする先行手法よりも優れている。 我々は,スパース・リワードタスク,画素ベースの観察,3次元ナビゲーション,手続き的に生成された環境など,ハード探索問題におけるSOFEの有効性を実証した。

Exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Several exploration objectives like count-based bonuses, pseudo-counts, and state-entropy maximization are non-stationary and hence are difficult to optimize for the agent. While this issue is generally known, it is usually omitted and solutions remain under-explored. The key contribution of our work lies in transforming the original non-stationary rewards into stationary rewards through an augmented state representation. For this purpose, we introduce the Stationary Objectives For Exploration (SOFE) framework. SOFE requires identifying sufficient statistics for different exploration bonuses and finding an efficient encoding of these statistics to use as input to a deep network. SOFE is based on proposing state augmentations that expand the state space but hold the promise of simplifying the optimization of the agent's objective. We show that SOFE improves the performance of several exploration objectives, including count-based bonuses, pseudo-counts, and state-entropy maximization. Moreover, SOFE outperforms prior methods that attempt to stabilize the optimization of intrinsic objectives. We demonstrate the efficacy of SOFE in hard-exploration problems, including sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally generated environments.
翻訳日:2024-04-24 19:55:12 公開日:2024-04-23
# 相互アンバイアスベースによる最小クリフォード影推定

Minimal Clifford Shadow Estimation by Mutually Unbiased Bases ( http://arxiv.org/abs/2310.18749v2 )

ライセンス: Link先を確認
Qingyue Zhang, Qing Liu, You Zhou, (参考訳) 大規模量子システムの予測特性は、量子科学と技術の発展に不可欠である。 シャドウ推定は、多くの量子ビットランダムクリフォード回路を用いて量子忠実度などの大域的特性を推定するランダム化測定に基づく、このタスクの効率的な方法である。 ここでは、最小のクリフォード測定(MCM)を導入し、有効な後処理チャネルをシャドウ推定に保ちながら、可能な乱数回路の数を最小に抑える。 特に,MCMには2^n+1$の異なるクリフォード回路が必要であり,M Mutually Unbiased Bases (MUB) によって実現可能であることを示す。 Z-Tableau形式を適用することで、この回路のアンサンブルを$\mathrm{-S-CZ-H-}$構造に合成することができる。 元のクリフォード測定と比較すると、MCMは回路の複雑さとコンパイルコストを大幅に削減する。 さらに,MCMの非対角作用素推定におけるサンプリングの利点を見出すとともに,この観測結果をバイアス付きMCM方式に拡張し,サンプリング改善をさらに強化する。

Predicting properties of large-scale quantum systems is crucial for the development of quantum science and technology. Shadow estimation is an efficient method for this task based on randomized measurements, where many-qubit random Clifford circuits are used for estimating global properties like quantum fidelity. Here we introduce the minimal Clifford measurement (MCM) to reduce the number of possible random circuits to the minimum, while keeping the effective post-processing channel in shadow estimation. In particular, we show that MCM requires $2^n+1$ distinct Clifford circuits, and it can be realized by Mutually Unbiased Bases (MUB), with $n$ as the total qubit number. By applying the Z-Tableau formalism, this ensemble of circuits can be synthesized to the $\mathrm{-S-CZ-H-}$ structure, which can be composed by $2n-1$ fixed circuit modules, and the total circuit depth is at most $n+1$. Compared to the original Clifford measurements, our MCM significantly reduces the circuit complexity and the compilation costs. In addition, we find the sampling advantage of MCM on estimating off-diagonal operators, and extend this observation to the biased-MCM scheme to enhance the sampling improvement further.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# VRヘッドセットにおけるアイトラッキングのための固定型自己校正

Fixation-based Self-calibration for Eye Tracking in VR Headsets ( http://arxiv.org/abs/2311.00391v2 )

ライセンス: Link先を確認
Ryusei Uramune, Sei Ikeda, Hiroki Ishizuka, Osamu Oshiro, (参考訳) 本研究では,バーチャルリアリティー(VR)ヘッドセットにおける視線追跡のための新しい自己校正手法を提案する。 提案手法は,ユーザの視点が自由に移動可能であり,視点の異なる点(PoR)が視覚的固定中に対象表面上の小さな領域に分散されるという仮定に基づいている。 この方法では、まず、I-VDTアルゴリズム(速度と分散しきい値の識別)を3次元の3Dシーンに拡張して、補正されていない視線方向の時系列データから固定を検知する。 次に、PoRの分散メトリクスの和を最小化することにより、キャリブレーションパラメータを最適化する。 提案手法は,光学軸から視覚軸へのオフセットを表す最適なキャリブレーションパラメータを,明示的なユーザキャリブレーション,画像処理,マーカー置換オブジェクトなしで識別することができる。 また,2つのVR環境を多数の咬合で歩く18人の視線データについて,平均オフセットよりも有意に低い2.1$^\circ$の精度を得た。 本手法は3次元環境における平均誤差が3$^\circ$より低い最初の自己校正法である。 さらに,修正検出アルゴリズムや最適化アルゴリズムを改良することにより,提案手法の精度を1.2$^\circ$まで向上させることができる。

This study proposes a novel self-calibration method for eye tracking in a virtual reality (VR) headset. The proposed method is based on the assumptions that the user's viewpoint can freely move and that the points of regard (PoRs) from different viewpoints are distributed within a small area on an object surface during visual fixation. In the method, fixations are first detected from the time-series data of uncalibrated gaze directions using an extension of the I-VDT (velocity and dispersion threshold identification) algorithm to a three-dimensional (3D) scene. Then, the calibration parameters are optimized by minimizing the sum of a dispersion metrics of the PoRs. The proposed method can potentially identify the optimal calibration parameters representing the user-dependent offset from the optical axis to the visual axis without explicit user calibration, image processing, or marker-substitute objects. For the gaze data of 18 participants walking in two VR environments with many occlusions, the proposed method achieved an accuracy of 2.1$^\circ$, which was significantly lower than the average offset. Our method is the first self-calibration method with an average error lower than 3$^\circ$ in 3D environments. Further, the accuracy of the proposed method can be improved by up to 1.2$^\circ$ by refining the fixation detection or optimization algorithm.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# 量子メトロジーによる連続可変量子通信プロトコルのセキュリティ検証

Verifying the security of a continuous variable quantum communication protocol via quantum metrology ( http://arxiv.org/abs/2311.05389v2 )

ライセンス: Link先を確認
Lorcan O. Conlon, Biveen Shajilal, Angus Walsh, Jie Zhao, Jiri Janousek, Ping Koy Lam, Syed M. Assad, (参考訳) 量子力学は、複数のリモートパーティ間の無条件でセキュアな通信を可能にする。 このようなプロトコルのセキュリティ証明は、通常、使用中の量子チャネルの容量の境界に依存する。 同様に、Cram\'er-Rao の量子距離論における境界は、ある量子状態から、ある未知の興味のあるパラメータについてどれだけの情報を抽出できるかに制限を与える。 この作業では、これらの2つの領域間の接続を確立します。 まず、達成可能な精度は、複数のパーティが一緒に働くことに依存する3つのパーティセンシングプロトコルを実証する。 このプロトコルはセキュアなアクセスプロトコルにマッピングされ、共同作業によってのみ、高セキュリティ資産へのアクセスが可能になる。 最後に、同一のタスクを通信プロトコルにマップし、単独で作業している相手と比較して協調作業を行う場合に、より高い相互情報が得られることを示す。

Quantum mechanics offers the possibility of unconditionally secure communication between multiple remote parties. Security proofs for such protocols typically rely on bounding the capacity of the quantum channel in use. In a similar manner, Cram\'er-Rao bounds in quantum metrology place limits on how much information can be extracted from a given quantum state about some unknown parameters of interest. In this work we establish a connection between these two areas. We first demonstrate a three-party sensing protocol, where the attainable precision is dependent on how many parties work together. This protocol is then mapped to a secure access protocol, where only by working together can the parties gain access to some high security asset. Finally, we map the same task to a communication protocol where we demonstrate that a higher mutual information can be achieved when the parties work collaboratively compared to any party working in isolation.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# VT-Former:グラフアイソモーフィズムと変圧器による道路サーベイランスの車両軌道予測に関する探索的研究

VT-Former: An Exploratory Study on Vehicle Trajectory Prediction for Highway Surveillance through Graph Isomorphism and Transformer ( http://arxiv.org/abs/2311.06623v4 )

ライセンス: Link先を確認
Armin Danesh Pazho, Ghazal Alinezhad Noghre, Vinit Katariya, Hamed Tabkhi, (参考訳) 道路の安全性を高めることは、インテリジェントトランスポーテーションシステム(ITS)にとって重要なコンピュータビジョン分野となっている。 ITSの一部として、車両軌道予測(VTP)は、過去の動きと現在の動きに基づいて、車両の将来の位置を予測することを目的としている。 VTPは道路安全の重要な要素であり、交通管理、事故防止、ワークゾーン安全性、エネルギー最適化などの応用を支援する。 この分野での作業の多くは自動運転に重点を置いているが、監視カメラの増加とともに、別のサブフィールドが独自の課題を抱えて監視VTPに現れている。 本稿では,高速道路の安全と監視のための新しいトランスフォーマーベースのVTPアプローチであるVT-Formerを紹介する。 長距離時間パターンをキャプチャするためにトランスフォーマーを活用することに加えて、車両間の複雑な社会的相互作用をキャプチャするために、新しいグラフ注意トークン化(GAT)モジュールが提案されている。 本研究は, 変圧器アーキテクチャとVTPのグラフを組み合わせる際の利点と限界について検討する。 我々の調査は、様々な監視の観点から3つのベンチマークデータセットで実施され、車両軌道の予測において、VT-FormerのState-of-the-Art(SotA)または同等の性能を示す。 本研究は、VT-Formerとそのアーキテクチャの可能性を強調し、今後の研究と探査のための新たな道を開く。

Enhancing roadway safety has become an essential computer vision focus area for Intelligent Transportation Systems (ITS). As a part of ITS, Vehicle Trajectory Prediction (VTP) aims to forecast a vehicle's future positions based on its past and current movements. VTP is a pivotal element for road safety, aiding in applications such as traffic management, accident prevention, work-zone safety, and energy optimization. While most works in this field focus on autonomous driving, with the growing number of surveillance cameras, another sub-field emerges for surveillance VTP with its own set of challenges. In this paper, we introduce VT-Former, a novel transformer-based VTP approach for highway safety and surveillance. In addition to utilizing transformers to capture long-range temporal patterns, a new Graph Attentive Tokenization (GAT) module has been proposed to capture intricate social interactions among vehicles. This study seeks to explore both the advantages and the limitations inherent in combining transformer architecture with graphs for VTP. Our investigation, conducted across three benchmark datasets from diverse surveillance viewpoints, showcases the State-of-the-Art (SotA) or comparable performance of VT-Former in predicting vehicle trajectories. This study underscores the potential of VT-Former and its architecture, opening new avenues for future research and exploration.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# 分散二段階最適化のための単一ループアルゴリズム

A Single-Loop Algorithm for Decentralized Bilevel Optimization ( http://arxiv.org/abs/2311.08945v3 )

ライセンス: Link先を確認
Youran Dong, Shiqian Ma, Junfeng Yang, Chao Yin, (参考訳) 近年、バイレベル最適化は機械学習に広く応用されているため、大きな注目を集めている。 本稿では,分散化されたネットワークにおける二段階最適化に焦点をあて,分散化された二段階最適化を低レベルの強い凸問題で解くための新しい単一ループアルゴリズムを提案する。 提案手法は,反復毎に2つの行列ベクトル乗算のみを用いることで,過勾配を近似する完全単ループ法である。 重要な点として,本アルゴリズムは,分散二段階最適化とフェデレート二段階最適化の既存手法とを区別し,勾配不均一性の仮定を必要としない。 解析により,提案アルゴリズムは二段階最適化アルゴリズムにおいて最もよく知られた収束率を実現することを示す。 また,提案アルゴリズムの効率性を示す合成およびMNISTデータセットを用いたハイパーパラメータ最適化に関する実験結果を示す。

Bilevel optimization has gained significant attention in recent years due to its broad applications in machine learning. This paper focuses on bilevel optimization in decentralized networks and proposes a novel single-loop algorithm for solving decentralized bilevel optimization with a strongly convex lower-level problem. Our approach is a fully single-loop method that approximates the hypergradient using only two matrix-vector multiplications per iteration. Importantly, our algorithm does not require any gradient heterogeneity assumption, distinguishing it from existing methods for decentralized bilevel optimization and federated bilevel optimization. Our analysis demonstrates that the proposed algorithm achieves the best-known convergence rate for bilevel optimization algorithms. We also present experimental results on hyperparameter optimization problems using both synthetic and MNIST datasets, which demonstrate the efficiency of our proposed algorithm.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# 最適量子リセットの探求--鎖上の粒子のプロトコル

Quest for optimal quantum resetting: protocols for a particle on a chain ( http://arxiv.org/abs/2311.09150v3 )

ライセンス: Link先を確認
Pallabi Chatterjee, S. Aravinda, Ranjan Modak, (参考訳) 古典的な文脈では、検索がターゲットを見つけられない場合、リセットとして知られるプロセスを再起動する方がよいことがよく知られている。 リセットの量子対向はまた、暗黒状態、すなわち粒子が検出を避けている状況を取り除くことによって、検出プロセスのスピードアップを示す。 本研究では,粒子の発見確率が最大となる位置で粒子をリセットする,最も確率の高い位置リセット(MPR)プロトコルを導入する。 強結合格子モデルでは、最大確率の位置の2倍縮退(左と右)が存在する。 最適再起動率の生存確率は、粒子が両側で等しい確率でリセットされたときにゼロに近づく(検出確率は1に近づく)。 このプロトコルは、最適平均1次通過時間(FDT)を著しく低減し、粒子が初期位置に戻される通常のリセットプロトコルと比較して、検出器が遠く離れている場合でも、より良い性能を発揮する。 本稿では,右と左にリセットする確率を,ステップをリセットする関数とすることで,適応的な2段階MPR(Adaptive Two-stage MPR)を提案する。 このプロトコルでは、検出器が遠く離れている場合、最適な平均FDTがさらに削減され、探索プロセスが改善される。

In the classical context, it is well known that, sometimes, if the search does not find its target, it is better to start the process anew again, known as resetting. The quantum counterpart of resetting also indicates speeding up the detection process by eliminating the dark states, i.e., situations where the particle avoids detection. In this work, we introduce a most probable position resetting (MPR) protocol in which we reset the particle in a position where the probability of finding the particle could have been maximum, provided one would let the system evolve Unitarily in a given time window. In a tight-binding lattice model, there exists a 2-fold degeneracy (left and right) of the positions of maximum probability. The survival probability with optimal restart rate approaches zero (detection probability approaches one) when the particle is reset with equal probability on both sides. This protocol significantly reduces the optimal mean first-detected-passage time (FDT) and performs better even if the detector is far apart compared to the usual resetting protocols where the particle is brought back to the initial position. We propose a modified protocol, adaptive two-stage MPR, by making the associated probabilities of resetting to the right and left a function of resetting steps. In this protocol, we see a further reduction of the optimal mean FDT and improvement in the search process when the detector is far apart.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# 電子カルテ共有基盤モデルの適合性に関するマルチセンター研究

A Multi-Center Study on the Adaptability of a Shared Foundation Model for Electronic Health Records ( http://arxiv.org/abs/2311.11483v2 )

ライセンス: Link先を確認
Lin Lawrence Guo, Jason Fries, Ethan Steinberg, Scott Lanyon Fleming, Keith Morse, Catherine Aftandilian, Jose Posada, Nigam Shah, Lillian Sung, (参考訳) ファンデーションモデルは、下流の医療タスクに容易に適応可能なモジュールコンポーネントを提供することで、AI開発をよりスケーラブルでコスト効率の良いものにすることで、医療におけるAI変革を約束している。 EHRファンデーションモデルは、数百万人の患者の医療記録に基づいてトレーニングされ、トレーニングラベルを減らしたパフォーマンスの向上や、分散シフトに対する堅牢性の向上といったメリットを実証した。 しかし、これらのモデルを異なる病院間で共有できる可能性や、局所的なタスク適応のためのパフォーマンスに疑問が残る。 スタンフォード大学患者257万人を対象にした縦断的医療記録データに基づくEMHモデル(FM_{SM}$)の適応性について検討した。 The Hospital for Sick ChildrenとMIMIC-IVでEHRデータを用いて実験を行った。 局所的な基礎モデルを含む各サイトにおけるトレーニングモデルのスクラッチからのベースラインと比較し, 局所データによる継続事前学習による適応性とタスク適応性について検討した。 8つの臨床予測課題において,これらのモデルの性能を評価した。 両方のデータセットにおいて、オフザシェルフのFM_{SM}$を適用すれば、すべてのデータに対してローカルにトレーニングされたGBMモデルのパフォーマンスと一致し、タスク固有のトレーニングラベルをほとんど持たずに、設定が13%改善された。 ローカルデータに対する事前トレーニングの継続により、ラベルの効率は大幅に改善され、FM_{SM}$は、完全に訓練されたGBMのパフォーマンスに適合するトレーニングサンプルの1%未満を必要とした。 継続事前トレーニングは、地元の基礎モデルをスクラッチからトレーニングするよりも60から90%効率が高かった。 以上の結果から,病院間での共用EHRファンデーションモデルの適用により,より低コストで予測性能が向上し,医療用AIの開発を効率化するモジュラーコンポーネントとしての基盤モデルの有用性が強調された。

Foundation models hold promise for transforming AI in healthcare by providing modular components that are easily adaptable to downstream healthcare tasks, making AI development more scalable and cost-effective. Structured EHR foundation models, trained on coded medical records from millions of patients, demonstrated benefits including increased performance with fewer training labels, and improved robustness to distribution shifts. However, questions remain on the feasibility of sharing these models across different hospitals and their performance for local task adaptation. This multi-center study examined the adaptability of a recently released structured EHR foundation model ($FM_{SM}$), trained on longitudinal medical record data from 2.57M Stanford Medicine patients. Experiments were conducted using EHR data at The Hospital for Sick Children and MIMIC-IV. We assessed both adaptability via continued pretraining on local data, and task adaptability compared to baselines of training models from scratch at each site, including a local foundation model. We evaluated the performance of these models on 8 clinical prediction tasks. In both datasets, adapting the off-the-shelf $FM_{SM}$ matched the performance of GBM models locally trained on all data while providing a 13% improvement in settings with few task-specific training labels. With continued pretraining on local data, label efficiency substantially improved, such that $FM_{SM}$ required fewer than 1% of training examples to match the fully trained GBM's performance. Continued pretraining was also 60 to 90% more sample-efficient than training local foundation models from scratch. Our findings show that adapting shared EHR foundation models across hospitals provides improved prediction performance at less cost, underscoring the utility of base foundation models as modular components to streamline the development of healthcare AI.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# 不可避暗号へのモジュール的アプローチ

A Modular Approach to Unclonable Cryptography ( http://arxiv.org/abs/2311.11890v3 )

ライセンス: Link先を確認
Prabhanjan Ananth, Amit Behera, (参考訳) 我々は、ブロックできない暗号プリミティブを設計するための新しい経路を探究する。 そこで我々は,unclonable puncturable obfuscation (UPO) という新しい概念を提案し,その意味について検討する。 UPOを用いて、公開鍵量子マネー、多くの機能クラスの量子コピー保護、制限不能暗号化、単一復号化暗号化など、多くのプリミティブをモジュラー(かつ間違いなく単純な)構成で表現する。 特に、UPOの存在を前提として、以下の新たな結果が得られる: 暗号化機能は、この機能がセキュリティの概念を満たす限り、コピー-プロテクト可能であることを示す。 以前の実現可能性の結果は、コピープロテクトされた特定の暗号機能に焦点が当てられた。 コピー保護は, プリメージ・サンプリング可能性条件を満たす分布が満たされる限り, どのような種類の回避関数に対しても存在することを示す。 先行研究は点関数のコピー保護を実証しており、これは結果の特別な場合として従う。 通常のモデルに制限不能な暗号化が存在することを示す。 先行研究は量子ランダムオラクルモデルにおいて実現可能性を示した。 我々は、UPOの候補構築とセキュリティの2つの概念を証明し、それぞれが(ポスト量子)不特定性難読化と片道関数の存在、誤りを伴う学習の量子困難性、および同時内積予想と呼ばれる新しい予想に基づいて証明した。

We explore a new pathway to designing unclonable cryptographic primitives. We propose a new notion called unclonable puncturable obfuscation (UPO) and study its implications for unclonable cryptography. Using UPO, we present modular (and arguably, simple) constructions of many primitives in unclonable cryptography, including public-key quantum money, quantum copy-protection for many classes of functionalities, unclonable encryption, and single-decryption encryption. Notably, we obtain the following new results assuming the existence of UPO: We show that any cryptographic functionality can be copy-protected as long as this functionality satisfies a notion of security, which we term as puncturable security. Prior feasibility results focused on copy-protecting specific cryptographic functionalities. We show that copy-protection exists for any class of evasive functions as long as the associated distribution satisfies a preimage-sampleability condition. Prior works demonstrated copy-protection for point functions, which follows as a special case of our result. We show that unclonable encryption exists in the plain model. Prior works demonstrated feasibility results in the quantum random oracle model. We put forward a candidate construction of UPO and prove two notions of security, each based on the existence of (post-quantum) sub-exponentially secure indistinguishability obfuscation and one-way functions, the quantum hardness of learning with errors, and a new conjecture called simultaneous inner product conjecture.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# GPT4Motion:Blender-Oriented GPT Planningによるテキスト・ビデオ生成における物理動作のスクリプト作成

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning ( http://arxiv.org/abs/2311.12631v3 )

ライセンス: Link先を確認
Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen, (参考訳) テキスト・ビデオ生成の最近の進歩は、拡散モデルの力を利用して、テキスト・プロンプトに基づいて視覚的に魅力的なコンテンツを作成する。 しかし、通常は高い計算コストに遭遇し、コヒーレントな物理モーションでビデオを作るのに苦労する。 GPT4Motionは,GPTなどの大規模言語モデルの計画能力,Blenderの物理シミュレーション強度,テキスト・画像拡散モデルの優れた画像生成能力を活用して映像合成の質を向上させる。 具体的には、GPT4MotionはGPT-4を使用して、ユーザのテキストプロンプトに基づいてBlenderスクリプトを生成する。 そして、これらのコンポーネントを安定拡散に入力し、テキストプロンプトに合わせたビデオを生成する。 剛体物体の落下・衝突・布のドッピング・揺動・液流を含む3つの基本的な物理運動シナリオの実験結果から,GPT4Motionは動きのコヒーレンシと実体の整合性を維持する上で,高品質な映像を効率よく生成できることを示した。 GPT4Motionは、テキスト・ビデオ研究における新たな洞察を提供し、その品質を高め、さらなる探索のための地平を広げる。

Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender's built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for further explorations.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# 水中通信のためのオンデマンド量子光源

On-Demand Quantum Light Sources for Underwater Communications ( http://arxiv.org/abs/2311.13065v2 )

ライセンス: Link先を確認
Dominic Scognamiglio, Angus Gale, Ali Al-Juboori, Milos Toth, Igor Aharonovich, (参考訳) 量子通信は何十年にもわたって近代的な研究の最前線にあるが、水中の用途では水の性質がほとんどすべての有用な光波長を吸収し、ほとんどの場合数メートル以上の伝播を妨げている。 本研究は,水中光通信に適したオンデマンド量子光源について報告する。 電子ビームを用いて設計できる単一光子放出体は、六方晶窒化ホウ素の不純物に基づいている。 水吸収の最小値に近い約436nmのゼロフォノン線を持ち、水路を移動すると無視可能な透過と純度損失を被る。 これらのエミッタは、他の光波長のエミッタと比較して、例外的な水中透過特性を有しており、数kbit/sの速度で、原則的な水中通信リンクの証明に利用される。

Quantum communication has been at the forefront of modern research for decades, however it is severely hampered in underwater applications, where the properties of water absorb nearly all useful optical wavelengths and prevent them from propagating more than, in most cases, a few metres. This research reports on-demand quantum light sources, suitable for underwater optical communication. The single photon emitters, which can be engineered using an electron beam, are based on impurities in hexagonal boron nitride. They have a zero phonon line at ~ 436 nm, near the minimum value of water absorption and are shown to suffer negligible transmission and purity loss when travelling through water channels. These emitters are also shown to possess exceptional underwater transmission properties compared to emitters at other optical wavelengths and are utilised in a proof of principle underwater communication link with rates of several kbits/s.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# アクションカスタマイズテキスト・ツー・イメージ生成のためのアンタングル型識別器の学習

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation ( http://arxiv.org/abs/2311.15841v4 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang, (参考訳) 本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。 この課題の目的は、限られたデータから既存の行動を学び、それを見えない人間や動物に一般化することである。 実験結果から,既存の主観的カスタマイズ手法では,行動の代表的な特徴を学習できず,外観を含む文脈的特徴から行動の疎結合に苦慮していることが明らかとなった。 低レベルの特徴の嗜好と高レベルの特徴の絡み合いを克服するため,従来の画像からアクション固有識別子を学習するための逆解析法であるADIを提案する。 ADIはまず、レイヤワイド識別子トークンを導入してセマンティックコンディショニング空間を拡張し、異なる特徴にまたがってインバージョンを分散しながら表現豊かさを増大させる。 そして、アクションに依存しない特徴の逆転を阻止するために、ADIは、構築されたサンプルトリプルから勾配不変性を抽出し、無関係チャネルの更新を隠蔽する。 タスクを包括的に評価するために、さまざまなアクションを含むActionBenchを、慎重に選択されたサンプルとともに提示する。 定量的および定性的な結果から,我々のADIは既存のT2I生成のベースラインより優れていたことが示唆された。 プロジェクトページはhttps://adi-t2i.github.io/ADI.com/。

This study focuses on a novel task in text-to-image (T2I) generation, namely action customization. The objective of this task is to learn the co-existing action from limited data and generalize it to unseen humans or even animals. Experimental results show that existing subject-driven customization methods fail to learn the representative characteristics of actions and struggle in decoupling actions from context features, including appearance. To overcome the preference for low-level features and the entanglement of high-level features, we propose an inversion-based method Action-Disentangled Identifier (ADI) to learn action-specific identifiers from the exemplar images. ADI first expands the semantic conditioning space by introducing layer-wise identifier tokens, thereby increasing the representational richness while distributing the inversion across different features. Then, to block the inversion of action-agnostic features, ADI extracts the gradient invariance from the constructed sample triples and masks the updates of irrelevant channels. To comprehensively evaluate the task, we present an ActionBench that includes a variety of actions, each accompanied by meticulously selected samples. Both quantitative and qualitative results show that our ADI outperforms existing baselines in action-customized T2I generation. Our project page is at https://adi-t2i.github.io/ADI.
翻訳日:2024-04-24 19:45:27 公開日:2024-04-23
# 半球ニューラルネットを用いた反応性からアクティブなボラティリティモデリングへ

From Reactive to Proactive Volatility Modeling with Hemisphere Neural Networks ( http://arxiv.org/abs/2311.16333v2 )

ライセンス: Link先を確認
Philippe Goulet Coulombe, Mikael Frenette, Karin Klieber, (参考訳) 我々は,新しいニューラルネットワークアーキテクチャを用いて,マクロ経済密度予測のための最大推定値(MLE)を再活性化する。 私たちのアーキテクチャは、MLEをこの文脈で機能させる重要な要素をいくつか備えています。 第一に、ヘミスフィアはネットワークの入り口で共通のコアを共有し、エラー分散の様々な形態の時間変化に対応する。 第二に、過パラメータ化非線形モデルのクラスにおける平均/分散不確定性を破るボラティリティー強調制約を導入する。 第3に,両条件時の過度な適合を抑制するために,バッグ外現実チェックをブロックする。 第4に、アルゴリズムは標準的なディープラーニングソフトウェアを使用し、計算と統計の両方で巨大なデータセットを処理する。 私たちのHNN(Hemisphere Neural Network)であるErgoは、可能であれば主要な指標に基づいて、積極的なボラティリティ予測を提供し、必要であれば、過去の予測エラーの大きさに基づいて、反応性のボラティリティ予測を提供します。 従来のモデルから、より現代的な機械学習ベースの製品まで、幅広い実験とベンチマークによって、ポイントと密度の予測を評価します。 すべての場合、HNNは、すべての目標と地平線に対して、常に正確な平均/分散予測を提供することで、うまく運べます。 結果のボラティリティパスを研究することは、その汎用性を明らかにする一方で、確率的予測評価指標は、その実現可能な信頼性を示す。 最後に、Goulet Coulombe (2022)のNeural Phillips Curveを再考することにより、この機械を他の構造化ディープラーニングモデルとマージする方法を実証する。

We reinvigorate maximum likelihood estimation (MLE) for macroeconomic density forecasting through a novel neural network architecture with dedicated mean and variance hemispheres. Our architecture features several key ingredients making MLE work in this context. First, the hemispheres share a common core at the entrance of the network which accommodates for various forms of time variation in the error variance. Second, we introduce a volatility emphasis constraint that breaks mean/variance indeterminacy in this class of overparametrized nonlinear models. Third, we conduct a blocked out-of-bag reality check to curb overfitting in both conditional moments. Fourth, the algorithm utilizes standard deep learning software and thus handles large data sets - both computationally and statistically. Ergo, our Hemisphere Neural Network (HNN) provides proactive volatility forecasts based on leading indicators when it can, and reactive volatility based on the magnitude of previous prediction errors when it must. We evaluate point and density forecasts with an extensive out-of-sample experiment and benchmark against a suite of models ranging from classics to more modern machine learning-based offerings. In all cases, HNN fares well by consistently providing accurate mean/variance forecasts for all targets and horizons. Studying the resulting volatility paths reveals its versatility, while probabilistic forecasting evaluation metrics showcase its enviable reliability. Finally, we also demonstrate how this machinery can be merged with other structured deep learning models by revisiting Goulet Coulombe (2022)'s Neural Phillips Curve.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# LLMs for Science - コード生成とデータ分析の活用

LLMs for Science: Usage for Code Generation and Data Analysis ( http://arxiv.org/abs/2311.16733v4 )

ライセンス: Link先を確認
Mohamed Nejjar, Luca Zacharias, Fabian Stiehle, Ingo Weber, (参考訳) 大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。 研究分野としての科学研究は例外ではなく、科学者の日々の作業を支援するLLMベースのツールの可能性は、専門分野にまたがって議論の的になっている。 しかし、この研究課題の始まりに過ぎません。 LLMのポテンシャルが研究の実践においてどのように実現されるのかは、いまだ不明である。 本研究は, 研究プロセスにおけるLSMの使用に関する実証的研究である。 我々は,科学研究におけるLLMツールの一連の使用事例を調査し,現在のツールがどの程度役に立つかを評価するための第1回研究を行った。 本稿では,アプリケーションコードの生成やデータ解析用スクリプトの開発など,ソフトウェア工学関連のユースケースについて述べる。 一見単純なユースケースを検討したが、ツール間での結果は大きく異なる。 以上の結果から,LLMベースのツール全般の約束が強調されているが,これらのツールが提供するアウトプットの完全性に関して,さまざまな問題も観察している。

Large language models (LLMs) have been touted to enable increased productivity in many areas of today's work life. Scientific research as an area of work is no exception: the potential of LLM-based tools to assist in the daily work of scientists has become a highly discussed topic across disciplines. However, we are only at the very onset of this subject of study. It is still unclear how the potential of LLMs will materialise in research practice. With this study, we give first empirical evidence on the use of LLMs in the research process. We have investigated a set of use cases for LLM-based tools in scientific research, and conducted a first study to assess to which degree current tools are helpful. In this paper we report specifically on use cases related to software engineering, such as generating application code and developing scripts for data analytics. While we studied seemingly simple use cases, results across tools differ significantly. Our results highlight the promise of LLM-based tools in general, yet we also observe various issues, particularly regarding the integrity of the output these tools provide.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# トレーニングラベルを用いたインキュベーションとラベルインキュベーションによる分類

Imputation using training labels and classification via label imputation ( http://arxiv.org/abs/2311.16877v3 )

ライセンス: Link先を確認
Thu Nguyen, Tuan L. Vo, Pål Halvorsen, Michael A. Riegler, (参考訳) データの欠落は、現実的な設定では一般的な問題である。 欠落したデータを扱うために様々な計算法が開発されている。 しかしながら、通常、ラベルはトレーニングデータで利用できるが、インプットの一般的な実践は入力にのみ依存し、ラベルを無視する。 本稿では,ラベルを入力に積み重ねることによって,入力の計算精度を大幅に向上させる方法について述べる。 さらに、予測されたテストラベルを欠落値で初期化し、インプットでラベルを積み重ねる分類戦略を提案する。 これにより、ラベルと入力を同時に出力することができる。 また、この技術は、事前の計算なしに、欠落したラベルによるデータトレーニングを処理でき、連続的、分類的、または混合型データに適用できる。 実験は精度で有望な結果を示す。

Missing data is a common problem in practical settings. Various imputation methods have been developed to deal with missing data. However, even though the label is usually available in the training data, the common practice of imputation usually only relies on the input and ignores the label. In this work, we illustrate how stacking the label into the input can significantly improve the imputation of the input. In addition, we propose a classification strategy that initializes the predicted test label with missing values and stacks the label with the input for imputation. This allows imputing the label and the input at the same time. Also, the technique is capable of handling data training with missing labels without any prior imputation and is applicable to continuous, categorical, or mixed-type data. Experiments show promising results in terms of accuracy.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# CLIP-QDA: 説明可能なコンセプトボトルネックモデル

CLIP-QDA: An Explainable Concept Bottleneck Model ( http://arxiv.org/abs/2312.00110v2 )

ライセンス: Link先を確認
Rémi Kazmierczak, Eloïse Berthier, Goran Frehse, Gianni Franchi, (参考訳) 本稿では,高速かつ説明可能な画像分類を行うマルチモーダル基礎モデルから設計した説明可能なアルゴリズムを提案する。 CLIPをベースとしたConcept Bottleneck Models (CBM) からインスピレーションを得て,本手法は各ニューロンが特定の単語にリンクする潜在空間を生成する。 この潜伏空間が単純な分布でモデル化できることを観察すると、この潜伏空間の解釈可能性を高めるために、混合ガウス形式(英語版)(Mixture of Gaussian, MoG)を用いる。 次に,概念からラベルを推測するために統計値のみを使用する分類器CLIP-QDAを紹介する。 さらに、この形式主義は、局所的およびグローバル的説明の両方を可能にする。 これらの説明はアーキテクチャの内部設計に由来するものであり、我々の研究は、不透明な基礎モデルのパフォーマンスと透明なモデルの解釈可能性を組み合わせた、新しいグレーボックスモデルのファミリーの一部である。 実験の結果,MoG仮定が仮定された場合,CLIP-QDAは最先端のCBMと同様の精度を達成できることがわかった。 我々の説明は計算を高速化しながら既存のXAI手法と競合する。

In this paper, we introduce an explainable algorithm designed from a multi-modal foundation model, that performs fast and explainable image classification. Drawing inspiration from CLIP-based Concept Bottleneck Models (CBMs), our method creates a latent space where each neuron is linked to a specific word. Observing that this latent space can be modeled with simple distributions, we use a Mixture of Gaussians (MoG) formalism to enhance the interpretability of this latent space. Then, we introduce CLIP-QDA, a classifier that only uses statistical values to infer labels from the concepts. In addition, this formalism allows for both local and global explanations. These explanations come from the inner design of our architecture, our work is part of a new family of greybox models, combining performances of opaque foundation models and the interpretability of transparent models. Our empirical findings show that in instances where the MoG assumption holds, CLIP-QDA achieves similar accuracy with state-of-the-art methods CBMs. Our explanations compete with existing XAI methods while being faster to compute.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# X-Adapter: アップグレード拡散モデルのためのプラグインのユニバーサル互換性の追加

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model ( http://arxiv.org/abs/2312.02238v3 )

ライセンス: Link先を確認
Lingmin Ran, Xiaodong Cun, Jia-Wei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou, (参考訳) プリトレーニング済みのプラグイン・アンド・プレイモジュール(例: ControlNet, LoRA)を、拡張されたテキスト・ツー・イメージ拡散モデル(例: SDXL)と直接連携できるユニバーサル・アップグレード器であるX-Adapterを導入する。 我々は、新しいテキストイメージデータペアで凍結されたアップグレードモデルを制御するために、追加のネットワークをトレーニングすることで、この目標を達成する。 詳細は、X-Adapterが古いモデルの凍結したコピーを保持して、異なるプラグインのコネクタを保存する。 さらに、X-Adapterは、異なるバージョンのモデルからデコーダをブリッジするトレーニング可能なマッピングレイヤを追加し、機能の再マッピングを行う。 リマップされた機能は、アップグレードされたモデルのガイダンスとして使用される。 X-Adapterの誘導能力を高めるために、アップグレードされたモデルに対してnull-textトレーニング戦略を採用する。 トレーニング後,X-Adapterの初期適応とアップグレードモデルを調整するために,2段階のデノナイジング戦略を導入する。 我々の戦略のおかげで、X-Adapterは様々なプラグインとの普遍的な互換性を示し、異なるバージョンのプラグインを一緒に動作させることで、拡散コミュニティの機能を拡張することができます。 提案手法の有効性を検証するため,我々は広範囲な実験を行い,X-Adapterは改良された基礎拡散モデルにおいてより広範な適用を促進できることを示した。

We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# FG-MDM:細粒度記述によるゼロショットヒューマンモーション生成を目指して

FG-MDM: Towards Zero-Shot Human Motion Generation via Fine-Grained Descriptions ( http://arxiv.org/abs/2312.02772v2 )

ライセンス: Link先を確認
Xu Shi, Wei Yao, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun, (参考訳) 近年,テキストベースの動作生成において顕著な進歩が見られ,テキスト記述に適合した多種多様な高品質な人間の動作の生成が可能となった。 しかし、元のデータセットの分布を超えた動きを生成することは依然として困難であり、ゼロショット生成である。 そこで我々は,FG-MDM(Fun-Grained Human Motion Diffusion Model)という新たなフレームワークを提案する。 具体的には,まず,前述した曖昧なテキストアノテーションを,大きな言語モデルを活用することで,各部位の微細な記述に分解する。 次に、これらの微細な記述を用いてトランスフォーマーベースの拡散モデルを導出し、さらに部分トークンの設計を採用する。 FG-MDMは、動きの本質に近い記述のため、オリジナルのデータセットの範囲を超えて人間の動きを生成することができる。 実験の結果,FG-MDMはゼロショット設定における従来の手法よりも優れていることが示された。 我々は、HumanML3DとKITのためのきめ細かいテキストアノテーションをリリースします。

Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, generating motions beyond the distribution of original datasets remains challenging, i.e., zero-shot generation. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for zero-shot human motion generation. Specifically, we first parse previous vague textual annotations into fine-grained descriptions of different body parts by leveraging a large language model. We then use these fine-grained descriptions to guide a transformer-based diffusion model, which further adopts a design of part tokens. FG-MDM can generate human motions beyond the scope of original datasets owing to descriptions that are closer to motion essence. Our experimental results demonstrate the superiority of FG-MDM over previous methods in zero-shot settings. We will release our fine-grained textual annotations for HumanML3D and KIT.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# DBCopilot: 大規模データベースへの自然言語クエリのスケーリング

DBCopilot: Scaling Natural Language Querying to Massive Databases ( http://arxiv.org/abs/2312.03463v2 )

ライセンス: Link先を確認
Tianshu Wang, Hongyu Lin, Xianpei Han, Le Sun, Xiaoyang Chen, Hao Wang, Zhenyu Zeng, (参考訳) Text-to-SQLは、非専門家が自然言語(NL)質問を構造化クエリ言語(SQL)クエリに変換することによって、データベースのインタラクションを単純化する。 大規模言語モデル(LLM)の最近の進歩は、ゼロショットのテキスト-SQLパラダイムを改善したが、既存の手法は、大規模で動的に変化するデータベースを扱う際にスケーラビリティの問題に直面している。 本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベースをルーティングするためのコンパクトで柔軟なコピロモデルを用いて,これらの課題に対処するフレームワークである。 具体的には、DBCopilotは、テキストからSQLまでのプロセスをスキーマルーティングとSQL生成に分離し、軽量なシーケンスからシーケンスのニューラルネットワークベースのルータを活用して、データベース接続を定式化し、データベースとテーブルを介して自然言語の質問をナビゲートする。 ルーティングされたスキーマと質問は、効率的なSQL生成のためにLLMに入力される。 さらに、DBCopilotはリバーススキーマ・ツー・クエクション生成パラダイムも導入しており、手作業による介入を必要とせずに、大規模なデータベース上でルータを学習し、自動的に適応することができる。 実験の結果、DBCopilotは現実世界のテキスト-SQLタスクに対してスケーラブルで効果的なソリューションであり、大規模なスキーマを扱う上で大きな進歩をもたらすことが示されている。

Text-to-SQL simplifies database interactions by enabling non-experts to convert their natural language (NL) questions into Structured Query Language (SQL) queries. While recent advances in large language models (LLMs) have improved the zero-shot text-to-SQL paradigm, existing methods face scalability challenges when dealing with massive, dynamically changing databases. This paper introduces DBCopilot, a framework that addresses these challenges by employing a compact and flexible copilot model for routing across massive databases. Specifically, DBCopilot decouples the text-to-SQL process into schema routing and SQL generation, leveraging a lightweight sequence-to-sequence neural network-based router to formulate database connections and navigate natural language questions through databases and tables. The routed schemas and questions are then fed into LLMs for efficient SQL generation. Furthermore, DBCopilot also introduced a reverse schema-to-question generation paradigm, which can learn and adapt the router over massive databases automatically without requiring manual intervention. Experimental results demonstrate that DBCopilot is a scalable and effective solution for real-world text-to-SQL tasks, providing a significant advancement in handling large-scale schemas.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# 土木構造物のひび割れセグメンテーションのための微調整ビジョン基礎モデル

Fine-tuning vision foundation model for crack segmentation in civil infrastructures ( http://arxiv.org/abs/2312.04233v3 )

ライセンス: Link先を確認
Kang Ge, Chen Wang, Yutao Guo, Yansong Tang, Zhenzhong Hu, Hongbing Chen, (参考訳) 大規模な基礎モデルが主流となる一方で、土木工学ではAIモデルの規模は厳しく制限されている。 本研究では, ひび割れ分断のための視覚基礎モデルを提案する。 セグメンテーションにおける基礎モデルを微調整するために,2つのパラメータ効率の高い微調整法であるアダプタと低ランク適応を採用し,セグメンテーションモデル(SAM)を用いた。 微調整されたCrackSAMは、さまざまなシーンや素材で優れたパフォーマンスを示している。 提案手法のゼロショット性能をテストするため,道路および外壁の亀裂に関する2つのユニークなデータセットを,合計810枚の画像に対して収集,注釈付け,オープンソース化した。 12種類の成熟セマンティックセグメンテーションモデルを用いて比較実験を行った。 人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。 CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件下で、顕著な優位性を示す。 これらのクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデルを開発するための新しいアイデアを提供する。

Large-scale foundation models have become the mainstream deep learning method, while in civil engineering, the scale of AI models is strictly limited. In this work, a vision foundation model is introduced for crack segmentation. Two parameter-efficient fine-tuning methods, adapter and low-rank adaptation, are adopted to fine-tune the foundation model in semantic segmentation: the Segment Anything Model (SAM). The fine-tuned CrackSAM shows excellent performance on different scenes and materials. To test the zero-shot performance of the proposed method, two unique datasets related to road and exterior wall cracks are collected, annotated and open-sourced, for a total of 810 images. Comparative experiments are conducted with twelve mature semantic segmentation models. On datasets with artificial noise and previously unseen datasets, the performance of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits remarkable superiority, particularly under challenging conditions such as dim lighting, shadows, road markings, construction joints, and other interference factors. These cross-scenario results demonstrate the outstanding zero-shot capability of foundation models and provide new ideas for developing vision models in civil engineering.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# Tenplex: 並列化可能なテンソルコレクションを用いたディープラーニングのための動的並列処理

Tenplex: Dynamic Parallelism for Deep Learning using Parallelizable Tensor Collections ( http://arxiv.org/abs/2312.05181v2 )

ライセンス: Link先を確認
Marcel Wagenländer, Guo Li, Bo Zhao, Luo Mai, Peter Pietzuch, (参考訳) ディープラーニング(DL)ジョブは多次元の並列性、すなわちデータ、モデル、パイプラインの並列性を組み合わせて、大きなGPUクラスタを効率的に使用する。 長時間稼働するジョブは、GPUアロケーションの変更を経験することがある。 i) トレーニング中のリソースの弾力性は、GPUを追加または削除する。 (ii)ハードウェアのメンテナンスには、異なるGPUの再デプロイが必要かもしれない。 3)GPUの故障により、少ないデバイスでジョブを実行せざるを得ない。 現在のDLフレームワークはジョブをGPUのセットに結びつけるため、これらのシナリオをサポートしない。 特に、既に実行されているジョブの多次元並列性は、効率的でモデルに依存しない方法では変更できない。 Scalaiは、実行時にGPU割り当てが更新された後、ジョブが動的に並列性を変更することができるDLシステムのための状態管理ライブラリである。 Scalaiは、トレーニング中にジョブ状態を外部化する並列化可能なテンソルコレクション(PTC)という、新たな抽象化を通じてこれを実現している。 PTCはデータ並列性の下でデータセット状態を分割し、仮想ファイルシステムを通じてDLワーカーに公開し、PTCは分割されたチェックポイントとしてモデル状態を取得し、それらを新しい並列化設定を反映するように変換する。 効率性のために、Scalaiはワーカ間の最小データ移動と並行してPTC変換を実行する。 実験の結果、ScalaiはDLジョブを低オーバーヘッドで動的並列化をサポートできることがわかった。

Deep learning (DL) jobs use multi-dimensional parallelism, i.e. combining data, model, and pipeline parallelism, to use large GPU clusters efficiently. Long-running jobs may experience changes to their GPU allocation: (i) resource elasticity during training adds or removes GPUs; (ii) hardware maintenance may require redeployment on different GPUs; and (iii) GPU failures force jobs to run with fewer devices. Current DL frameworks tie jobs to a set of GPUs and thus lack support for these scenarios. In particular, they cannot change the multi-dimensional parallelism of an already-running job in an efficient and model-independent way. We describe Scalai, a state management library for DL systems that enables jobs to change their parallelism dynamically after the GPU allocation is updated at runtime. Scalai achieves this through a new abstraction, a parallelizable tensor collection (PTC), that externalizes the job state during training. After a GPU change, Scalai uses the PTC to transform the job state: the PTC repartitions the dataset state under data parallelism and exposes it to DL workers through a virtual file system; and the PTC obtains the model state as partitioned checkpoints and transforms them to reflect the new parallelization configuration. For efficiency, Scalai executes PTC transformations in parallel with minimum data movement between workers. Our experiments show that Scalai enables DL jobs to support dynamic parallelization with low overhead.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# RMS: リアルタイムポース推定のための冗長性最小化点クラウドサンプリング

RMS: Redundancy-Minimizing Point Cloud Sampling for Real-Time Pose Estimation ( http://arxiv.org/abs/2312.07337v3 )

ライセンス: Link先を確認
Pavel Petracek, Kostas Alexis, Martin Saska, (参考訳) 移動ロボットの状態推定に使用される典型的な点雲サンプリング法は高い点冗長性を保っている。 この冗長性は不必要に推定パイプラインを遅くし、リアルタイムな制約の下でドリフトを引き起こす可能性がある。 このような未処理のレイテンシは、リソースに制約のあるロボット(特にUAV)のボトルネックとなり、アジャイルで正確な運用には最小限の遅延が必要になる。 本稿では, RMS と呼ばれる新しい, 決定論的, 非形式的, 単一パラメータ点クラウドサンプリング手法を提案し, 三次元点クラウド内の冗長性を最小化する。 最先端とは対照的に、RMSは線形面と平面面が本質的に高い冗長性を反復的な推定パイプラインに伝播するという事実を活用することで、翻訳空間の可観測性をバランスさせる。 我々は勾配流の概念を定義し、点の下の局所曲面を定量化する。 また,勾配流のエントロピーの最大化は,ロボットのエゴモーション推定における点冗長性を最小化することを示す。 RMSをポイントベースKISS-ICPと機能ベースLOAMオドメトリーパイプラインに統合し、KITTI、Hilti-Oxford、およびマルチロータUAVからのカスタムデータセットで実験的に評価する。 実験により、RMSは、幾何的に生成された設定と同様に、良好な条件下での速度、圧縮、精度において最先端の手法より優れていることが示された。

The typical point cloud sampling methods used in state estimation for mobile robots preserve a high level of point redundancy. This redundancy unnecessarily slows down the estimation pipeline and may cause drift under real-time constraints. Such undue latency becomes a bottleneck for resource-constrained robots (especially UAVs), requiring minimal delay for agile and accurate operation. We propose a novel, deterministic, uninformed, and single-parameter point cloud sampling method named RMS that minimizes redundancy within a 3D point cloud. In contrast to the state of the art, RMS balances the translation-space observability by leveraging the fact that linear and planar surfaces inherently exhibit high redundancy propagated into iterative estimation pipelines. We define the concept of gradient flow, quantifying the local surface underlying a point. We also show that maximizing the entropy of the gradient flow minimizes point redundancy for robot ego-motion estimation. We integrate RMS into the point-based KISS-ICP and feature-based LOAM odometry pipelines and evaluate experimentally on KITTI, Hilti-Oxford, and custom datasets from multirotor UAVs. The experiments demonstrate that RMS outperforms state-of-the-art methods in speed, compression, and accuracy in well-conditioned as well as in geometrically-degenerated settings.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# 多層視覚誘導による弱めの3次元物体検出

Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance ( http://arxiv.org/abs/2312.07530v2 )

ライセンス: Link先を確認
Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang, (参考訳) 弱教師付き3Dオブジェクト検出は、アノテーションコストの低い3D検出器、例えば2Dラベルを学習することを目的としている。 正確な3Dアノテーションをほとんど依存していない従来の作業とは異なり、我々は3Dラベルを必要とせずに2Dドメインと3Dドメイン間の制約をどのように活用するかを研究するフレームワークを提案する。 具体的には、3つの視点から視覚データを用いて2Dドメインと3Dドメインの接続を確立する。 まず、LiDARと画像の特徴をオブジェクト認識領域に基づいて調整する特徴レベルの制約を設計する。 第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。 最後に、トレーニングレベルの制約を利用して、視覚データと整合した正確で一貫性のある3D擬似ラベルを生成する。 提案した3つの制約の有効性を検証するため,KITTIデータセットの広範な実験を行った。 提案手法は,500フレームの3Dアノテーションを使用する手法と競合し,最先端のアプローチに対して良好な性能を発揮する。 コードとモデルはhttps://github.com/kuanchihhuang/VG-W3D.comで公開される。

Weakly supervised 3D object detection aims to learn a 3D detector with lower annotation cost, e.g., 2D labels. Unlike prior work which still relies on few accurate 3D annotations, we propose a framework to study how to leverage constraints between 2D and 3D domains without requiring any 3D labels. Specifically, we employ visual data from three perspectives to establish connections between 2D and 3D domains. First, we design a feature-level constraint to align LiDAR and image features based on object-aware regions. Second, the output-level constraint is developed to enforce the overlap between 2D and projected 3D box estimations. Finally, the training-level constraint is utilized by producing accurate and consistent 3D pseudo-labels that align with the visual data. We conduct extensive experiments on the KITTI dataset to validate the effectiveness of the proposed three constraints. Without using any 3D labels, our method achieves favorable performance against state-of-the-art approaches and is competitive with the method that uses 500-frame 3D annotations. Code and models will be made publicly available at https://github.com/kuanchihhuang/VG-W3D.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# 離散的断熱的量子線形系解法は無作為な断熱的解法よりも低い定数因子を有する

The discrete adiabatic quantum linear system solver has lower constant factors than the randomized adiabatic solver ( http://arxiv.org/abs/2312.07690v2 )

ライセンス: Link先を確認
Pedro C. S. Costa, Dong An, Ryan Babbush, Dominic Berry, (参考訳) 方程式の線形系の解は他の多くの量子アルゴリズムの基礎であり、最近の結果は条件数 $\kappa$ と許容誤差 $\epsilon$ [PRX Quantum \textbf{3}, 0403003 (2022)] の両方で最適なスケーリングのアルゴリズムを提供した。 その仕事は離散的断熱定理に基づいており、複雑性の上界に対する明示的な定数係数を導いた。 ここでは, ランダム行列の数値実験により, 定数係数は, 前回の結果から得られた上限値の約1500倍小さいことを示す。 つまり、このアプローチは上界から直感的に予想されるよりもはるかに効率的である。 特に、より効率的であると主張する[arXiv:2305.11352]からのランダム化アプローチよりも、桁違いに効率的である。

The solution of linear systems of equations is the basis of many other quantum algorithms, and recent results provided an algorithm with optimal scaling in both the condition number $\kappa$ and the allowable error $\epsilon$ [PRX Quantum \textbf{3}, 0403003 (2022)]. That work was based on the discrete adiabatic theorem, and worked out an explicit constant factor for an upper bound on the complexity. Here we show via numerical testing on random matrices that the constant factor is in practice about 1,500 times smaller than the upper bound found numerically in the previous results. That means that this approach is far more efficient than might naively be expected from the upper bound. In particular, it is over an order of magnitude more efficient than using a randomised approach from [arXiv:2305.11352] that claimed to be more efficient.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# 不確実データを用いたニューラルネットワークのトレーニング-エキスパートアプローチの混合

Training of Neural Networks with Uncertain Data -- A Mixture of Experts Approach ( http://arxiv.org/abs/2312.08083v3 )

ライセンス: Link先を確認
Lucas Luttner, (参考訳) 本稿では、ニューラルネットワーク(NN)に基づく予測モデルにおけるアレラトリック不確実性に対処する新しいソリューションである「エキスパートの不確実性認識混合(uMoE)」を紹介する。 既存の方法論は主に推論中の不確実性を管理することに集中しているが、uMoEはトレーニングフェーズに不確実性を独自に埋め込む。 Divide and Conquer"戦略を用いて、uMoEは不確実な入力空間をより管理可能なサブ空間に戦略的に分割する。 エキスパートコンポーネントで構成され、それぞれのサブスペースの不確実性に基づいて個別にトレーニングされる。 ゲーティングユニットであるエキスパートを概観し、これらのサブスペースにまたがる不確実なインプットの分布に関する追加情報を活用し、重み付けを動的に調整し、地平からの偏差を最小限に抑える。 本研究は,データ不確実性を効果的に管理するために,ベースライン法よりもuMoEの方が優れていることを示す。 さらに, 包括的ロバスト性解析により, 種々の不確実性レベルへの適応性を示し, 最適しきい値パラメータを提案する。 この革新的なアプローチは、バイオメディカル信号処理、自律運転、生産品質管理など、様々なda-ta-drivenドメインに適用可能である。

This paper introduces the "Uncertainty-aware Mixture of Experts" (uMoE), a novel solution aimed at addressing aleatoric uncertainty within Neural Network (NN) based predictive models. While existing methodologies primarily concentrate on managing uncertainty during inference, uMoE uniquely embeds uncertainty into the training phase. Employing a "Divide and Conquer" strategy, uMoE strategically partitions the uncertain input space into more manageable subspaces. It comprises Expert components, individually trained on their respective subspace uncertainties. Overarching the Experts, a Gating Unit, leveraging additional information regarding the distribution of uncertain in-puts across these subspaces, dynamically adjusts the weighting to minimize deviations from ground truth. Our findings demonstrate the superior performance of uMoE over baseline methods in effectively managing data uncertainty. Furthermore, through a comprehensive robustness analysis, we showcase its adaptability to varying uncertainty levels and propose optimal threshold parameters. This innovative approach boasts broad applicability across diverse da-ta-driven domains, including but not limited to biomedical signal processing, autonomous driving, and production quality control.
翻訳日:2024-04-24 19:35:42 公開日:2024-04-23
# OKpi: サンドボックス環境での投機的データアクセスを効果的に保護する

Okapi: Efficiently Safeguarding Speculative Data Accesses in Sandboxed Environments ( http://arxiv.org/abs/2312.08156v2 )

ライセンス: Link先を確認
Philipp Schmitz, Tobias Jauch, Alex Wezel, Mohammad R. Fadiheh, Thore Tiemann, Jonah Heller, Thomas Eisenbarth, Dominik Stoffel, Wolfgang Kunz, (参考訳) 本稿では,現代のコンピュータシステムにおける一過性実行側チャネル(TES)攻撃を緩和するハードウェア/ソフトウェアクロスレイヤーアーキテクチャであるOkapiを紹介する。 Okapiは、投機的実行のためにサンドボックスを強制し、ソフトウェアの高価な投機障壁を置き換えるハードウェア基盤を提供する。 コアとなるのは、現在の信頼ドメインによって少なくとも1回は、ページが非投機的にアクセスされた後にのみ、メモリページへの投機的なデータアクセスを可能にすることである。 信頼ドメインの粒度はソフトウェアで制御でき、異なるセキュリティとパフォーマンスのトレードオフを達成することができる。 厳しいセキュリティニーズの少ない環境では、Okapiの機能は無効にすることで、すべてのパフォーマンスオーバーヘッドを取り除くことができる。 ソフトウェアの変更を一切頼りにすることなく、Okapiのハードウェア機能は、スレッドレベルの粒度でのTESブレークアウト攻撃に対して、すでに完全な保護を提供している。 これによりSPEC CPU2017ベンチマークスイートでは平均的なパフォーマンスオーバーヘッドは3.17%に過ぎなかった。 Okapiは、追加のソフトウェアレベルのセキュリティサポートのためのOkapiReset命令を導入した。 この命令により、スレッドよりも小さなカスタムプログラムサイズで粒度の細かいサンドボックス化が可能になり、WebAssemblyランタイム実験では1.68%のパフォーマンスオーバーヘッドが発生します。 その上、岡ピは毒殺の可能性を秘めている。 最高レベルのセキュリティのために、OkapiLoad命令は、シーケンシャルアクセス後に機密データがトラストドメインに追加されることを防ぎ、弱い投機的非干渉を強制する。 さらに、Spectreガジェットのコード空間をプログラムの明確に定義されたセクションに制限するハードウェア拡張を提案する。 これらのセクションにガジェットがないことを保証することで、開発者は、信頼ドメインのサイズとパフォーマンスの間の良好なトレードオフを達成するために、ソフトウェアを調整できる。

This paper introduces Okapi, a new hardware/software cross-layer architecture designed to mitigate Transient Execution Side Channel (TES) attacks in modern computing systems. Okapi enforces sandboxing for speculative execution, providing a hardware basis that can replace expensive speculation barriers in software. At its core, Okapi allows for speculative data accesses to a memory page only after the page has been accessed non-speculatively at least once by the current trust domain. The granularity of the trust domains can be controlled in software to achieve different security and performance trade-offs. For environments with less stringent security needs, Okapi's features can be deactivated to remove all performance overhead. Without relying on any software modification, the Okapi hardware features already provide full protection against TES breakout attacks at a thread-level granularity. This incurs an average performance overhead of only 3.17% for the SPEC CPU2017 benchmark suite. Okapi introduces the OkapiReset instruction for additional software-level security support. This instruction allows for fine-grained sandboxing with custom program sizes smaller than a thread, resulting in 1.68% performance overhead in our WebAssembly runtime experiment. On top, Okapi provides the possibility to eliminate poisoning attacks. For the highest level of security, the OkapiLoad instruction prevents confidential data from being added to the trust domain after a sequential access, thereby enforcing weak speculative non-interference. In addition, we present a hardware extension that limits the exploitable code space for Spectre gadgets to well-defined sections of the program. By ensuring the absence of gadgets in these sections, developers can tailor their software towards achieving beneficial trade-offs between the size of a trust domain and performance.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# 効率的なマルチモービングカメラ追跡に向けて:新しいデータセットと軽量リンクモデル

Towards Effective Multi-Moving-Camera Tracking: A New Dataset and Lightweight Link Model ( http://arxiv.org/abs/2312.11035v3 )

ライセンス: Link先を確認
Yanting Zhang, Shuanghong Wang, Qingxiang Wang, Cairong Yan, Rui Fan, (参考訳) 自動運転車の運転安全性の確保はますます重要になってきており、路上歩行者の系統的な追跡の必要性が浮き彫りになっている。 ほとんどの車両には視覚センサーが搭載されているが、大規模な視覚データはまだ十分に研究されていない。 マルチターゲットマルチカメラ(MTMC)トラッキングシステムは、シングルカメラトラッキング(SCT)とインターカメラトラッキング(ICT)の2つのモジュールで構成されている。 MTMCの追跡は非常に複雑な作業であり、複数の移動カメラをまたいで追跡することはさらに困難である。 本稿では,MTMMC(Multi-target Multi-moving-camera)の追跡に焦点をあてる。 MTMMC追跡のためのデータセットはほとんどないため、さまざまな駆動シナリオの下でシーケンスを含むMulti-Moving-Camera Track (MMCT)と呼ばれる新しいデータセットを収集します。 既存のほとんどのSCTトラッカーで直面するアイデンティティスイッチの一般的な問題,特にカメラとターゲット間のエゴモーションによる移動カメラに対処するため,Linkerと呼ばれる軽量なグローバルリンクモデルが提案され,同じターゲットの2つの解離トラックレットを同一カメラ内の完全な軌道に関連付けることでアイデンティティスイッチを緩和する。 Linkerを組み込んだ既存のSCTトラッカーは、一般的に大幅に改善されている。 さらに、異なるカメラによる画像スタイルの変化の影響を軽減するため、カラートランスファーモジュールを効果的に組み込むことにより、ICT用移動カメラ間の歩行者関連性のためのクロスカメラ一貫した外観特徴を抽出し、さらに改良されたMTMMCトラッキングシステムを実現し、複数の移動カメラの協調マイニングに向けた一歩を踏み出すことができる。 プロジェクトのページはhttps://dhu-mmct.github.io/.com/で公開されている。

Ensuring driving safety for autonomous vehicles has become increasingly crucial, highlighting the need for systematic tracking of on-road pedestrians. Most vehicles are equipped with visual sensors, however, the large-scale visual data has not been well studied yet. Multi-target multi-camera (MTMC) tracking systems are composed of two modules: single-camera tracking (SCT) and inter-camera tracking (ICT). To reliably coordinate between them, MTMC tracking has been a very complicated task, while tracking across multiple moving cameras makes it even more challenging. In this paper, we focus on multi-target multi-moving-camera (MTMMC) tracking, which is attracting increasing attention from the research community. Observing there are few datasets for MTMMC tracking, we collect a new dataset, called Multi-Moving-Camera Track (MMCT), which contains sequences under various driving scenarios. To address the common problems of identity switch easily faced by most existing SCT trackers, especially for moving cameras due to ego-motion between the camera and targets, a lightweight appearance-free global link model, called Linker, is proposed to mitigate the identity switch by associating two disjoint tracklets of the same target into a complete trajectory within the same camera. Incorporated with Linker, existing SCT trackers generally obtain a significant improvement. Moreover, to alleviate the impact of the image style variations caused by different cameras, a color transfer module is effectively incorporated to extract cross-camera consistent appearance features for pedestrian association across moving cameras for ICT, resulting in a much improved MTMMC tracking system, which can constitute a step further towards coordinated mining of multiple moving cameras. The project page is available at https://dhu-mmct.github.io/.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# 変分量子リニアソルバーのプレコンディショニング

Preconditioning for a Variational Quantum Linear Solver ( http://arxiv.org/abs/2312.15657v3 )

ライセンス: Link先を確認
Aruto Hosaka, Koichi Yanagisawa, Shota Koshikawa, Isamu Kudo, Xiafukaiti Alifu, Tsuyoshi Yoshida, (参考訳) 線形系に対する古典的解法で広く用いられるプリコンディショニング (preconditioning) を、変分量子線型解法(英語版)に対して適用する。 非完全LU分解を128\times128$ランダムスパース行列による線形方程式のプレコンディショナーとして利用することにより、必要アンザッツ深さの顕著な減少を数値的に示し、プリコンディショニングが量子アルゴリズムに有用であることを示す。 この回路深さの低減は、ノイズ中間スケール量子(NISQ)アルゴリズムの効率と精度を向上させるために重要である。 この結果から, プリコンディショニングなどの古典的計算手法と量子アルゴリズムを組み合わせることで, NISQアルゴリズムの性能を大幅に向上させることができることが示唆された。

We apply preconditioning, which is widely used in classical solvers for linear systems $A\textbf{x}=\textbf{b}$, to the variational quantum linear solver. By utilizing incomplete LU factorization as a preconditioner for linear equations formed by $128\times128$ random sparse matrices, we numerically demonstrate a notable reduction in the required ansatz depth, demonstrating that preconditioning is useful for quantum algorithms. This reduction in circuit depth is crucial to improving the efficiency and accuracy of Noisy Intermediate-Scale Quantum (NISQ) algorithms. Our findings suggest that combining classical computing techniques, such as preconditioning, with quantum algorithms can significantly enhance the performance of NISQ algorithms.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# アウトオブディストリビューションの一般化を保証できない訓練用混合データ

Mixture Data for Training Cannot Ensure Out-of-distribution Generalization ( http://arxiv.org/abs/2312.16243v4 )

ライセンス: Link先を確認
Songming Zhang, Yuxiao Luo, Qizhou Wang, Haoang Chi, Xiaofeng Chen, Bo Han, Jinyan Li, (参考訳) ディープニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)データを扱うために一般化問題に直面することが多く、寄与要因とその影響との間には顕著な理論的ギャップが残っている。 分散データからの文献的証拠は、学習用混合データのサイズが大きくなると一般化誤差が小さくなることを示唆している。 しかし、OODサンプルに関しては、この従来の理解はもはや保たない -- トレーニングデータのサイズの増加は、テスト一般化エラーの削減につながるとは限らない。 実際、エラーのさまざまな傾向は、パワー・ロー・パターンの下でのトレンドの減少、最初の減少、それに続く増加、あるいは連続的な安定パターンなど、さまざまなシフトシナリオで発見されている。 これまでの研究は、OODデータに定性的にアプローチしており、トレーニング中に見つからないサンプルとして扱うだけで、複雑な非単調な傾向を説明するのは難しい。 本研究では,混合学習データの凸内外にあるOODデータを定量的に再定義し,新たな一般化誤差境界を設定して,反直観的観察をよりよく理解する。 新たなリスクバウンドの証明は、よく訓練されたモデルの有効性が凸内における見えないデータに対して保証できることに一致している。 さらに,本研究は,近年のOOD一般化研究における洞察に富む観察結果,例えば,多様なデータの重要さや,既存のアルゴリズムの見知らぬシフトに対する感度などを説明するだけでなく,新たな効果的なデータ選択戦略の創出にも寄与することを示すために,様々なOOD手法を試みている。

Deep neural networks often face generalization problems to handle out-of-distribution (OOD) data, and there remains a notable theoretical gap between the contributing factors and their respective impacts. Literature evidence from in-distribution data has suggested that generalization error can shrink if the size of mixture data for training increases. However, when it comes to OOD samples, this conventional understanding does not hold anymore -- Increasing the size of training data does not always lead to a reduction in the test generalization error. In fact, diverse trends of the errors have been found across various shifting scenarios including those decreasing trends under a power-law pattern, initial declines followed by increases, or continuous stable patterns. Previous work has approached OOD data qualitatively, treating them merely as samples unseen during training, which are hard to explain the complicated non-monotonic trends. In this work, we quantitatively redefine OOD data as those situated outside the convex hull of mixed training data and establish novel generalization error bounds to comprehend the counterintuitive observations better. Our proof of the new risk bound agrees that the efficacy of well-trained models can be guaranteed for unseen data within the convex hull; More interestingly, but for OOD data beyond this coverage, the generalization cannot be ensured, which aligns with our observations. Furthermore, we attempted various OOD techniques to underscore that our results not only explain insightful observations in recent OOD generalization work, such as the significance of diverse data and the sensitivity to unseen shifts of existing algorithms, but it also inspires a novel and effective data selection strategy.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# 自律運転データセットに関する調査:統計,注釈品質,将来展望

A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook ( http://arxiv.org/abs/2401.01454v2 )

ライセンス: Link先を確認
Mingyu Liu, Ekim Yurtsever, Jonathan Fossaert, Xingcheng Zhou, Walter Zimmer, Yuning Cui, Bare Luka Zagar, Alois C. Knoll, (参考訳) 自律運転は、ハードウェアとディープラーニング技術の最近の進歩により、急速に発展し、有望な性能を示している。 高品質なデータセットは、信頼性の高い自律運転アルゴリズムの開発に不可欠である。 以前のデータセット調査では、限られた数に集中するか、データセットの特徴に関する詳細な調査が欠如していた。 この目的のために,センサのモーダル性,データサイズ,タスク,コンテキスト条件など,複数の視点から265個の自律走行データセットを総合的に検討した。 データセットの影響を評価するための新しいメトリクスを導入し、新しいデータセットを作成するためのガイドとしても利用できる。 さらに、アノテーションプロセス、既存のラベル付けツール、およびデータセットのアノテーション品質を分析し、標準アノテーションパイプラインを確立することの重要性を示す。 一方,自動走行システムの性能に及ぼす地理的・対角的環境条件の影響を徹底的に分析する。 さらに、いくつかの重要なデータセットのデータ分布を示し、それらの長所と短所について議論する。 最後に、将来の自動運転データセットの現在の課題と開発動向について論じる。

Autonomous driving has rapidly developed and shown promising performance due to recent advances in hardware and deep learning techniques. High-quality datasets are fundamental for developing reliable autonomous driving algorithms. Previous dataset surveys either focused on a limited number or lacked detailed investigation of dataset characteristics. To this end, we present an exhaustive study of 265 autonomous driving datasets from multiple perspectives, including sensor modalities, data size, tasks, and contextual conditions. We introduce a novel metric to evaluate the impact of datasets, which can also be a guide for creating new datasets. Besides, we analyze the annotation processes, existing labeling tools, and the annotation quality of datasets, showing the importance of establishing a standard annotation pipeline. On the other hand, we thoroughly analyze the impact of geographical and adversarial environmental conditions on the performance of autonomous driving systems. Moreover, we exhibit the data distribution of several vital datasets and discuss their pros and cons accordingly. Finally, we discuss the current challenges and the development trend of the future autonomous driving datasets.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# RoboFusion:SAMによるロバストなマルチモーダル3Dオブジェクト検出を目指して

RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM ( http://arxiv.org/abs/2401.03907v4 )

ライセンス: Link先を確認
Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang, (参考訳) マルチモーダルな3Dオブジェクト検出器は、自律運転(AD)のための安全で信頼性の高い認識システムを探究することを目的としている。 クリーンなベンチマークデータセット上でのSOTA(State-of-the-art)のパフォーマンスは達成するが、現実の環境の複雑さと厳しい条件を無視する傾向にある。 視覚基礎モデル(VFM)の出現に伴い、ADにおけるマルチモーダル3Dオブジェクト検出の堅牢性と一般化を改善するための機会と課題が提示される。 そこで,本研究では,SAM などの VFM を利用した強靭なフレームワークであるRoboFusion を提案する。 私たちはまず、SAM-ADというADシナリオにSAMを適応させます。 SAM や SAM-AD をマルチモーダルな手法に合わせるため,SAM が抽出した画像特徴のアップサンプリングを行う AD-FPN を導入する。 我々はウェーブレット分解法を用いて深度誘導画像のノイズ低減と気象干渉を行う。 最終的に、我々は自己注意機構を用いて、融合した特徴を適応的に重み付けし、過度な騒音を抑えながら情報的特徴を高める。 まとめると、RoboFusionはVFMの一般化とロバスト性を利用してノイズを著しく低減し、マルチモーダル3Dオブジェクト検出のレジリエンスを高める。 その結果、KITTI-CとnuScenes-Cベンチマークが示すように、RoboFusionはノイズの多いシナリオでSOTAのパフォーマンスを達成する。 コードはhttps://github.com/adept-thu/RoboFusion.comで入手できる。

Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD).Although achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. With the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in AD. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for AD scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. At last, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, RoboFusion significantly reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, RoboFusion achieves SOTA performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks. Code is available at https://github.com/adept-thu/RoboFusion.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# 自動評価と人的評価の収束と多様性:ChatGPT生成翻訳とニューラルマシン翻訳の比較から

Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation ( http://arxiv.org/abs/2401.05176v2 )

ライセンス: Link先を確認
Zhaokun Jiang, Ziyin Zhang, (参考訳) 大規模言語モデルは、ニューラルマシン翻訳(NMT)システムと比較して並列で、さらに優れた翻訳性能を示している。 しかしながら、既存の比較研究は主に自動メトリクスに依存しており、これらのメトリクスの実現可能性と人間の判断との整合性に関する疑問を提起している。 本研究では,ChatGPTと3つのNTTシステムによる機械翻訳の品質評価において,自動計測値と人的評価値の収束と相違について検討した。 自動評価を行うには,DQF-MQMのエラータイプと6つのルーリックを人間の評価に組み込んだ4つの自動計測手法を用いる。 特に、自動評価と人的評価は、形式的忠実度(例えば、エラー率)を測定することに収束するが、意味的および実用的忠実度を評価する際には分散する。 これらの結果は,現段階での高度な翻訳ツールの性能を評価する上で,人間の判断が不可欠であることを示すものである。

Large language models have demonstrated parallel and even superior translation performance compared to neural machine translation (NMT) systems. However, existing comparative studies between them mainly rely on automated metrics, raising questions into the feasibility of these metrics and their alignment with human judgment. The present study investigates the convergences and divergences between automated metrics and human evaluation in assessing the quality of machine translation from ChatGPT and three NMT systems. To perform automatic assessment, four automated metrics are employed, while human evaluation incorporates the DQF-MQM error typology and six rubrics. Notably, automatic assessment and human evaluation converge in measuring formal fidelity (e.g., error rates), but diverge when evaluating semantic and pragmatic fidelity, with automated metrics failing to capture the improvement of ChatGPT's translation brought by prompt engineering. These results underscore the indispensable role of human judgment in evaluating the performance of advanced translation tools at the current stage.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# 準ゲート量子回路の分類と時空対称性 : レベル空間分布への応用

Classification of same-gate quantum circuits and their space-time symmetries with application to the level-spacing distribution ( http://arxiv.org/abs/2401.09708v2 )

ライセンス: Link先を確認
Urban Duh, Marko Znidaric, (参考訳) 最寄りの2サイトゲートに翻訳不変なFloquetシステムについて検討する。 ゲートが周期的な境界条件を持つNサイトシステムに適用される順序によって、回路構成は因子的に異なる。 ブリックウォールの一般化や階段構成の一般化とみなすことができるN-1の異なるスペクトル等価クラスが存在することを証明している。 2つの整数によって特徴づけられる全てのクラスは、量子カオスの標準的な指標であるレベルスパック分布に重要な意味を持つ非自明な時空対称性を持つ。 すなわち、カオス性を研究するためには、フロケプロパゲーター自体の固有位相ではなく、プロパゲーターの適切な根のスペクトルに目を向けるべきである。

We study Floquet systems with translationally invariant nearest-neighbor 2-site gates. Depending on the order in which the gates are applied on an N-site system with periodic boundary conditions, there are factorially many different circuit configurations. We prove that there are only N-1 different spectrally equivalent classes which can be viewed either as a generalization of the brick-wall or of the staircase configuration. Every class, characterized by two integers, has a nontrivial space-time symmetry with important implications for the level-spacing distribution -- a standard indicator of quantum chaos. Namely, in order to study chaoticity one should not look at eigenphases of the Floquet propagator itself, but rather at the spectrum of an appropriate root of the propagator.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# PPNet: エンドツーエンドパス計画のための2段階ニューラルネットワーク

PPNet: A Two-Stage Neural Network for End-to-end Path Planning ( http://arxiv.org/abs/2401.09819v2 )

ライセンス: Link先を確認
Qinglong Meng, Chongkun Xia, Xueqian Wang, Songping Mai, Bin Liang, (参考訳) サンプリングベースパスプランナーのような古典的なパスプランナーは、プランナーが解を返さない確率が存在すれば、サンプルの数が無限に近づくにつれてゼロになるという意味で確率論的完全性を保証することができる。 しかし、自動運転車のような多くの応用において、ある期間に最適に近い実現可能な解を見つけることは困難である。 まず,経路計画問題を経路空間分割と経路点生成の2つのサブプロブレムに分割する。 さらに、上記のサブプロブレムの1つを解決する2段階のPath Planning Network (PPNet)を提案する。 また,EDaGe-PPと呼ばれる経路計画のための新しい効率的なデータ生成手法を提案する。 EDaGe-PPは、クリアランス要件を満たしつつ、解析的表現で連続曲率パスを持つデータを生成することができる。 その結果、ランダムな2次元経路計画データを生成する総計算時間は1/33未満であり、EDaGe-PPが生成するデータセットによってトレーニングされたPPNetの成功率は、他の手法と比べて約2倍であることがわかった。 我々はPPNetを最先端の経路計画手法に対して検証する。 その結果、PPNetは15.3msで最適に近い解を見つけることができ、これは最先端のパスプランナーよりもはるかに短い。

The classical path planners, such as sampling-based path planners, can provide probabilistic completeness guarantees in the sense that the probability that the planner fails to return a solution if one exists, decays to zero as the number of samples approaches infinity. However, finding a near-optimal feasible solution in a given period is challenging in many applications such as the autonomous vehicle. To achieve an end-to-end near-optimal path planner, we first divide the path planning problem into two subproblems, which are path space segmentation and waypoints generation in the given path's space. We further propose a two-stage neural network named Path Planning Network (PPNet) each stage solves one of the subproblems abovementioned. Moreover, we propose a novel efficient data generation method for path planning named EDaGe-PP. EDaGe-PP can generate data with continuous-curvature paths with analytical expression while satisfying the clearance requirement. The results show the total computation time of generating random 2D path planning data is less than 1/33 and the success rate of PPNet trained by the dataset that is generated by EDaGe-PP is about 2 times compared to other methods. We validate PPNet against state-of-the-art path planning methods. The results show that PPNet can find a near-optimal solution in 15.3ms, which is much shorter than the state-of-the-art path planners.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# 強化学習エージェントにおける創発的支配階層

Emergent Dominance Hierarchies in Reinforcement Learning Agents ( http://arxiv.org/abs/2401.12258v6 )

ライセンス: Link先を確認
Ram Rachum, Yonatan Nakar, Bill Tomlinson, Nitay Alon, Reuth Mirsky, (参考訳) 現代の強化学習(RL)アルゴリズムは、様々なタスクにおいて人間より優れている。 マルチエージェント強化学習(MARL)の設定には新たな課題があり、エージェントの混合モチベーションにおける協調の成功は、個人とグループ間の微妙なバランスをとる行為に依存する。 社会慣習や規範は、しばしば人間の制度にインスパイアされ、このバランスを打つための道具として使用される。 本稿では,動物社会と人間社会の連携の基盤となる,基礎的でよく研究された社会慣行,支配階層について考察する。 我々は、支配階層の倫理理論を人工エージェントに適用し、確立された用語と定義を可能な限り少ない修正で借用する。 明示的なプログラミングや本質的な報酬なしに活動するRLエージェントの集団は、新しい集団に支配階層を発明し、学習し、強制し、伝達することができることを実証する。 支配的な階層構造は、鶏、マウス、魚、その他の種で研究されるものと類似した構造を持つ。

Modern Reinforcement Learning (RL) algorithms are able to outperform humans in a wide variety of tasks. Multi-agent reinforcement learning (MARL) settings present additional challenges, and successful cooperation in mixed-motive groups of agents depends on a delicate balancing act between individual and group objectives. Social conventions and norms, often inspired by human institutions, are used as tools for striking this balance. In this paper, we examine a fundamental, well-studied social convention that underlies cooperation in both animal and human societies: dominance hierarchies. We adapt the ethological theory of dominance hierarchies to artificial agents, borrowing the established terminology and definitions with as few amendments as possible. We demonstrate that populations of RL agents, operating without explicit programming or intrinsic rewards, can invent, learn, enforce, and transmit a dominance hierarchy to new populations. The dominance hierarchies that emerge have a similar structure to those studied in chickens, mice, fish, and other species.
翻訳日:2024-04-24 19:25:53 公開日:2024-04-23
# SECOMP: Cプログラムの形式的セキュアコンパイル

SECOMP: Formally Secure Compilation of Compartmentalized C Programs ( http://arxiv.org/abs/2401.16277v3 )

ライセンス: Link先を確認
Jérémy Thibault, Roberto Blanco, Dongjae Lee, Sven Argo, Arthur Azevedo de Amorim, Aïna Linn Georges, Catalin Hritcu, Andrew Tolmach, (参考訳) C言語の未定義の動作は、しばしば破壊的なセキュリティ脆弱性を引き起こす。 これは、開発者が大きなプログラムを、明確に指定された特権と相互作用を持つ相互に不確実なコンパートメントに構成できるものである。 本稿では,非定義な動作のスコープが,それに遭遇して動的に妥協するコンパートメントに制限されることを保証する,マシンチェックされた証明が付属する,コンパートナライズドCコードのコンパイラであるSECOMPを紹介する。 これらの保証は、敵の文脈に対する安全性の保存として形式化され、完全な抽象化に類似したセキュアなコンパイル基準が、主流プログラミング言語でこのような強い基準が証明されたのはこれが初めてである。 これを達成するために、クロスコンパートメントインターフェースによって指定されたように、プロシージャコールとリターンを介してのみ対話できる分離されたコンパートメントでCompCert検証されたCコンパイラの言語を拡張します。 我々は、CompCertのパスと最適化、およびそれらの正当性証明を、このコンパートメント対応の設定に適用する。 次に,コンパイラの正しさをCコンパイラに拡張するために必要な,いくつかの証明工学のノベルティを含む,より大規模なセキュアなコンパイル証明の要素として使用する。

Undefined behavior in C often causes devastating security vulnerabilities. One practical mitigation is compartmentalization, which allows developers to structure large programs into mutually distrustful compartments with clearly specified privileges and interactions. In this paper we introduce SECOMP, a compiler for compartmentalized C code that comes with machine-checked proofs guaranteeing that the scope of undefined behavior is restricted to the compartments that encounter it and become dynamically compromised. These guarantees are formalized as the preservation of safety properties against adversarial contexts, a secure compilation criterion similar to full abstraction, and this is the first time such a strong criterion is proven for a mainstream programming language. To achieve this we extend the languages of the CompCert verified C compiler with isolated compartments that can only interact via procedure calls and returns, as specified by cross-compartment interfaces. We adapt the passes and optimizations of CompCert as well as their correctness proofs to this compartment-aware setting. We then use compiler correctness as an ingredient in a larger secure compilation proof that involves several proof engineering novelties, needed to scale formally secure compilation up to a C compiler.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# 事前学習モデルによる継続的な学習:調査

Continual Learning with Pre-Trained Models: A Survey ( http://arxiv.org/abs/2401.16386v2 )

ライセンス: Link先を確認
Da-Wei Zhou, Hai-Long Sun, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan, (参考訳) 今日では、現実世界のアプリケーションはストリーミングデータに直面することが多く、データの進化に伴って学習システムが新たな知識を吸収する必要がある。 継続的な学習(CL)は、この目標を達成することを目的としており、一方で、新しい知識を学ぶ際に、以前の知識の破滅的な忘れを克服することを目的としている。 典型的なCLメソッドは、入ってくるデータで成長するために、スクラッチからモデルを構築する。 しかし、事前訓練モデル(PTM)時代の到来は、特にPTMの堅牢な表現能力を活用することにおいて、大きな研究の関心を呼んだ。 本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。 既存の方法論を3つの異なるグループに分類し、それらの類似性、相違点、およびそれぞれの長所と短所を比較分析した。 さらに,比較の公平性に関する懸念を強調するために,様々な最先端手法と対比した実証的研究を行った。 これらの評価を再現するソースコードは、https://github.com/sun-hailong/LAMDA-PILOTで公開されている。

Nowadays, real-world applications often face streaming data, which requires the learning system to absorb new knowledge as data evolves. Continual Learning (CL) aims to achieve this goal and meanwhile overcome the catastrophic forgetting of former knowledge when learning new ones. Typical CL methods build the model from scratch to grow with incoming data. However, the advent of the pre-trained model (PTM) era has sparked immense research interest, particularly in leveraging PTMs' robust representational capabilities. This paper presents a comprehensive survey of the latest advancements in PTM-based CL. We categorize existing methodologies into three distinct groups, providing a comparative analysis of their similarities, differences, and respective advantages and disadvantages. Additionally, we offer an empirical study contrasting various state-of-the-art methods to highlight concerns regarding fairness in comparisons. The source code to reproduce these evaluations is available at: https://github.com/sun-hailong/LAMDA-PILOT
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# SWEA:主語埋め込みによる大規模言語モデルにおけるファクチュアル知識の更新

SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering ( http://arxiv.org/abs/2401.17809v3 )

ライセンス: Link先を確認
Xiaopeng Li, Shasha Li, Shezheng Song, Huijun Liu, Bin Ji, Xi Wang, Jun Ma, Jie Yu, Xiaodong Liu, Jing Wang, Weimin Zhang, (参考訳) 大規模言語モデル(LLM)の一般的な機能により、さまざまなAIアプリケーションの基盤となるが、内部知識の更新にはかなりのリソースが必要になる。 近年のモデル編集は,LLMの少数の知識を効率的に更新する上で有望な手法であり,注目を集めている。 特に、モデルパラメータを直接更新するローカル編集手法は、少量の知識を更新するのにより適している。 局所的な編集手法は最小二乗閉形式解を計算して重みを更新し、ベクトルレベルの推論による編集知識を同定し、有望な結果を得る。 しかし、これらの手法は計算を完了するのに多くの時間とリソースを必要とする。 さらに、ベクトルレベルのマッチングは信頼性に欠けており、そのような更新はモデルのパラメータの本来の構成を阻害する。 これらの問題に対処するために、トークンレベルのマッチングによる編集の埋め込みを見つけ、Transformer 入力にサブジェクトワードの埋め込みを追加する、分離可能で拡張可能なサブジェクトワード埋め込み(SWEA)フレームワークを提案する。 編集対象に対する学習可能な埋め込みベクトルを最適化し、次に知識埋め込み次元(KED)を抑圧し、最終的な編集埋め込みを得る。 そこで我々は,LSMにおける事実知識を編集するためのSWEA$\oplus$OS法を提案する。 SWEA$\oplus$OSのSOTA(State-of-the-art)パフォーマンスを,textsc{CounterFact} および zsRE データセット上で示す。 SWEA$\oplus$OSの編集知識の推論能力を更に検証するため、より複雑な \textsc{RippleEdits} ベンチマークで評価した。 その結果,SWEA$\oplus$OSはSOTA推論能力を有することがわかった。

The general capabilities of large language models (LLMs) make them the infrastructure for various AI applications, but updating their inner knowledge requires significant resources. Recent model editing is a promising technique for efficiently updating a small amount of knowledge of LLMs and has attracted much attention. In particular, local editing methods, which directly update model parameters, are more suitable for updating a small amount of knowledge. Local editing methods update weights by computing least squares closed-form solutions and identify edited knowledge by vector-level matching in inference, which achieve promising results. However, these methods still require a lot of time and resources to complete the computation. Moreover, vector-level matching lacks reliability, and such updates disrupt the original organization of the model's parameters. To address these issues, we propose an detachable and expandable Subject Word Embedding Altering (SWEA) framework, which finds the editing embeddings through token-level matching and adds them to the subject word embeddings in Transformer input. To get these editing embeddings, we propose optimizing then suppressing fusion method, which first optimizes learnable embedding vectors for the editing target and then suppresses the Knowledge Embedding Dimensions (KEDs) to obtain final editing embeddings. We thus propose SWEA$\oplus$OS method for editing factual knowledge in LLMs. We demonstrate the overall state-of-the-art (SOTA) performance of SWEA$\oplus$OS on the \textsc{CounterFact} and zsRE datasets. To further validate the reasoning ability of SWEA$\oplus$OS in editing knowledge, we evaluate it on the more complex \textsc{RippleEdits} benchmark. The results demonstrate that SWEA$\oplus$OS possesses SOTA reasoning ability.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# 周辺被覆と類似性に基づく自動運転車のFew-Shotシナリオテスト

Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity ( http://arxiv.org/abs/2402.01795v2 )

ライセンス: Link先を確認
Shu Li, Jingxuan Yang, Honglin He, Yi Zhang, Jianming Hu, Shuo Feng, (参考訳) 大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。 実際、特定のAVに対して許容されるテストシナリオの数は、テスト予算と時間に対する厳格な制約によって著しく制限されます。 厳格に制限されたテスト数によって課される制限により、既存のテスト手法は、評価結果の定量化に重大な不確実性や困難をもたらすことが多い。 本稿では,この問題を初めてFST(Few-shot Testing)問題として定式化し,この問題に対処するための体系的枠組みを提案する。 小規模なテストシナリオセットに固有のかなりの不確実性を緩和するため、FST問題を最適化問題とみなし、近隣のカバレッジと類似性に基づくテストシナリオの探索を行う。 具体的には、AVに設定されたテストシナリオのより優れた一般化能力のガイダンスに基づき、サロゲートモデル(SM)の事前情報を利用して、このセットと各テストシナリオのカバレッジに基づく評価結果への寄与を動的に調整する。 SMに対する特定の仮説により、与えられた限られたテスト数内での評価精度の十分性を検証するために、理論上の評価誤差の上限が確立される。 カットインシナリオに対する実験結果は,従来のテスト手法と比較して,評価誤差や分散の顕著な低減,特にシナリオ数に制限がある状況において,本手法の分散が顕著であることを示す。

Testing and evaluating the safety performance of autonomous vehicles (AVs) is essential before the large-scale deployment. Practically, the number of testing scenarios permissible for a specific AV is severely limited by tight constraints on testing budgets and time. With the restrictions imposed by strictly restricted numbers of tests, existing testing methods often lead to significant uncertainty or difficulty to quantifying evaluation results. In this paper, we formulate this problem for the first time the "few-shot testing" (FST) problem and propose a systematic framework to address this challenge. To alleviate the considerable uncertainty inherent in a small testing scenario set, we frame the FST problem as an optimization problem and search for the testing scenario set based on neighborhood coverage and similarity. Specifically, under the guidance of better generalization ability of the testing scenario set on AVs, we dynamically adjust this set and the contribution of each testing scenario to the evaluation result based on coverage, leveraging the prior information of surrogate models (SMs). With certain hypotheses on SMs, a theoretical upper bound of evaluation error is established to verify the sufficiency of evaluation accuracy within the given limited number of tests. The experiment results on cut-in scenarios demonstrate a notable reduction in evaluation error and variance of our method compared to conventional testing methods, especially for situations with a strict limit on the number of scenarios.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# テキストを超えて:ロボットナビゲーションタスクのためのLLMの意思決定を改善するために音声クイズを利用する

Beyond Text: Utilizing Vocal Cues to Improve Decision Making in LLMs for Robot Navigation Tasks ( http://arxiv.org/abs/2402.03494v2 )

ライセンス: Link先を確認
Xingpeng Sun, Haoming Meng, Souradip Chakraborty, Amrit Singh Bedi, Aniket Bera, (参考訳) LLMは人間の会話でテキストを処理するのに優れていますが、社会的なナビゲーションのようなシナリオでは言葉による指示のニュアンスに苦労しています。 テキストを超えて、これらの音声応答のパラ言語的特徴に重きを置くことで、この欠点に対処することができる。 これらの特徴は、リテラル語(語彙内容)を含まないが、何かの言い方を通じて意味とニュアンスを伝える音声コミュニケーションの側面である。 本手法は,人間とロボットの会話における影響と関連性を重視した音声書き起こしと,これらの特徴のサブセクションと合わせてLLMの意思決定を改善するアプローチである。このアプローチは,70.26 %の勝利率を達成し,既存の LLM を22.16 %から48.30 %(それぞれgemini-1.5-pro と gpt-3.5)で上回り,勝利率で22.44 %の低下率で強調されるトークン操作敵攻撃に対する堅牢性を高める。 '\textit{Beyond Text}'' はソーシャルロボットナビゲーションとより広範なヒューマンロボットインタラクションの進歩を意味し、テキストベースのガイダンスと人間のオーディオインフォームド言語モデルをシームレスに統合する。

While LLMs excel in processing text in these human conversations, they struggle with the nuances of verbal instructions in scenarios like social navigation, where ambiguity and uncertainty can erode trust in robotic and other AI systems. We can address this shortcoming by moving beyond text and additionally focusing on the paralinguistic features of these audio responses. These features are the aspects of spoken communication that do not involve the literal wording (lexical content) but convey meaning and nuance through how something is said. We present \emph{Beyond Text}; an approach that improves LLM decision-making by integrating audio transcription along with a subsection of these features, which focus on the affect and more relevant in human-robot conversations.This approach not only achieves a 70.26\% winning rate, outperforming existing LLMs by 22.16\% to 48.30\% (gemini-1.5-pro and gpt-3.5 respectively), but also enhances robustness against token manipulation adversarial attacks, highlighted by a 22.44\% less decrease ratio than the text-only language model in winning rate. ``\textit{Beyond Text}'' marks an advancement in social robot navigation and broader Human-Robot interactions, seamlessly integrating text-based guidance with human-audio-informed language models.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# 帰還アライメント決定変換器

Return-Aligned Decision Transformer ( http://arxiv.org/abs/2402.03923v2 )

ライセンス: Link先を確認
Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra, (参考訳) オフライン強化学習における従来のアプローチは、リターンとして知られる累積報酬を最大化する最適なポリシーを学ぶことを目的としている。 しかし、アプリケーションが広まるにつれて、リターンを最大化するだけでなく、実際のリターンを特定のターゲットリターンと整合させるエージェントを訓練することがますます重要になり、エージェントのパフォーマンスを制御できるようになる。 決定変換器(DT)は、教師付き学習を通じて目標リターンに条件付けられたアクションを生成するポリシーを最適化し、目標リターンを使用してエージェントを制御する機構を備える。 ターゲットリターンと実際のリターンを一致させるように設計されているにもかかわらず、DTにおける実際のリターンとターゲットリターンの相違を実証的に確認した。 本稿では、実際のリターンと目標リターンを効果的に整合させるために、Return-Aligned Decision Transformer (RADT)を提案する。 我々のモデルは、リターンと状態の関係を高めるために、通常、リターンと状態とアクションで構成される従来の入力シーケンスからリターンする。 大規模実験により、RADTはDTベースの手法の実際の戻り値と目標戻り値との差を減少させることが示された。

Traditional approaches in offline reinforcement learning aim to learn the optimal policy that maximizes the cumulative reward, also known as return. However, as applications broaden, it becomes increasingly crucial to train agents that not only maximize the returns, but align the actual return with a specified target return, giving control over the agent's performance. Decision Transformer (DT) optimizes a policy that generates actions conditioned on the target return through supervised learning and is equipped with a mechanism to control the agent using the target return. Despite being designed to align the actual return with the target return, we have empirically identified a discrepancy between the actual return and the target return in DT. In this paper, we propose Return-Aligned Decision Transformer (RADT), designed to effectively align the actual return with the target return. Our model decouples returns from the conventional input sequence, which typically consists of returns, states, and actions, to enhance the relationships between returns and states, as well as returns and actions. Extensive experiments show that RADT reduces the discrepancies between the actual return and the target return of DT-based methods.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# UVTM:ST特徴領域生成を用いたユニバーサル車両軌道モデリング

UVTM: Universal Vehicle Trajectory Modeling with ST Feature Domain Generation ( http://arxiv.org/abs/2402.07232v3 )

ライセンス: Link先を確認
Yan Lin, Jilin Hu, Shengnan Guo, Bin Yang, Christian S. Jensen, Youfang Lin, Huaiyu Wan, (参考訳) 車両の移動は、しばしば軌跡、すなわちタイムスタンプされた位置の列の形で捉えられる。 移動時間推定、軌道回復、軌道予測など、軌跡を含む様々なタスクを目標とする多くの手法が存在する。 しかし、ほとんどのメソッドは1つの特定のタスクのみをターゲットにしており、普遍的に適用することはできない。 普遍軌道モデルを作成するための既存の努力は、しばしば異なるタスクに適応するための予測モジュールの追加を伴う。 これらの欠点に対処するために,不完全な軌道やスパース軌道に基づく様々なタスクを,再訓練や余分な予測モジュールを必要とせずに支援するUniversal Vehicle Trajectory Model (UVTM)を提案する。 不完全な軌跡に対するタスク適応性に対処するため、UVTMは軌跡の時空間的特徴を3つの異なる領域に分割する。 各ドメインは、特定のタスクの入力と出力のニーズに合うように、独立してマスクされ、生成される。 スパース軌道を効果的に処理するために、UVTMはスパース標本から高密度サンプル軌道を再構成し、スパース軌道から詳細な時空間情報を抽出することにより事前訓練される。 2つの実世界の車両軌道データセット上の3つの代表的な軌道関連タスクを含む実験は、UVTMの意図された特性性能に関する洞察を与え、UVTMがその目的を満たすことができることを示す。

Vehicle movement is frequently captured in the form of trajectories, i.e., sequences of timestamped locations. Numerous methods exist that target different tasks involving trajectories such as travel-time estimation, trajectory recovery, and trajectory prediction. However, most methods target only one specific task and cannot be applied universally. Existing efforts to create a universal trajectory model often involve adding prediction modules for adapting to different tasks, while also struggle with incomplete or sparse trajectories. To address these shortcomings, we propose the Universal Vehicle Trajectory Model (UVTM) designed to support different tasks based on incomplete or sparse trajectories without the need for retraining or extra prediction modules. To addresses task adaptability on incomplete trajectories, UVTM divide the spatio-temporal features of trajectories into three distinct domains. Each domain can be masked and generated independently to suit the input and output needs of specific tasks. To handle sparse trajectories effectively, UVTM is pre-trained by reconstructing densely sampled trajectories from sparsely sampled ones, allowing it to extract detailed spatio-temporal information from sparse trajectories. Experiments involving three representative trajectory-related tasks on two real-world vehicle trajectory datasets provide insight into the intended properties performance of UVTM and offer evidence that UVTM is capable of meeting its objectives.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# 半密度検出器は局所的特徴のマッチングに優れているか?

Are Semi-Dense Detector-Free Methods Good at Matching Local Features? ( http://arxiv.org/abs/2402.08671v2 )

ライセンス: Link先を確認
Matthieu Vilain, Rémi Giraud, Hugo Germain, Guillaume Bourmaud, (参考訳) LoFTRのようなセミセンス検出器フリーアプローチ(SDF)は、現在最も人気のある画像マッチング手法の一つである。 SDF法は2つの画像間の対応性を確立するために訓練されているが、それらの性能は相対的なポーズ推定指標を用いてほぼ独占的に評価されている。 このように、対応を確立する能力と、推定されたポーズの質との関係は、今のところほとんど注目されていない。 本論文は、このリンクを研究する最初の試みである。 まず、新しく構造化された注目型画像マッチングアーキテクチャ(SAM)を提案する。 2つのデータセット(MegaDepth と HPatches)に反直感的な結果を示すことができる。一方 SAM はポーズ/ホログラフィー推定の指標で SDF メソッドよりも優れているか,あるいは同等である。 次に,マッチング精度の計算をテクスチャ化された領域に制限することを提案する。 以上の結果から,テクスチャ領域における正確な対応性を確立する能力と,推定されたポーズ/ホモグラフィーの精度との間には,強い相関性があることが示唆された。 私たちのコードは利用可能になります。

Semi-dense detector-free approaches (SDF), such as LoFTR, are currently among the most popular image matching methods. While SDF methods are trained to establish correspondences between two images, their performances are almost exclusively evaluated using relative pose estimation metrics. Thus, the link between their ability to establish correspondences and the quality of the resulting estimated pose has thus far received little attention. This paper is a first attempt to study this link. We start with proposing a novel structured attention-based image matching architecture (SAM). It allows us to show a counter-intuitive result on two datasets (MegaDepth and HPatches): on the one hand SAM either outperforms or is on par with SDF methods in terms of pose/homography estimation metrics, but on the other hand SDF approaches are significantly better than SAM in terms of matching accuracy. We then propose to limit the computation of the matching accuracy to textured regions, and show that in this case SAM often surpasses SDF methods. Our findings highlight a strong correlation between the ability to establish accurate correspondences in textured regions and the accuracy of the resulting estimated pose/homography. Our code will be made available.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# MPIrigen:ドメイン特化言語モデルによるMPIコード生成

MPIrigen: MPI Code Generation through Domain-Specific Language Models ( http://arxiv.org/abs/2402.09126v2 )

ライセンス: Link先を確認
Nadav Schneider, Niranjan Hasabnis, Vy A. Vo, Tal Kadosh, Neva Krien, Mihai Capotă, Guy Tamir, Ted Willke, Nesreen Ahmed, Yuval Pinter, Timothy Mattson, Gal Oren, (参考訳) 多くのノードにまたがって計算をスケールする必要があることは、特にMessage Passing Interface(MPI)統合の領域において、効率的な並列コンピューティングの重要性を強調している。 MPIベースの並列プログラムを生成するという挑戦的な並列プログラミングタスクは、まだ未検討のままである。 本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。 GPT-3.5やPolyCoder(特殊化多言語コードモデル)のような広く使われているモデルは、汎用プログラムと比較してMPIベースのプログラムを生成する際に顕著な性能低下を示す。 対照的に、MonoCoderのようなドメイン固有モデルは、CとC++のMPI関連プログラミング言語で事前訓練されており、より大きなモデルよりも優れている。 その後、HPCorpusMPI上でMonoCoderを微調整することで、MPIベースのプログラム生成のダウンストリームタスクを導入する。 結果のモデルを MPIrigen と呼ぶ。 コード全体を観察した後にのみ、完了のための革新的な前処理を提案し、より広いコンテキストで、より良い完了を可能にする。 GPT-3.5ゼロショット性能の比較分析は、新しいHPC指向評価法を用いて、MPIrigenは、位置および関数予測において最大0.8の精度で、引数予測において0.9以上の精度で正確なMPI関数を生成するのに優れていることを示した。 このカスタマイズされたソリューションの成功は、並列コンピューティングコード生成のための言語モデルを最適化する上で、ドメイン固有の微調整の重要性を強調し、新しい世代の自動並列化ツールの道を開いた。 この作業のソースはGitHub MPIrigenリポジトリで公開されています。

The imperative need to scale computation across numerous nodes highlights the significance of efficient parallel computing, particularly in the realm of Message Passing Interface (MPI) integration. The challenging parallel programming task of generating MPI-based parallel programs has remained unexplored. This study first investigates the performance of state-of-the-art language models in generating MPI-based parallel programs. Findings reveal that widely used models such as GPT-3.5 and PolyCoder (specialized multi-lingual code models) exhibit notable performance degradation, when generating MPI-based programs compared to general-purpose programs. In contrast, domain-specific models such as MonoCoder, which are pretrained on MPI-related programming languages of C and C++, outperform larger models. Subsequently, we introduce a dedicated downstream task of MPI-based program generation by fine-tuning MonoCoder on HPCorpusMPI. We call the resulting model as MPIrigen. We propose an innovative preprocessing for completion only after observing the whole code, thus enabling better completion with a wider context. Comparative analysis against GPT-3.5 zero-shot performance, using a novel HPC-oriented evaluation method, demonstrates that MPIrigen excels in generating accurate MPI functions up to 0.8 accuracy in location and function predictions, and with more than 0.9 accuracy for argument predictions. The success of this tailored solution underscores the importance of domain-specific fine-tuning in optimizing language models for parallel computing code generation, paving the way for a new generation of automatic parallelization tools. The sources of this work are available at our GitHub MPIrigen repository: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# DreamMatcher:Semantically-Consistent Text-to- Image Personalizationのための自己認識の出現マッチング

DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization ( http://arxiv.org/abs/2402.09812v2 )

ライセンス: Link先を確認
Jisu Nam, Heesu Kim, DongJae Lee, Siyoon Jin, Seungryong Kim, Seunggyu Chang, (参考訳) テキスト・ツー・イメージ(T2I)のパーソナライズの目的は、ユーザが提供する参照概念に拡散モデルをカスタマイズし、ターゲットのプロンプトに沿った概念の多様なイメージを生成することである。 ユニークなテキスト埋め込みを使用して参照概念を表現する従来の方法は、参照の外観を正確に模倣することができないことが多い。 これを解決するために、あるソリューションは、キー-値置換と呼ばれるターゲットのデノナイジングプロセスに参照イメージを明示的に条件付けする。 しかし、事前訓練されたT2Iモデルの構造経路を乱すため、事前の作業は局所的な編集に制約される。 そこで本研究では,T2Iパーソナライゼーションをセマンティックマッチングとして再構成するDreamMatcherという新しいプラグイン手法を提案する。 具体的には、DreamMatcherは、ターゲットの値をセマンティックマッチングで整列された参照値に置き換えると同時に、構造パスをそのままにして、様々な構造を生成するための事前訓練されたT2Iモデルの汎用性を維持する。 また、ターゲットプロンプトによって導入された無関係領域からパーソナライズされた概念を分離するための意味一貫性マスキング戦略を導入する。 既存のT2Iモデルと互換性があるが、DreamMatcherは複雑なシナリオで大幅に改善されている。 集中分析は我々のアプローチの有効性を実証する。

The objective of text-to-image (T2I) personalization is to customize a diffusion model to a user-provided reference concept, generating diverse images of the concept aligned with the target prompts. Conventional methods representing the reference concepts using unique text embeddings often fail to accurately mimic the appearance of the reference. To address this, one solution may be explicitly conditioning the reference images into the target denoising process, known as key-value replacement. However, prior works are constrained to local editing since they disrupt the structure path of the pre-trained T2I model. To overcome this, we propose a novel plug-in method, called DreamMatcher, which reformulates T2I personalization as semantic matching. Specifically, DreamMatcher replaces the target values with reference values aligned by semantic matching, while leaving the structure path unchanged to preserve the versatile capability of pre-trained T2I models for generating diverse structures. We also introduce a semantic-consistent masking strategy to isolate the personalized concept from irrelevant regions introduced by the target prompts. Compatible with existing T2I models, DreamMatcher shows significant improvements in complex scenarios. Intensive analyses demonstrate the effectiveness of our approach.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# 部分的関連性向上によるビデオコーパスモーメント検索の改善

Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement ( http://arxiv.org/abs/2402.13576v2 )

ライセンス: Link先を確認
Danyang Hou, Liang Pang, Huawei Shen, Xueqi Cheng, (参考訳) Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。 ビデオとクエリの関係は部分的であり、主に2つの側面で明らかである:~(1)~Scope: トリミングされていないビデオには多くのフレームが含まれているが、すべてクエリに関連するわけではない。 強い関連性は通常、関連する瞬間の中でのみ観察される。 ~(2)~モダリティ:クエリの関連性は様々である。 動作記述は視覚的要素と一致し,文字会話はテキスト情報と関係が深く,既存の手法ではすべての映像コンテンツが等しく扱われることが多いため,準最適モーメント検索に繋がる。 我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。 本稿では,VCMRを改善するための部分関連拡張モデル~(PREM)を提案する。 VCMRにはビデオ検索とモーメントローカライゼーションという2つのサブタスクがある。 それぞれの目的に合わせるため、我々は特殊部分的関連性強化戦略を実装した。 ビデオ検索にはマルチモーダル協調型ビデオ検索装置を導入し、モダリティ特異的プールにより2つのモーダルに対して異なるクエリ表現を生成し、より効果的なマッチングを実現する。 そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。 また,検索者とローカライザの双方を対象とした関連コンテンツ強化学習手法を導入し,関連コンテンツを取得するためのモデル機能を強化する。 TVRとDiDeMoデータセットの実験結果は、提案モデルがベースラインを上回っ、VCMRの新たな最先端を実現していることを示している。 コードは \url{https://github.com/hdy007007/PREM} で公開されている。

Video Corpus Moment Retrieval (VCMR) is a new video retrieval task aimed at retrieving a relevant moment from a large corpus of untrimmed videos using a text query. The relevance between the video and query is partial, mainly evident in two aspects:~(1)~Scope: The untrimmed video contains many frames, but not all are relevant to the query. Strong relevance is typically observed only within the relevant moment.~(2)~Modality: The relevance of the query varies with different modalities. Action descriptions align more with visual elements, while character conversations are more related to textual information.Existing methods often treat all video contents equally, leading to sub-optimal moment retrieval. We argue that effectively capturing the partial relevance between the query and video is essential for the VCMR task. To this end, we propose a Partial Relevance Enhanced Model~(PREM) to improve VCMR. VCMR involves two sub-tasks: video retrieval and moment localization. To align with their distinct objectives, we implement specialized partial relevance enhancement strategies. For video retrieval, we introduce a multi-modal collaborative video retriever, generating different query representations for the two modalities by modality-specific pooling, ensuring a more effective match. For moment localization, we propose the focus-then-fuse moment localizer, utilizing modality-specific gates to capture essential content. We also introduce relevant content-enhanced training methods for both retriever and localizer to enhance the ability of model to capture relevant content. Experimental results on TVR and DiDeMo datasets show that the proposed model outperforms the baselines, achieving a new state-of-the-art of VCMR. The code is available at \url{https://github.com/hdy007007/PREM}.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# サブオブジェクトレベルの画像トークン化

Subobject-level Image Tokenization ( http://arxiv.org/abs/2402.14327v2 )

ライセンス: Link先を確認
Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung, (参考訳) トランスフォーマーベースの視覚モデルは通常、イメージを固定サイズの正方形パッチに入力単位としてトークン化し、画像の内容への適応性に欠け、固有のピクセルグループ構造を見落としている。 言語モデルに広く採用されているサブワードトークン化に着想を得て,サブオブジェクトレベルでのイメージトークン化を提案し,サブオブジェクトはセグメンテーションモデル(例えば,セグメンテーションモデル)によって得られた意味的に意味のあるイメージセグメントによって表現される。 サブオブジェクトのトークン化に基づく学習システムを実現するために,我々はまず,サブオブジェクトの包括的セグメンテーションを効率よく生成するDirectSAM(Direct Segment Anything Model)を導入し,そのサブオブジェクトをコンパクトな潜在ベクトルに埋め込み,視覚言語学習のための大規模言語モデルに入力した。 実験により,我々のサブオブジェクトレベルのトークン化は,従来のパッチレベルのトークン化と比較して,画像のオブジェクトや属性記述への変換を効率よく行うことができることを示した。 コードとモデルはhttps://github.com/ChenDelong 1999/subjectsでオープンソース化されている。

Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Direct Segment Anything Model (DirectSAM) that efficiently produces comprehensive segmentation of subobjects, then embed subobjects into compact latent vectors and fed them into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models are open-sourced at https://github.com/ChenDelong1999/subobjects.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# 理解する: CLIP-Guided Decoding による大規模視覚言語モデルにおける幻覚の緩和

Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding ( http://arxiv.org/abs/2402.15300v2 )

ライセンス: Link先を確認
Ailin Deng, Zhirui Chen, Bryan Hooi, (参考訳) LVLM(Large Vision-Language Models)は、生成したテキストが存在しないオブジェクトを含む問題であり、その信頼性と実用性を大幅に制限する。 現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存し、追加のデータセットをチューニングしたり、複雑な外部ツールを組み込んだりしている。 文レベルのLVLM幻覚に関する実証分析を行い,CLIPと画像との類似性はトークンの確率よりも強く,より堅牢な幻覚の指標として機能することを発見した。 そこで我々は,CLIP-Guided Decoding (CGD) アプローチを導入する。 CGDはCLIPを使用して、生成されたテキストを画像で視覚的にグラウンド化することで、モデルのデコードプロセスをガイドする。 実験により、CGDはテキスト生成の有用性を保ちながら、複数のLVLMファミリーにまたがるオブジェクト幻覚を効果的に緩和することが示された。 コードはhttps://github.com/d-ailin/CLIP-Guided-Decodingで入手できる。

Large Vision-Language Models (LVLMs) are susceptible to object hallucinations, an issue in which their generated text contains non-existent objects, greatly limiting their reliability and practicality. Current approaches often rely on the model's token likelihoods or other internal information, instruction tuning on additional datasets, or incorporating complex external tools. We first perform empirical analysis on sentence-level LVLM hallucination, finding that CLIP similarity to the image acts as a stronger and more robust indicator of hallucination compared to token likelihoods. Motivated by this, we introduce our CLIP-Guided Decoding (CGD) approach, a straightforward but effective training-free approach to reduce object hallucination at decoding time. CGD uses CLIP to guide the model's decoding process by enhancing visual grounding of generated text with the image. Experiments demonstrate that CGD effectively mitigates object hallucination across multiple LVLM families while preserving the utility of text generation. Codes are available at https://github.com/d-ailin/CLIP-Guided-Decoding.
翻訳日:2024-04-24 19:16:06 公開日:2024-04-23
# 基礎モデルの事前学習のための統合データ処理フレームワーク

An Integrated Data Processing Framework for Pretraining Foundation Models ( http://arxiv.org/abs/2402.16358v2 )

ライセンス: Link先を確認
Yiding Sun, Feng Wang, Yutao Zhu, Wayne Xin Zhao, Jiaxin Mao, (参考訳) 基礎モデルの能力は、大規模で多様な、高品質な事前学習データに大きく依存している。 データ品質を改善するために、研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートし、データリポジトリごとに専用のデータクリーニングパイプラインを開発する必要がある。 統一されたデータ処理フレームワークを欠いたこのプロセスは反復的で面倒です。 この問題を軽減するために,異なる粒度レベルで一連の演算子で構成される処理モジュールと,改良されたデータの探索と評価をサポートする解析モジュールを統合したデータ処理フレームワークを提案する。 提案されたフレームワークは使いやすく、柔軟です。 本稿では、まず、このフレームワークをいくつかのユースケースで利用する方法を紹介し、次に、ChatGPTによる自動評価とGPT-2モデルの事前訓練におけるエンドツーエンド評価によるデータ品質向上の有効性を示す。 コードとデモビデオはGitHubからアクセスできる。

The ability of the foundation models heavily relies on large-scale, diverse, and high-quality pretraining data. In order to improve data quality, researchers and practitioners often have to manually curate datasets from difference sources and develop dedicated data cleansing pipeline for each data repository. Lacking a unified data processing framework, this process is repetitive and cumbersome. To mitigate this issue, we propose a data processing framework that integrates a Processing Module which consists of a series of operators at different granularity levels, and an Analyzing Module which supports probing and evaluation of the refined data. The proposed framework is easy to use and highly flexible. In this demo paper, we first introduce how to use this framework with some example use cases and then demonstrate its effectiveness in improving the data quality with an automated evaluation with ChatGPT and an end-to-end evaluation in pretraining the GPT-2 model. The code and demonstration videos are accessible on GitHub.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# コース記述を用いた持続可能な開発目標の予測 - LLMから従来の基礎モデルへ-

Predicting Sustainable Development Goals Using Course Descriptions -- from LLMs to Conventional Foundation Models ( http://arxiv.org/abs/2402.16420v2 )

ライセンス: Link先を確認
Lev Kharlashkin, Melany Macias, Leo Huovinen, Mika Hämäläinen, (参考訳) 大学コースにおける国連の持続可能な開発目標(SDG)の予測に関する研究について述べる。 ノイズの多いコース記述が入力として入力された場合,PALM 2 という LLM を用いてトレーニングデータを生成する。 このデータを使って、大学コースのSDGを予測するために、いくつかの小さな言語モデルをトレーニングします。 この研究は、SDGの大学レベルの適応に寄与する。 私たちの実験で最高のパフォーマンスモデルは、F1スコア0.786のBARTでした。

We present our work on predicting United Nations sustainable development goals (SDG) for university courses. We use an LLM named PaLM 2 to generate training data given a noisy human-authored course description input as input. We use this data to train several different smaller language models to predict SDGs for university courses. This work contributes to better university level adaptation of SDGs. The best performing model in our experiments was BART with an F1-score of 0.786.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# StructLM:構造化知識接地のためのジェネリストモデルの構築に向けて

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding ( http://arxiv.org/abs/2402.16671v5 )

ライセンス: Link先を確認
Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen, (参考訳) テーブル、グラフ、データベースなどの構造化データソースはユビキタスな知識ソースである。 プレーンテキスト上での大規模言語モデル(LLM)の実証能力にもかかわらず、構造化データの解釈と利用能力は依然として限られている。 以上の結果から,LLMが構造化データ処理能力に欠如していることが明らかとなった。例えば,最先端(SoTA)モデルよりも平均35%遅れたChatGPTラグについて検討した。 LLMにおける構造化知識基盤(Structured Knowledge Grounding, SKG)機能を強化するため、我々は1100万例からなる総合的な指導チューニングデータセットを開発した。 このデータセットを利用して、7Bから34BパラメータのMistralとCodeLlamaモデルファミリに基づいて、StructLMと呼ばれる一連のモデルをトレーニングします。 我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。 さらに、StructLMは6つの新しいSKGタスクに対して強力な一般化を示し、TableLlamaを平均35\%、Flan-UL2 20Bを平均10\%で上回る。 予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。 これは、構造化された知識基盤は依然として困難な課題であり、新しいレベルに進むためにはより革新的な設計が必要であることを示唆している。

Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Mistral and the CodeLlama model family, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 16 out of 18 evaluated datasets and establishes new SoTA performance on 8 SKG tasks. Furthermore, StructLM demonstrates strong generalization across 6 novel held-out SKG tasks, outperforming TableLlama by an average of 35\% and Flan-UL2 20B by an average of 10\%. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# ニューラルグラフ生成:潜在拡散モデルを用いた特徴量付きグラフ生成

Neural Graph Generator: Feature-Conditioned Graph Generation using Latent Diffusion Models ( http://arxiv.org/abs/2403.01535v2 )

ライセンス: Link先を確認
Iakovos Evdaimon, Giannis Nikolentzos, Michail Chatzianastasis, Hadi Abdine, Michalis Vazirgiannis, (参考訳) グラフ生成は、特定のプロパティを正確に反映するグラフを生成する上で重要な課題を持つ、機械学習における重要なタスクとして現れている。 既存の手法はしばしば、高次元の複雑さとグラフ特性の様々な性質に苦しむため、このニーズに効率的に対処するのに不足する。 本稿では,グラフ生成のための条件付き潜伏拡散モデルを用いたニューラルグラフ生成器(NGG)を提案する。 NGGは複雑なグラフパターンをモデル化し、グラフ生成プロセスの制御を提供する。 NGGはグラフ圧縮のための変分グラフオートエンコーダと、グラフ統計を要約するベクトルによって導かれる潜在ベクトル空間における拡散過程を用いる。 様々なグラフ生成タスクにおけるNGGの汎用性を実証し、所望のグラフ特性を捕捉し、目に見えないグラフに一般化する能力を示す。 この研究はグラフ生成手法の大幅な変化を示し、特定の特性を持つ多種多様なグラフを生成するためのより実用的で効率的なソリューションを提供する。

Graph generation has emerged as a crucial task in machine learning, with significant challenges in generating graphs that accurately reflect specific properties. Existing methods often fall short in efficiently addressing this need as they struggle with the high-dimensional complexity and varied nature of graph properties. In this paper, we introduce the Neural Graph Generator (NGG), a novel approach which utilizes conditioned latent diffusion models for graph generation. NGG demonstrates a remarkable capacity to model complex graph patterns, offering control over the graph generation process. NGG employs a variational graph autoencoder for graph compression and a diffusion process in the latent vector space, guided by vectors summarizing graph statistics. We demonstrate NGG's versatility across various graph generation tasks, showing its capability to capture desired graph properties and generalize to unseen graphs. This work signifies a significant shift in graph generation methodologies, offering a more practical and efficient solution for generating diverse types of graphs with specific characteristics.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# 量子コンピュータにおける化学反応のシミュレーション

Simulation of Chemical Reactions on a Quantum Computer ( http://arxiv.org/abs/2403.03052v2 )

ライセンス: Link先を確認
Sumit Suresh Kale, Sabre Kais, (参考訳) 化学反応、特にガス相の研究は散乱行列要素の計算に大きく依存している。 これらの元素は分子反応を特徴づけ、反応確率を正確に決定するために必須である。 しかし、量子相互作用の複雑な性質は、固有の複雑さに取り組むために高度な数学的モデルと計算的アプローチを使う必要があるという課題を引き起こす。 本研究では,散乱行列要素の計算のための量子アルゴリズムを開発し,応用する。 本稿では,M\"oller演算子の定式化に基づく時間依存手法を用いて,各反応器と製品チャネル間のS行列要素を,反応器と製品M\"ollerの時間相関関数によって決定する。 量子アルゴリズムを用いて1次元半無限2乗井戸ポテンシャルと共線形水素交換反応に対する散乱行列要素の計算に成功した。 量子相互作用の複雑さをナビゲートするにつれて、この量子アルゴリズムは一般的になり、量子コンピュータ上での化学反応をシミュレートする新たな可能性に光を当てる、有望な道として現れる。

Studying chemical reactions, particularly in the gas phase, relies heavily on computing scattering matrix elements. These elements are essential for characterizing molecular reactions and accurately determining reaction probabilities. However, the intricate nature of quantum interactions poses challenges, necessitating the use of advanced mathematical models and computational approaches to tackle the inherent complexities. In this study, we develop and apply a quantum algorithm for the calculation of scattering matrix elements. In our approach, we employ the time-dependent method based on the M\"oller operator formulation where the S-matrix element between the respective reactant and product channels is determined through the time correlation function of the reactant and product M\"oller wavepackets. We successfully apply our quantum algorithm to calculate scattering matrix elements for 1D semi-infinite square well potential and on the co-linear hydrogen exchange reaction. As we navigate the complexities of quantum interactions, this quantum algorithm is general and emerges as a promising avenue, shedding light on new possibilities for simulating chemical reactions on quantum computers.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# NaturalSpeech 3:分解コーデックと拡散モデルを用いたゼロショット音声合成

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models ( http://arxiv.org/abs/2403.03100v3 )

ライセンス: Link先を確認
Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao, (参考訳) 最近の大規模音声合成(TTS)モデルは大きな進歩を遂げているが、音声品質、類似性、韻律に乏しい。 音声は、様々な属性(例えば、内容、韻律、音色、音色など)を複雑に包含し、生成に重大な課題を生じさせることを考えると、自然な考え方は、異なる属性を表す個々の部分空間に分解し、個別に生成することである。 そこで本研究では,ゼロショット方式で自然言語を生成するために,新しい因子化拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。 具体的には 1)因子化ベクトル量子化(FVQ)を用いたニューラルコーデックを設計し,音声波形をコンテンツ,韻律,音韻,音響的詳細の部分空間に分解する。 2) 各部分空間の属性を対応するプロンプトに従って生成する因子拡散モデルを提案する。 この因子化設計により、NaturalSpeech 3 は、分割とコンカレントな方法で、非絡み合った部分空間を持つ複雑な音声を効果的に、効率的にモデル化することができる。 実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れており、人間の録音によるオンパー品質を実現していることが示された。 さらに、1Bパラメータと200K時間のトレーニングデータにスケーリングすることで、より良いパフォーマンスを実現しています。

While recent large-scale text-to-speech (TTS) models have achieved significant progress, they still fall short in speech quality, similarity, and prosody. Considering speech intricately encompasses various attributes (e.g., content, prosody, timbre, and acoustic details) that pose significant challenges for generation, a natural idea is to factorize speech into individual subspaces representing different attributes and generate them individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with novel factorized diffusion models to generate natural speech in a zero-shot way. Specifically, 1) we design a neural codec with factorized vector quantization (FVQ) to disentangle speech waveform into subspaces of content, prosody, timbre, and acoustic details; 2) we propose a factorized diffusion model to generate attributes in each subspace following its corresponding prompt. With this factorization design, NaturalSpeech 3 can effectively and efficiently model intricate speech with disentangled subspaces in a divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the state-of-the-art TTS systems on quality, similarity, prosody, and intelligibility, and achieves on-par quality with human recordings. Furthermore, we achieve better performance by scaling to 1B parameters and 200K hours of training data.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# WMDPベンチマーク:アンラーニングによる悪意的使用の測定と削減

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning ( http://arxiv.org/abs/2403.03218v3 )

ライセンス: Link先を確認
Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan, Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub Tamirisa, Bhrugu Bharathi, Adam Khoja, Zhenqi Zhao, Ariel Herbert-Voss, Cort B. Breuer, Sam Marks, Oam Patel, Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Liu, Adam A. Hunt, Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz, Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Yan Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang, Dan Hendrycks, (参考訳) ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。 悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。 しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。 さらに、悪意のある使用のための、非常に特殊な経路にのみ焦点をあてている。 これらのギャップを埋めるために、私たちは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティにおける有害な知識のプロキシ測定として機能する、4,157の多重選択質問のデータセットであるWMDP(Weapons of Mass Destruction Proxy)ベンチマークを公開しました。 WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。 WMDPは、まず、LLMにおける有害な知識の評価として、そして次に、そのような有害な知識を取り除くための未学習手法のベンチマークとして、2つの役割を果たす。 モデル表現の制御に基づく最先端のアンラーニング手法であるCUTを開発した。 CUTは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させる。 私たちはベンチマークとコードをhttps://wmdp.aiで公開しています。

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 4,157 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop CUT, a state-of-the-art unlearning method based on controlling model representations. CUT reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# UltraWiki: 負の種子を持つ超微細なエンティティセットの拡張

UltraWiki: Ultra-fine-grained Entity Set Expansion with Negative Seed Entities ( http://arxiv.org/abs/2403.04247v2 )

ライセンス: Link先を確認
Yangning Li, Qingsong Lv, Tianyu Yu, Yinghui Li, Shulin Huang, Tingwei Lu, Xuming Hu, Wenhao JIang, Hai-Tao Zheng, Hui Wang, (参考訳) Entity Set Expansion (ESE)は、与えられたシードエンティティのセットと同じセマンティッククラスに属する新しいエンティティを特定することを目的としている。 従来のメソッドは、ターゲットセマンティッククラスを表現するために、主に正のシードエンティティに依存しており、これは超微細なセマンティッククラスを表現する上での課題である。 超微粒なセマンティッククラスは、より特定の属性制約を持つ細粒なセマンティッククラスに基づいて定義される。 ポジティブなシードエンティティだけで記述することは、以下の2つの問題を引き起こす。 (i)超きめ細かい意味クラス間のあいまいさ。 (ii)「望ましくない」意味を定義することができないこと。 これらの固有の欠点のため、従来の手法は超微細な ESE (Ultra-ESE) に対処するのに苦労していた。 この問題を解決するために、まず、正のシードエンティティと同じ粒度のセマンティッククラスに属するが、特定の属性が異なる入力に負のシードエンティティを導入する。 負の種実体は、正と負の属性の対比によって意味的あいまいさを排除している。 一方、これは「望ましくない」を表現するための簡単な方法である。 我々はUltra-ESEのモデル性能を評価するために,Ultra-ESEに適した最初の大規模データセットであるUltraWikiを構築した。 UltraWikiは236の超微細なセマンティッククラスを含み、それぞれのクエリは3-5の正と負のシードエンティティで表現される。 検索に基づくフレームワークRetExpanと世代ベースのフレームワークGenExpanを提案し,Ultra-ESEにおける2つの異なるパラダイムから大規模言語モデルの有効性を総合的に評価した。 さらに,モデルが持つ超きめ細かなセマンティクスの理解を強化するための3つの戦略を考案した。 また,提案手法の有効性を確認し,Ultra-ESEに改善の余地があることも明らかにした。

Entity Set Expansion (ESE) aims to identify new entities belonging to the same semantic class as a given set of seed entities. Traditional methods primarily relied on positive seed entities to represent a target semantic class, which poses challenge for the representation of ultra-fine-grained semantic classes. Ultra-fine-grained semantic classes are defined based on fine-grained semantic classes with more specific attribute constraints. Describing it with positive seed entities alone cause two issues: (i) Ambiguity among ultra-fine-grained semantic classes. (ii) Inability to define "unwanted" semantic. Due to these inherent shortcomings, previous methods struggle to address the ultra-fine-grained ESE (Ultra-ESE). To solve this issue, we first introduce negative seed entities in the inputs, which belong to the same fine-grained semantic class as the positive seed entities but differ in certain attributes. Negative seed entities eliminate the semantic ambiguity by contrast between positive and negative attributes. Meanwhile, it provide a straightforward way to express "unwanted". To assess model performance in Ultra-ESE, we constructed UltraWiki, the first large-scale dataset tailored for Ultra-ESE. UltraWiki encompasses 236 ultra-fine-grained semantic classes, where each query of them is represented with 3-5 positive and negative seed entities. A retrieval-based framework RetExpan and a generation-based framework GenExpan are proposed to comprehensively assess the efficacy of large language models from two different paradigms in Ultra-ESE. Moreover, we devised three strategies to enhance models' comprehension of ultra-fine-grained entities semantics: contrastive learning, retrieval augmentation, and chain-of-thought reasoning. Extensive experiments confirm the effectiveness of our proposed strategies and also reveal that there remains a large space for improvement in Ultra-ESE.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# FlowVQTalker: 正規化フローと量子化による高品質感情会話顔生成

FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization ( http://arxiv.org/abs/2403.06375v3 )

ライセンス: Link先を確認
Shuai Tan, Bin Ji, Ye Pan, (参考訳) 感情的な会話の顔を生成することは、実用的だが挑戦的な試みである。 生命のようなアバターを作るには、人間の視点から2つの重要な洞察を導きます。 1) 音声と非決定論的顔力学の関連性は, 表情, まばたき, ポーズを包含し, 同期的かつ一対一なマッピングを提示すべきである。 2) バイブラント表現には感情認識型高精細感 (HD) 感触と細かな歯が伴うことが多い。 しかし、どちらの側面も既存の手法では見過ごされがちである。 そこで本研究では,フローとベクトル量子化の正規化モデルを用いて,両方の洞察を同時に満たす感情的な発話顔を生成する(FlowVQTalker)。 具体的には、混合分布を表す多感情級潜伏空間に顔の感情のダイナミクスを符号化するフローベース係数生成器を開発する。 生成プロセスは、モデル化された分布からランダムサンプリングを行い、伴奏音声によって誘導され、リップ同期と不確定な非言語顔手がかりの生成を可能にする。 さらに,提案設計したベクトル量子化画像生成装置は,表現的顔画像の生成をコードクエリタスクとして扱い,学習したコードブックを用いて,結果の感情的知覚を高めるリッチで高品質なテクスチャを提供する。 本手法の有効性を示すため,広範囲な実験を行った。

Generating emotional talking faces is a practical yet challenging endeavor. To create a lifelike avatar, we draw upon two critical insights from a human perspective: 1) The connection between audio and the non-deterministic facial dynamics, encompassing expressions, blinks, poses, should exhibit synchronous and one-to-many mapping. 2) Vibrant expressions are often accompanied by emotion-aware high-definition (HD) textures and finely detailed teeth. However, both aspects are frequently overlooked by existing methods. To this end, this paper proposes using normalizing Flow and Vector-Quantization modeling to produce emotional talking faces that satisfy both insights concurrently (FlowVQTalker). Specifically, we develop a flow-based coefficient generator that encodes the dynamics of facial emotion into a multi-emotion-class latent space represented as a mixture distribution. The generation process commences with random sampling from the modeled distribution, guided by the accompanying audio, enabling both lip-synchronization and the uncertain nonverbal facial cues generation. Furthermore, our designed vector-quantization image generator treats the creation of expressive facial images as a code query task, utilizing a learned codebook to provide rich, high-quality textures that enhance the emotional perception of the results. Extensive experiments are conducted to showcase the effectiveness of our approach.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# マルチセットトモグラフィー:可観測物の多重集合分割による量子計測の最適化

Multiset tomography: Optimizing quantum measurements by partitioning multisets of observables ( http://arxiv.org/abs/2403.07068v2 )

ライセンス: Link先を確認
Otto Veltheim, Esko Keski-Vakkuri, (参考訳) 量子トモグラフィーのアプローチは通常、測定したい一連の観測可能なものを検討し、それぞれの観測可能なものを測定し、必要に応じて何回も測定を繰り返す計測スキームを設計する。 観測可能量の単純な集合のみを考慮する代わりに、測定回数を最小限に抑えるために、必要な繰り返しを考慮して観測可能量の多重集合を考える必要がある。 これはグラフ理論の多色化問題につながる。 マルチセットトモグラフィーは2次的改善が期待できるが,実現可能である。 さらに、NPハードの最適色付け問題にもかかわらず、グリーディ色付けアルゴリズムによるマルチセットアプローチは、テストケースにおいて漸近的に2次的に改善されている。

Quantum tomography approaches typically consider a set of observables which we wish to measure, design a measurement scheme which measures each of the observables and then repeats the measurements as many times as necessary. We show that instead of considering only the simple set of observables, one should consider a multiset of the observables taking into account the required repetitions, to minimize the number of measurements. This leads to a graph theoretic multicolouring problem. We show that multiset tomography offers at most quadratic improvement but it is achievable. Furthermore, despite the NP-hard optimal colouring problem, the multiset approach with greedy colouring algorithms already offers asymptotically quadratic improvement in test cases.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# $\widetilde{O}(T^{-1})$ Convergence to (Coarse) Correlated Equilibria in full-information General-Sum Markov Games

$\widetilde{O}(T^{-1})$ Convergence to (Coarse) Correlated Equilibria in Full-Information General-Sum Markov Games ( http://arxiv.org/abs/2403.07890v2 )

ライセンス: Link先を確認
Weichao Mao, Haoran Qiu, Chen Wang, Hubertus Franke, Zbigniew Kalbarczyk, Tamer Başar, (参考訳) 非回帰学習は、ゲーム理論と密接な関係を持つ長い歴史を持つ。 最近の研究は、正規形式ゲームにおける全てのプレイヤーが採用する非連立学習力学を考案し、古典的非連立学習者のレートである$O(1/\sqrt{T})よりも大幅に向上した$\widetilde{O}(T^{-1})$で、様々な平衡解に収束する。 しかし、類似の収束結果はマルコフゲームでは不足しており、マルチエージェント強化学習の基礎となるより一般的な設定である。 本研究では,楽観的フォロー・ザ・レギュラライズド・リーダー(OFTRL)アルゴリズムと適切な値更新手順を併用して,フルインフォームの汎用マルコフゲームにおいて,$\widetilde{O}(T^{-1})$-approximate (coarse) 相関平衡が$T$反復で得られることを示すことにより,このギャップを埋める。 また,我々の理論的知見を裏付ける数値的な結果も含んでいる。

No-regret learning has a long history of being closely connected to game theory. Recent works have devised uncoupled no-regret learning dynamics that, when adopted by all the players in normal-form games, converge to various equilibrium solutions at a near-optimal rate of $\widetilde{O}(T^{-1})$, a significant improvement over the $O(1/\sqrt{T})$ rate of classic no-regret learners. However, analogous convergence results are scarce in Markov games, a more generic setting that lays the foundation for multi-agent reinforcement learning. In this work, we close this gap by showing that the optimistic-follow-the-regularized-leader (OFTRL) algorithm, together with appropriate value update procedures, can find $\widetilde{O}(T^{-1})$-approximate (coarse) correlated equilibria in full-information general-sum Markov games within $T$ iterations. Numerical results are also included to corroborate our theoretical findings.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# パディングフロー:パディング次元雑音による正規化フローの改善

PaddingFlow: Improving Normalizing Flows with Padding-Dimensional Noise ( http://arxiv.org/abs/2403.08216v2 )

ライセンス: Link先を確認
Qinglong Meng, Chongkun Xia, Xueqian Wang, (参考訳) フローの正規化は効率的なサンプリングを伴う生成的モデリング手法である。 しかし、フローベースのモデルには2つの問題がある。 1) 対象分布が多様体である場合, 潜在対象分布とデータ分布の次元が一致しないため, フローベースモデルの性能は著しく低下する可能性がある。 2)離散データは,フローベースモデルを点質量の縮退混合に分解させる可能性がある。 このような2つの問題を副次的に解決するために,パディングフロー (PaddingFlow) を提案する。 PaddingFlowを実装するには、正規化フローの次元だけを変更する必要がある。 したがって,本手法は実装が容易で,計算コストも高い。 さらに、パディング次元ノイズはパディング次元にのみ付加されるため、データ分布を変化させることなくパディングフローを復調することができる。 既存のdequantizationメソッドを実装するには、データ分散を変更する必要がある。 本研究では,変分オートエンコーダ(VAE)モデルのための5つの表付きデータセットと4つの画像データセットと,条件付き密度推定である逆運動学(IK)実験を含む,条件付き密度推定の主ベンチマーク上で本手法の有効性を検証する。 その結果,PaddingFlowは様々なタスクに広く適していることがわかった。 コードは、https://github.com/AdamQLMeng/PaddingFlow.comで入手できる。

Normalizing flow is a generative modeling approach with efficient sampling. However, Flow-based models suffer two issues: 1) If the target distribution is manifold, due to the unmatch between the dimensions of the latent target distribution and the data distribution, flow-based models might perform badly. 2) Discrete data might make flow-based models collapse into a degenerate mixture of point masses. To sidestep such two issues, we propose PaddingFlow, a novel dequantization method, which improves normalizing flows with padding-dimensional noise. To implement PaddingFlow, only the dimension of normalizing flows needs to be modified. Thus, our method is easy to implement and computationally cheap. Moreover, the padding-dimensional noise is only added to the padding dimension, which means PaddingFlow can dequantize without changing data distributions. Implementing existing dequantization methods needs to change data distributions, which might degrade performance. We validate our method on the main benchmarks of unconditional density estimation, including five tabular datasets and four image datasets for Variational Autoencoder (VAE) models, and the Inverse Kinematics (IK) experiments which are conditional density estimation. The results show that PaddingFlow can perform better in all experiments in this paper, which means PaddingFlow is widely suitable for various tasks. The code is available at: https://github.com/AdamQLMeng/PaddingFlow.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# 自律エージェントの信頼を高める - ブロックチェーンと大規模言語モデルによる説明可能性と説明可能性のアーキテクチャ

Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models ( http://arxiv.org/abs/2403.09567v2 )

ライセンス: Link先を確認
Laura Fernández-Becerra, Miguel Ángel González-Santamarta, Ángel Manuel Guerrero-Higueras, Francisco Javier Rodríguez-Lera, Vicente Matellán Olivera, (参考訳) ヒューマンインタラクションを含む環境における自律エージェントの展開は、セキュリティ上の懸念をますます高めている。 その結果、イベントの背後にある状況を理解することが重要になり、専門家でないユーザにその振る舞いを正当化する能力の開発が求められます。 このような説明は信頼性と安全性を高める上で不可欠であり、失敗、誤り、誤解に対する予防措置として機能する。 さらに、コミュニケーションの改善に寄与し、エージェントとユーザの間のギャップを埋め、それによってインタラクションの有効性を向上させる。 この研究は、ROSベースの移動ロボットに実装された説明可能性と説明可能性のアーキテクチャを示す。 提案手法は2つの主成分からなる。 まず、ブラックボックスのような要素が説明責任を提供し、ブロックチェーン技術によって達成されるアンチタンパリング特性を特徴とする。 第二に、前述のブラックボックスに含まれるデータに対して、Large Language Models(LLM)の機能を利用することで、自然言語の説明を生成するコンポーネントである。 本研究は,自律エージェントナビゲーション機能を含む3つのシナリオにおいて,ソリューションの性能を評価する。 この評価には、説明可能性と説明可能性のメトリクスの徹底的な検証が含まれており、実際のシナリオにおいて自律エージェントの使用に固有の課題に直面した場合でも、ロボットアクションから説明可能なデータを使用して、一貫性があり、正確で理解可能な説明を得るためのアプローチの有効性を実証している。

The deployment of autonomous agents in environments involving human interaction has increasingly raised security concerns. Consequently, understanding the circumstances behind an event becomes critical, requiring the development of capabilities to justify their behaviors to non-expert users. Such explanations are essential in enhancing trustworthiness and safety, acting as a preventive measure against failures, errors, and misunderstandings. Additionally, they contribute to improving communication, bridging the gap between the agent and the user, thereby improving the effectiveness of their interactions. This work presents an accountability and explainability architecture implemented for ROS-based mobile robots. The proposed solution consists of two main components. Firstly, a black box-like element to provide accountability, featuring anti-tampering properties achieved through blockchain technology. Secondly, a component in charge of generating natural language explanations by harnessing the capabilities of Large Language Models (LLMs) over the data contained within the previously mentioned black box. The study evaluates the performance of our solution in three different scenarios, each involving autonomous agent navigation functionalities. This evaluation includes a thorough examination of accountability and explainability metrics, demonstrating the effectiveness of our approach in using accountable data from robot actions to obtain coherent, accurate and understandable explanations, even when facing challenges inherent in the use of autonomous agents in real-world scenarios.
翻訳日:2024-04-24 19:06:16 公開日:2024-04-23
# モデル反転攻撃に対するプライバシ保護顔認識のための適応ハイブリッドマスキング戦略

Adaptive Hybrid Masking Strategy for Privacy-Preserving Face Recognition Against Model Inversion Attack ( http://arxiv.org/abs/2403.10558v2 )

ライセンス: Link先を確認
Yinggui Wang, Yuanqing Huang, Jianshu Li, Le Yang, Kai Song, Lei Wang, (参考訳) 訓練顔認証(FR)モデルにおける個人機密データの利用は、敵が元のトレーニングデータを推測するためにモデル反転攻撃(MIA)を適用できるため、重要なプライバシー上の懸念を生じさせる。 データ強化や差分プライバシーといった既存の防衛手法が、この問題を軽減するために使われてきた。 しかし、これらの手法は、プライバシーと精度の最適なバランスをとらないことが多い。 この制限に対処するために,MIAに対する適応型ハイブリッドマスキングアルゴリズムを提案する。 具体的には、適応型MixUp戦略を用いて、周波数領域に顔画像が隠蔽される。 データ拡張に主に使用される従来のMixUpアルゴリズムとは異なり、我々の修正されたアプローチは周波数領域の混合を取り入れている。 これまでの研究では、MixUpに混在する画像の数を増やすことでプライバシー保護が向上するが、顔認識精度の低下を犠牲にしている。 このトレードオフを克服するために、強化学習に基づく適応型MixUp戦略を開発し、良好な認識精度を維持しつつ、多数の画像の混合を可能にする。 プライバシ保護を最適化するために、戦略ネットワークのトレーニング中に報酬関数(FRシステムの損失関数)を最大化することを提案する。 FRネットワークの損失関数は、FRネットワークをトレーニングする段階で最小化される。 戦略ネットワークと顔認識ネットワークは、トレーニングプロセスにおいて敵対的な存在と見なすことができ、最終的にはよりバランスの取れたトレードオフに達する。 提案手法は,MIAに対するプライバシ保護と認識精度において,既存の防御アルゴリズムよりも優れていた。

The utilization of personal sensitive data in training face recognition (FR) models poses significant privacy concerns, as adversaries can employ model inversion attacks (MIA) to infer the original training data. Existing defense methods, such as data augmentation and differential privacy, have been employed to mitigate this issue. However, these methods often fail to strike an optimal balance between privacy and accuracy. To address this limitation, this paper introduces an adaptive hybrid masking algorithm against MIA. Specifically, face images are masked in the frequency domain using an adaptive MixUp strategy. Unlike the traditional MixUp algorithm, which is predominantly used for data augmentation, our modified approach incorporates frequency domain mixing. Previous studies have shown that increasing the number of images mixed in MixUp can enhance privacy preservation but at the expense of reduced face recognition accuracy. To overcome this trade-off, we develop an enhanced adaptive MixUp strategy based on reinforcement learning, which enables us to mix a larger number of images while maintaining satisfactory recognition accuracy. To optimize privacy protection, we propose maximizing the reward function (i.e., the loss function of the FR system) during the training of the strategy network. While the loss function of the FR network is minimized in the phase of training the FR network. The strategy network and the face recognition network can be viewed as antagonistic entities in the training process, ultimately reaching a more balanced trade-off. Experimental results demonstrate that our proposed hybrid masking scheme outperforms existing defense algorithms in terms of privacy preservation and recognition accuracy against MIA.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# 局所的命令型マルチモーダルフィードバックによる1つのグローバル明示アノテーションの分解による対話エージェントの改善

Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback ( http://arxiv.org/abs/2403.11330v2 )

ライセンス: Link先を確認
Dong Won Lee, Hae Won Park, Yoon Kim, Cynthia Breazeal, Louis-Philippe Morency, (参考訳) 本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。 高いレベルにおいて,本手法(GELI)は,人間が提供するGlobal Explicit(GE)セッションレベルの報酬を分解し,局所的インプリシット(LI)マルチモーダル報酬信号を用いて,報酬分解ステップを相互に整形することで,局所的なターンレベルの報酬モデルを学習する。 この分解された報酬モデルは、LLMベースのダイアログエージェントを改善した標準RHLFパイプラインの一部として使用される。 我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。

We describe an approach for aligning an LLM-based dialogue agent based on global (i.e., dialogue-level) rewards, while also taking into account naturally-occurring multimodal signals. At a high level, our approach (dubbed GELI) learns a local, turn-level reward model by decomposing the human-provided Global Explicit (GE) session-level reward, using Local Implicit (LI) multimodal reward signals to crossmodally shape the reward decomposition step. This decomposed reward model is then used as part of the standard RHLF pipeline improve an LLM-based dialog agent. We run quantitative and qualitative human studies to evaluate the performance of our GELI approach, and find that it shows consistent improvements across various conversational metrics compared to baseline methods.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# グラフニューラルネットワークを用いたネットワーク侵入検知システムにおける問題空間構造逆攻撃

Problem space structural adversarial attacks for Network Intrusion Detection Systems based on Graph Neural Networks ( http://arxiv.org/abs/2403.11830v2 )

ライセンス: Link先を確認
Andrea Venturi, Dario Stabili, Mirco Marchetti, (参考訳) 機械学習(ML)アルゴリズムは、ネットワーク侵入検知システム(NIDS)をサポートするためにますます人気が高まっている。 それにもかかわらず、大規模な研究により、敵攻撃に対する脆弱性が示されており、その性能を損なうことを目的としたモデルの入力に微妙な摂動が伴っている。 最近の提案では、グラフニューラルネットワーク(GNN)を有効活用して、侵入による構造パターンにもとづいて、検出ロバスト性の向上を図っている。 しかし、GNNベースのNIDSの採用は、新しいタイプのリスクをもたらす。 本稿では,ネットワーク侵入検知におけるGNNに適した敵攻撃の最初の形式化を提案する。 さらに,現実のシナリオにおいて,実行可能な構造攻撃を行うためには,攻撃者が考慮すべき問題空間の制約を概説し,モデル化する。 最終的な貢献として、我々は、最先端のGNNベースのNIDSに対して提案された攻撃を開始するための広範な実験的キャンペーンを実施している。 本研究は, 古典的特徴に基づく攻撃に対するモデルの堅牢性の向上と, 構造的攻撃に対する感受性を強調した。

Machine Learning (ML) algorithms have become increasingly popular for supporting Network Intrusion Detection Systems (NIDS). Nevertheless, extensive research has shown their vulnerability to adversarial attacks, which involve subtle perturbations to the inputs of the models aimed at compromising their performance. Recent proposals have effectively leveraged Graph Neural Networks (GNN) to produce predictions based also on the structural patterns exhibited by intrusions to enhance the detection robustness. However, the adoption of GNN-based NIDS introduces new types of risks. In this paper, we propose the first formalization of adversarial attacks specifically tailored for GNN in network intrusion detection. Moreover, we outline and model the problem space constraints that attackers need to consider to carry out feasible structural attacks in real-world scenarios. As a final contribution, we conduct an extensive experimental campaign in which we launch the proposed attacks against state-of-the-art GNN-based NIDS. Our findings demonstrate the increased robustness of the models against classical feature-based adversarial attacks, while highlighting their susceptibility to structure-based attacks.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# 線形複雑度を用いたセキュアクエリ処理

Secure Query Processing with Linear Complexity ( http://arxiv.org/abs/2403.13492v2 )

ライセンス: Link先を確認
Qiyao Luo, Yilei Wang, Wei Dong, Ke Yi, (参考訳) 我々は、セキュアなマルチパーティ計算モデル(MPC)の下で、線形複雑で(実行時間と通信の両方において)最初の結合プロトコルLINQを提示する。 また、リニアな複雑さを保ちながら、選択結合集約クエリの大規模なクラスである、すべてのフリーコネックスクエリをサポートするように拡張することもできる。 これは、クエリ処理の問題に対する平文結果と一致し、フリーコンネックスクエリは、平文の線形時間で解決できることが知られているクエリの最大のクラスである。 そして、LINQに基づくクエリ処理システムを構築しました。 例えば、LAN設定で約100秒間に100万タプルの出力サイズで3つの関係でクエリを終了できるが、クエリをサポートする既存のプロトコルでは1時間で終了できない。 したがってLINQは、MPCクエリ処理を実用性に近づける。

We present LINQ, the first join protocol with linear complexity (in both running time and communication) under the secure multi-party computation model (MPC). It can also be extended to support all free-connex queries, a large class of select-join-aggregate queries, still with linear complexity. This matches the plaintext result for the query processing problem, as free-connex queries are the largest class of queries known to be solvable in linear time in plaintext. We have then built a query processing system based on LINQ, and the experimental results show that LINQ significantly outperforms the state of the art. For example, it can finish a query on three relations with an output size of 1 million tuples in around 100s in the LAN setting, while existing protocols that support the query cannot finish in an hour. Thus LINQ brings MPC query processing closer to practicality.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# WangchanLionとWangchanX MRC Eval

WangchanLion and WangchanX MRC Eval ( http://arxiv.org/abs/2403.16127v2 )

ライセンス: Link先を確認
Wannaphong Phatthiyaphaibun, Surapon Nonesung, Patomporn Payoungkhamdee, Peerat Limkonchotiwat, Can Udomcharoenchaikit, Jitkapat Sawatphol, Chompakorn Chaksangchaichot, Ekapol Chuangsuwanich, Sarana Nutanong, (参考訳) 本技術報告では,タイ語における機械読解(MRC)に着目した微調整モデルであるWangchanLionの開発について述べる。 本モデルは,SEA-LIONとデータセットに基づく命令の集合に基づく。 オープンな研究と再現性を促進するため、Apache-2ライセンスの下で、トレーニングデータ、コード、最終的なモデルの重み付けをすべて公開しています。 文脈理解能力を評価するために,タイの2つのMRCデータセットであるXQuADとIapp_wiki_qa_squadを用いて広範な実験を行った。 実験の結果、モデルがコンテキストを理解し、0ショットと1ショットの設定で参照に忠実な回答を生成する能力を示す。 さらに、我々の評価は従来のMRCを超えています。 本稿では,回答の正確性,有用性,簡潔性,文脈性を評価する新しい評価手法を提案する。 私たちのコードはhttps://github.com/vistec-AI/WangchanLion.comで公開されています。

This technical report describes the development of WangchanLion, an instruction fine-tuned model focusing on Machine Reading Comprehension (MRC) in the Thai language. Our model is based on SEA-LION and a collection of instruction following datasets. To promote open research and reproducibility, we publicly release all training data, code, and the final model weights under the Apache-2 license. To assess the contextual understanding capability, we conducted extensive experimental studies using two Thai MRC datasets, XQuAD and Iapp_wiki_qa_squad. Experimental results demonstrate the model's ability to comprehend the context and produce an answer faithful to the reference one in 0-shot and 1-shot settings. In addition, our evaluation goes beyond the traditional MRC. We propose a new evaluation scheme assessing the answer's correctness, helpfulness, conciseness, and contextuality. Our code is available publicly at https://github.com/vistec-AI/WangchanLion.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# モデルフリーエントロピー規則化逆強化学習アルゴリズムの収束性

Convergence of a model-free entropy-regularized inverse reinforcement learning algorithm ( http://arxiv.org/abs/2403.16829v2 )

ライセンス: Link先を確認
Titouan Renard, Andreas Schlaginhaufen, Tingting Ni, Maryam Kamgarpour, (参考訳) 専門家によるデモンストレーションのデータセットが与えられた場合、逆強化学習(IRL)は、専門家が最適な報酬を回復することを目的としている。 本研究では,エントロピー規則化IRL問題を解くためのモデルフリーアルゴリズムを提案する。 特に、報酬には確率勾配降下更新、ポリシーには確率的ソフトポリシー反復更新を用いる。 生成モデルへのアクセスを仮定すると、我々のアルゴリズムは、Markov決定プロセス(MDP)のサンプルを$\mathcal{O}(1/\varepsilon^{2})を用いて、専門家の報酬が$\varepsilon$-optimalであることを示す。 さらに、$\mathcal{O}(1/\varepsilon^{4})$サンプルを用いて、得られた報酬に対応する最適ポリシーが全変動距離のエキスパートポリシーに対して$\varepsilon$-closeであることを示す。

Given a dataset of expert demonstrations, inverse reinforcement learning (IRL) aims to recover a reward for which the expert is optimal. This work proposes a model-free algorithm to solve entropy-regularized IRL problem. In particular, we employ a stochastic gradient descent update for the reward and a stochastic soft policy iteration update for the policy. Assuming access to a generative model, we prove that our algorithm is guaranteed to recover a reward for which the expert is $\varepsilon$-optimal using $\mathcal{O}(1/\varepsilon^{2})$ samples of the Markov decision process (MDP). Furthermore, with $\mathcal{O}(1/\varepsilon^{4})$ samples we prove that the optimal policy corresponding to the recovered reward is $\varepsilon$-close to the expert policy in total variation distance.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# 半教師付きモノクロ3次元物体検出のためのデカップリング擬似ラベル

Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection ( http://arxiv.org/abs/2403.17387v2 )

ライセンス: Link先を確認
Jiacheng Zhang, Jiaming Li, Xiangru Lin, Wei Zhang, Xiao Tan, Junyu Han, Errui Ding, Jingdong Wang, Guanbin Li, (参考訳) 半教師付きモノクロ3Dオブジェクト検出(SSM3OD)のための擬似ラベリングを探索し、3D属性と2D属性の予測品質の相違と、擬似ラベリングから派生した深度監督の傾向という2つの主要な問題を発見し、他の信頼性のある監督形態との重大な最適化競合をもたらす。 SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。 提案手法は,2D属性と3D属性を別々に処理することで,擬似ラベルを効率的に生成できるデカップリング擬似ラベル生成(DPG)モジュールを備える。 このモジュールは、特に3D属性のために、BEV空間における信頼できる擬似ラベルを識別するためのユニークなホモグラフィーに基づく手法を取り入れている。 さらに、擬似ラベルのノイズの多い深さ監視による最適化競合を緩和し、奥行き勾配を効果的に分離し、矛盾する勾配を除去するDGPモジュールを提案する。 この二重分離戦略は、擬似ラベル生成と勾配レベルの両方において、SSM3ODにおける擬似ラベルの利用を著しく改善する。 KITTIベンチマークに関する包括的実験は,既存の手法よりも提案手法の方が優れていることを示す。

We delve into pseudo-labeling for semi-supervised monocular 3D object detection (SSM3OD) and discover two primary issues: a misalignment between the prediction quality of 3D and 2D attributes and the tendency of depth supervision derived from pseudo-labels to be noisy, leading to significant optimization conflicts with other reliable forms of supervision. We introduce a novel decoupled pseudo-labeling (DPL) approach for SSM3OD. Our approach features a Decoupled Pseudo-label Generation (DPG) module, designed to efficiently generate pseudo-labels by separately processing 2D and 3D attributes. This module incorporates a unique homography-based method for identifying dependable pseudo-labels in BEV space, specifically for 3D attributes. Additionally, we present a DepthGradient Projection (DGP) module to mitigate optimization conflicts caused by noisy depth supervision of pseudo-labels, effectively decoupling the depth gradient and removing conflicting gradients. This dual decoupling strategy-at both the pseudo-label generation and gradient levels-significantly improves the utilization of pseudo-labels in SSM3OD. Our comprehensive experiments on the KITTI benchmark demonstrate the superiority of our method over existing approaches.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# 低絡み状態の典型的熱化

Typical thermalization of low-entanglement states ( http://arxiv.org/abs/2403.18007v2 )

ライセンス: Link先を確認
Christian Bertoni, Clara Wassner, Giacomo Guarnieri, Jens Eisert, (参考訳) 閉量子系のユニタリ進化から熱化を証明することは、現在でも部分的に解決されている最も古い問題の一つである。 いくつかの試みにより、固有状態熱化仮説と呼ばれる仮説が様々な定式化され、初期状態の特定の条件下での熱化が導かれる。 しかし、これらの条件は仮説の正確な定式化に敏感である。 本研究は, 熱処理実験や量子シミュレーションなど, 様々な自然環境において操作可能な低絡み合い初期状態の重要事例に焦点を当てる。 運用上重要な正確な条件下でこれらの状態が熱化されることを実証する。 より具体的には、避けられない有限分解の議論に動機づけられて、初期状態の絡み合いが低いときに局所的な熱化につながる局所ハミルトニアン上のランダムエネルギー滑らか化を定義する。 最後に、そのような変換は、Gibs状態にも、スペクトル上の一般的な滑らかさ条件の下でも、短時間のダイナミクスにも影響しないことを示す。

Proving thermalization from the unitary evolution of a closed quantum system is one of the oldest questions that is still nowadays only partially resolved. Several efforts have led to various formulations of what is called the eigenstate thermalization hypothesis, which leads to thermalization under certain conditions on the initial states. These conditions, however, are sensitive to the precise formulation of the hypothesis. In this work, we focus on the important case of low entanglement initial states, which are operationally accessible in many natural physical settings, including experimental schemes for testing thermalization and for quantum simulation. We prove thermalization of these states under precise conditions that have operational significance. More specifically, motivated by arguments of unavoidable finite resolution, we define a random energy smoothing on local Hamiltonians that leads to local thermalization when the initial state has low entanglement. Finally we show that such a transformation affects neither the Gibbs state locally nor, under generic smoothness conditions on the spectrum, the short-time dynamics.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# ReflectSumm: コースのリフレクション要約のためのベンチマーク

ReflectSumm: A Benchmark for Course Reflection Summarization ( http://arxiv.org/abs/2403.19012v2 )

ライセンス: Link先を確認
Yang Zhong, Mohamed Elaraby, Diane Litman, Ahmed Ashraf Butt, Muhsin Menekse, (参考訳) 本稿では,学生のリフレクティブ・ライティングを要約するための新しい要約データセットであるReflectionSummを紹介する。 ReflectSummの目的は、学習データが少ない実世界のシナリオに適した新しい要約手法の開発と評価を容易にすることである。 データセットはさまざまな要約タスクを含み、包括的なメタデータを含んでおり、さまざまな研究質問の探索とさまざまなアプリケーションのサポートを可能にしている。 実用性を示すために,複数の最先端ベースラインを用いて広範囲な評価を行った。 結果は、この分野のさらなる研究を促進するためのベンチマークを提供する。

This paper introduces ReflectSumm, a novel summarization dataset specifically designed for summarizing students' reflective writing. The goal of ReflectSumm is to facilitate developing and evaluating novel summarization techniques tailored to real-world scenarios with little training data, %practical tasks with potential implications in the opinion summarization domain in general and the educational domain in particular. The dataset encompasses a diverse range of summarization tasks and includes comprehensive metadata, enabling the exploration of various research questions and supporting different applications. To showcase its utility, we conducted extensive evaluations using multiple state-of-the-art baselines. The results provide benchmarks for facilitating further research in this area.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# バイオメディカルNERのためのLCMのオンザフライ定義強化

On-the-fly Definition Augmentation of LLMs for Biomedical NER ( http://arxiv.org/abs/2404.00152v2 )

ライセンス: Link先を確認
Monica Munnangi, Sergey Feldman, Byron C Wallace, Silvio Amir, Tom Hope, Aakanksha Naik, (参考訳) それらの一般的な能力にもかかわらず、LLMは、専門用語の存在と訓練データの欠如により難しい生物医学的NERタスクに苦戦している。 本研究は,生物医学的NERにおけるLLMの性能向上を目的として,新たな知識向上手法を提案する。 この過程で知識増強のためのテストベッドを提供するため、我々は戦略の推進を総合的に探究する。 本実験は, オープンソースと閉LLMの両方において, 定義拡張が有用であることを示す。 例えば、テストデータセットの全(6)に対して、GPT-4パフォーマンス(F1)の15倍(平均)の相対的な改善につながります。 私たちは、パフォーマンスの改善が関連する定義知識の追加に起因することを実証するために、広範囲にわたる改善と分析を行います。 注意的なプロンプト戦略はLLMの性能も向上し、微調整された言語モデルを数ショット設定で上回ることができることがわかった。 この方向への今後の研究を促進するため、私たちはhttps://github.com/allenai/beacon.comでコードを公開しています。

Despite their general capabilities, LLMs still struggle on biomedical NER tasks, which are difficult due to the presence of specialized terminology and lack of training data. In this work we set out to improve LLM performance on biomedical NER in limited data settings via a new knowledge augmentation approach which incorporates definitions of relevant concepts on-the-fly. During this process, to provide a test bed for knowledge augmentation, we perform a comprehensive exploration of prompting strategies. Our experiments show that definition augmentation is useful for both open source and closed LLMs. For example, it leads to a relative improvement of 15\% (on average) in GPT-4 performance (F1) across all (six) of our test datasets. We conduct extensive ablations and analyses to demonstrate that our performance improvements stem from adding relevant definitional knowledge. We find that careful prompting strategies also improve LLM performance, allowing them to outperform fine-tuned language models in few-shot settings. To facilitate future research in this direction, we release our code at https://github.com/allenai/beacon.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# Aurora-M: 初のオープンソース多言語言語モデル

Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order ( http://arxiv.org/abs/2404.00399v2 )

ライセンス: Link先を確認
Taishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo, (参考訳) 事前訓練された言語モデルは、いくつかのAIアプリケーションを支えるが、トレーニングのための高い計算コストはアクセシビリティを制限する。 BLOOMやStarCoderといったイニシアティブは、共同コミュニティ開発のための事前訓練されたモデルへのアクセスを民主化することを目指している。 しかし、そのような既存のモデルは、制限された多言語能力、連続的な事前訓練が破滅的な忘れを生じさせる一方、スクラッチからの事前訓練は計算コストがかかること、AIの安全性と開発法に準拠すること、といった課題に直面している。 本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 StarCoderPlusから435億の追加トークンで継続的に事前訓練され、Aurora-Mは合計で2兆トークンを超えた。 これは、人間がレビューした安全指示に基づいて微調整された最初のオープンソース多言語モデルであり、従来の赤チームの考慮だけでなく、安全・安全・信頼性開発・人工知能の利用に関するビデン・ハリス執行命令(英語版)に明記された具体的な懸念とも一致している。 Aurora-Mは様々なタスクや言語に対して厳格に評価されており、特に安全性評価において、多言語環境での破滅的な忘れ込みや優れた代替手段に対する堅牢性を実証している。 オープンソースのLLM開発を促進するため、Aurora-Mとその変種はhttps://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 でリリースされた。

Pretrained language models underpin several AI applications, but their high computational cost for training limits accessibility. Initiatives such as BLOOM and StarCoder aim to democratize access to pretrained models for collaborative community development. However, such existing models face challenges: limited multilingual capabilities, continual pretraining causing catastrophic forgetting, whereas pretraining from scratch is computationally expensive, and compliance with AI safety and development laws. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435 billion additional tokens, Aurora-M surpasses 2 trillion tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. Aurora-M is rigorously evaluated across various tasks and languages, demonstrating robustness against catastrophic forgetting and outperforming alternatives in multilingual settings, particularly in safety evaluations. To promote responsible open-source LLM development, Aurora-M and its variants are released at https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 .
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# 干渉分解モデルの再評価

A Controlled Reevaluation of Coreference Resolution Models ( http://arxiv.org/abs/2404.00727v2 )

ライセンス: Link先を確認
Ian Porada, Xiyuan Zou, Jackie Chi Kit Cheung, (参考訳) すべての最先端コア参照解決(CR)モデルは、事前訓練された言語モデルを微調整する。 1つのCRモデルの優れた性能は、言語モデルの選択によるものか、タスク固有のアーキテクチャのような他の要因によるものか、標準化された実験装置がないため決定が難しいか、あるいは不可能である。 この曖昧さを解決するため、5つのCRモデルを体系的に評価し、それぞれが使用する事前学習言語モデルを含む設計決定の制御を行う。 言語モデルのサイズを制御する場合、エンコーダベースのCRモデルは、精度と推論速度の両方の観点から、より最近のデコーダベースのモデルより優れている。 驚いたことに、エンコーダベースのCRモデルの中で、より最近のモデルは必ずしも正確ではない。 我々は,過去5年間に報告されたF1スコアの増加により,言語モデルの選択に対する制御がほとんどだが,すべてではないと結論付けている。

All state-of-the-art coreference resolution (CR) models involve finetuning a pretrained language model. Whether the superior performance of one CR model over another is due to the choice of language model or other factors, such as the task-specific architecture, is difficult or impossible to determine due to lack of a standardized experimental setup. To resolve this ambiguity, we systematically evaluate five CR models and control for certain design decisions including the pretrained language model used by each. When controlling for language model size, encoder-based CR models outperform more recent decoder-based models in terms of both accuracy and inference speed. Surprisingly, among encoder-based CR models, more recent models are not always more accurate, and the oldest CR model that we test generalizes the best to out-of-domain textual genres. We conclude that controlling for the choice of language model reduces most, but not all, of the increase in F1 score reported in the past five years.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# JailbreakBench: 大規模言語モデルのジェイルブレークのためのオープンなロバストネスベンチマーク

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models ( http://arxiv.org/abs/2404.01318v2 )

ライセンス: Link先を確認
Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong, (参考訳) ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。 これらの攻撃を評価することは、現在のベンチマークや評価技術が適切に対処していない多くの課題を示す。 第一に、脱獄評価に関する明確な基準はない。 第二に、既存の作業はコストと成功率を相容れない方法で計算します。 そして第3に、多くの著作物は再現不可能で、敵のプロンプトを無視したり、クローズドソースのコードに関わったり、プロプライエタリなAPIの進化に依存している。 これらの課題に対処するために,我々は,(1)最先端の敵対的プロンプトの進化するリポジトリである JailbreakBench ,(2) OpenAI の使用方針に沿った100の動作 – オリジナルおよびソース – を含むjailbreaking データセット,(3) 明確に定義された脅威モデル,システムプロンプト,チャットテンプレート,スコアリング機能を含む標準化された評価フレームワーク,(4) さまざまな LLM に対する攻撃と防御のパフォーマンスを追跡するリーダボード,といったコンポーネントをオープンソースとして導入した JailbreakBench を紹介した。 我々は、このベンチマークのリリースによる倫理的影響を慎重に検討し、コミュニティにとってプラスになると考えている。 今後は、研究コミュニティの技術的・方法論的な進歩を反映して、ベンチマークを拡大し、適応していく。

Jailbreak attacks cause large language models (LLMs) to generate harmful, unethical, or otherwise objectionable content. Evaluating these attacks presents a number of challenges, which the current collection of benchmarks and evaluation techniques do not adequately address. First, there is no clear standard of practice regarding jailbreaking evaluation. Second, existing works compute costs and success rates in incomparable ways. And third, numerous works are not reproducible, as they withhold adversarial prompts, involve closed-source code, or rely on evolving proprietary APIs. To address these challenges, we introduce JailbreakBench, an open-sourced benchmark with the following components: (1) an evolving repository of state-of-the-art adversarial prompts, which we refer to as jailbreak artifacts; (2) a jailbreaking dataset comprising 100 behaviors -- both original and sourced from prior work -- which align with OpenAI's usage policies; (3) a standardized evaluation framework that includes a clearly defined threat model, system prompts, chat templates, and scoring functions; and (4) a leaderboard that tracks the performance of attacks and defenses for various LLMs. We have carefully considered the potential ethical implications of releasing this benchmark, and believe that it will be a net positive for the community. Over time, we will expand and adapt the benchmark to reflect technical and methodological advances in the research community.
翻訳日:2024-04-24 18:56:32 公開日:2024-04-23
# Goldfish: 効果的なフェデレーション・アンラーニングフレームワーク

Goldfish: An Efficient Federated Unlearning Framework ( http://arxiv.org/abs/2404.03180v2 )

ライセンス: Link先を確認
Houzhe Wang, Xiaojie Zhu, Chi Chen, Paulo Esteves-Veríssimo, (参考訳) 忘れられる権利に関する最近の法律により、機械学習は重要な研究領域として浮上してきた。 これにより、スクラッチから再トレーニングする必要なく、フェデレーション付きトレーニングされた機械学習モデルからユーザのデータを削除することができる。 しかし、現在の機械学習アルゴリズムは効率と妥当性の課題に直面している。 上記の問題に対処するため、Goldfishという新しいフレームワークを提案する。 基本モデル、損失関数、最適化、拡張の4つのモジュールで構成されている。 既存の機械学習アルゴリズムの妥当性の低い課題に対処するため,新しい損失関数を提案する。 残りのデータセットの予測と実際のラベルの相違から生じる損失を考慮に入れます。 同時に、削除されたデータセットの予測結果のバイアスを考慮する。 さらに、予測結果の信頼度も考慮する。 さらに, 効率を向上させるため, 基本モデルにおける蒸留手法の知識を取り入れ, 経験的リスクとデータ分割機構によって導かれる早期終了機構を含む最適化モジュールを導入する。 さらに, 集約モデルのロバスト性を高めるために, ユーザの局所データの不均一性に対処するための適応蒸留温度を用いた機構と, アップロードしたモデルの品質の多様性を扱うための適応重みを用いた機構を組み込んだ拡張モジュールを提案する。 最後に,提案手法の有効性を示す総合的な実験を行った。

With recent legislation on the right to be forgotten, machine unlearning has emerged as a crucial research area. It facilitates the removal of a user's data from federated trained machine learning models without the necessity for retraining from scratch. However, current machine unlearning algorithms are confronted with challenges of efficiency and validity. To address the above issues, we propose a new framework, named Goldfish. It comprises four modules: basic model, loss function, optimization, and extension. To address the challenge of low validity in existing machine unlearning algorithms, we propose a novel loss function. It takes into account the loss arising from the discrepancy between predictions and actual labels in the remaining dataset. Simultaneously, it takes into consideration the bias of predicted results on the removed dataset. Moreover, it accounts for the confidence level of predicted results. Additionally, to enhance efficiency, we adopt knowledge a distillation technique in the basic model and introduce an optimization module that encompasses the early termination mechanism guided by empirical risk and the data partition mechanism. Furthermore, to bolster the robustness of the aggregated model, we propose an extension module that incorporates a mechanism using adaptive distillation temperature to address the heterogeneity of user local data and a mechanism using adaptive weight to handle the variety in the quality of uploaded models. Finally, we conduct comprehensive experiments to illustrate the effectiveness of proposed approach.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# ロングテール認識のための潜時拡散モデル

Latent-based Diffusion Model for Long-tailed Recognition ( http://arxiv.org/abs/2404.04517v2 )

ライセンス: Link先を確認
Pengxiao Han, Changkun Ye, Jieming Zhou, Jing Zhang, Jie Hong, Xuesong Li, (参考訳) 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。 従来の研究では、再サンプリング、再重み付け、転乗学習、機能拡張といういくつかのクラスに分類されるこの問題に対処する方法が提案されていた。 近年、拡散モデルは深層コンピュータビジョンの多くのサブプロブレムにおいて印象的な生成能力を示している。 しかし、その強力な世代は長い尾の問題では研究されていない。 本稿では,Long-tailed Recognition (LDMLR) のためのラテントベース拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition, LMLR)を提案する。 まず、不均衡なデータセットをベースラインモデルを用いて特徴にエンコードする。 次に、これらの符号化された特徴を用いてDEM(Denoising Diffusion Implicit Model)を訓練し、擬似特徴を生成する。 最後に、前の2つのステップから符号化および擬似特徴を用いて分類器を訓練する。 モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。

Long-tailed imbalance distribution is a common issue in practical computer vision applications. Previous works proposed methods to address this problem, which can be categorized into several classes: re-sampling, re-weighting, transfer learning, and feature augmentation. In recent years, diffusion models have shown an impressive generation ability in many sub-problems of deep computer vision. However, its powerful generation has not been explored in long-tailed problems. We propose a new approach, the Latent-based Diffusion Model for Long-tailed Recognition (LDMLR), as a feature augmentation method to tackle the issue. First, we encode the imbalanced dataset into features using the baseline model. Then, we train a Denoising Diffusion Implicit Model (DDIM) using these encoded features to generate pseudo-features. Finally, we train the classifier using the encoded and pseudo-features from the previous two steps. The model's accuracy shows an improvement on the CIFAR-LT and ImageNet-LT datasets by using the proposed method.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# ロボットの適応的回復行動: 動作木と動作生成器(BTMG)による故障管理

Adaptable Recovery Behaviors in Robotics: A Behavior Trees and Motion Generators(BTMG) Approach for Failure Management ( http://arxiv.org/abs/2404.06129v2 )

ライセンス: Link先を確認
Faseeh Ahmad, Matthias Mayr, Sulthan Suresh-Fazeela, Volker Krueger, (参考訳) 動的運用環境、特に協調型ロボティクスでは、障害の回避は堅牢で適応可能な回復戦略を必要とする。 従来の自動リカバリ戦略は、事前に定義されたシナリオでは有効だが、オンザフライのタスク管理や期待される障害への適応に必要な柔軟性を欠いていることが多い。 このギャップに対処するため,我々は,リカバリ行動を適応可能なロボット技術としてモデル化し,行動木と運動生成器(BTMG)フレームワークを政策表現に活用する手法を提案する。 このアプローチは、リカバリ行動パラメータを動的に洗練するために強化学習~(RL)を用いることで、人間の介入を最小限に抑えた幅広い障害シナリオに対する調整された応答を可能にする。 我々は,ペグ・イン・ア・ホール作業における一連の段階的なシナリオを通じて方法論を評価し,ロボットの協調作業における作業効率の向上とタスク成功率の向上に対するアプローチの有効性を実証した。 両腕のKUKAロボットを用いてアプローチを検証する。

In dynamic operational environments, particularly in collaborative robotics, the inevitability of failures necessitates robust and adaptable recovery strategies. Traditional automated recovery strategies, while effective for predefined scenarios, often lack the flexibility required for on-the-fly task management and adaptation to expected failures. Addressing this gap, we propose a novel approach that models recovery behaviors as adaptable robotic skills, leveraging the Behavior Trees and Motion Generators~(BTMG) framework for policy representation. This approach distinguishes itself by employing reinforcement learning~(RL) to dynamically refine recovery behavior parameters, enabling a tailored response to a wide array of failure scenarios with minimal human intervention. We assess our methodology through a series of progressively challenging scenarios within a peg-in-a-hole task, demonstrating the approach's effectiveness in enhancing operational efficiency and task success rates in collaborative robotics settings. We validate our approach using a dual-arm KUKA robot.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# 連続学習用変圧器の思い出

Remembering Transformer for Continual Learning ( http://arxiv.org/abs/2404.07518v2 )

ライセンス: Link先を確認
Yuwei Sun, Ippei Fujisawa, Arthur Juliani, Jun Sakuma, Ryota Kanai, (参考訳) ニューラルネットワークは、新しいタスク知識が以前学んだ知識に干渉する連続学習において、カタストロフィック・フォーッティング(CF)の課題に直面している。 本稿では,脳の補足学習システム(CLS)にインスパイアされたリマインドトランスフォーマーを提案する。 覚えています Transformerは、タスクデータを関連するアダプタに動的にルーティングすることでCFを緩和するために、アダプタの混合と生成モデルベースのルーティングメカニズムを採用しています。 本手法は,視覚連続学習タスクにおけるSOTAの新たな性能とパラメータ効率を実証した。

Neural networks encounter the challenge of Catastrophic Forgetting (CF) in continual learning, where new task knowledge interferes with previously learned knowledge. We propose Remembering Transformer, inspired by the brain's Complementary Learning Systems (CLS), to tackle this issue. Remembering Transformer employs a mixture-of-adapters and a generative model-based routing mechanism to alleviate CF by dynamically routing task data to relevant adapters. Our approach demonstrated a new SOTA performance in various vision continual learning tasks and great parameter efficiency.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# 整合性保護のためのフラジオールモデル透かし-境界ボラティリティと敏感なサンプルペアリングを活用する

Fragile Model Watermark for integrity protection: leveraging boundary volatility and sensitive sample-pairing ( http://arxiv.org/abs/2404.07572v2 )

ライセンス: Link先を確認
ZhenZhe Gao, Zhenjun Tang, Zhaoxia Yin, Baoyuan Wu, Yue Lu, (参考訳) ニューラルネットワークは人々の生活にますます影響を与えている。 モデル所有者が設計したニューラルネットワークの忠実な展開を保証することは、バックドアや毒殺攻撃など、悪意のある、意図しないさまざまな修正の影響を受けやすいため、極めて重要である。 Fragileモデル透かしは、DNNモデルが誤った判断を下す可能性のある予期せぬ改ざんを防止することを目的としている。 しかし, 従来の透かし法は非効率な試料生成と感度の低下に悩まされており, 実用性に限界がある。 提案手法では,対のサンプル間のモデル境界を設定するとともに,ロジットの最大化を行う。 これにより、機密サンプルのモデルによる決定結果が可能な限り変化し、Top-1ラベルの移動方向に関わらず変更が容易になる。

Neural networks have increasingly influenced people's lives. Ensuring the faithful deployment of neural networks as designed by their model owners is crucial, as they may be susceptible to various malicious or unintentional modifications, such as backdooring and poisoning attacks. Fragile model watermarks aim to prevent unexpected tampering that could lead DNN models to make incorrect decisions. They ensure the detection of any tampering with the model as sensitively as possible.However, prior watermarking methods suffered from inefficient sample generation and insufficient sensitivity, limiting their practical applicability. Our approach employs a sample-pairing technique, placing the model boundaries between pairs of samples, while simultaneously maximizing logits. This ensures that the model's decision results of sensitive samples change as much as possible and the Top-1 labels easily alter regardless of the direction it moves.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# NeuroNCAP: 自動運転のための光リアルクローズドループ安全試験

NeuroNCAP: Photorealistic Closed-loop Safety Testing for Autonomous Driving ( http://arxiv.org/abs/2404.07762v4 )

ライセンス: Link先を確認
William Ljungbergh, Adam Tonderski, Joakim Johnander, Holger Caesar, Kalle Åström, Michael Felsberg, Christoffer Petersson, (参考訳) 我々は,センサリアルなクローズループ評価と安全クリティカルシナリオの作成に焦点をあてた,自律走行(AD)ソフトウェアシステムをテストする汎用的なNeRFベースのシミュレータを提案する。 シミュレータは実世界の駆動センサーデータのシーケンスから学習し、新しい、目に見えないシナリオの再構成とレンダリングを可能にする。 本研究では,欧州新車評価プログラム(Euro NCAP)に触発された安全クリティカルシナリオに対するADモデルの応答をシミュレータを用いて検証する。 我々の評価では、最先端のエンド・ツー・エンドのプランナーは、オープンループ設定で名目上の運転シナリオに優れているが、クローズドループ設定で安全クリティカルなシナリオをナビゲートする際には、重大な欠陥が現れる。 これは、エンド・ツー・エンド・プランナーの安全性と現実のユーザビリティの向上の必要性を強調している。 シミュレータとシナリオを簡単に実行可能な評価スイートとして公開することにより、研究コミュニティにADモデルを制御されながら、高度に構成可能で、困難なセンサー現実的な環境を探索し、洗練し、検証するよう呼びかけます。 コードと命令はhttps://github.com/atonderski/neuro-ncapで確認できる。

We present a versatile NeRF-based simulator for testing autonomous driving (AD) software systems, designed with a focus on sensor-realistic closed-loop evaluation and the creation of safety-critical scenarios. The simulator learns from sequences of real-world driving sensor data and enables reconfigurations and renderings of new, unseen scenarios. In this work, we use our simulator to test the responses of AD models to safety-critical scenarios inspired by the European New Car Assessment Programme (Euro NCAP). Our evaluation reveals that, while state-of-the-art end-to-end planners excel in nominal driving scenarios in an open-loop setting, they exhibit critical flaws when navigating our safety-critical scenarios in a closed-loop setting. This highlights the need for advancements in the safety and real-world usability of end-to-end planners. By publicly releasing our simulator and scenarios as an easy-to-run evaluation suite, we invite the research community to explore, refine, and validate their AD models in controlled, yet highly configurable and challenging sensor-realistic environments. Code and instructions can be found at https://github.com/atonderski/neuro-ncap
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# 強化学習におけるハイパーパラメータ最適化のための一般人口ベーストレーニング

Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning ( http://arxiv.org/abs/2404.08233v2 )

ライセンス: Link先を確認
Hui Bai, Ran Cheng, (参考訳) ハイパーパラメータ最適化は、機械学習領域において重要な役割を果たす。 その重要性は特に強化学習(RL)において顕著であり、エージェントは継続的に環境に適応し、学習軌跡の動的調整を必要とする。 このダイナミクスに対応するために、同時に学習するエージェントの集団知性を活用して、人口ベーストレーニング(PBT)が導入された。 しかしながら、PBTは高いパフォーマンスのエージェントを好む傾向にあり、大きな進歩の瀬戸際において、エージェントの爆発的ポテンシャルを無視する可能性がある。 PBTの限界を軽減するために,超パラメータ適応における粒度と柔軟性の向上を目的とした改良されたフレームワークであるGPBT(Generalized Population-Based Training)を提案する。 GPBTを補完し、さらにペアワイズラーニング(PL)を導入する。 PLは単にエリートエージェントに焦点を当てるのではなく、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。 GPBT と PL の機能を統合することで,従来の PBT よりも適応性と計算効率が大幅に向上する。 様々なRLベンチマークにおける厳密な経験的評価は、我々のアプローチが従来のPBTだけでなくベイズ最適化の変種よりも一貫して優れていることを証明している。

Hyperparameter optimization plays a key role in the machine learning domain. Its significance is especially pronounced in reinforcement learning (RL), where agents continuously interact with and adapt to their environments, requiring dynamic adjustments in their learning trajectories. To cater to this dynamicity, the Population-Based Training (PBT) was introduced, leveraging the collective intelligence of a population of agents learning simultaneously. However, PBT tends to favor high-performing agents, potentially neglecting the explorative potential of agents on the brink of significant advancements. To mitigate the limitations of PBT, we present the Generalized Population-Based Training (GPBT), a refined framework designed for enhanced granularity and flexibility in hyperparameter adaptation. Complementing GPBT, we further introduce Pairwise Learning (PL). Instead of merely focusing on elite agents, PL employs a comprehensive pairwise strategy to identify performance differentials and provide holistic guidance to underperforming agents. By integrating the capabilities of GPBT and PL, our approach significantly improves upon traditional PBT in terms of adaptability and computational efficiency. Rigorous empirical evaluations across a range of RL benchmarks confirm that our approach consistently outperforms not only the conventional PBT but also its Bayesian-optimized variant.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v5 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# MCPNet:マルチレベルコンセプトプロトタイプによる解釈可能な分類器

MCPNet: An Interpretable Classifier via Multi-Level Concept Prototypes ( http://arxiv.org/abs/2404.08968v3 )

ライセンス: Link先を確認
Bor-Shiun Wang, Chien-Yi Wang, Wei-Chen Chiu, (参考訳) ポストホックおよび本質的に解釈可能な手法の最近の進歩はブラックボックス分類器モデルの説明を著しく強化している。 これらの手法は、分析後またはモデルトレーニング中に概念学習を統合することによって機能する。 モデルの潜在空間と人間の解釈の間の意味的ギャップを埋めるのに効果的であるが、これらの説明法はモデルの意思決定過程を部分的にしか明らかにしない。 結果は通常、最後のフィーチャーマップから派生したハイレベルなセマンティクスに制限される。 我々は、下級・中級の機能における意思決定プロセスに関する洞察が欠如している説明は、完全に忠実でも有用でもないと論じる。 このギャップに対処するために、本質的に解釈可能なモデルであるMulti-Level Concept Prototypes Classifier (MCPNet)を導入する。 MCPNetは、CKA(Centered Kernel Alignment)損失とエネルギーベースの重み付きPCA機構を用いて、複数の機能マップレベルにわたる有意義なコンセプトプロトタイプを自律的に学習する。 さらに,クラス認識概念分布(CCD)の損失を通じて,分類目的の多段階概念のプロトタイプ分布を学習・調整する新しい分類手法を提案する。 実験の結果,提案したMPPNetは様々なモデルアーキテクチャに適用可能でありながら,分類精度を維持しつつ総合的なマルチレベル説明を提供することがわかった。 さらに、その概念分布に基づく分類手法は、数ショットの分類シナリオにおける一般化能力の向上を示す。

Recent advancements in post-hoc and inherently interpretable methods have markedly enhanced the explanations of black box classifier models. These methods operate either through post-analysis or by integrating concept learning during model training. Although being effective in bridging the semantic gap between a model's latent space and human interpretation, these explanation methods only partially reveal the model's decision-making process. The outcome is typically limited to high-level semantics derived from the last feature map. We argue that the explanations lacking insights into the decision processes at low and mid-level features are neither fully faithful nor useful. Addressing this gap, we introduce the Multi-Level Concept Prototypes Classifier (MCPNet), an inherently interpretable model. MCPNet autonomously learns meaningful concept prototypes across multiple feature map levels using Centered Kernel Alignment (CKA) loss and an energy-based weighted PCA mechanism, and it does so without reliance on predefined concept labels. Further, we propose a novel classifier paradigm that learns and aligns multi-level concept prototype distributions for classification purposes via Class-aware Concept Distribution (CCD) loss. Our experiments reveal that our proposed MCPNet while being adaptable to various model architectures, offers comprehensive multi-level explanations while maintaining classification accuracy. Additionally, its concept distribution-based classification approach shows improved generalization capabilities in few-shot classification scenarios.
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# SQIAsignHD: SQIsignHDアダプタ署名

SQIAsignHD: SQIsignHD Adaptor Signature ( http://arxiv.org/abs/2404.09026v2 )

ライセンス: Link先を確認
Farzin Renan, Péter Kutas, (参考訳) 適応シグネチャは、秘密のランダム性をシグネチャ内に隠した標準的なデジタルシグネチャスキームの一般化形式と見なすことができる。 アダプタシグネチャは最近の暗号プリミティブであり、暗号通貨などのブロックチェーンアプリケーションにおいて、オンチェーンコストを削減し、ファジビリティを改善し、支払いチャネルネットワーク、決済チャネルハブ、アトミックスワップにおけるオフチェーン形式の支払いに寄与する重要なツールになりつつある。 しかし、現在使われているアダプタシグネチャ構造は、ショアのアルゴリズムにより量子逆数に対して脆弱である。 本研究では,超特異楕円曲線の等質性に基づく新しい量子抵抗型アダプタシグネチャスキームである$\mathsf{SQIAsignHD}$を導入し,その基礎となるシグネチャスキームとしてSQIsignHDを用い,超特異なDiffie-Hellmanキー交換プロトコルであるSIDHの人工配向の考え方を活用する。 さらに、量子ランダムオラクルモデル(QROM)において、我々のスキームが安全であることを示します。

Adaptor signatures can be viewed as a generalized form of the standard digital signature schemes where a secret randomness is hidden within a signature. Adaptor signatures are a recent cryptographic primitive and are becoming an important tool for blockchain applications such as cryptocurrencies to reduce on-chain costs, improve fungibility, and contribute to off-chain forms of payment in payment-channel networks, payment-channel hubs, and atomic swaps. However, currently used adaptor signature constructions are vulnerable to quantum adversaries due to Shor's algorithm. In this work, we introduce $\mathsf{SQIAsignHD}$, a new quantum-resistant adaptor signature scheme based on isogenies of supersingular elliptic curves, using SQIsignHD - as the underlying signature scheme - and exploiting the idea of the artificial orientation on the supersingular isogeny Diffie-Hellman key exchange protocol, SIDH, as the underlying hard relation. We, furthermore, show that our scheme is secure in the Quantum Random Oracle Model (QROM).
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# StreakNet-Arch:水中キャリアLiDARレーダイメージングのためのアンチ散乱ネットワークベースアーキテクチャ

StreakNet-Arch: An Anti-scattering Network-based Architecture for Underwater Carrier LiDAR-Radar Imaging ( http://arxiv.org/abs/2404.09158v2 )

ライセンス: Link先を確認
Xuelong Li, Hongjun An, Guangying Li, Xing Wang, Guanghua Cheng, Zhe Sun, (参考訳) 本稿では,水中キャリアLiDAR-Radar(UCLR)イメージングシステム用に設計された新しい信号処理アーキテクチャであるStreakNet-Archを紹介し,散乱抑制とリアルタイムイメージングの限界に対処する。 StreakNet-Archは、信号処理をリアルタイムのエンドツーエンドのバイナリ分類タスクとして定式化し、リアルタイムの画像取得を可能にする。 これを実現するために,従来の手法を超越した新たな二重分岐クロスアテンション(DBC-Attention)機構を提案する。 さらに,ストリークチューブカメライメージを注目ネットワークに埋め込み,学習帯域通過フィルタとして効果的に機能する手法を提案する。 さらなる研究を容易にするために、我々は公開のストリークチューブカメラ画像データセットに貢献する。 データセットには2,695,168の現実世界の水中3Dポイントのクラウドデータが含まれている。 これらの進歩はUCLR機能を大幅に改善し、水中イメージングタスクの性能と適用性を高めた。 ソースコードとデータセットはhttps://github.com/BestAnHongjun/StreakNetで確認できる。

In this paper, we introduce StreakNet-Arch, a novel signal processing architecture designed for Underwater Carrier LiDAR-Radar (UCLR) imaging systems, to address the limitations in scatter suppression and real-time imaging. StreakNet-Arch formulates the signal processing as a real-time, end-to-end binary classification task, enabling real-time image acquisition. To achieve this, we leverage Self-Attention networks and propose a novel Double Branch Cross Attention (DBC-Attention) mechanism that surpasses the performance of traditional methods. Furthermore, we present a method for embedding streak-tube camera images into attention networks, effectively acting as a learned bandpass filter. To facilitate further research, we contribute a publicly available streak-tube camera image dataset. The dataset contains 2,695,168 real-world underwater 3D point cloud data. These advancements significantly improve UCLR capabilities, enhancing its performance and applicability in underwater imaging tasks. The source code and dataset can be found at https://github.com/BestAnHongjun/StreakNet .
翻訳日:2024-04-24 18:46:42 公開日:2024-04-23
# 導波路QEDにおける光ブロッホ方程式の閉包:動力学,エネルギー学

Closing Optical Bloch Equations in waveguide QED: Dynamics, Energetics ( http://arxiv.org/abs/2404.09648v2 )

ライセンス: Link先を確認
Samyak Pratyush Prasad, Maria Maffei, Patrice A. Camati, Cyril Elouard, Alexia Auffèves, (参考訳) 光ブロッホ方程式(OBE)は、古典的に駆動された2レベル原子の熱電場に結合した力学をモデル化する。 グローバルな視点から見ると、それらは閉じた孤立した原子場系のユニタリ進化に由来する。 駆動と熱場が1つの空間次元に閉じ込められている場合のOBEの出現について検討する。 結合原子-磁場系は「1次元原子」(1次元原子)を形成し、閉じた力学を解き、光-物質相関にアクセスできる。 このようなOBEの閉鎖は、エネルギー基底における原子のコヒーレンスに比例する、原子の駆動を自身で捉える新しい用語、すなわち自己駆動を公表する。 1D原子は、自律的なエネルギー保存システムを構成する。 したがって、原子と磁場の間のエネルギー交換は閉じた第一法則として便利に分析でき、そこでは仕事のような(熱のような)流れは、一方の系が持つ効果的なユニタリ(相関)から生じる。 クローズドなアプローチとオープンなアプローチは、第二法則のより厳密な表現をもたらす原子の自己作業によってのみ異なることを示す。 我々は、この締め付けを、OBEを閉じることによって獲得した外部知識と定量的に関連付ける。 私たちが導入した概念と効果は、量子状態における熱力学の理解を深め、量子スケールでのエネルギー管理の可能性を高める。 それらは最先端の量子ハードウェア、例えば超伝導やフォトニック回路で探索することができる。

Optical Bloch Equations (OBE) model the dynamics of a classically driven two-level atom coupled to a thermal electromagnetic field. From a global viewpoint, they derive from the unitary evolution of a closed, isolated atom-field system. We study the emergence of the OBE in the case where the driving and the thermal fields are confined in one spatial dimension -- a situation usually found in waveguide-QED. The joint atom-field system forms a "one-dimensional atom" (1D atom) whose closed dynamics can be solved, providing access to light-matter correlations. Such closure of the OBE unveils a new term capturing the driving of the atom by itself, or self-drive, which is proportional to the atom coherences in the energy basis. A 1D atom also constitutes an autonomous, energy-conserving system. Hence, energy exchanges between the atom and the field can be conveniently analyzed as closed first laws, where work-like (heat-like) flows stem from effective unitaries (correlations) exerted by one system on the other. We show that the closed and the open approaches only differ by the atom self-work, which yields a tighter expression of the second law. We quantitatively relate this tightening to the extra-knowledge acquired by closing the OBE. The concepts and effects we introduce deepen our understanding of thermodynamics in the quantum regime and its potential for energy management at quantum scales. They can be probed in state-of-the-art quantum hardware, e.g. superconducting and photonic circuits.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# Deferred NAM:非ストリーミングASRのためのDerredコンテキストエンコーディングによる低レイテンシトップKコンテキストインジェクション

Deferred NAM: Low-latency Top-K Context Injection via Deferred Context Encoding for Non-Streaming ASR ( http://arxiv.org/abs/2404.10180v2 )

ライセンス: Link先を確認
Zelin Wu, Gan Song, Christopher Li, Pat Rondon, Zhong Meng, Xavier Velez, Weiran Wang, Diamantino Caseiro, Golan Pundak, Tsendsuren Munkhdalai, Angad Chandorkar, Rohit Prabhavalkar, (参考訳) 文脈バイアスにより、音声認識者は、たとえ訓練データに稀であるか、欠落しているかにかかわらず、連絡先名など、話者の文脈で重要なフレーズを転写することができる。 注意に基づくバイアスは、認識システムとバイアスシステムの完全なエンドツーエンドのコトレーニングを可能にする主要なアプローチであり、別の推論時コンポーネントを必要としない。 このようなバイアスは一般的にコンテキストエンコーダで構成され、続いてコンテキストフィルタが適用範囲を狭め、ステップごとの推論時間を改善する。 フレーム単位のパフォーマンスの最適化に多くの作業が費やされているが、コンテキストエンコーダは少なくとも重要である。 ここでは、コンテクストエンコーディングの前に軽量なフレーズ選択パスを移動させることにより、最大16.1倍の高速化を実現し、バイアスを最大20Kのフレーズに拡大し、33ms未満の遅延を最大にすることができることを示す。 フレーズレベルとワードピースレベルのクロスエントロピー損失が加わったことにより、損失と軽量なフレーズ選択パスを伴わずに、ベースライン上で37.5%のWER削減を実現した。

Contextual biasing enables speech recognizers to transcribe important phrases in the speaker's context, such as contact names, even if they are rare in, or absent from, the training data. Attention-based biasing is a leading approach which allows for full end-to-end cotraining of the recognizer and biasing system and requires no separate inference-time components. Such biasers typically consist of a context encoder; followed by a context filter which narrows down the context to apply, improving per-step inference time; and, finally, context application via cross attention. Though much work has gone into optimizing per-frame performance, the context encoder is at least as important: recognition cannot begin before context encoding ends. Here, we show the lightweight phrase selection pass can be moved before context encoding, resulting in a speedup of up to 16.1 times and enabling biasing to scale to 20K phrases with a maximum pre-decoding delay under 33ms. With the addition of phrase- and wordpiece-level cross-entropy losses, our technique also achieves up to a 37.5% relative WER reduction over the baseline without the losses and lightweight phrase selection pass.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# LLMs4OM: オントロジーと大規模言語モデルとのマッチング

LLMs4OM: Matching Ontologies with Large Language Models ( http://arxiv.org/abs/2404.10317v2 )

ライセンス: Link先を確認
Hamed Babaei Giglou, Jennifer D'Souza, Felix Engel, Sören Auer, (参考訳) オントロジーマッチング(オントロジーマッチング、Ontology Matching、OM)は、異種オントロジーの整合がデータの相互運用性と知識共有を促進する、知識統合における重要なタスクである。 従来のOMシステムは専門家の知識や予測モデルに依存しており、LLM(Large Language Models)の可能性を限定的に探究している。 OM タスクにおける LLM の有効性を評価するための新しいアプローチである LLMs4OM フレームワークを提案する。 このフレームワークは、2つのモジュールをそれぞれ検索とマッチングに利用し、概念、概念親子、概念子という3つのオントロジー表現にまたがるゼロショットプロンプトによって強化される。 様々なドメインから20個のOMデータセットを用いて総合評価を行い、LLMs4OMフレームワークの下では、特に複雑なマッチングシナリオにおいて、従来のOMシステムの性能にマッチし、さらに上回ることができることを示した。 以上の結果から,OM の分野に大きく貢献する LLM の可能性が浮き彫りになった。

Ontology Matching (OM), is a critical task in knowledge integration, where aligning heterogeneous ontologies facilitates data interoperability and knowledge sharing. Traditional OM systems often rely on expert knowledge or predictive models, with limited exploration of the potential of Large Language Models (LLMs). We present the LLMs4OM framework, a novel approach to evaluate the effectiveness of LLMs in OM tasks. This framework utilizes two modules for retrieval and matching, respectively, enhanced by zero-shot prompting across three ontology representations: concept, concept-parent, and concept-children. Through comprehensive evaluations using 20 OM datasets from various domains, we demonstrate that LLMs, under the LLMs4OM framework, can match and even surpass the performance of traditional OM systems, particularly in complex matching scenarios. Our results highlight the potential of LLMs to significantly contribute to the field of OM.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# DESTEIN:ユニバーサルステアリングペアとヘッドワイドアクティベーションフュージョンによる言語モデルのデトックス化のナビゲート

DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion ( http://arxiv.org/abs/2404.10464v2 )

ライセンス: Link先を確認
Yu Li, Zhihua Wei, Han Jiang, Chuanyang Gong, (参考訳) 言語モデル (LM) は様々なタスクにまたがる顕著な成果にもかかわらず、有害なアウトプットを生成するための妥当性は依然として大きな関心事である。 微調整または補助モデルを含む現在のソリューションは、通常、広範囲のメモリと計算資源を必要とするため、大きな言語モデル(LLM)への展開には実用的でない。 本稿では,活性化空間における内部表現を低リソースかつ時間的コストで変化させることにより,LMをデトキシフィケーションする新しい手法であるDeSteinを提案する。 具体的には,自己誘導型ステアリングペアを利用して,活性化空間の算術演算を通じてデトキシフィケーションベクトルを同定する。 推論中、デトキシフィケーションベクトルと元の表現をブレンドすることでデトキシフィケーションが達成される。 実験結果から,本手法は一般的なデトキシ化指標に対する従来の最先端手法よりも優れており,良好な生成品質と多様性を維持していることがわかった。 さらに,本手法を複数のLLMに拡張し,実用性と拡張性を示す。 当社のメソッドはhttps://github.com/LizLizLi/DeSteinで公開しています。 警告: いくつかのモデル出力には、非常に攻撃的または乱雑なテキストが含まれている。

Despite the remarkable achievements of language models (LMs) across a broad spectrum of tasks, their propensity for generating toxic outputs remains a prevalent concern. Current solutions involving fine-tuning or auxiliary models usually require extensive memory and computational resources, rendering them less practical for deployment in large language models (LLMs). In this paper, we propose DeStein, a novel method that detoxififies LMs by altering their internal representations in the activation space with lower resource and time cost. Specifically, we leverage self-induced steering pairs to identify detoxification vectors through arithmetic operations in the activation space. During inference, detoxification is achieved by blending the detoxification vectors with the original representations. Empirical results demonstrate that our method significantly outperforms previous state-of-the-art approaches on popular detoxification metrics, while also maintaining satisfactory generation quality and diversity. Furthermore, we extend our method to multiple LLMs, demonstrating its practicality and scalability. We open-source our method at https://github.com/LizLizLi/DeStein . Warning: Some example model outputs contain highly offensive or disturbing text.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# ホン・オ・マンデル干渉計による量子プラズモニックセンシング

Quantum plasmonic sensing by Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2404.10994v2 )

ライセンス: Link先を確認
Seungjin Yoon, Yu Sung Choi, Mark Tame, Jae Woong Yoon, Sergey V. Polyakov, Changhyoup Lee, (参考訳) 本稿では, 2重クレッツマン構成からなるプラズモンビームスプリッタに埋め込まれ, 分析液の屈折率を計測するHong-Ou-Mandel (HOM) 干渉計を用いて, フラストレーションされた全内部反射ビームスプリッタとして機能する量子プラズモンセンサを提案する。 単一光子検出器と組み合わせたHOM干渉計のセンシング性能をフィッシャー情報を用いて評価し, 分析液の屈折率を推定した。 これはその後、プラズモンビームスプリッターへの光のコヒーレントな状態の注入を考える古典的なベンチマークと比較される。 単一光子の波長と分析体の屈折率を変化させることで、50%の量子増強が達成される範囲を特定し、古典的なベンチマークと比較して観察された挙動について議論する。 本研究は、広範囲のナノフォトニックビームスプリッター構造に直接的な意味を持たせるために、量子強化センシング技術の進歩に関する有用な知見を提供することを期待する。

We propose a quantum plasmonic sensor using Hong-Ou-Mandel (HOM) interferometry that measures the refractive index of an analyte, embedded in a plasmonic beam splitter composed of a dual-Kretschmann configuration, which serves as a frustrated total internal reflection beamsplitter. The sensing performance of the HOM interferometry, combined with single-photon detectors, is evaluated through Fisher information for estimation of the refractive index of the analyte. This is subsequently compared with the classical benchmark that considers the injection of a coherent state of light into the plasmonic beamsplitter. By varying the wavelength of the single photons and the refractive index of the analyte, we identify a wide range where a 50 % quantum enhancement is achieved and discuss the observed behaviors in comparison with the classical benchmark. We expect this study to provide a useful insight into the advancement of quantum-enhanced sensing technologies, with direct implications for a wide range of nanophotonic beamsplitter structures.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# リモートセンシング変化検出のための微粒化情報とノイズデカップリングの活用

Leveraging Fine-Grained Information and Noise Decoupling for Remote Sensing Change Detection ( http://arxiv.org/abs/2404.11318v2 )

ライセンス: Link先を確認
Qiangang Du, Jinlong Peng, Changan Wang, Xu Chen, Qingdong He, Wenbing Zhu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 変化検出は、バイテンポラルイメージペア間のデータを分析することによって、リモートセンシングオブジェクトの変化を識別することを目的としている。 変化検出画像対におけるデータ収集の時間的・空間的幅が大きいため、タスク固有のノイズやタスクに依存しないノイズがかなり多いことがしばしばある。 これまでの努力は、デノベーションに過度に焦点を合わせてきたが、これは、きめ細かい情報を大量に失うことになる。 本稿では、変更検出におけるきめ細かい特徴の重要性を再考し、きめ細かい情報補償とノイズデカップリング(FINO)のための一連の操作を提案する。 まず、そのコンテキストを利用して、特徴空間内のきめ細かい情報を補う。 次に、表現学習能力を向上させるために、形状認識と明るさ認識モジュールを設計する。 形状認識モジュールは、より正確な形状推定のために背骨をガイドし、物体形状特徴の抽出において背骨ネットワークを誘導する。 明るさ認識モジュールは全体輝度推定を学習し、タスク非依存雑音に対するモデルの堅牢性を改善する。 最後に、タスク固有のノイズ分離構造を、特徴的類似性からノイズ干渉を分離するモデルの能力を改善するために設計する。 これらのトレーニング手法により,提案手法は複数の変更検出ベンチマークにおいて新しいSOTA(State-of-the-art)を実現する。 コードは利用可能になります。

Change detection aims to identify remote sense object changes by analyzing data between bitemporal image pairs. Due to the large temporal and spatial span of data collection in change detection image pairs, there are often a significant amount of task-specific and task-agnostic noise. Previous effort has focused excessively on denoising, with this goes a great deal of loss of fine-grained information. In this paper, we revisit the importance of fine-grained features in change detection and propose a series of operations for fine-grained information compensation and noise decoupling (FINO). First, the context is utilized to compensate for the fine-grained information in the feature space. Next, a shape-aware and a brightness-aware module are designed to improve the capacity for representation learning. The shape-aware module guides the backbone for more precise shape estimation, guiding the backbone network in extracting object shape features. The brightness-aware module learns a overall brightness estimation to improve the model's robustness to task-agnostic noise. Finally, a task-specific noise decoupling structure is designed as a way to improve the model's ability to separate noise interference from feature similarity. With these training schemes, our proposed method achieves new state-of-the-art (SOTA) results in multiple change detection benchmarks. The code will be made available.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# 領域一般化のための単一時間監視型リモート変更検出

Single-temporal Supervised Remote Change Detection for Domain Generalization ( http://arxiv.org/abs/2404.11326v4 )

ライセンス: Link先を確認
Qiangang Du, Jinlong Peng, Xu Chen, Qingdong He, Liren He, Qiang Nie, Wenbing Zhu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 変化検出はリモートセンシング画像解析に広く応用されている。 既存の方法はデータセットごとに個別にトレーニングモデルを必要とするため、ドメインの一般化は不十分である。 さらに、これらの手法は、高価で実用的でない、大量の高品質なペアラベルデータに大きく依存している。 本稿では,変化検出領域の一般化のための視覚言語事前学習に基づくマルチモーダルコントラスト学習(ChangeCLIP)を提案する。 さらに,素早い学習のための動的文脈最適化を提案する。 一方、既存の手法のデータ依存問題に対処するため、単時間かつ制御可能なAI生成トレーニング戦略(SAIN)を導入する。 これにより、実世界の画像ペアを使わずに、多数の単一時間画像を用いてモデルを訓練し、優れた一般化を実現することができる。 一連の実変化検出データセットに関する大規模な実験により、ChangeCLIPの優位性と強力な一般化が検証され、最先端の変化検出方法よりも優れた結果が得られた。 コードは利用可能です。

Change detection is widely applied in remote sensing image analysis. Existing methods require training models separately for each dataset, which leads to poor domain generalization. Moreover, these methods rely heavily on large amounts of high-quality pair-labelled data for training, which is expensive and impractical. In this paper, we propose a multimodal contrastive learning (ChangeCLIP) based on visual-language pre-training for change detection domain generalization. Additionally, we propose a dynamic context optimization for prompt learning. Meanwhile, to address the data dependency issue of existing methods, we introduce a single-temporal and controllable AI-generated training strategy (SAIN). This allows us to train the model using a large number of single-temporal images without image pairs in the real world, achieving excellent generalization. Extensive experiments on series of real change detection datasets validate the superiority and strong generalization of ChangeCLIP, outperforming state-of-the-art change detection methods. Code will be available.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# Ornstein-Uhlenbeck過程のパラメータ推定における従来の学習法とディープラーニング法の比較

A Comparison of Traditional and Deep Learning Methods for Parameter Estimation of the Ornstein-Uhlenbeck Process ( http://arxiv.org/abs/2404.11526v3 )

ライセンス: Link先を確認
Jacob Fein-Ashley, (参考訳) 我々は、オルンシュタイン-ウレンベック過程(OU)は金融、物理学、生物学で広く使われている確率過程であると考えている。 OUプロセスのパラメータ推定は難しい問題である。 そこで我々は従来の追跡手法をレビューし、それらをディープラーニングの新たな応用と比較し、OUプロセスのパラメータを推定する。 我々はマルチ層パーセプトロンを用いてOUプロセスのパラメータを推定し、その性能をカルマンフィルタや最大推定のような従来のパラメータ推定手法と比較する。 観測軌道の大量のデータセットを与えられたOUプロセスのパラメータを,多層パーセプトロンで正確に推定することができ,平均して従来のパラメータ推定法より優れていることがわかった。

We consider the Ornstein-Uhlenbeck (OU) process, a stochastic process widely used in finance, physics, and biology. Parameter estimation of the OU process is a challenging problem. Thus, we review traditional tracking methods and compare them with novel applications of deep learning to estimate the parameters of the OU process. We use a multi-layer perceptron to estimate the parameters of the OU process and compare its performance with traditional parameter estimation methods, such as the Kalman filter and maximum likelihood estimation. We find that the multi-layer perceptron can accurately estimate the parameters of the OU process given a large dataset of observed trajectories and, on average, outperforms traditional parameter estimation methods.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# TriForce: 階層的投機的復号化による長周期生成のロスレス高速化

TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding ( http://arxiv.org/abs/2404.11912v2 )

ライセンス: Link先を確認
Hanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen, (参考訳) 近年,大規模言語モデル (LLM) が長期コンテンツ生成に広く採用されているため,効率的な長期推論サポートの必要性が高まっている。 しかし、再計算を避けるために格納されるキー値(KV)キャッシュは、シーケンス長と線形に大きくなることで重要なボトルネックとなっている。 LLMの自己回帰性のため、KVキャッシュ全体が生成されたトークン毎にロードされるため、計算コアの低利用と高いレイテンシが生じる。 KVキャッシュの様々な圧縮手法がこの問題を軽減するために提案されているが、それらは生成品質の低下に悩まされている。 本稿では,時系列生成にスケーラブルな階層型投機復号システムTriForceを紹介する。 このアプローチでは,従来のモデル重みと動的スパースKVキャッシュをドラフトモデルとして検索し,階層の中間層として機能する。 TriForceは、Llama2-7B-128Kの印象的なスピードアップを促進し、A100 GPU上で最大2.31$\times$を達成するだけでなく、さらに長いコンテキストを扱うスケーラビリティも示す。 2つのRTX 4090 GPUのオフロード設定のために、TriForceは0.108s/token$\unicode{x2014}$onlyをA100のオートレグレッシブベースラインの半分の速度で達成し、最適化されたオフロードシステムでは7.78$\times$に達する。 さらに、TriForceは1つのRTX 4090 GPU上でDeepSpeed-Zero-Inferenceよりも4.86$\times$を実行する。 トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。 コードはhttps://github.com/Infini-AI-Lab/TriForce.comで公開されている。

With large language models (LLMs) widely deployed in long content generation recently, there has emerged an increasing demand for efficient long-sequence inference support. However, key-value (KV) cache, which is stored to avoid re-computation, has emerged as a critical bottleneck by growing linearly in size with the sequence length. Due to the auto-regressive nature of LLMs, the entire KV cache will be loaded for every generated token, resulting in low utilization of computational cores and high latency. While various compression methods for KV cache have been proposed to alleviate this issue, they suffer from degradation in generation quality. We introduce TriForce, a hierarchical speculative decoding system that is scalable to long sequence generation. This approach leverages the original model weights and dynamic sparse KV cache via retrieval as a draft model, which serves as an intermediate layer in the hierarchy and is further speculated by a smaller model to reduce its drafting latency. TriForce not only facilitates impressive speedups for Llama2-7B-128K, achieving up to 2.31$\times$ on an A100 GPU but also showcases scalability in handling even longer contexts. For the offloading setting on two RTX 4090 GPUs, TriForce achieves 0.108s/token$\unicode{x2014}$only half as slow as the auto-regressive baseline on an A100, which attains 7.78$\times$ on our optimized offloading system. Additionally, TriForce performs 4.86$\times$ than DeepSpeed-Zero-Inference on a single RTX 4090 GPU. TriForce's robustness is highlighted by its consistently outstanding performance across various temperatures. The code is available at https://github.com/Infini-AI-Lab/TriForce.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# MolCRAFT:連続パラメータ空間における構造に基づく医薬品設計

MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space ( http://arxiv.org/abs/2404.12141v2 )

ライセンス: Link先を確認
Yanru Qu, Keyue Qiu, Yuxuan Song, Jingjing Gong, Jiawei Han, Mingyue Zheng, Hao Zhou, Wei-Ying Ma, (参考訳) 近年, 構造に基づく医薬品デザイン(SBDD)の創成モデルが有望な成果を上げている。 既存の研究は主に、高い結合親和性を持つ分子を生成する方法に焦点を当てており、生成された3Dポーズに対する実現可能性の前提条件を無視し、偽陽性をもたらす。 我々は,モード崩壊やハイブリッド連続離散空間を含む自己回帰的手法を適用し,SBDDに拡散する際の不整合問題の要因を徹底的に研究する。 本稿では,連続パラメータ空間で動作する最初のSBDDモデルであるMolCRAFTと,新しいノイズ低減サンプリング戦略を紹介する。 実験により,本モデルはより安定な3次元構造との結合親和性において常に優れた性能を示し,原子間相互作用を正確にモデル化する能力を示している。 我々の知る限りでは、MollCRAFTは、基準レベルのVina Scores (-6.59 kcal/mol) を同等の分子サイズで達成し、他の強いベースラインよりも広いマージン (-0.84 kcal/mol) で優れている。

Generative models for structure-based drug design (SBDD) have shown promising results in recent years. Existing works mainly focus on how to generate molecules with higher binding affinity, ignoring the feasibility prerequisites for generated 3D poses and resulting in false positives. We conduct thorough studies on key factors of ill-conformational problems when applying autoregressive methods and diffusion to SBDD, including mode collapse and hybrid continuous-discrete space. In this paper, we introduce MolCRAFT, the first SBDD model that operates in the continuous parameter space, together with a novel noise reduced sampling strategy. Empirical results show that our model consistently achieves superior performance in binding affinity with more stable 3D structure, demonstrating our ability to accurately model interatomic interactions. To our best knowledge, MolCRAFT is the first to achieve reference-level Vina Scores (-6.59 kcal/mol) with comparable molecular size, outperforming other strong baselines by a wide margin (-0.84 kcal/mol).
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# シナジスティック交通システムの合成参加計画のための大規模言語モデル

Large Language Models for Synthetic Participatory Planning of Synergistic Transportation Systems ( http://arxiv.org/abs/2404.12317v3 )

ライセンス: Link先を確認
Jiangbo Yu, (参考訳) 都市交通問題に対処するためのユニークな課題と機会を、マルチステークホルダーのランドスケープにおいて、急速に発展するモビリティ技術のシナジーを解き放つ。 本稿では,多種多様な利害関係者を代表するデジタルアバターを作成するために,大規模言語モデル(LLM)を批判的に活用し,共有電気移動システム(SAEMS)を計画する,新しい合成参加方式を提案する。 これらの調整可能なエージェントは、目標を共同で識別し、SAEMS代替案を構想し、評価し、リスクと制約の下で実施をストラテジズする。 モントリオールのケーススタディの結果、構造化されたパラメータ化されたワークフローは、単一のLSM対応の専門家エージェントを用いて生成されたものよりも、SAEMS計画に対して高い制御性と包括性を備えた出力を提供することが示された。 その結果、多目的輸送計画の傾きと解釈可能性を向上させるためのコスト効率向上のための有望な方法が提案され、持続可能な輸送システムの構想と戦略のパラダイムシフトが示唆された。

Unleashing the synergies of rapidly evolving mobility technologies in a multi-stakeholder landscape presents unique challenges and opportunities for addressing urban transportation problems. This paper introduces a novel synthetic participatory method, critically leveraging large language models (LLMs) to create digital avatars representing diverse stakeholders to plan shared automated electric mobility systems (SAEMS). These calibratable agents collaboratively identify objectives, envision and evaluate SAEMS alternatives, and strategize implementation under risks and constraints. The results of a Montreal case study indicate that a structured and parameterized workflow provides outputs with high controllability and comprehensiveness on an SAEMS plan than generated using a single LLM-enabled expert agent. Consequently, the approach provides a promising avenue for cost-efficiently improving the inclusivity and interpretability of multi-objective transportation planning, suggesting a paradigm shift in how we envision and strategize for sustainable and equitable transportation systems.
翻訳日:2024-04-24 18:36:58 公開日:2024-04-23
# グラディエント正規化アウト・オブ・ディストリビューション検出

Gradient-Regularized Out-of-Distribution Detection ( http://arxiv.org/abs/2404.12368v2 )

ライセンス: Link先を確認
Sina Sharifi, Taha Entesari, Bardia Safaei, Vishal M. Patel, Mahyar Fazlyab, (参考訳) 現実のアプリケーションにおけるニューラルネットワークの課題の1つは、これらのモデルが元のトレーニングディストリビューションからデータが送られていないときに犯す過信エラーである。 この問題に対処するためには、Out-of-Distribution (OOD) Detection(アウト・オブ・ディストリビューション)と呼ばれる。 多くの最先端のOOD手法では、訓練中のOODデータのサロゲートとして補助データセットを使用し、性能の向上を実現している。 しかし、これらの手法は補助データセットに埋め込まれたローカル情報を十分に活用することができない。 本研究では,学習中の損失関数の勾配に埋め込まれた情報を活用して,各サンプルに対して所望のOODスコアを学習するだけでなく,各サンプルの周辺地域でも同様の挙動を示すことができるようにすることを提案する。 また、トレーニング期間中に、より情報性の高いOODサンプルにネットワークを露出させるための、新しいエネルギーベースのサンプリング手法を開発した。 これは補助データセットが大きい場合に特に重要である。 提案手法の有効性を複数のOODベンチマークで検証し,既存のFPR95を画像Net実験で4%改善した。 さらに、証明された堅牢性のレンズとリプシッツ解析を通して理論的解析を行い、我々の研究の理論的基礎を示す。 レビュープロセスの後にコードを公開します。

One of the challenges for neural networks in real-life applications is the overconfident errors these models make when the data is not from the original training distribution. Addressing this issue is known as Out-of-Distribution (OOD) detection. Many state-of-the-art OOD methods employ an auxiliary dataset as a surrogate for OOD data during training to achieve improved performance. However, these methods fail to fully exploit the local information embedded in the auxiliary dataset. In this work, we propose the idea of leveraging the information embedded in the gradient of the loss function during training to enable the network to not only learn a desired OOD score for each sample but also to exhibit similar behavior in a local neighborhood around each sample. We also develop a novel energy-based sampling method to allow the network to be exposed to more informative OOD samples during the training phase. This is especially important when the auxiliary dataset is large. We demonstrate the effectiveness of our method through extensive experiments on several OOD benchmarks, improving the existing state-of-the-art FPR95 by 4% on our ImageNet experiment. We further provide a theoretical analysis through the lens of certified robustness and Lipschitz analysis to showcase the theoretical foundation of our work. We will publicly release our code after the review process.
翻訳日:2024-04-24 18:27:14 公開日:2024-04-23
# DLoRA-TrOCR:変換器を用いた混合テキストモード光文字認識

DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer ( http://arxiv.org/abs/2404.12734v3 )

ライセンス: Link先を確認
Da Chang, Yu Li, (参考訳) 光文字認識(OCR)の継続的な発展と応用分野の拡大により、複雑な場面におけるテキスト認識は重要な課題となっている。 複数のフォント、混合シーン、複雑なレイアウトなどの要因は、従来のOCRモデルの認識精度に深刻な影響を及ぼす。 近年、ディープラーニングに基づくOCRモデルは特定の分野や類似のデータセットでよく機能しているが、複数のシーンを持つ複雑な環境に直面する場合、モデルの一般化能力と堅牢性は依然として大きな課題である。 さらに、すべてのパラメータのスクラッチや微調整からOCRモデルをトレーニングすることは、コンピューティングリソースと推論時間に非常に要求されるため、アプリケーションの柔軟性が制限される。 本研究は、上記課題に対応する混合テキスト認識の基本的側面に焦点を当て、様々な下流タスクにおける例外的な性能を示すために、事前学習された基本OCRモデルを効果的に微調整することを含む。 そこで本研究では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。 この方法は、DRAを画像エンコーダとLoRAをテキストデコーダの内部構造に埋め込むことで、下流タスクの効率的なパラメータの微調整を可能にする。 実験の結果, DLoRA-TrOCR はパラメータの最小値であり, 性能も良好であることがわかった。 複雑なシーンデータセット上で、手書き、印刷、ストリートビューの混在したテキストの同時認識を含む最先端のパフォーマンスを実現することができる。

With the continuous development of Optical Character Recognition (OCR) and the expansion of application fields, text recognition in complex scenes has become a key challenge. Factors such as multiple fonts, mixed scenes and complex layouts seriously affect the recognition accuracy of traditional OCR models. Although OCR models based on deep learning have performed well in specific fields or similar datasets in recent years, the generalization ability and robustness of the model are still a big challenge when facing complex environments with multiple scenes. Furthermore, training an OCR model from scratch or fine-tuning all parameters is very demanding on computing resources and inference time, which limits the flexibility of its application. This study focuses on a fundamental aspect of mixed text recognition in response to the challenges mentioned above, which involves effectively fine-tuning the pre-trained basic OCR model to demonstrate exceptional performance across various downstream tasks. To this end, we propose a parameter-efficient mixed text recognition method based on pre-trained OCR Transformer, namely DLoRA-TrOCR. This method embeds DoRA into the image encoder and LoRA into the internal structure of the text decoder, enabling efficient parameter fine-tuning for downstream tasks. Experiments show that compared to similar parameter adjustment methods, our model DLoRA-TrOCR has the smallest number of parameters and performs better. It can achieve state-of-the-art performance on complex scene datasets involving simultaneous recognition of mixed handwritten, printed and street view texts.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# BERTモデルを用いた学際研究の強化:トピックモデリングを用いたSciBERT-CNNによるアプローチ

Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling ( http://arxiv.org/abs/2404.13078v2 )

ライセンス: Link先を確認
Darya Likhareva, Hamsini Sankaran, Sivakumar Thiyagarajan, (参考訳) 研究者は学術文献を定期的にレビューすることで、現在の分野に留まらなければならない。 従来のマルチラベルテキスト分類法は意味的関係を無視し、固有のクラス不均衡に対処しないことが多い。 本稿では,SciBERTモデルとCNNを用いて,Elsevier OA CC-BYコーパスから学術的抽象物を体系的に分類する手法を提案する。 我々は、SciBERTを介してBERTトピックモデリングによって得られた抽象、体文、タイトル、キーワードを処理するマルチセグメント入力戦略を使用する。 ここでは、[CLS]トークンの埋め込みが各セグメントのコンテキスト表現をキャプチャし、CNNを通じて連結して処理する。 CNNは、畳み込みとプーリングを使用して、特徴抽出を強化し、次元性を低減し、分類のためのデータを最適化する。 さらに、ラベル周波数に基づくクラス重みを組み、クラス不均衡に対処し、分類F1のスコアを大幅に改善し、テキスト分類システムと文献レビュー効率を向上する。

Researchers must stay current in their fields by regularly reviewing academic literature, a task complicated by the daily publication of thousands of papers. Traditional multi-label text classification methods often ignore semantic relationships and fail to address the inherent class imbalances. This paper introduces a novel approach using the SciBERT model and CNNs to systematically categorize academic abstracts from the Elsevier OA CC-BY corpus. We use a multi-segment input strategy that processes abstracts, body text, titles, and keywords obtained via BERT topic modeling through SciBERT. Here, the [CLS] token embeddings capture the contextual representation of each segment, concatenated and processed through a CNN. The CNN uses convolution and pooling to enhance feature extraction and reduce dimensionality, optimizing the data for classification. Additionally, we incorporate class weights based on label frequency to address the class imbalance, significantly improving the classification F1 score and enhancing text classification systems and literature review efficiency.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# 拡張されたオブジェクトインテリジェンス:XRオブジェクトでアナログワールドを対話可能にする

Augmented Object Intelligence: Making the Analog World Interactable with XR-Objects ( http://arxiv.org/abs/2404.13274v2 )

ライセンス: Link先を確認
Mustafa Doga Dogan, Eric J. Gonzalez, Andrea Colaco, Karan Ahuja, Ruofei Du, Johnny Lee, Mar Gonzalez-Franco, David Kim, (参考訳) 対話型デジタルエンティティとしての物理オブジェクトのシームレスな統合は、空間コンピューティングの課題である。 本稿では,デジタルオブジェクトがデジタルであるかのように対話できる能力を備えた,デジタルと物理的の境界線を曖昧にするために設計された,新しいXRインタラクションパラダイムであるAugmented Object Intelligence(AOI)を紹介する。 提案手法では,オブジェクトのセグメンテーションと分類と,MLLM(Multimodal Large Language Models)のパワーを組み合わせることで,これらのインタラクションを容易にする。 我々は,AOI の概念を XR-Objects というオープンソースのプロトタイプシステムで実装する。 このシステムにより、アナログオブジェクトが情報を伝えるだけでなく、細部への問い合わせやタスクの実行といったデジタルアクションを開始することができる。 1)従来のAIアシスタントよりもAOIの概念を定義し、その利点を詳述し、(2)XR-Objectsシステムのオープンソース設計と実装を詳述し、(3)さまざまなユースケースとユーザスタディを通じてその汎用性を示す。

Seamless integration of physical objects as interactive digital entities remains a challenge for spatial computing. This paper introduces Augmented Object Intelligence (AOI), a novel XR interaction paradigm designed to blur the lines between digital and physical by equipping real-world objects with the ability to interact as if they were digital, where every object has the potential to serve as a portal to vast digital functionalities. Our approach utilizes object segmentation and classification, combined with the power of Multimodal Large Language Models (MLLMs), to facilitate these interactions. We implement the AOI concept in the form of XR-Objects, an open-source prototype system that provides a platform for users to engage with their physical environment in rich and contextually relevant ways. This system enables analog objects to not only convey information but also to initiate digital actions, such as querying for details or executing tasks. Our contributions are threefold: (1) we define the AOI concept and detail its advantages over traditional AI assistants, (2) detail the XR-Objects system's open-source design and implementation, and (3) show its versatility through a variety of use cases and a user study.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# 機械学習を用いた融雪駆動流速予測の比較解析

Comparative Analysis on Snowmelt-Driven Streamflow Forecasting Using Machine Learning Techniques ( http://arxiv.org/abs/2404.13327v2 )

ライセンス: Link先を確認
Ukesh Thapa, Bipun Man Pati, Samit Thapa, Dhiraj Pyakurel, Anup Shrestha, (参考訳) 機械学習技術の急速な進歩は、水資源を含む様々な領域に広く応用されている。 しかし, 融雪モデルはまだ広く調査されていない領域である。 本研究では,ヒンズー・クシュ・ヒマラヤ地方のヒマラヤ盆地における融雪駆動放電モデルにおいて,時相畳み込みネットワーク(TCN)を利用した最先端の深層学習モデルを提案する。 提案モデルの性能を評価するため,SVR(Support Vector Regression),LSTM(Long Short Term Memory),Transformer(Transformer)など,他の一般的なモデルとの比較分析を行った。 さらに、5つの外折りと3つの内折りにNested Cross-validation(CV)を使用し、内折りにハイパーパラメータチューニングを行う。 モデル平均絶対誤差(MAE)、ルート平均二乗誤差(RMSE)、R平方(R^{2}$)、クリング・グプタ効率(KGE)、ナッシュ・サトクリフ効率(NSE)を各外周毎に算出する。 平均値では、TNが他のモデルより優れており、MAEは0.011、RMSEは0.023、R^{2}$は0.991、KGEは0.992、NSEは0.991である。 本研究は,融雪駆動流速予測における従来の機械学習手法と比較して,ディープラーニングモデルの有効性を示すものである。 さらに、TCNの優れた性能は、同様の水文学応用のための有望なディープラーニングモデルとしての可能性を強調している。

The rapid advancement of machine learning techniques has led to their widespread application in various domains including water resources. However, snowmelt modeling remains an area that has not been extensively explored. In this study, we propose a state-of-the-art (SOTA) deep learning sequential model, leveraging the Temporal Convolutional Network (TCN), for snowmelt-driven discharge modeling in the Himalayan basin of the Hindu Kush Himalayan Region. To evaluate the performance of our proposed model, we conducted a comparative analysis with other popular models including Support Vector Regression (SVR), Long Short Term Memory (LSTM), and Transformer. Furthermore, Nested cross-validation (CV) is used with five outer folds and three inner folds, and hyper-parameter tuning is performed on the inner folds. To evaluate the performance of the model mean absolute error (MAE), root mean square error (RMSE), R square ($R^{2}$), Kling-Gupta Efficiency (KGE), and Nash-Sutcliffe Efficiency (NSE) are computed for each outer fold. The average metrics revealed that TCN outperformed the other models, with an average MAE of 0.011, RMSE of 0.023, $R^{2}$ of 0.991, KGE of 0.992, and NSE of 0.991. The findings of this study demonstrate the effectiveness of the deep learning model as compared to traditional machine learning approaches for snowmelt-driven streamflow forecasting. Moreover, the superior performance of TCN highlights its potential as a promising deep learning model for similar hydrological applications.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# 自己教師型機械学習による医療専門家の育成に伴う多発性足底障害の診断

Diagnosis of Multiple Fundus Disorders Amidst a Scarcity of Medical Experts Via Self-supervised Machine Learning ( http://arxiv.org/abs/2404.13388v2 )

ライセンス: Link先を確認
Yong Liu, Mengtian Kang, Shuo Gao, Chi Zhang, Ying Liu, Shiming Li, Yue Qi, Arokia Nathan, Wenjun Xu, Chenyu Tang, Edoardo Occhipinti, Mayinuer Yusufu, Ningli Wang, Weiling Bai, Luigi Occhipinti, (参考訳) 眼科医の不足がタイムリーな診断を妨げている未発達の地域では、眼底疾患は視覚障害や視覚障害の主な原因である。 AI支援されたファンドイメージ分析には、高精度、ワークロード削減、アクセシビリティの改善など、いくつかのメリットがあるが、信頼性のあるモデルを構築するには、大量の専門家アノテートデータが必要である。 このジレンマに対処するために、ラベルのないファンドス画像から多様なファンドス病を処理できる汎用的な自己教師型機械学習フレームワークを提案する。 提案手法のAUCは,既存の指導的アプローチを15.7%超え,一人の人間専門家の能力を超えている。 さらに、当社のモデルは、異なる地域、人種、異種画像ソースからのさまざまなデータセットや、複数のカメラやデバイスからのクオリティに順応する。 本手法は,眼底疾患を診断するためのラベルフリーの汎用フレームワークを提供する。

Fundus diseases are major causes of visual impairment and blindness worldwide, especially in underdeveloped regions, where the shortage of ophthalmologists hinders timely diagnosis. AI-assisted fundus image analysis has several advantages, such as high accuracy, reduced workload, and improved accessibility, but it requires a large amount of expert-annotated data to build reliable models. To address this dilemma, we propose a general self-supervised machine learning framework that can handle diverse fundus diseases from unlabeled fundus images. Our method's AUC surpasses existing supervised approaches by 15.7%, and even exceeds performance of a single human expert. Furthermore, our model adapts well to various datasets from different regions, races, and heterogeneous image sources or qualities from multiple cameras or devices. Our method offers a label-free general framework to diagnose fundus diseases, which could potentially benefit telehealth programs for early screening of people at risk of vision loss.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# ML-KEMに基づく高速ポスト量子TLS 1.3の実装と評価

Faster Post-Quantum TLS 1.3 Based on ML-KEM: Implementation and Assessment ( http://arxiv.org/abs/2404.13544v2 )

ライセンス: Link先を確認
Jieyu Zheng, Haoliang Zhu, Yifan Dong, Zhenyu Song, Zhenhao Zhang, Yafang Yang, Yunlei Zhao, (参考訳) TLSはネットワーク上のセキュアなデータ伝送に広く利用されている。 しかし、量子コンピュータの出現により、従来の公開鍵暗号に基づくTLSのセキュリティは脅威にさらされている。 量子脅威に対抗するためには、量子後アルゴリズムをTLSに統合することが不可欠である。 PQ-TLSのほとんどの研究は統合と評価に重点を置いているが、PQC実装の最適化によるPQ-TLSの性能向上に対処する研究はほとんどない。 TLSプロトコルでは、ハンドシェイク性能が重要であり、後量子TLS(PQ-TLS)では、後量子鍵カプセル化機構(KEM)の性能がハンドシェイク性能に直接影響を及ぼす。 本研究では,量子後KEMがPQ-TLS性能に与える影響について検討する。 最新のIntelのAdvanced Vector Extensions命令セットAVX-512を用いてML-KEMの性能を改善する方法について検討する。 ML-KEM内の多項式乗算、モジュラーリダクション、その他の計算集約的なモジュールを並列化するために考案された技法のスペクトルを詳述する。 最適化されたML-KEM実装は,最新のAVX2実装と比較して最大1.64倍の高速化を実現している。 さらに,TLSプロトコルにシームレスに統合可能なML-KEMのバッチ鍵生成手法を提案する。 バッチ方式では、鍵生成手順を3.5倍から4.9倍に高速化する。 ML-KEMの最適化されたAVX-512実装をTLS 1.3に統合し、PQモードとハイブリッドモードの両方でハンドシェイク性能を評価する。 その結果,ML-KEM実装の高速化により,両方のモードで1秒あたりのTLS 1.3ハンドシェイク数が増加することがわかった。 さらに,Eurocrypt22とAsiacrypt23で議論されたIND-1-CCA KEMの構成について再検討した。 さらに、ML-KEMに基づいて実装し、優れたパフォーマンスの1つをベンチマークでTLS 1.3に統合する。

TLS is extensively utilized for secure data transmission over networks. However, with the advent of quantum computers, the security of TLS based on traditional public-key cryptography is under threat. To counter quantum threats, it is imperative to integrate post-quantum algorithms into TLS. Most PQ-TLS research focuses on integration and evaluation, but few studies address the improvement of PQ-TLS performance by optimizing PQC implementation. For the TLS protocol, handshake performance is crucial, and for post-quantum TLS (PQ-TLS) the performance of post-quantum key encapsulation mechanisms (KEMs) directly impacts handshake performance. In this work, we explore the impact of post-quantum KEMs on PQ-TLS performance. We explore how to improve ML-KEM performance using the latest Intel's Advanced Vector Extensions instruction set AVX-512. We detail a spectrum of techniques devised to parallelize polynomial multiplication, modular reduction, and other computationally intensive modules within ML-KEM. Our optimized ML-KEM implementation achieves up to 1.64x speedup compared to the latest AVX2 implementation. Furthermore, we introduce a novel batch key generation method for ML-KEM that can seamlessly integrate into the TLS protocols. The batch method accelerates the key generation procedure by 3.5x to 4.9x. We integrate the optimized AVX-512 implementation of ML-KEM into TLS 1.3, and assess handshake performance under both PQ-only and hybrid modes. The assessment demonstrates that our faster ML-KEM implementation results in a higher number of TLS 1.3 handshakes per second under both modes. Additionally, we revisit two IND-1-CCA KEM constructions discussed in Eurocrypt22 and Asiacrypt23. Besides, we implement them based on ML-KEM and integrate the one of better performance into TLS 1.3 with benchmarks.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# 2つの遠隔地における単一光子の同時作用

Simultaneous action of a single photon at two remote places ( http://arxiv.org/abs/2404.13545v2 )

ライセンス: Link先を確認
Lida Zhang, (参考訳) アインシュタインの思考実験により、ピンホールの後に回折された1つの量子粒子が、原則として、半球の画像スクリーン上の2つまたは複数の場所で作用を発生させる可能性があるという結論が得られた。 これは、2つの空間的に離れた空洞からなるカスケード量子系において、それぞれ超強結合状態において量子ビットに結合すると考えられている。 2つのキャビティに単一光子パルスが入射すると2つのキュービットが同時に励起され、その分離が光子パルスの空間的長さに匹敵する場合であっても2つの検出事象が生じることが示される。 我々の結果は、量子力学の新たな側面を基本的なレベルで発見するだけでなく、強い結合状態では不可能な散逸チャネルによるリモート絡みの発生のような実践的な応用ももたらしている。

Motivated by Einstein's thought experiment that a single quantum particle diffracted after a pinhole could in principle produce an action in two or several places on a hemispherical imaging screen, here we explore theoretically the possibility to simultaneously detect the action of a single photon at two remote places. This is considered in a cascade quantum system composed of two spatially distant cavities each coupled to a qubit in the ultrastrong coupling regime. We show that a single-photon pulse incident on the two cavities can simultaneously excite the two remote qubits and lead to two subsequent detection events even when the separation between them is comparable to the spatial length of the photon pulse. Our results not only uncover new facets of quantum mechanics at a fundamental level but also have practical applications, such as the generation of remote entanglement through a dissipative channel which is otherwise unattainable in the strong-coupling regime.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# LASER: 効率的なテキスト・コンディショニング・イメージ・トゥ・アニメーションのためのチューニング不要なLCM駆動アテンション制御

LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation ( http://arxiv.org/abs/2404.13558v2 )

ライセンス: Link先を確認
Haoyu Zheng, Wenqiao Zhang, Yaoke Wang, Hao Zhou, Jiang Liu, Juncheng Li, Zheqi Lv, Siliang Tang, Yueting Zhuang, (参考訳) テキスト・ツー・イメージ・モデルの革命的進歩は、テキスト条件付き画像編集などの高度なコンテンツ作成のための新しい次元を解放し、テキストガイダンスに基づいて、非常に複雑な視覚概念を伝達する多様な画像の編集を可能にした。 有望であるにもかかわらず、既存の手法ではテクスチャや非剛体的な視覚操作に重点を置いており、スムーズなテキストコンディショニング画像モーフィングの微粒なアニメーションの作成に苦労している。 本稿では,LLM計画,プロンプト・アウェア編集,StablEアニメーションジェネレーション(LASER)の進歩的なプロセスによってカプセル化された,チューニング不要なLCM駆動型アテンション制御フレームワークを提案する。 LASERは、大きめの言語モデル(LLM)を使用して、粗い記述を詳細なプロンプトに洗練し、後続の画像生成のための事前訓練されたテキスト・ツー・イメージモデルを導く。 モデルの空間的特徴と自己認識機構を操作してアニメーションの完全性を維持し、テキストプロンプトから直接シームレスなモーフィングを可能にし、追加の微調整やアノテーションを不要にする。 空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。 本稿では、1つのテキスト入力から高品質なアニメーションを作成するために、LLMとテキスト・ツー・イメージ・モデルを統合する新しいフレームワークを提案する。 また,RAERの有効性と有効性を検証するためのテキストコンディショニング・イメージ・トゥ・アニメーションベンチマークを提案する。 大規模な実験により、LASERはアニメーション生成において印象的で一貫性があり、効率のよい結果をもたらすことが示され、高度なデジタルコンテンツ作成のための強力なツールとして位置づけられている。

Revolutionary advancements in text-to-image models have unlocked new dimensions for sophisticated content creation, e.g., text-conditioned image editing, allowing us to edit the diverse images that convey highly complex visual concepts according to the textual guidance. Despite being promising, existing methods focus on texture- or non-rigid-based visual manipulation, which struggles to produce the fine-grained animation of smooth text-conditioned image morphing without fine-tuning, i.e., due to their highly unstructured latent space. In this paper, we introduce a tuning-free LLM-driven attention control framework, encapsulated by the progressive process of LLM planning, prompt-Aware editing, StablE animation geneRation, abbreviated as LASER. LASER employs a large language model (LLM) to refine coarse descriptions into detailed prompts, guiding pre-trained text-to-image models for subsequent image generation. We manipulate the model's spatial features and self-attention mechanisms to maintain animation integrity and enable seamless morphing directly from text prompts, eliminating the need for additional fine-tuning or annotations. Our meticulous control over spatial features and self-attention ensures structural consistency in the images. This paper presents a novel framework integrating LLMs with text-to-image models to create high-quality animations from a single text input. We also propose a Text-conditioned Image-to-Animation Benchmark to validate the effectiveness and efficacy of LASER. Extensive experiments demonstrate that LASER produces impressive, consistent, and efficient results in animation generation, positioning it as a powerful tool for advanced digital content creation.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-23
# 距離重み改善とウィンドウサイズスケジューリングによる単語埋め込み学習

Learning Word Embedding with Better Distance Weighting and Window Size Scheduling ( http://arxiv.org/abs/2404.14631v1 )

ライセンス: Link先を確認
Chaohao Yang, (参考訳) 分散語表現(英: Distributed word representation、別名、単語埋め込み)は、自然言語処理(NLP)における重要な焦点である。 非常に成功した単語埋め込みモデルとして、Word2Vecは大規模なデータセット上で分散ワード表現を学習する効率的な方法を提供する。 しかし、Word2Vecは中心語と文脈語の間の距離を考慮していない。 本稿では,Learningable Formulated Weights (LFW) と Epoch-based Dynamic Window Size (EDWS) という2つの新しい手法を提案する。 CBOWの場合、LFWは学習可能なパラメータを持つ公式を使用して、単語間の影響と距離の関係を最もよく反映し、平均プールにおける距離関連重みを計算し、将来のNLPテキストモデリング研究の洞察を提供する。 Skip-gramでは、よりバランスの取れた方法で距離情報を導入するために、動的ウィンドウサイズ戦略を改善している。 LFW と EDWS が Word2Vec の性能向上に有効であることを実証した。

Distributed word representation (a.k.a. word embedding) is a key focus in natural language processing (NLP). As a highly successful word embedding model, Word2Vec offers an efficient method for learning distributed word representations on large datasets. However, Word2Vec lacks consideration for distances between center and context words. We propose two novel methods, Learnable Formulated Weights (LFW) and Epoch-based Dynamic Window Size (EDWS), to incorporate distance information into two variants of Word2Vec, the Continuous Bag-of-Words (CBOW) model and the Continuous Skip-gram (Skip-gram) model. For CBOW, LFW uses a formula with learnable parameters that best reflects the relationship of influence and distance between words to calculate distance-related weights for average pooling, providing insights for future NLP text modeling research. For Skip-gram, we improve its dynamic window size strategy to introduce distance information in a more balanced way. Experiments prove the effectiveness of LFW and EDWS in enhancing Word2Vec's performance, surpassing previous state-of-the-art methods.
翻訳日:2024-04-24 15:50:59 公開日:2024-04-23
# UPose3D:クロスビューとテンポラルクイズを用いた不確かさを意識した3次元人物位置推定

UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues ( http://arxiv.org/abs/2404.14634v1 )

ライセンス: Link先を確認
Vandad Davoodnia, Saeed Ghorbani, Marc-André Carbonneau, Alexandre Messier, Ali Etemad, (参考訳) UPose3Dは、多視点人間のポーズ推定のための新しいアプローチであり、精度とスケーラビリティの課題に対処する。 提案手法は,3Dアノテーションを直接必要とせず,ロバスト性や柔軟性を向上させることで,既存のポーズ推定フレームワークを進化させる。 提案手法のコアとなる2次元キーポイント推定器から,時間的・横断的な情報を活用することにより,1つの画像上で動作可能な2次元キーポイント推定器から,ポーズコンパイラモジュールが予測を洗練する。 我々の新しいクロスビュー融合戦略は、どんなカメラにもスケーラブルであり、合成データ生成戦略は、多様なアクター、シーン、視点の一般化を保証する。 最後に、UPose3Dは2Dキーポイント推定器とポーズコンパイラモジュールの両方の予測不確実性を利用する。 これにより、アウトレーヤやノイズの多いデータに対して堅牢性が提供され、アウト・オブ・ディストリビューション設定における最先端のパフォーマンスが実現します。 さらに、流通環境では、UPose3Dは3Dアノテートされたデータに依存するパフォーマンスに対抗し、2Dの監督のみに依存する手法の中でも最先端の手法である。

We introduce UPose3D, a novel approach for multi-view 3D human pose estimation, addressing challenges in accuracy and scalability. Our method advances existing pose estimation frameworks by improving robustness and flexibility without requiring direct 3D annotations. At the core of our method, a pose compiler module refines predictions from a 2D keypoints estimator that operates on a single image by leveraging temporal and cross-view information. Our novel cross-view fusion strategy is scalable to any number of cameras, while our synthetic data generation strategy ensures generalization across diverse actors, scenes, and viewpoints. Finally, UPose3D leverages the prediction uncertainty of both the 2D keypoint estimator and the pose compiler module. This provides robustness to outliers and noisy data, resulting in state-of-the-art performance in out-of-distribution settings. In addition, for in-distribution settings, UPose3D yields a performance rivaling methods that rely on 3D annotated data, while being the state-of-the-art among methods relying only on 2D supervision.
翻訳日:2024-04-24 15:50:59 公開日:2024-04-23
# 機械学習による予測と意思決定最適化のためのディジタルツイン:排水処理への応用

Digital Twins for forecasting and decision optimisation with machine learning: applications in wastewater treatment ( http://arxiv.org/abs/2404.14635v1 )

ライセンス: Link先を確認
Matthew Colwell, Mahdi Abolghasemi, (参考訳) 予測と最適化は、現実世界の問題を解決するために多くの応用を見出した2つの広く使われている手法である。 予測は変数の未知の将来の値を推定することに関心があるが、最適化は利用可能なすべてのデータから決定を最適化することに関心がある。 これらの手法は、変数の将来の値を予測し、最適な決定を決定するためにそれらを使う必要がある、逐次決定のための問題を解決するために一緒に使用される。 このパラダイムは予測と最適化として知られており、製品に対する需要予測、在庫の最適化、エネルギー需要予測とスケジュール世代、サービスとスケジュールスタッフの需要予測など、数多くの応用がある。 本稿では, 都市利用における排水処理に応用されたディジタル双生児について, 運用効率を向上させるために概説する。 現在の研究はケーススタディの問題に合わせているが、根底にある原則は、他の領域でも同様の問題を解決するのに利用できる。

Prediction and optimisation are two widely used techniques that have found many applications in solving real-world problems. While prediction is concerned with estimating the unknown future values of a variable, optimisation is concerned with optimising the decision given all the available data. These methods are used together to solve problems for sequential decision-making where often we need to predict the future values of variables and then use them for determining the optimal decisions. This paradigm is known as forecast and optimise and has numerous applications, e.g., forecast demand for a product and then optimise inventory, forecast energy demand and schedule generations, forecast demand for a service and schedule staff, to name a few. In this extended abstract, we review a digital twin that was developed and applied in wastewater treatment in Urban Utility to improve their operational efficiency. While the current study is tailored to the case study problem, the underlying principles can be used to solve similar problems in other domains.
翻訳日:2024-04-24 15:50:59 公開日:2024-04-23
# オープンソースソフトウェア開発ツールのインストール - 初心者開発者にとっての課題と戦略

Open Source Software Development Tool Installation: Challenges and Strategies For Novice Developers ( http://arxiv.org/abs/2404.14637v1 )

ライセンス: Link先を確認
Larissa Salerno, Christoph Treude, Patanamon Thongtatunam, (参考訳) テクノロジーの世界が進むにつれ、ソフトウェア開発者が新しいプログラムを作るために使うツールも増えていく。 近年、ソフトウェア開発ツールの人気が高まっており、開発者はより効率的に作業し、高品質なソフトウェアを作成できるようになっている。 それでも、このようなツールのインストールは、初心者開発者にとってキャリアの初期段階において、互換性の問題(例えば、オペレーティングシステム)のような問題に直面しているため、難しい場合がある。 そこで本研究の目的は,ソフトウェア開発ツールのインストールにおいて,初心者開発者が直面する課題を調査することである。 そこで我々は,24回のライブソフトウェアインストールセッションの分析を行い,課題を観察し,その対処方法,適用戦略,課題に遭遇する際の情報ソースの種類を把握した。 調査の結果,インストール手順やインストールプロセス中のフィードバックの不十分といった不明瞭なドキュメントは,初心者開発者が直面する一般的な課題であることがわかった。 さらに、検索クエリの改定と非公式文書への依存は、課題を克服するための戦略の一部であった。 この結果に基づき,ツールベンダ,ツールユーザ,研究者に対して,実践的なレコメンデーションを提供する。

As the world of technology advances, so do the tools that software developers use to create new programs. In recent years, software development tools have become more popular, allowing developers to work more efficiently and produce higher-quality software. Still, installing such tools can be challenging for novice developers at the early stage of their careers, as they may face challenges, such as compatibility issues (e.g., operating systems). Therefore, this work aims to investigate the challenges novice developers face in software development when installing software development tools. To investigate these, we conducted an analysis of 24 live software installation sessions to observe challenges and comprehend their actions, the strategies they apply, and the type of source of information they consult when encountering challenges. Our findings show that unclear documentation, such as installation instructions, and inadequate feedback during the installation process are common challenges faced by novice developers. Moreover, reformulating search queries and relying on non-official documentation were some of the strategies employed to overcome challenges. Based on our findings, we provide practical recommendations for tool vendors, tool users, and researchers.
翻訳日:2024-04-24 15:50:59 公開日:2024-04-23
# 定温度ギブスサンプリングによる量子計算の優位性

Quantum computational advantage with constant-temperature Gibbs sampling ( http://arxiv.org/abs/2404.14639v1 )

ライセンス: Link先を確認
Thiago Bergamaschi, Chi-Fang Chen, Yunchao Liu, (参考訳) ある一定の有限温度で浴槽に結合した量子系はギブス状態に収束する。 この熱化過程は、量子計算の自然で物理的に動機づけられたモデルを定義する。 しかし、この現実的な物理装置の中で量子計算の利点が達成できるかどうかは、急速に熱化するが古典的に難解な系を見つけることの難しさから、未解決のままである。 ここでは、一定温度における量子ギブス状態の測定結果分布からのサンプリングを検討し、この課題が量子計算の優位性を示すことを示す。 我々は、通勤するほぼ局所的なハミルトニアン族(浅い量子回路の親ハミルトニアン)を設計し、熱化の標準的な物理モデル(連続時間量子マルコフ連鎖として)の下でギブス状態に急速に収束することを証明した。 一方、ノイズのない浅量子回路からのサンプリングの古典的硬さに還元することで、測定結果分布から多項式時古典アルゴリズムをサンプリングすることは不可能である。 この削減の鍵となるステップは、入力ノイズに対する浅いIQP回路の耐故障性スキームを構築することである。

A quantum system coupled to a bath at some fixed, finite temperature converges to its Gibbs state. This thermalization process defines a natural, physically-motivated model of quantum computation. However, whether quantum computational advantage can be achieved within this realistic physical setup has remained open, due to the challenge of finding systems that thermalize quickly, but are classically intractable. Here we consider sampling from the measurement outcome distribution of quantum Gibbs states at constant temperatures, and prove that this task demonstrates quantum computational advantage. We design a family of commuting almost-local Hamiltonians (parent Hamiltonians of shallow quantum circuits) and prove that they rapidly converge to their Gibbs states under the standard physical model of thermalization (as a continuous-time quantum Markov chain). On the other hand, we show that no polynomial time classical algorithm can sample from the measurement outcome distribution by reducing to the classical hardness of sampling from noiseless shallow quantum circuits. The key step in the reduction is constructing a fault-tolerance scheme for shallow IQP circuits against input noise.
翻訳日:2024-04-24 15:50:59 公開日:2024-04-23
# グラフ学習における不確かさの定量化:サーベイ

Uncertainty Quantification on Graph Learning: A Survey ( http://arxiv.org/abs/2404.14642v1 )

ライセンス: Link先を確認
Chao Chen, Chenghua Guo, Rui Xu, Xiangwen Liao, Xi Zhang, Sihong Xie, Hui Xiong, Philip Yu, (参考訳) Graph Neural Networks (GNN) や Probabilistic Graphical Models (PGM) を含むグラフィカルモデルは、多くの分野にわたってその例外的な能力を実証している。 これらのモデルは、モデルトレーニングの相違や予測不可能なテストシナリオによって引き起こされる課題の中で、信頼できる意思決定を保証するために効果的な不確実性定量化を必要とする。 本研究は,GNNとPGMのモデルアーキテクチャ,トレーニング,推論における不確実性の定量化に対処する最近の研究について検討する。 本稿では,最新の手法を不確実性表現とハンドリングに整理することにより,グラフィカルモデルにおける現在の不確実性状況の概要を概観することを目的とする。 本研究は,最先端の手法を要約することにより,グラフィカルモデルにおける不確実性定量化の理解を深め,重要なアプリケーションにおける有効性と安全性を高めることを目的とする。

Graphical models, including Graph Neural Networks (GNNs) and Probabilistic Graphical Models (PGMs), have demonstrated their exceptional capabilities across numerous fields. These models necessitate effective uncertainty quantification to ensure reliable decision-making amid the challenges posed by model training discrepancies and unpredictable testing scenarios. This survey examines recent works that address uncertainty quantification within the model architectures, training, and inference of GNNs and PGMs. We aim to provide an overview of the current landscape of uncertainty in graphical models by organizing the recent methods into uncertainty representation and handling. By summarizing state-of-the-art methods, this survey seeks to deepen the understanding of uncertainty quantification in graphical models, thereby increasing their effectiveness and safety in critical applications.
翻訳日:2024-04-24 15:50:59 公開日:2024-04-23
# 対話型ゲーム環境におけるネットワークトラフィックマトリクスの教育

Teaching Network Traffic Matrices in an Interactive Game Environment ( http://arxiv.org/abs/2404.14643v1 )

ライセンス: Link先を確認
Chasen Milner, Hayden Jananthan, Jeremy Kepner, Vijay Gadepally, Michael Jones, Peter Michaleas, Ritesh Patel, Sandeep Pisharody, Gabriel Wachman, Alex Pentland, (参考訳) インターネットは現代社会にとって重要な領域となり、その改善と保護のために継続的な努力を必要としている。 ネットワークトラフィック行列はネットワークを理解し解析するための強力なツールであり、オンライングラフ理論の教育資源で広く教えられている。 ネットワークトラフィックマトリックスの概念は、オンラインコンピュータネットワークやサイバーセキュリティ教育リソースではほとんど利用できない。 このギャップを埋めるために、コンピュータネットワークコミュニティにトラフィック行列の基礎を教えるインタラクティブなゲーム環境が開発された。 ゲーム環境は便利で、広くアクセス可能な、配信メカニズムを提供する。 ゲームのコアアーキテクチャは、簡単に編集可能なJSONファイルを通じて、新しいネットワークトラフィックマトリックストレーニングモジュールを追加する機能である。 基本的なトラフィック行列、トラフィックパターン、セキュリティ/セキュリティ/防御/破壊、記名的なサイバー攻撃、分散型サービス拒否(DDoS)攻撃、グラフ理論の概念などである。 ゲーム環境は、幅広いコンテキストでのデリバリを可能にし、迅速なフィードバックと改善を可能にします。 ゲームは、正式なコースの一部としてコアユニットとして、あるいはプレゼンテーションにおける単純なインタラクティブな紹介として使用することができる。

The Internet has become a critical domain for modern society that requires ongoing efforts for its improvement and protection. Network traffic matrices are a powerful tool for understanding and analyzing networks and are broadly taught in online graph theory educational resources. Network traffic matrix concepts are rarely available in online computer network and cybersecurity educational resources. To fill this gap, an interactive game environment has been developed to teach the foundations of traffic matrices to the computer networking community. The game environment provides a convenient, broadly accessible, delivery mechanism that enables making material available rapidly to a wide audience. The core architecture of the game is a facility to add new network traffic matrix training modules via an easily editable JSON file. Using this facility an initial set of modules were rapidly created covering: basic traffic matrices, traffic patterns, security/defense/deterrence, a notional cyber attack, a distributed denial-of-service (DDoS) attack, and a variety of graph theory concepts. The game environment enables delivery in a wide range of contexts to enable rapid feedback and improvement. The game can be used as a core unit as part of a formal course or as a simple interactive introduction in a presentation.
翻訳日:2024-04-24 15:50:59 公開日:2024-04-23
# 自動翻訳における大規模言語モデルのパワーの探索と解放

Exploring and Unleashing the Power of Large Language Models in Automated Code Translation ( http://arxiv.org/abs/2404.14646v1 )

ライセンス: Link先を確認
Zhen Yang, Fang Liu, Zhongxing Yu, Jacky Wai Keung, Jia Li, Shuo Liu, Yifan Hong, Xiaoxue Ma, Zhi Jin, Ge Li, (参考訳) コード翻訳ツールは、ソースからソースへの自動翻訳のために開発されている。 学習ベースのトランスパイラは、広範囲なモノリンガルコーパスでタスク固有の事前学習のために、ルールベースのものに対して顕著に強化されている。 彼らの現在のパフォーマンスは、実際的なデプロイメントには相変わらず不満足であり、関連するトレーニングリソースも違法に高価である。 大量の人書きコード/テキストで事前訓練されたLLMは、タスク固有のトレーニングなしでも、その強力な汎用性のため、多くのコードインテリジェンスタスクにおいて顕著なパフォーマンスを示している。 したがって、LSMは上記の制限を回避できる可能性があるが、まだ徹底的に検討されていない。 本稿では,自動コード翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討し,一部のLLMが現在のトランスパイラより優れているものの,ほとんどの障害がソースプログラムの理解の欠如(38.51%),翻訳におけるI/O型に関する明確な指示の欠如(14.94%),ソースプログラムとターゲットプログラムの相違(41.38%)によって引き起こされる,いくつかの精度上の問題があることを明らかにする。 以上の知見に照らして、様々なLLMに適用可能な統一コード翻訳フレームワークUniTransを提案する。 具体的には、UniTransはまず、ソースプログラムの助けを借りて、ターゲットプログラムの一連のテストケースを作成する。 次に、上記の自動生成されたテストケースを利用して、コード翻訳を強化し、実行によってそれらの正確性を評価する。 その後、UniTransはテストケースの実行結果によって、不正に翻訳されたプログラムを修復する。 大規模な実験は、Python、Java、C++の6つの翻訳データセットで実施されている。 最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。

Code translation tools are developed for automatic source-to-source translation. Although learning-based transpilers have shown impressive enhancement against rule-based counterparts, owing to their task-specific pre-training on extensive monolingual corpora. Their current performance still remains unsatisfactory for practical deployment, and the associated training resources are also prohibitively expensive. LLMs pre-trained on huge amounts of human-written code/text have shown remarkable performance in many code intelligence tasks due to their powerful generality, even without task-specific training. Thus, LLMs can potentially circumvent the above limitations, but they have not been exhaustively explored yet. This paper investigates diverse LLMs and learning-based transpilers for automated code translation tasks, finding that: although certain LLMs have outperformed current transpilers, they still have some accuracy issues, where most of the failures are induced by a lack of comprehension of source programs (38.51%), missing clear instructions on I/O types in translation (14.94%), and ignoring discrepancies between source and target programs (41.38%). Enlightened by the above findings, we propose UniTrans, an Unified code Translation framework, applicable to various LLMs, for unleashing their power in this field. Specifically, UniTrans first craft a series of test cases for target programs with the assistance of source programs. Next, it harnesses the above auto-generated test cases to augment the code translation and then evaluate their correctness via execution. Afterward, UniTrans further (iteratively) repairs incorrectly translated programs prompted by test case execution results. Extensive experiments are conducted on six translation datasets between Python, Java, and C++. Three recent LLMs of diverse sizes are tested with UniTrans, and all achieve substantial improvements.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# ランダム可逆回路からの擬似乱数置換

Pseudorandom Permutations from Random Reversible Circuits ( http://arxiv.org/abs/2404.14648v1 )

ライセンス: Link先を確認
William He, Ryan O'Donnell, (参考訳) 我々は、${0,1\}^n$上の置換の擬似ランダム性特性を、可逆な$$3$-bitゲート($\{0,1\}^3$上の置換)から得られるランダム回路で計算する。 我々の主な結果は深さ$n \cdot \tilde{O}(k^2)$のランダム回路であり、各層は固定された最寄りのアーキテクチャにおいて$\approx n/3$のランダムゲートで構成され、ほぼ$k$の独立な置換が得られることである。 主な技術的構成要素は、$k$-tuples of $n$-bit strings by a single random $3$-bit Near-nebor gate has gap at least $1/n \cdot \tilde{O}(k)$である。 これは、1/\mathrm{poly}(n,k)$が1つのランダムゲート(非隣接入力を持つ)に対して1/\mathrm{poly}(n,k)$のギャップを示していたGowers [Gowers96] の元々の作業を改善し、続く作業 [HMMR05,BH08] では、ギャップを同じ設定で$\Omega(1/n^2k)$に改善した。 暗号の観点では、我々の結果は特に単純で実践的なブロック暗号構造であり、数ラウンドで$k$〜input-outputペアにアクセスする攻撃者に対して、証明可能な統計的セキュリティを提供する。 また、擬似乱数関数からの擬似乱数置換のLuby-Rackoff構成は可逆回路で実装可能であることを示す。 そこで我々は, 最小可逆回路サイズ問題 (MRCSP) の複雑性を推し進め, 一方向関数 (OWF) の存在を前提として, 固定多項式サイズのブロック暗号が任意の多項式時間逆数に対して計算的に安全であることを示す。

We study pseudorandomness properties of permutations on $\{0,1\}^n$ computed by random circuits made from reversible $3$-bit gates (permutations on $\{0,1\}^3$). Our main result is that a random circuit of depth $n \cdot \tilde{O}(k^2)$, with each layer consisting of $\approx n/3$ random gates in a fixed nearest-neighbor architecture, yields almost $k$-wise independent permutations. The main technical component is showing that the Markov chain on $k$-tuples of $n$-bit strings induced by a single random $3$-bit nearest-neighbor gate has spectral gap at least $1/n \cdot \tilde{O}(k)$. This improves on the original work of Gowers [Gowers96], who showed a gap of $1/\mathrm{poly}(n,k)$ for one random gate (with non-neighboring inputs); and, on subsequent work [HMMR05,BH08] improving the gap to $\Omega(1/n^2k)$ in the same setting. From the perspective of cryptography, our result can be seen as a particularly simple/practical block cipher construction that gives provable statistical security against attackers with access to $k$~input-output pairs within few rounds. We also show that the Luby--Rackoff construction of pseudorandom permutations from pseudorandom functions can be implemented with reversible circuits. From this, we make progress on the complexity of the Minimum Reversible Circuit Size Problem (MRCSP), showing that block ciphers of fixed polynomial size are computationally secure against arbitrary polynomial-time adversaries, assuming the existence of one-way functions (OWFs).
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 貯留層コンピュータを用いた周波数位相シフトによる強制ファンデルポル方程式の予測

Forecasting the Forced Van der Pol Equation with Frequent Phase Shifts Using a Reservoir Computer ( http://arxiv.org/abs/2404.14651v1 )

ライセンス: Link先を確認
Sho Kuno, Hiroshi Kori, (参考訳) 貯水池コンピュータ (RC) は、リカレントニューラルネットワーク (RNN) フレームワークであり、読み出し層トレーニングのみを必要とする計算効率を達成する。 さらに、非線形力学系のタスクを効果的に予測し、様々な応用がある。 RCは、外部駆動振幅が徐々に変化する非正則力学系の予測に有効である。 本研究では,外部駆動の位相に急激な変化を伴う非線形力学系の予測可能性について検討した。 強制的なファンデルポル方程式はベースモデルに採用され、RCで予測タスクを実装した。 本研究は, 隠れ変数にも拘わらず, 外部駆動の位相に急激な変化を伴う非線形力学系が予測可能であることを示唆している。 そのため、RCは個々のシフトワーカーにより良いスケジュールを提供することができる。

A reservoir computer (RC) is a recurrent neural network (RNN) framework that achieves computational efficiency where only readout layer training is required. Additionally, it effectively predicts nonlinear dynamical system tasks and has various applications. RC is effective for forecasting nonautonomous dynamical systems with gradual changes to the external drive amplitude. This study investigates the predictability of nonautonomous dynamical systems with rapid changes to the phase of the external drive. The forced Van der Pol equation was employed for the base model, implementing forecasting tasks with the RC. The study findings suggest that, despite hidden variables, a nonautonomous dynamical system with rapid changes to the phase of the external drive is predictable. Therefore, RC can offer better schedules for individual shift workers.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 機械ビジョンによるリンゴの落葉色変化の評価 : 葉窒素濃度との関連性を探る

Machine Vision Based Assessment of Fall Color Changes in Apple Trees: Exploring Relationship with Leaf Nitrogen Concentration ( http://arxiv.org/abs/2404.14653v1 )

ライセンス: Link先を確認
Achyut Paudel, Jostan Brown, Priyanka Upadhyaya, Atif Bilal Asad, Safal Kshetri, Manoj Karkee, Joseph R. Davidson, Cindy Grimm, Ashley Thompson, (参考訳) リンゴの木は落葉樹で、秋には葉の色が緑から黄色(老化とも)に変わる。 色の変化の速度とタイミングは、窒素(N)欠乏を含む要因の数に影響される。 葉の緑色はクロロフィル量に大きく依存しており、葉の窒素濃度に依存する。 葉の色の評価は、木の栄養状態について重要な情報を与えることができる。 これらのタイミングと葉の色の変化を捉え、定量化するために、マシンビジョンベースのシステムを使用することは、その目的のために素晴らしいツールとなるでしょう。 この研究は2021年秋から2023年秋にかけて、地上の立体視センサーを用いて5週間にわたって商業用果樹園で収集されたデータに基づいている。 センサーから得られる点雲は、前景の木だけを得るために区切られた。 この研究は、点雲データを用いた自然の背景における木々の分画と、カスタム定義の計量である \textit{yellowness index} を用いて色を定量化することを含んでおり、$-1$から$+1$$$-1$、$+1$は完全に黄色である。 K平均アルゴリズムと勾配ブースティングアルゴリズムの性能を, textit{yellowness index} 計算で比較した。 本研究で提案したセグメンテーション法は, 木上の \textit{yellowness index} を$R^2 = 0.72$で推定することができた。 その結果,緑から黄色への段階的な色変化を観察できることがわかった。 また, 窒素濃度の低い木は, 高い窒素濃度の木よりも早く黄色に変化することが観察された。 両年のカラー移行の開始は、満了後の週29ドル(約2万2000円)と一致した。

Apple trees being deciduous trees, shed leaves each year which is preceded by the change in color of leaves from green to yellow (also known as senescence) during the fall season. The rate and timing of color change are affected by the number of factors including nitrogen (N) deficiencies. The green color of leaves is highly dependent on the chlorophyll content, which in turn depends on the nitrogen concentration in the leaves. The assessment of the leaf color can give vital information on the nutrient status of the tree. The use of a machine vision based system to capture and quantify these timings and changes in leaf color can be a great tool for that purpose. \par This study is based on data collected during the fall of 2021 and 2023 at a commercial orchard using a ground-based stereo-vision sensor for five weeks. The point cloud obtained from the sensor was segmented to get just the tree in the foreground. The study involved the segmentation of the trees in a natural background using point cloud data and quantification of the color using a custom-defined metric, \textit{yellowness index}, varying from $-1$ to $+1$ ($-1$ being completely green and $+1$ being completely yellow), which gives the proportion of yellow leaves on a tree. The performance of K-means based algorithm and gradient boosting algorithm were compared for \textit{yellowness index} calculation. The segmentation method proposed in the study was able to estimate the \textit{yellowness index} on the trees with $R^2 = 0.72$. The results showed that the metric was able to capture the gradual color transition from green to yellow over the study duration. It was also observed that the trees with lower nitrogen showed the color transition to yellow earlier than the trees with higher nitrogen. The onset of color transition during both years aligned with the $29^{th}$ week post-full bloom.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 制限開域および全能動空間自己持続波動関数の幾何学的最適化

Geometric Optimization of Restricted-Open and Complete Active Space Self-Consistent Field Wavefunctions ( http://arxiv.org/abs/2404.14655v1 )

ライセンス: Link先を確認
Laurent Vidal, Tommaso Nottoli, Filippo Lipparini, Eric Cancès, (参考訳) 本稿では,リミテッド・オープン・シェル・ハーツリー・フォック(ROHF)と完全アクティブ・スペース・セルフコンシステント・フィールド(CASSCF)のリーマン最適化手法について検討する。 ROHF と CASSCF は、いわゆるフラッグ多様体の最適化問題として再構成可能であることを示した後、リーマン最適化の基礎とそれらの特定の問題への応用についてレビューする。 我々はこれらの手法を従来の手法と比較し、数値パラメータを微調整することなく頑健な収束特性を求める。 我々の研究は、リーマン最適化がROHFとCASSCFの軌道最適化に重要な付加物であることを示し、さらなる調査を保証している。

We explore Riemannian optimization methods for Restricted-Open-shell Hartree-Fock (ROHF) and Complete Active Space Self-Consistent Field (CASSCF) methods. After showing that ROHF and CASSCF can be reformulated as optimization problems on so-called flag manifolds, we review Riemannian optimization basics and their application to these specific problems. We compare these methods to traditional ones and find robust convergence properties without fine-tuning of numerical parameters. Our study suggests Riemannian optimization as a valuable addition to orbital optimization for ROHF and CASSCF, warranting further investigation.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 効率的なユニバーサルセグメンテーションのための変圧器エンコーダのプログレッシブトークン長スケーリング

Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation ( http://arxiv.org/abs/2404.14657v1 )

ライセンス: Link先を確認
Abhishek Aich, Yumin Suh, Samuel Schulter, Manmohan Chandraker, (参考訳) ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。 このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダにのみ、その計算の約50%が使用されています。 これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。 そこで本研究では,Mask2Formerスタイルのセグメンテーションアーキテクチャにプラグイン可能なPRO-SCALE(Progressive Token Length SCALing for Efficient Transformer Encoders)という戦略を提案し,計算コストを大幅に削減する。 PRO-SCALEの基本的な原理は、エンコーダの層でトークンの長さを徐々に拡大することである。 これにより、Pro-SCALEはパフォーマンスの犠牲を最小限に抑えながら大きなマージンで計算を削減できる(COCOデータセットのパフォーマンスを低下させることなく、約52%のGFLOPを削減できる)。 フレームワークを複数の公開ベンチマークで検証する。

A powerful architecture for universal segmentation relies on transformers that encode multi-scale image features and decode object queries into mask predictions. With efficiency being a high priority for scaling such models, we observed that the state-of-the-art method Mask2Former uses ~50% of its compute only on the transformer encoder. This is due to the retention of a full-length token-level representation of all backbone feature scales at each encoder layer. With this observation, we propose a strategy termed PROgressive Token Length SCALing for Efficient transformer encoders (PRO-SCALE) that can be plugged-in to the Mask2Former-style segmentation architectures to significantly reduce the computational cost. The underlying principle of PRO-SCALE is: progressively scale the length of the tokens with the layers of the encoder. This allows PRO-SCALE to reduce computations by a large margin with minimal sacrifice in performance (~52% GFLOPs reduction with no drop in performance on COCO dataset). We validate our framework on multiple public benchmarks.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# AI調達チェックリスト:AIガバナンスの時代における実装の再検討

AI Procurement Checklists: Revisiting Implementation in the Age of AI Governance ( http://arxiv.org/abs/2404.14660v1 )

ライセンス: Link先を確認
Tom Zick, Mason Kortz, David Eaves, Finale Doshi-Velez, (参考訳) AIの公共セクターの利用は、ここ10年間静かに上昇してきたが、その規制が文化の時代遅れに突入したのはつい最近だ。 分かりやすいが、政府におけるAIシステムの倫理的かつ効果的な展開を促進することは、非常にありふれた仕事だ。 一方、AIベースのツールにまつわる落とし穴には、疎外されたコミュニティへの偏見、安全性、ゲーム容易性といった懸念が含まれている。 一方、特に民間セクターよりもリソースが少ない公共セクター($\unicode{x2014}$conserving government resources)では、AIベースのツールをそもそも使用する際の引き金になることが多い。 これらの緊張は、過小評価されたグループが政府によるAIの使用によって損なわれないように作られた手順が、実際には実行可能で非効率である、という真のリスクを生み出します。 米国における規制の取り組みの最新の波を知らせるために、政府のAI利用に関する成熟した規制を持つ司法管轄区域に注目します。 我々は、リスクカテゴリ、開示要件、評価をAIツールの調達方法にまとめて実施したブラジル、シンガポール、カナダの当局者が学んだ教訓について報告する。 特に,CDADM(Canadian Directive on Automated Decision-Making)とWEF(World Economic Forum's AI Procurement in a Box)の2つの実装チェックリストを調査した。 専門知識、リスクフレームワーク、透明性に関する3つの重要な落とし穴を詳述し、政府のAI利用を目的とした規制の有効性を減らし、改善のための道を提案する。

Public sector use of AI has been quietly on the rise for the past decade, but only recently have efforts to regulate it entered the cultural zeitgeist. While simple to articulate, promoting ethical and effective roll outs of AI systems in government is a notoriously elusive task. On the one hand there are hard-to-address pitfalls associated with AI-based tools, including concerns about bias towards marginalized communities, safety, and gameability. On the other, there is pressure not to make it too difficult to adopt AI, especially in the public sector which typically has fewer resources than the private sector$\unicode{x2014}$conserving scarce government resources is often the draw of using AI-based tools in the first place. These tensions create a real risk that procedures built to ensure marginalized groups are not hurt by government use of AI will, in practice, be performative and ineffective. To inform the latest wave of regulatory efforts in the United States, we look to jurisdictions with mature regulations around government AI use. We report on lessons learned by officials in Brazil, Singapore and Canada, who have collectively implemented risk categories, disclosure requirements and assessments into the way they procure AI tools. In particular, we investigate two implemented checklists: the Canadian Directive on Automated Decision-Making (CDADM) and the World Economic Forum's AI Procurement in a Box (WEF). We detail three key pitfalls around expertise, risk frameworks and transparency, that can decrease the efficacy of regulations aimed at government AI use and suggest avenues for improvement.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# アジア高木地域における初生林の樹高分布図の作成

First Mapping the Canopy Height of Primeval Forests in the Tallest Tree Area of Asia ( http://arxiv.org/abs/2404.14661v1 )

ライセンス: Link先を確認
Guangpeng Fan, Fei Yan, Xiangquan Zeng, Qingtao Xu, Ruoyoulan Wang, Binghong Zhang, Jialing Zhou, Liangliang Nan, Jinhu Wang, Zhiwei Zhang, Jia Wang, (参考訳) 我々は,世界規模の巨大木の分布領域を,世界初となる天蓋の高さマップを開発した。 このマッピングは、より個人的、地域社会的な巨大木を発見し、YTGC(Yarung Tsangpo Grand Canyon)国立自然保護区における生物多様性保全対策の有効性を分析し定量化するために重要である。 我々は,地球規模の巨樹分布域内の原生林の樹冠の高さを,宇宙搭載のLiDAR融合衛星画像(Global Ecosystem Dynamics Investigation (GEDI), ICESat-2, Sentinel-2)を用いた深層学習モデルを用いてマッピングする方法を提案した。 また,ピラミッド受容界深度分離可能なCNN (PRFXception) をカスタマイズした。 PRFXceptionは10mの空間解像度を持つSentinel-2光画像からGEDIとICESat-2のフットプリントレベルでのキャノピー高さを推定するために、樹冠の高さをマッピングするために特別にカスタマイズされたCNNアーキテクチャである。 層状サンプリング法を用いて227個の永久プロットのフィールドサーベイを行い,UAV-LSを用いていくつかの巨大木を測定した。 ICESat-2とGEDIの検証データ(RMSE =7.56 m, MAE=6.07 m, ME=-0.98 m, R^2=0.58 m)、UAV-LS点雲(RMSE =5.75 m, MAE =3.72 m, ME = 0.82 m, R^2 = 0.65 m)、地上測量データ(RMSE = 6.75 m, MAE = 5.56 m, ME = 2.14 m, R^2=0.60 m)と比較した。 我々は、世界レベルの巨大木の分布マップをマッピングし、2つの未発見の巨大木群落を発見し、その89%が高さ80-100メートルの高木で、アジアで最も高い木よりも高いと推定した。 本論文は,チベット北西部の雲南省南東部を世界第4回世界規模の巨木流通拠点とし,中国国立公園保護の範囲内にYTGC巨木分布地域を包含することを奨励する科学的証拠を提供する。

We have developed the world's first canopy height map of the distribution area of world-level giant trees. This mapping is crucial for discovering more individual and community world-level giant trees, and for analyzing and quantifying the effectiveness of biodiversity conservation measures in the Yarlung Tsangpo Grand Canyon (YTGC) National Nature Reserve. We proposed a method to map the canopy height of the primeval forest within the world-level giant tree distribution area by using a spaceborne LiDAR fusion satellite imagery (Global Ecosystem Dynamics Investigation (GEDI), ICESat-2, and Sentinel-2) driven deep learning modeling. And we customized a pyramid receptive fields depth separable CNN (PRFXception). PRFXception, a CNN architecture specifically customized for mapping primeval forest canopy height to infer the canopy height at the footprint level of GEDI and ICESat-2 from Sentinel-2 optical imagery with a 10-meter spatial resolution. We conducted a field survey of 227 permanent plots using a stratified sampling method and measured several giant trees using UAV-LS. The predicted canopy height was compared with ICESat-2 and GEDI validation data (RMSE =7.56 m, MAE=6.07 m, ME=-0.98 m, R^2=0.58 m), UAV-LS point clouds (RMSE =5.75 m, MAE =3.72 m, ME = 0.82 m, R^2= 0.65 m), and ground survey data (RMSE = 6.75 m, MAE = 5.56 m, ME= 2.14 m, R^2=0.60 m). We mapped the potential distribution map of world-level giant trees and discovered two previously undetected giant tree communities with an 89% probability of having trees 80-100 m tall, potentially taller than Asia's tallest tree. This paper provides scientific evidence confirming southeastern Tibet--northwestern Yunnan as the fourth global distribution center of world-level giant trees initiatives and promoting the inclusion of the YTGC giant tree distribution area within the scope of China's national park conservation.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# NExT: 大規模言語モデルにコード実行について推論を教える

NExT: Teaching Large Language Models to Reason about Code Execution ( http://arxiv.org/abs/2404.14662v1 )

ライセンス: Link先を確認
Ansong Ni, Miltiadis Allamanis, Arman Cohan, Yinlin Deng, Kensen Shi, Charles Sutton, Pengcheng Yin, (参考訳) ヒューマン開発者の基本的なスキルは、プログラムの実行について理解し、推論する能力である。 例えば、プログラマは、自然言語でコード実行を精神的にシミュレートして、コードをデバッグし、修復することができる(ゴムアヒルデバッグとも呼ばれる)。 しかし、大きな言語モデル(LLM)のコードは通常、プログラムの表面的なテキスト形式で訓練されるため、実行時にプログラムの実行方法に関する意味的な理解が欠如する可能性がある。 この問題に対処するために,プログラムの実行トレース(実行行の可変状態)を検査し,チェーン・オブ・ソート(CoT)の合理性を通じて実行時の動作を判断する手法であるNExTを提案する。 具体的には、NExTは自己学習を使用して、厳格なマニュアルアノテーションなしでタスクソリューション(例えば、固定プログラム)を正しいものにする、実行対応の合理性の合成トレーニングセットをブートストラップする。 MBPPとHumanEvalに基づくプログラム修復タスクの実験では、NExTはPaLM 2モデルの修正率を26.1%と14.3%で改善し、自動化されたメトリクスと人間のレーダによって検証されたように、合理的な品質を大幅に改善した。 私たちのモデルは、テスト時にプログラムトレースが欠落しているシナリオにも一般化できます。

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 階層的教師なし学習による前向きアルゴリズムにおけるデータと損失要求の学習

Employing Layerwised Unsupervised Learning to Lessen Data and Loss Requirements in Forward-Forward Algorithms ( http://arxiv.org/abs/2404.14664v1 )

ライセンス: Link先を確認
Taewook Hwang, Hyein Seo, Sangkeun Jung, (参考訳) バックプロパゲーションアルゴリズムを利用したChatGPTなどの最近のディープラーニングモデルでは、顕著な性能を示した。 しかし、生物学的脳プロセスとバックプロパゲーションアルゴリズムの相違が指摘されている。 フォワード-フォワードアルゴリズムは、フォワードパスのみを通してディープラーニングモデルを訓練し、この問題に対処する。 Forward-Forwardアルゴリズムは、特別な入力や損失関数を使わなければならないといった制限のためにバックプロパゲーションを置き換えることはできないが、バックプロパゲーションが難しい特別な状況において有用である可能性がある。 この制限を回避し、ユーザビリティを検証するために、Unsupervised Forward-Forwardアルゴリズムを提案する。 教師なし学習モデルを使用することで、通常の損失関数と入力を制限なくトレーニングすることができる。 このアプローチを通じて、安定した学習を導き、さまざまなデータセットやタスクにまたがる汎用的な利用を可能にします。 ユーザビリティの観点からは、フォワード・フォワードアルゴリズムの特性と提案手法の利点を踏まえ、深層学習を物理的に分散した環境で個別に訓練する必要があるフェデレーション学習のようなシナリオにおいても、その実践的応用を期待する。

Recent deep learning models such as ChatGPT utilizing the back-propagation algorithm have exhibited remarkable performance. However, the disparity between the biological brain processes and the back-propagation algorithm has been noted. The Forward-Forward algorithm, which trains deep learning models solely through the forward pass, has emerged to address this. Although the Forward-Forward algorithm cannot replace back-propagation due to limitations such as having to use special input and loss functions, it has the potential to be useful in special situations where back-propagation is difficult to use. To work around this limitation and verify usability, we propose an Unsupervised Forward-Forward algorithm. Using an unsupervised learning model enables training with usual loss functions and inputs without restriction. Through this approach, we lead to stable learning and enable versatile utilization across various datasets and tasks. From a usability perspective, given the characteristics of the Forward-Forward algorithm and the advantages of the proposed method, we anticipate its practical application even in scenarios such as federated learning, where deep learning layers need to be trained separately in physically distributed environments.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 3DFlowRenderer:Dense 3D Facial Flow Estimationによるワンショット顔再現

3DFlowRenderer: One-shot Face Re-enactment via Dense 3D Facial Flow Estimation ( http://arxiv.org/abs/2404.14667v1 )

ライセンス: Link先を確認
Siddharth Nijhawan, Takuya Yashima, Tamaki Kojima, (参考訳) ワンショット環境での表情伝達は,表情の正確な制御に焦点をあてた研究コミュニティで人気が高まっている。 既存のテクニックは、表現を知覚する上で魅力的な結果を示すが、極端な頭ポーズで頑丈さを欠いている。 また、背景の詳細を正確に再構築することは困難であり、現実主義を妨げている。 本稿では,2次元法と3次元法の両方の利点を活かして,頑健な顔再現を実現する新しいワープ技術を提案する。 特徴空間に高密度な3次元顔の流れ場を生成し、深度情報のないターゲット表現に基づいて入力画像をワープする。 これにより、不整合元とターゲットの顔を再実行するための3次元幾何制御が可能となる。 我々は,3次元特徴を2次元RGB空間に変換することで,提案した「円筒ワープ損失」により3次元フロー予測ネットワークの運動推定能力を正規化する。 自然裏面によるよりきめ細かい顔領域の生成を保証するため,我々のフレームワークはまず顔前景領域を描画し,原顔の翻訳によって満たされる必要のある空白領域を塗布することを学び,不必要な画素の動きを伴わずに詳細な背景を再構築する。 本手法は, 人工顔画像のレンダリングにおいて, 最先端技術よりも優れていた。

Performing facial expression transfer under one-shot setting has been increasing in popularity among research community with a focus on precise control of expressions. Existing techniques showcase compelling results in perceiving expressions, but they lack robustness with extreme head poses. They also struggle to accurately reconstruct background details, thus hindering the realism. In this paper, we propose a novel warping technology which integrates the advantages of both 2D and 3D methods to achieve robust face re-enactment. We generate dense 3D facial flow fields in feature space to warp an input image based on target expressions without depth information. This enables explicit 3D geometric control for re-enacting misaligned source and target faces. We regularize the motion estimation capability of the 3D flow prediction network through proposed "Cyclic warp loss" by converting warped 3D features back into 2D RGB space. To ensure the generation of finer facial region with natural-background, our framework only renders the facial foreground region first and learns to inpaint the blank area which needs to be filled due to source face translation, thus reconstructing the detailed background without any unwanted pixel motion. Extensive evaluation reveals that our method outperforms state-of-the-art techniques in rendering artifact-free facial images.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# LaneCorrect: 自制車線検出

LaneCorrect: Self-supervised Lane Detection ( http://arxiv.org/abs/2404.14671v1 )

ライセンス: Link先を確認
Ming Nie, Xinyue Cai, Hang Xu, Li Zhang, (参考訳) 車線検出は、複雑な環境下であっても運転シーンを理解するために、高度に機能する自動運転システムを進化させた。 本稿では,アノテーションを使わずに車線を検知できる汎用型コンピュータビジョンシステムの開発に向けて研究する。 以下に貢献する。 (i)LiDAR点雲フレーム上でのレーンの特徴的な強度を活用して教師なしの3Dレーンセグメンテーションを行い、それから3Dポイントを投影することで2D平面内のノイズの多いレーンラベルを得る方法について述べる。 (II)LaneCorrectと呼ばれる新しい自己指導型トレーニング手法を提案する。これは、幾何学的整合性を学習し、対向的な拡張からインスタンス認識を学習することで、レーンラベルを自動的に修正するものである。 3) 自己指導型事前学習モデルを用いて, 任意の目標車線(eg, TuSimple)検出のための学生ネットワークを人間のラベルなしで訓練する。 (4)我々は,TuSimple,CULane,CurveLanes,LLAMASを含む4つの主要車線検出ベンチマークの自己監督手法を徹底的に評価し,CULaneのトレーニングやTuSimpleのテストなど,ドメインギャップを軽減する上でより効果的な結果を示すとともに,既存の教師付き車線よりも優れた性能を示す。

Lane detection has evolved highly functional autonomous driving system to understand driving scenes even under complex environments. In this paper, we work towards developing a generalized computer vision system able to detect lanes without using any annotation. We make the following contributions: (i) We illustrate how to perform unsupervised 3D lane segmentation by leveraging the distinctive intensity of lanes on the LiDAR point cloud frames, and then obtain the noisy lane labels in the 2D plane by projecting the 3D points; (ii) We propose a novel self-supervised training scheme, dubbed LaneCorrect, that automatically corrects the lane label by learning geometric consistency and instance awareness from the adversarial augmentations; (iii) With the self-supervised pre-trained model, we distill to train a student network for arbitrary target lane (e.g., TuSimple) detection without any human labels; (iv) We thoroughly evaluate our self-supervised method on four major lane detection benchmarks (including TuSimple, CULane, CurveLanes and LLAMAS) and demonstrate excellent performance compared with existing supervised counterpart, whilst showing more effective results on alleviating the domain gap, i.e., training on CULane and test on TuSimple.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 高次元2光子量子制御相フリップゲート

High-Dimensional Two-Photon Quantum Controlled Phase-Flip Gate ( http://arxiv.org/abs/2404.14673v1 )

ライセンス: Link先を確認
Mingyuan Chen, Jiangshan Tang, Miao Cai, Franco Nori, Keyu Xia, (参考訳) 高次元量子システムは、興味深い基礎物理学を明らかにし、量子情報処理における情報のキャパシティとノイズレジリエンスを改善するために使われてきた。 しかし、成功確率の高い高次元で普遍的な2光子量子ゲートを実現することは依然として重要な課題である。 ここでは、イオンキャビティQEDシステムを考えることにより、理論上、私たちの知る限り、第一の高次元、決定論的、普遍的な2光子量子ゲートについて提案する。 単一トラップの40Ca+イオンを埋め込んだ光学キャビティを用いることで、光子スピン角モータと軌道角モータにまたがる4次元空間における量子制御位相フリップゲートにおいて、98%以上の忠実度を達成することができる。 提案システムは,高次元量子情報処理に不可欠なビルディングブロックであり,高次元空洞QEDを研究するためのプラットフォームを提供する。

High-dimensional quantum systems have been used to reveal interesting fundamental physics and to improve information capacity and noise resilience in quantum information processing. However, it remains a significant challenge to realize universal two-photon quantum gates in high dimensions with high success probability. Here, by considering an ion-cavity QED system, we theoretically propose, to the best of our knowledge, the first high-dimensional, deterministic and universal two-photon quantum gate. By using an optical cavity embedded with a single trapped 40Ca+ ion, we achieve a high average fidelity larger than 98% for a quantum controlled phase-flip gate in four-dimensional space, spanned by photonic spin angular momenta and orbital angular momenta. Our proposed system can be an essential building block for high-dimensional quantum information processing, and also provides a platform for studying high-dimensional cavity QED.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# HOIN:高次命令型ニューラル表現

HOIN: High-Order Implicit Neural Representations ( http://arxiv.org/abs/2404.14674v1 )

ライセンス: Link先を確認
Yang Chen, Ruituo Wu, Yipeng Liu, Ce Zhu, (参考訳) 入射神経表現(INR)はスペクトルバイアスを悪化させ、逆問題に対する過度に滑らかな解をもたらす。 この問題に対処するために, 逆問題処理のための普遍的枠組みとして, HOIN(textbf{High-Order Implicit Neural Representation)を提案する。 特徴間の高次相互作用を促進するために伝統的なカスケード構造を洗練することにより、HOINはモデルの表現力を高め、そのニューラルネットワークカーネル(NTK)の強い対角特性を通じてスペクトルバイアスを緩和し、逆問題解決を加速し、最適化する。 モデル表現空間,高次微分,NTK行列を解析することにより,HOINの有効性を理論的に検証する。 HOINは、ほとんどの逆問題において1~3dBの改善を実現し、新しい最先端リカバリ品質とトレーニング効率を確立し、INRのための新しいパラダイムを提供し、逆問題を解決するための道を開く。

Implicit neural representations (INR) suffer from worsening spectral bias, which results in overly smooth solutions to the inverse problem. To deal with this problem, we propose a universal framework for processing inverse problems called \textbf{High-Order Implicit Neural Representations (HOIN)}. By refining the traditional cascade structure to foster high-order interactions among features, HOIN enhances the model's expressive power and mitigates spectral bias through its neural tangent kernel's (NTK) strong diagonal properties, accelerating and optimizing inverse problem resolution. By analyzing the model's expression space, high-order derivatives, and the NTK matrix, we theoretically validate the feasibility of HOIN. HOIN realizes 1 to 3 dB improvements in most inverse problems, establishing a new state-of-the-art recovery quality and training efficiency, thus providing a new general paradigm for INR and paving the way for it to solve the inverse problem.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# DreamPBR:マルチモーダル誘導による高分解能SVBRDFのテキスト駆動生成

DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance ( http://arxiv.org/abs/2404.14676v1 )

ライセンス: Link先を確認
Linxuan Xin, Zheng Zhang, Jinfu Wei, Ge Li, Duan Gao, (参考訳) 従来, 素材生成法は, 実世界の計測に頼っていた再構成法と, 比較的小さな資料データセットを用いて, 生成法を訓練したことから, 多様な結果を生み出すのに限界があった。 これらの課題に対処するため,DreamPBRを提案する。DreamPBRは,テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出し,高制御性と物質生成の多様性を提供する。 多様な高品質のPBR材料生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力と、数百のPBR材料サンプルから派生した材料先行性を統合することである。 我々は,アルベドマップと対応する潜伏空間のマッピングを確立するために,新しい物質Latent Diffusion Model (LDM) を用いる。 潜在表現は、レンダリング対応のPBRデコーダを使用して完全なSVBRDFパラメータマップにデコードされる。 本手法は円パディングによる畳み込みによるタイル状発電を支援する。 さらに,LDMの制御能力を高めるために,画素アライメントガイダンス,スタイルイメージガイダンス,3次元形状ガイダンスを含むマルチモーダルガイダンスモジュールを導入する。 教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。

Prior material creation methods had limitations in producing diverse results mainly because reconstruction-based methods relied on real-world measurements and generation-based methods were trained on relatively small material datasets. To address these challenges, we propose DreamPBR, a novel diffusion-based generative framework designed to create spatially-varying appearance properties guided by text and multi-modal controls, providing high controllability and diversity in material generation. Key to achieving diverse and high-quality PBR material generation lies in integrating the capabilities of recent large-scale vision-language models trained on billions of text-image pairs, along with material priors derived from hundreds of PBR material samples. We utilize a novel material Latent Diffusion Model (LDM) to establish the mapping between albedo maps and the corresponding latent space. The latent representation is then decoded into full SVBRDF parameter maps using a rendering-aware PBR decoder. Our method supports tileable generation through convolution with circular padding. Furthermore, we introduce a multi-modal guidance module, which includes pixel-aligned guidance, style image guidance, and 3D shape guidance, to enhance the control capabilities of the material LDM. We demonstrate the effectiveness of DreamPBR in material creation, showcasing its versatility and user-friendliness on a wide range of controllable generation and editing applications.
翻訳日:2024-04-24 15:41:14 公開日:2024-04-23
# 3DBench: スケーラブルな3Dベンチマークとインストラクションチューニングデータセット

3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset ( http://arxiv.org/abs/2404.14678v1 )

ライセンス: Link先を確認
Junjie Zhang, Tianci Hu, Xiaoshui Huang, Yongshun Gong, Dan Zeng, (参考訳) マルチモーダル大規模言語モデル(MLLM)の性能を評価し、ポイントクラウドと言語を統合することで、大きな課題が浮かび上がっている。 これらのモデルが真の進歩を表すかどうかを判断する包括的なアセスメントの欠如は、この分野のさらなる進歩を妨げる。 現在の評価は分類とキャプションのタスクに大きく依存しており、MLLMの徹底的な評価には不足している。 これらのモデルの空間的理解と表現能力を徹底的に分析できる,より洗練された評価手法の必要性がある。 これらの問題に対処するため,我々は3DBenchと呼ばれる大規模命令チューニングデータセットを伴ってスケーラブルな3Dベンチマークを導入し,MLLMの総合的な評価のための拡張可能なプラットフォームを提供する。 具体的には、オブジェクトレベルからシーンレベルまで幅広い空間的・意味的なスケールにまたがるベンチマークを構築し、知覚と計画の両方に対処する。 さらに、スケーラブルな3Dインストラクションチューニングデータセットを自動的に構築するための厳密なパイプラインを提案し、合計0.23万QAペアが生成される10の多様なマルチモーダルタスクをカバーする。 トレンドMLLM、既存のデータセットとの比較、トレーニングプロトコルのバリエーションを評価する詳細な実験は、3DBenchの優位性を示し、現在の制限と潜在的研究方向に関する貴重な洞察を提供する。

Evaluating the performance of Multi-modal Large Language Models (MLLMs), integrating both point cloud and language, presents significant challenges. The lack of a comprehensive assessment hampers determining whether these models truly represent advancements, thereby impeding further progress in the field. Current evaluations heavily rely on classification and caption tasks, falling short in providing a thorough assessment of MLLMs. A pressing need exists for a more sophisticated evaluation method capable of thoroughly analyzing the spatial understanding and expressive capabilities of these models. To address these issues, we introduce a scalable 3D benchmark, accompanied by a large-scale instruction-tuning dataset known as 3DBench, providing an extensible platform for a comprehensive evaluation of MLLMs. Specifically, we establish the benchmark that spans a wide range of spatial and semantic scales, from object-level to scene-level, addressing both perception and planning tasks. Furthermore, we present a rigorous pipeline for automatically constructing scalable 3D instruction-tuning datasets, covering 10 diverse multi-modal tasks with more than 0.23 million QA pairs generated in total. Thorough experiments evaluating trending MLLMs, comparisons against existing datasets, and variations of training protocols demonstrate the superiority of 3DBench, offering valuable insights into current limitations and potential research directions.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# 生成事前学習変換器を用いた英語機械翻訳への多言語自動変換

Automated Multi-Language to English Machine Translation Using Generative Pre-Trained Transformers ( http://arxiv.org/abs/2404.14680v1 )

ライセンス: Link先を確認
Elijah Pelofske, Vincent Urias, Lorie M. Liebrock, (参考訳) 正確かつ効率的な言語翻訳のタスクは、非常に重要な情報処理タスクである。 機械学習が有効で、正確で高速な自動翻訳は、機械学習とデータサイエンスコミュニティにとって大きな関心事であることが多い。 本研究では、局所生成事前学習変換(GPT)モデルを用いて、自動ゼロショットブラックボックス、文賢く、多言語による英語テキストへの翻訳を行う。 我々は、Huggingface LLMリポジトリから16種類のオープンソースGPTモデルをベンチマークし、参照データセットとしてTED Talk transcriptsを翻訳し、50の非英語言語を英語に翻訳する。 これらのGPTモデル推論コールは、1つのA100 Nvidia GPU上で厳密にローカルに実行される。 ベンチマークメトリクスは言語翻訳の正確さ、BLEU、GLEU、METEOR、chrFテキストの重複測定、各文翻訳のウォールクロック時間などである。 BLEUメトリックの英語テキストに翻訳するための最も優れた総合的なGPTモデルは、平均スコアが0.152$のReMM-v2-L2-13B、GLEUメトリックが平均スコアが0.256$のReMM-v2-L2-13B、chrFメトリックが平均スコアが0.448$のLlama2-chat-AYT-13B、METEORメトリックが平均スコアが0.438$のReMM-v2-L2-13Bである。

The task of accurate and efficient language translation is an extremely important information processing task. Machine learning enabled and automated translation that is accurate and fast is often a large topic of interest in the machine learning and data science communities. In this study, we examine using local Generative Pretrained Transformer (GPT) models to perform automated zero shot black-box, sentence wise, multi-natural-language translation into English text. We benchmark 16 different open-source GPT models, with no custom fine-tuning, from the Huggingface LLM repository for translating 50 different non-English languages into English using translated TED Talk transcripts as the reference dataset. These GPT model inference calls are performed strictly locally, on single A100 Nvidia GPUs. Benchmark metrics that are reported are language translation accuracy, using BLEU, GLEU, METEOR, and chrF text overlap measures, and wall-clock time for each sentence translation. The best overall performing GPT model for translating into English text for the BLEU metric is ReMM-v2-L2-13B with a mean score across all tested languages of $0.152$, for the GLEU metric is ReMM-v2-L2-13B with a mean score across all tested languages of $0.256$, for the chrF metric is Llama2-chat-AYT-13B with a mean score across all tested languages of $0.448$, and for the METEOR metric is ReMM-v2-L2-13B with a mean score across all tested languages of $0.438$.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# 模擬信頼ゲームによる大規模言語モデルにおける名前ベースビザの発見

Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game ( http://arxiv.org/abs/2404.14682v1 )

ライセンス: Link先を確認
Yumou Wei, Paulo F. Carvalho, John Stamper, (参考訳) 個人の名前から推測される性や人種は、社会的相互作用に微妙に影響を及ぼすステレオタイプやバイアスの顕著な源泉である。 人間の実験から明らかな証拠は、自分の名前が支配的な性別や人種を示すときに受ける優遇措置を明らかにしている。 大規模言語モデルがより多くの能力を獲得し、日々のアプリケーションをサポートするようになると、複雑な社会的相互作用の中で名前に遭遇する際の類似したバイアスが現れるかどうかを調べることが重要となる。 単語表現のような言語モデルにおける名前に基づくバイアスを研究する以前の研究とは対照的に、我々は3つの顕著なモデルに挑戦して、信頼と相互性を研究するためのよく公表されたパラダイムである、修正された信頼ゲームの結果を予測する。 実験の内的妥当性を確保するため、我々は、トラストゲームにおけるプレイヤーを特定するために、人種的に代表される姓のリストを慎重にキュレートし、我々のプロンプトの構成的妥当性を厳格に検証した。 実験の結果,提案手法はベースモデルとインストラクションチューニングモデルの両方において,名前に基づくバイアスを検出することができることがわかった。

Gender and race inferred from an individual's name are a notable source of stereotypes and biases that subtly influence social interactions. Abundant evidence from human experiments has revealed the preferential treatment that one receives when one's name suggests a predominant gender or race. As large language models acquire more capabilities and begin to support everyday applications, it becomes crucial to examine whether they manifest similar biases when encountering names in a complex social interaction. In contrast to previous work that studies name-based biases in language models at a more fundamental level, such as word representations, we challenge three prominent models to predict the outcome of a modified Trust Game, a well-publicized paradigm for studying trust and reciprocity. To ensure the internal validity of our experiments, we have carefully curated a list of racially representative surnames to identify players in a Trust Game and rigorously verified the construct validity of our prompts. The results of our experiments show that our approach can detect name-based biases in both base and instruction-tuned models.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# Pegasus-v1 技術報告

Pegasus-v1 Technical Report ( http://arxiv.org/abs/2404.14687v1 )

ライセンス: Link先を確認
Raehyuk Jung, Hyojun Go, Jaehyuk Yi, Jiho Jang, Daniel Kim, Jay Suh, Aiden Lee, Cooper Han, Jae Lee, Jeff Kim, Jin-Young Kim, Junwan Kim, Kyle Park, Lucas Lee, Mars Ha, Minjoon Seo, Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong, Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park, Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture, (参考訳) 本稿では,映像コンテンツ理解と自然言語によるインタラクションに特化したマルチモーダル言語モデルPegasus-1を紹介する。 Pegasus-1は、時空間情報を解釈するなど、ビデオデータによって引き起こされる固有の課題に対処し、様々な長さにわたるニュアンスのあるビデオコンテンツ理解を提供するように設計されている。 この技術レポートは、Pegasus-1のアーキテクチャ、トレーニング戦略、およびビデオ会話、ゼロショットビデオ質問応答、およびビデオ要約に関するベンチマークのパフォーマンスを概観する。 我々はまたペガサス1号の定性的特性を探求し、その能力と限界を実証し、読者に現在の状態と今後の方向性のバランスのとれたビューを提供する。

This technical report introduces Pegasus-1, a multimodal language model specialized in video content understanding and interaction through natural language. Pegasus-1 is designed to address the unique challenges posed by video data, such as interpreting spatiotemporal information, to offer nuanced video content comprehension across various lengths. This technical report overviews Pegasus-1's architecture, training strategies, and its performance in benchmarks on video conversation, zero-shot video question answering, and video summarization. We also explore qualitative characteristics of Pegasus-1 , demonstrating its capabilities as well as its limitations, in order to provide readers a balanced view of its current state and its future direction.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# FMint:微分方程式基礎モデルのための人間設計とデータ事前学習モデル

FMint: Bridging Human Designed and Data Pretrained Models for Differential Equation Foundation Model ( http://arxiv.org/abs/2404.14688v1 )

ライセンス: Link先を確認
Zezheng Song, Jiaxin Yuan, Haizhao Yang, (参考訳) 人類が設計したアルゴリズムは、様々な科学的・工学的な課題を解決するのに長い間基礎的だった。 近年、データ駆動型深層学習法が注目され、多くの科学分野に革新的なソリューションを提供している。 従来のアルゴリズムは特定の問題の中核的な側面を捉えるのに優れているが、特定のデータがないため、様々な問題条件に必要な柔軟性を欠いていることが多い。 逆に、データ駆動アプローチは広大なデータセットを使用するが、ドメイン固有の知識に乏しいことが多い。 これらのギャップを埋めるために、データ駆動手法の適応性によって人間設計アルゴリズムの精度を相乗化する生成前訓練モデルである「textbf{FMint}」(初期化に基づく創始モデル)を導入する。 このモデルは、力学系の高精度なシミュレーションのために特別に設計されている。 FMintは従来の手法で提供された最初の軌道から始まり、高速に高精度な解を提供する。 文脈内学習を取り入れ、50,000の力学系の多種多様なコーパスで事前訓練され、現実世界の幅広い応用にまたがる例外的な一般化を示している。 アルゴリズムの厳密さとデータ駆動の柔軟性を効果的に組み合わせることで、FMintは次世代の科学基盤モデルのステージを設定し、効率性と高精度の両方で複雑な問題に取り組む。

Human-designed algorithms have long been fundamental in solving a variety of scientific and engineering challenges. Recently, data-driven deep learning methods have also risen to prominence, offering innovative solutions across numerous scientific fields. While traditional algorithms excel in capturing the core aspects of specific problems, they often lack the flexibility needed for varying problem conditions due to the absence of specific data. Conversely, while data-driven approaches utilize vast datasets, they frequently fall short in domain-specific knowledge. To bridge these gaps, we introduce \textbf{FMint} (Foundation Model based on Initialization), a generative pre-trained model that synergizes the precision of human-designed algorithms with the adaptability of data-driven methods. This model is specifically engineered for high-accuracy simulation of dynamical systems. Starting from initial trajectories provided by conventional methods, FMint quickly delivers highly accurate solutions. It incorporates in-context learning and has been pre-trained on a diverse corpus of 500,000 dynamical systems, showcasing exceptional generalization across a broad spectrum of real-world applications. By effectively combining algorithmic rigor with data-driven flexibility, FMint sets the stage for the next generation of scientific foundation models, tackling complex problems with both efficiency and high accuracy.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# 生存分析のための解釈予測と特徴選択

Interpretable Prediction and Feature Selection for Survival Analysis ( http://arxiv.org/abs/2404.14689v1 )

ライセンス: Link先を確認
Mike Van Ness, Madeleine Udell, (参考訳) 生存分析は、いくつかのデータが検閲されたときに、特に将来の患者のリスクを予測するための医療において、時間から時間までのデータをモデル化する技術として広く用いられている。 このような設定では、サバイバルモデルは正確かつ解釈可能でなければならないので、ユーザ(医師など)はモデルを信頼し、モデル予測を理解することができる。 ほとんどの文献は差別に焦点を当てているが、解釈可能性も同様に重要である。 成功した解釈可能なモデルでは、各機能の変更が結果にどのように影響するかを記述でき、少数の機能しか使用すべきである。 本稿では,強い差別と解釈可能性の両方を達成する新たな生存分析モデルであるDyS("dice'"と発音する)を提案する。 DySは、特徴選択と解釈可能な予測を1つのモデルに組み合わせた、機能スパースな一般化付加モデルである。 DySは、すべての生存分析問題に対してうまく機能するが、観察医療研究でよく見られるような、大きな($n$と$p$の)生存データセットには特に有用である。 実証的な研究によると、DySは他の最先端の機械学習モデルと競合し、生存分析を行う一方で、高度に解釈可能である。

Survival analysis is widely used as a technique to model time-to-event data when some data is censored, particularly in healthcare for predicting future patient risk. In such settings, survival models must be both accurate and interpretable so that users (such as doctors) can trust the model and understand model predictions. While most literature focuses on discrimination, interpretability is equally as important. A successful interpretable model should be able to describe how changing each feature impacts the outcome, and should only use a small number of features. In this paper, we present DyS (pronounced ``dice''), a new survival analysis model that achieves both strong discrimination and interpretability. DyS is a feature-sparse Generalized Additive Model, combining feature selection and interpretable prediction into one model. While DyS works well for all survival analysis problems, it is particularly useful for large (in $n$ and $p$) survival datasets such as those commonly found in observational healthcare studies. Empirical studies show that DyS competes with other state-of-the-art machine learning models for survival analysis, while being highly interpretable.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# 非相互マッハ・ツェンダー干渉計に基づく軌道角運動量モードのスケーラブルな周期変換

Scalable cyclic transformation of orbital angular momentum modes based on a nonreciprocal Mach-Zehnder interferometer ( http://arxiv.org/abs/2404.14690v1 )

ライセンス: Link先を確認
Y. F. Yang, M. Y. Chen, F. P. Li, Y. P. Ruan, Z. X. Li, M. Xiao, H. Zhang, K. Y. Xia, (参考訳) 光子の軌道角運動量(OAM)は、その特異な離散的な高次元の性質により、高次元の古典的および量子的な情報処理を行うための中心的な資源を提供する。 一組の直交OAMモードの巡回変換は、普遍的な高次元情報処理に不可欠なビルディングブロックである。 量子領域におけるその実現は普遍量子パウリXゲートである。 本研究では,Mach-Zehnder干渉計を用いて,平均効率が96%を超える6つのOAMモードの周期変換を実験的に実証した。 私たちのシステムはシンプルで、原則として、より多くのモードにスケールできます。 位相安定化の改善と量子フォトニック状態の入力により、この方法は普遍的な単一光子量子パウリXゲートを実行することができ、スケーラブルな高次元量子計算の道を開くことができる。

The orbital angular momentum (OAM) of photons provides a pivotal resource for carrying out high-dimensional classical and quantum information processing due to its unique discrete high-dimensional nature. The cyclic transformation of a set of orthogonal OAM modes is an essential building block for universal high-dimensional information processing. Its realization in the quantum domain is the universal quantum Pauli-X gate. In this work, we experimentally demonstrate a cyclic transformation of six OAM modes with an averaged efficiency higher than 96% by exploiting a nonreciprocal Mach-Zehnder interferometer. Our system is simple and can, in principle, be scaled to more modes. By improving phase stabilization and inputting quantum photonic states, this method can perform universal single-photon quantum Pauli-X gate, thus paving the way for scalable high-dimensional quantum computation.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# ダブルプライバシガード:顔認証に対するロバストな追跡可能な敵対的透かし

Double Privacy Guard: Robust Traceable Adversarial Watermarking against Face Recognition ( http://arxiv.org/abs/2404.14693v1 )

ライセンス: Link先を確認
Yunming Zhang, Dengpan Ye, Sipeng Shen, Caiyun Xie, Ziyi Liu, Jiacheng Deng, Long Tang, (参考訳) 顔認識(FR)システムの広範な展開は、プライバシー漏洩のリスクを生じさせる。 この問題に対処するための対策の1つは、悪意のあるFR探索を騙しながら、信頼された権限者の正常な身元確認を同時に妨害する敵攻撃である。 本稿では,トレーサブルな対角線透かしに基づくDPG(Double Privacy Guard)方式を提案する。 DPGは、不正なFRモデルを欺くためにワンタイムの透かし埋め込みを採用しており、認証者は透かしを抽出して身元確認を行うことができる。 具体的には,FRモデルに対する情報誘導型敵攻撃を提案する。 エンコーダは、同一性固有の透かしをキャリアの深い特徴空間に埋め込んで、画像の認識可能な特徴を誘導し、元のアイデンティティから逸脱させる。 さらに、エンコーダとデコーダの協調最適化方向を規則化するサブタスクと互換性のある協調メタ最適化戦略を採用する。 この戦略は、透かしにおける多目的最適化競合を緩和し、ユニバーサルキャリアの特徴の表現を強化する。 実験により、DSGは最先端のFRモデル上で大きな攻撃成功率とトレーサビリティの精度を達成し、敵の攻撃や深層透かし、あるいは2つの単純な組み合わせによって既存のプライバシー保護手法より優れていることを示す。 我々の研究は、FRのプライバシーに対する積極的な保護に関する新たな洞察を開放する可能性がある。

The wide deployment of Face Recognition (FR) systems poses risks of privacy leakage. One countermeasure to address this issue is adversarial attacks, which deceive malicious FR searches but simultaneously interfere the normal identity verification of trusted authorizers. In this paper, we propose the first Double Privacy Guard (DPG) scheme based on traceable adversarial watermarking. DPG employs a one-time watermark embedding to deceive unauthorized FR models and allows authorizers to perform identity verification by extracting the watermark. Specifically, we propose an information-guided adversarial attack against FR models. The encoder embeds an identity-specific watermark into the deep feature space of the carrier, guiding recognizable features of the image to deviate from the source identity. We further adopt a collaborative meta-optimization strategy compatible with sub-tasks, which regularizes the joint optimization direction of the encoder and decoder. This strategy enhances the representation of universal carrier features, mitigating multi-objective optimization conflicts in watermarking. Experiments confirm that DPG achieves significant attack success rates and traceability accuracy on state-of-the-art FR models, exhibiting remarkable robustness that outperforms the existing privacy protection methods using adversarial attacks and deep watermarking, or simple combinations of the two. Our work potentially opens up new insights into proactive protection for FR privacy.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# MisgenderMender: コミュニティインフォームドアプローチ

MisgenderMender: A Community-Informed Approach to Interventions for Misgendering ( http://arxiv.org/abs/2404.14695v1 )

ライセンス: Link先を確認
Tamanna Hossain, Sunipa Dev, Sameer Singh, (参考訳) コンテンツ警告: 本論文は、攻撃的で潜在的に引き起こされる可能性のある、誤解と消去の例を含む。 ミスジェンダー(英: missgendering)とは、他人の性別を誤って対処する行為であり、深刻な危害を与え、日常技術に広く浸透するが、それに対抗するための研究の欠如が顕著である。 我々は、テキストベースの誤認識に対する自動的介入の視点を理解するために、米国におけるジェンダー多様性個人を対象とした調査を行うことにより、誤認識に対する介入に関するこの研究の欠如に対処する最初の人物である。 ミスジェンダー, 望ましい解決策, 関連する懸念の頻度に関する調査結果に基づいて, ミスジェンダーの介入タスクと評価データセットであるMisgenderMenderを導入する。 タスクを2つのサブタスクで定義します。 一 偽造を検知し、次いで 二 編集が適当な領域に誤字が存在する箇所の誤字を訂正すること。 MisgenderMenderは、3790件のソーシャルメディアコンテンツとLLM世代を、非シスジェンダーの公開人物について記述し、誤認の存在を注釈し、LLM生成テキストで誤認を訂正するための追加アノテーションを含む。 このデータセットを用いて、既存のNLPシステムを評価し、将来のモデルに対処する上での課題を強調し、初期ベンチマークを設定した。 完全なデータセット、コード、デモはhttps://tamannahossainkay.github.io/misgendermender/で公開しています。

Content Warning: This paper contains examples of misgendering and erasure that could be offensive and potentially triggering. Misgendering, the act of incorrectly addressing someone's gender, inflicts serious harm and is pervasive in everyday technologies, yet there is a notable lack of research to combat it. We are the first to address this lack of research into interventions for misgendering by conducting a survey of gender-diverse individuals in the US to understand perspectives about automated interventions for text-based misgendering. Based on survey insights on the prevalence of misgendering, desired solutions, and associated concerns, we introduce a misgendering interventions task and evaluation dataset, MisgenderMender. We define the task with two sub-tasks: (i) detecting misgendering, followed by (ii) correcting misgendering where misgendering is present in domains where editing is appropriate. MisgenderMender comprises 3790 instances of social media content and LLM-generations about non-cisgender public figures, annotated for the presence of misgendering, with additional annotations for correcting misgendering in LLM-generated text. Using this dataset, we set initial benchmarks by evaluating existing NLP systems and highlighting challenges for future models to address. We release the full dataset, code, and demo at https://tamannahossainkay.github.io/misgendermender/.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# テキスト意味論に基づく適応型プロンプト学習とユニバーサルマルチソースドメイン適応のための不確実性モデリング

Adaptive Prompt Learning with Negative Textual Semantics and Uncertainty Modeling for Universal Multi-Source Domain Adaptation ( http://arxiv.org/abs/2404.14696v1 )

ライセンス: Link先を確認
Yuxiang Yang, Lu Wen, Yuanyuan Xu, Jiliu Zhou, Yan Wang, (参考訳) Universal Multi-source Domain Adaptation (UniMDA)は、複数のラベル付きソースドメインからの知識を、ドメインシフト(差分データ分散)とクラスシフト(未知のターゲットクラス)の下でラベル付けされていないターゲットドメインに転送する。 既存のソリューションでは、未知のサンプルを検出するための画像特徴の発掘に重点を置いており、テキストセマンティクスに含まれる豊富な情報を無視している。 本論文では,UniMDA分類タスクに対して,言語-画像事前学習(APNE-CLIP)に基づく負のテキストセマンティクスと不確実性モデリングを用いた適応型プロンプト学習を提案する。 具体的には、CLIPを利用して、クラスセマンティクスとドメイン表現のテキスト情報を活用することで、未知のサンプルを特定し、ドメインシフトに対処する。 さらに、より正確な画像とテキストのペアアライメントを実現するために、負のテキストセマンティクスを利用して、新しいグローバルなインスタンスレベルのアライメントを設計する。 さらに,未知試料と未知試料とのマージン距離を拡大するエネルギーベース不確実性モデリング手法を提案する。 大規模実験により提案手法の優位性を実証した。

Universal Multi-source Domain Adaptation (UniMDA) transfers knowledge from multiple labeled source domains to an unlabeled target domain under domain shifts (different data distribution) and class shifts (unknown target classes). Existing solutions focus on excavating image features to detect unknown samples, ignoring abundant information contained in textual semantics. In this paper, we propose an Adaptive Prompt learning with Negative textual semantics and uncErtainty modeling method based on Contrastive Language-Image Pre-training (APNE-CLIP) for UniMDA classification tasks. Concretely, we utilize the CLIP with adaptive prompts to leverage textual information of class semantics and domain representations, helping the model identify unknown samples and address domain shifts. Additionally, we design a novel global instance-level alignment objective by utilizing negative textual semantics to achieve more precise image-text pair alignment. Furthermore, we propose an energy-based uncertainty modeling strategy to enlarge the margin distance between known and unknown samples. Extensive experiments demonstrate the superiority of our proposed method.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# FlashSpeech:効率的なゼロショット音声合成

FlashSpeech: Efficient Zero-Shot Speech Synthesis ( http://arxiv.org/abs/2404.14700v1 )

ライセンス: Link先を確認
Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue, (参考訳) 大規模ゼロショット音声合成の最近の進歩は言語モデルや拡散モデルによって著しく進歩している。 しかし、両手法の生成プロセスは遅く、計算集約的である。 従来の作業に匹敵する品質を実現するために,低予算の音声合成を効果的に行うことは,依然として大きな課題である。 本稿では,従来に比べて推定時間の約5倍の大規模ゼロショット音声合成システムであるFlashSpeechを提案する。 FlashSpeechは遅延一貫性モデルに基づいて構築されており、教師としてトレーニング済みの拡散モデルを必要としない、スクラッチからトレーニング可能な、新しい逆整合トレーニングアプローチを採用している。 さらに、新しい韻律生成モジュールは、韻律の多様性を高め、音声のリズムをより自然にする。 FlashSpeechの生成プロセスは、ゼロショット音声生成のための音声プロンプトに高い音質と高い類似性を維持しつつ、1つか2つのサンプリングステップで効率よく実現できる。 実験の結果,FlashSpeechの優れた性能が示された。 特に、FlashSpeechは、他のゼロショット音声合成システムよりも約20倍高速で、音声品質と類似性の点で同等の性能を維持している。 さらに、FlashSpeechは、音声変換、音声編集、多様な音声サンプリングといったタスクを効率的に実行することで、その汎用性を示す。 オーディオサンプルはhttps://flashspeech.github.io/で確認できる。

Recent progress in large-scale zero-shot speech synthesis has been significantly advanced by language models and diffusion models. However, the generation process of both methods is slow and computationally intensive. Efficient speech synthesis using a lower computing budget to achieve quality on par with previous work remains a significant challenge. In this paper, we present FlashSpeech, a large-scale zero-shot speech synthesis system with approximately 5\% of the inference time compared with previous work. FlashSpeech is built on the latent consistency model and applies a novel adversarial consistency training approach that can train from scratch without the need for a pre-trained diffusion model as the teacher. Furthermore, a new prosody generator module enhances the diversity of prosody, making the rhythm of the speech sound more natural. The generation processes of FlashSpeech can be achieved efficiently with one or two sampling steps while maintaining high audio quality and high similarity to the audio prompt for zero-shot speech generation. Our experimental results demonstrate the superior performance of FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other zero-shot speech synthesis systems while maintaining comparable performance in terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates its versatility by efficiently performing tasks like voice conversion, speech editing, and diverse speech sampling. Audio samples can be found in https://flashspeech.github.io/.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# 選択分析のためのディープニューラルネットワーク:勾配正規化による行動規則性の向上

Deep neural networks for choice analysis: Enhancing behavioral regularity with gradient regularization ( http://arxiv.org/abs/2404.14701v1 )

ライセンス: Link先を確認
Siqi Feng, Rui Yao, Stephane Hess, Ricardo A. Daziano, Timothy Brathwaite, Joan Walker, Shenhao Wang, (参考訳) ディープニューラルネットワーク(DNN)は、しばしば行動に不規則なパターンを示し、旅行行動モデリングにおける実践的可能性と理論的妥当性を著しく制限する。 本研究は、需要関数の単調性(すなわち需要の法則)を評価するための新しい指標として、強く弱い行動規則性を提案し、さらに6つの勾配正規化器を用いた制約付き最適化フレームワークを設計し、DNNの行動規則性を高める。 提案手法は, シカゴとロンドンからの旅行調査データに適用され, 大規模対小サンプルシナリオの予測力と行動規則性のトレードオフ, ドメイン内対ドメイン外一般化のトレードオフについて検討した。 その結果、マルチノードロジットのような強力な行動基盤を持つモデルとは異なり、ベンチマークDNNは行動規則性を保証することができないことが示された。 しかし、勾配正則化(GR)は、相対的に高い予測力を維持しながら、DNNの行動正則性を約6ポイント(pp)向上させる。 小サンプルのシナリオでは、GRは大きなサンプルのシナリオよりも有効であり、同時に約20pp、ログライクな振る舞いを約1.7%改善する。 DNNのドメイン内一般化と比較して、GRはドメイン外一般化においてより効果的に機能し、性能の悪いベンチマークDNNの行動規則性を約65 ppで劇的に改善し、モデル転送可能性の向上と予測における応用のための行動規則化の臨界性を示している。 さらに、提案フレームワークは、TasteNetsのような他のNNベースの選択モデルにも適用可能である。 将来の研究では、旅行需要モデルの評価において、ログライクな指標とともに行動規則性を使用して、複雑な機械学習モデルを採用する際の行動規則性をさらに向上する他の方法を検討することができる。

Deep neural networks (DNNs) frequently present behaviorally irregular patterns, significantly limiting their practical potentials and theoretical validity in travel behavior modeling. This study proposes strong and weak behavioral regularities as novel metrics to evaluate the monotonicity of individual demand functions (a.k.a. law of demand), and further designs a constrained optimization framework with six gradient regularizers to enhance DNNs' behavioral regularity. The proposed framework is applied to travel survey data from Chicago and London to examine the trade-off between predictive power and behavioral regularity for large vs. small sample scenarios and in-domain vs. out-of-domain generalizations. The results demonstrate that, unlike models with strong behavioral foundations such as the multinomial logit, the benchmark DNNs cannot guarantee behavioral regularity. However, gradient regularization (GR) increases DNNs' behavioral regularity by around 6 percentage points (pp) while retaining their relatively high predictive power. In the small sample scenario, GR is more effective than in the large sample scenario, simultaneously improving behavioral regularity by about 20 pp and log-likelihood by around 1.7%. Comparing with the in-domain generalization of DNNs, GR works more effectively in out-of-domain generalization: it drastically improves the behavioral regularity of poorly performing benchmark DNNs by around 65 pp, indicating the criticality of behavioral regularization for enhancing model transferability and application in forecasting. Moreover, the proposed framework is applicable to other NN-based choice models such as TasteNets. Future studies could use behavioral regularity as a metric along with log-likelihood in evaluating travel demand models, and investigate other methods to further enhance behavioral regularity when adopting complex machine learning models.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# 土地被覆図作成のための自己学習による教師なしドメイン適応アーキテクチャ探索

Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping ( http://arxiv.org/abs/2404.14704v1 )

ライセンス: Link先を確認
Clifford Broni-Bediako, Junshi Xia, Naoto Yokoya, (参考訳) 非教師なし領域適応(UDA)は、土地被覆マッピングにおける挑戦的なオープンな問題である。 従来の研究では、土地被覆マッピングのためのリモートセンシングベンチマークにおいて、クロスドメイン分布シフトに対処する上で、さらなる進展が示されている。 既存の作業は、主に大規模なニューラルネットワークアーキテクチャに基づいて構築されており、リソースに制約のある環境における現実世界の多くのアプリケーションに対する実践的影響を制限している。 そこで本稿では,ドメインシフト下での土地被覆マッピングタスクに対して,軽量ニューラルネットワークの自動探索を行うための,シンプルかつ効果的なフレームワークを提案する。 これは、マルコフランダムフィールドニューラルアーキテクチャサーチ(MRF-NAS)を自己学習 UDA フレームワークに統合し、限られた計算予算の下で効率的なネットワークを探索することで実現される。 これは、NASと自己学習型UDAを組み合わせた土地被覆地図の単一フレームワークとしての最初の試みである。 また、自己学習方式における2つの異なる擬似ラベリング手法(信頼ベースとエネルギーベース)についても検討する。 リモートセンシングUDAのための最近の2つのデータセット(OpenEarthMapとFLAIR #1)の実験結果は、良好な性能を示している。 2M 以下のパラメータと 30.16 GFLOP で、最もよく発見された軽量ネットワークは、OpenEarthMap (59.38% mIoU) の地域ターゲットドメインとFLAIR #1 (51.19% mIoU) のターゲットドメインで最先端の性能に達する。 コードはhttps://github.com/cliffbb/UDA-NAS}{https://github.com/cliffbb/UDA-NASにある。

Unsupervised domain adaptation (UDA) is a challenging open problem in land cover mapping. Previous studies show encouraging progress in addressing cross-domain distribution shifts on remote sensing benchmarks for land cover mapping. The existing works are mainly built on large neural network architectures, which makes them resource-hungry systems, limiting their practical impact for many real-world applications in resource-constrained environments. Thus, we proposed a simple yet effective framework to search for lightweight neural networks automatically for land cover mapping tasks under domain shifts. This is achieved by integrating Markov random field neural architecture search (MRF-NAS) into a self-training UDA framework to search for efficient and effective networks under a limited computation budget. This is the first attempt to combine NAS with self-training UDA as a single framework for land cover mapping. We also investigate two different pseudo-labelling approaches (confidence-based and energy-based) in self-training scheme. Experimental results on two recent datasets (OpenEarthMap & FLAIR #1) for remote sensing UDA demonstrate a satisfactory performance. With only less than 2M parameters and 30.16 GFLOPs, the best-discovered lightweight network reaches state-of-the-art performance on the regional target domain of OpenEarthMap (59.38% mIoU) and the considered target domain of FLAIR #1 (51.19% mIoU). The code is at https://github.com/cliffbb/UDA-NAS}{https://github.com/cliffbb/UDA-NAS.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# Think-Program-reCtify: 大規模言語モデルを用いた3次元定位推論

Think-Program-reCtify: 3D Situated Reasoning with Large Language Models ( http://arxiv.org/abs/2404.14705v1 )

ライセンス: Link先を確認
Qingrong He, Kejun Lin, Shizhe Chen, Anwen Hu, Qin Jin, (参考訳) 本研究は,3次元環境における自我中心の観察から得られる質問に答えることを目的とした3次元位置推論課題に対処する。 このタスクは、包括的な3D認識と複雑な推論スキルを必要とするため、依然として困難である。 データ不足と一般化能力に苦しむ3D位置推定のための教師付きデータに基づいて訓練されたエンドツーエンドモデル。 視覚的推論に大規模言語モデル(LLM)を活用した最近の成功に触発されて,ThinkProgram-reCtifyループを通じてLLMの計画,ツール使用,リフレクション機能を活用する新しいフレームワークであるLLM-TPCを提案する。 Thinkフェーズはまず構成上の質問を一連のステップに分解し、次にProgramフェーズは各ステップを1つのコードに基底にして、慎重に設計された3D視覚認識モジュールを呼び出す。 最後に、Rectifyフェーズは、プログラムの実行に失敗した場合、プランとコードを調整します。 SQA3Dベンチマークの実験と解析により,本手法の有効性,解釈可能性,ロバスト性を実証した。 私たちのコードはhttps://qingrongh.github.io/LLM-TPC/で公開されています。

This work addresses the 3D situated reasoning task which aims to answer questions given egocentric observations in a 3D environment. The task remains challenging as it requires comprehensive 3D perception and complex reasoning skills. End-to-end models trained on supervised data for 3D situated reasoning suffer from data scarcity and generalization ability. Inspired by the recent success of leveraging large language models (LLMs) for visual reasoning, we propose LLM-TPC, a novel framework that leverages the planning, tool usage, and reflection capabilities of LLMs through a ThinkProgram-reCtify loop. The Think phase first decomposes the compositional question into a sequence of steps, and then the Program phase grounds each step to a piece of code and calls carefully designed 3D visual perception modules. Finally, the Rectify phase adjusts the plan and code if the program fails to execute. Experiments and analysis on the SQA3D benchmark demonstrate the effectiveness, interpretability and robustness of our method. Our code is publicly available at https://qingrongh.github.io/LLM-TPC/.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# SC-HVPPNet:CNNとトランスフォーマーによる空間・チャネルハイブリッド映像後処理ネットワーク

SC-HVPPNet: Spatial and Channel Hybrid-Attention Video Post-Processing Network with CNN and Transformer ( http://arxiv.org/abs/2404.14709v1 )

ライセンス: Link先を確認
Tong Zhang, Wenxue Cui, Shaohui Liu, Feng Jiang, (参考訳) 畳み込みニューラルネットワーク(CNN)とTransformerは、最近ビデオ後処理(VPP)で注目を集めている。 しかし、既存のVPP法におけるCNNとTransformerの相互作用は完全には解明されておらず、局所的特徴と大域的特徴との非効率な通信につながる。 本稿では,VPP のタスクにおける CNN と Transformer の相互作用について検討し,空間領域とチャネル領域の両方において画像の先行を協調的に活用できる新しい空間・チャネルハイブリッド・アテンションビデオ後処理ネットワーク (SC-HVPPNet) を提案する。 具体的には、空間領域において、局所的および大域的表現を融合させるために2つの注意重みを発生させる新しい空間的注意融合モジュールを設計する。 チャネル領域では、チャネル次元の深い表現を動的にブレンドできる新しいチャネルアテンション融合モジュールが開発されている。 SC-HVPPNetは、VTM-11.0-NNVC RA構成において、Y、U、Vコンポーネントの平均ビットレートが5.29%、12.42%、および13.09%の映像再生品質を顕著に向上させることを示した。

Convolutional Neural Network (CNN) and Transformer have attracted much attention recently for video post-processing (VPP). However, the interaction between CNN and Transformer in existing VPP methods is not fully explored, leading to inefficient communication between the local and global extracted features. In this paper, we explore the interaction between CNN and Transformer in the task of VPP, and propose a novel Spatial and Channel Hybrid-Attention Video Post-Processing Network (SC-HVPPNet), which can cooperatively exploit the image priors in both spatial and channel domains. Specifically, in the spatial domain, a novel spatial attention fusion module is designed, in which two attention weights are generated to fuse the local and global representations collaboratively. In the channel domain, a novel channel attention fusion module is developed, which can blend the deep representations at the channel dimension dynamically. Extensive experiments show that SC-HVPPNet notably boosts video restoration quality, with average bitrate savings of 5.29%, 12.42%, and 13.09% for Y, U, and V components in the VTM-11.0-NNVC RA configuration.
翻訳日:2024-04-24 15:31:26 公開日:2024-04-23
# プレトレーニングモデル利用の課題--実践者の立場から

Challenges of Using Pre-trained Models: the Practitioners' Perspective ( http://arxiv.org/abs/2404.14710v1 )

ライセンス: Link先を確認
Xin Tan, Taichuan Li, Ruohe Chen, Fang Liu, Li Zhang, (参考訳) プレトレーニングモデル(PTM)の使用に関する課題は、その有効利用を阻害する、具体的には検討されていない。 この知識ギャップに対処するため、Stack Overflowで5,896のPTM関連質問のデータセットを収集し、分析した。 PTM関連質問の人気と難易度をまず分析する。 PTM関連の質問が徐々に人気になってきています。 しかしながら, PTM関連の質問は, 応答速度が低いだけでなく, ソフトウェア工学における多くのよく研究されているトピックと比較して, 応答時間が長いことも注目に値する。 この観察は, PTMの実用化に伴う難易度と難易度を強調した。 特定の課題を掘り下げるために、手動で430のPTM関連の質問を注釈付けし、42のコード(葉ノード)と3つのカテゴリの階層的な分類に分類した。 この分類学は、細調整、アウトプット理解、迅速なカスタマイズなど、多くのPTMの顕著な課題を包含しており、これは現在の技術と実践的ニーズのギャップを反映している。 我々は, PTM実践者, ベンダー, 教育者に対する研究の意味を考察し, 今後の研究の方向性と解決策を提案する。

The challenges associated with using pre-trained models (PTMs) have not been specifically investigated, which hampers their effective utilization. To address this knowledge gap, we collected and analyzed a dataset of 5,896 PTM-related questions on Stack Overflow. We first analyze the popularity and difficulty trends of PTM-related questions. We find that PTM-related questions are becoming more and more popular over time. However, it is noteworthy that PTM-related questions not only have a lower response rate but also exhibit a longer response time compared to many well-researched topics in software engineering. This observation emphasizes the significant difficulty and complexity associated with the practical application of PTMs. To delve into the specific challenges, we manually annotate 430 PTM-related questions, categorizing them into a hierarchical taxonomy of 42 codes (i.e., leaf nodes) and three categories. This taxonomy encompasses many PTM prominent challenges such as fine-tuning, output understanding, and prompt customization, which reflects the gaps between current techniques and practical needs. We discuss the implications of our study for PTM practitioners, vendors, and educators, and suggest possible directions and solutions for future research.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# ORBIT:オークリッジベースモデルによる地球システムの予測可能性

ORBIT: Oak Ridge Base Foundation Model for Earth System Predictability ( http://arxiv.org/abs/2404.14712v1 )

ライセンス: Link先を確認
Xiao Wang, Aristeidis Tsaris, Siyan Liu, Jong-Youl Choi, Ming Fan, Wei Zhang, Junqi Yin, Moetasim Ashfaq, Dan Lu, Prasanna Balaprakash, (参考訳) 地球系の予測可能性には、環境力学の複雑さと、関連する変数の多さがある。 現在のAI基盤モデルは、大規模で異質なデータを活用することで進歩しているが、そのサイズとデータ統合によって制約されることが多く、地球系の予測問題に対処する上での有効性を制限している。 これらの制限を克服するために、新しいハイブリッドテンソルデータ直交並列法を用いて最大113億のパラメータをスケールする先進的な視覚変換モデルであるOak Ridge Base Foundation for Earth System Predictability (ORBIT)を導入する。 この種の最大のモデルとして、ORBITは現在の気候AIファンデーションモデルサイズを1000倍に超えている。 Frontierスーパーコンピュータで実施された性能スケーリングテストでは、ORBITは230から707 PFLOPSを実現しており、スケーリング効率は24,576 AMD GPUで78%から96%に維持されている。 これらのブレークスルーは、AI駆動の気候モデリングの新たな進歩を確立し、地球系の予測可能性を大幅に改善する約束を実証する。

Earth system predictability is challenged by the complexity of environmental dynamics and the multitude of variables involved. Current AI foundation models, although advanced by leveraging large and heterogeneous data, are often constrained by their size and data integration, limiting their effectiveness in addressing the full range of Earth system prediction challenges. To overcome these limitations, we introduce the Oak Ridge Base Foundation Model for Earth System Predictability (ORBIT), an advanced vision-transformer model that scales up to 113 billion parameters using a novel hybrid tensor-data orthogonal parallelism technique. As the largest model of its kind, ORBIT surpasses the current climate AI foundation model size by a thousandfold. Performance scaling tests conducted on the Frontier supercomputer have demonstrated that ORBIT achieves 230 to 707 PFLOPS, with scaling efficiency maintained at 78% to 96% across 24,576 AMD GPUs. These breakthroughs establish new advances in AI-driven climate modeling and demonstrate promise to significantly improve the Earth system predictability.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# FINEMATCH:アスペクトベースのきめ細かい画像とテキストミスマッチ検出と補正

FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction ( http://arxiv.org/abs/2404.14715v1 )

ライセンス: Link先を確認
Hang Hua, Jing Shi, Kushal Kafle, Simon Jenni, Daoan Zhang, John Collomosse, Scott Cohen, Jiebo Luo, (参考訳) 大規模事前学習の最近の進歩は、マルチモーダルコンテンツを解釈・生成する能力に優れた高度な視覚言語モデル(VLM)の開発につながっている。 VLMの複雑な推論を行うという印象的な能力にもかかわらず、現在のモデルは画像とテキストの両方の合成情報を効果的に正確に捉えるのに苦労することが多い。 そこで本研究では,テキストと画像のミスマッチ検出と修正に焦点をあて,アスペクトベースの細粒度テキストと画像マッチングベンチマークであるFineMatchを提案する。 このベンチマークでは、アスペクトベースのきめ細かいテキストと画像マッチングのためのVLMの構成性を向上し評価するための新しいタスクを導入する。 このタスクでは、キャプション内のミスマッチしたアスペクトフレーズを識別し、アスペクトのクラスを決定し、0から3のミスマッチを含む可能性のある画像テキストペアの修正を提案する必要がある。 本研究は,本課題におけるモデルの性能を評価するために,IMM-IoUと呼ばれる新しい評価指標を提案する。 さらに,本研究では,教師付き学習とコンテキスト内学習設定を含む,既存の主流VLMの総合的な実験分析も提供する。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力が向上していることが判明した。 さらに、マルチモーダルなインコンテキスト学習を行う強力な能力を持つモデル(例えば、GPT-4V、Gemini Pro Vision)は、きめ細かい合成画像やテキストマッチング解析では熟練していない。 FineMatchにより、テキストから画像生成の幻覚検出と修正のためのシステムを構築することができる。

Recent progress in large-scale pre-training has led to the development of advanced vision-language models (VLMs) with remarkable proficiency in comprehending and generating multimodal content. Despite the impressive ability to perform complex reasoning for VLMs, current models often struggle to effectively and precisely capture the compositional information on both the image and text sides. To address this, we propose FineMatch, a new aspect-based fine-grained text and image matching benchmark, focusing on text and image mismatch detection and correction. This benchmark introduces a novel task for boosting and evaluating the VLMs' compositionality for aspect-based fine-grained text and image matching. In this task, models are required to identify mismatched aspect phrases within a caption, determine the aspect's class, and propose corrections for an image-text pair that may contain between 0 and 3 mismatches. To evaluate the models' performance on this new task, we propose a new evaluation metric named ITM-IoU for which our experiments show a high correlation to human evaluation. In addition, we also provide a comprehensive experimental analysis of existing mainstream VLMs, including fully supervised learning and in-context learning settings. We have found that models trained on FineMatch demonstrate enhanced proficiency in detecting fine-grained text and image mismatches. Moreover, models (e.g., GPT-4V, Gemini Pro Vision) with strong abilities to perform multimodal in-context learning are not as skilled at fine-grained compositional image and text matching analysis. With FineMatch, we are able to build a system for text-to-image generation hallucination detection and correction.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# Bayesian Example Selectionは、音声、テキスト、視覚のモーダリティに対する文脈学習を改善する

Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities ( http://arxiv.org/abs/2404.14716v1 )

ライセンス: Link先を確認
Siyin Wang, Chao-Han Huck Yang, Ji Wu, Chao Zhang, (参考訳) 大規模言語モデル(LLM)は、モデルパラメータを更新せずに対話履歴に提示されたいくつかの例に基づいて、コンテキスト内学習(ICL)を通じて新しいタスクに適応することができる。 このような利便性にもかかわらず、ICLの性能は、提示されるコンテキスト内例の品質に大きく依存しているため、コンテキスト内例選択が重要な選択となる。 本稿では,ICLのための新しいベイジアン・イン・コンテクスト・サンプル・セレクション法(ByCS)を提案する。 ベイズの定理に基づいて、文脈内例に基づいて条件付き推論確率を拡張することで、ByCSはテスト入力に条件付き逆推論に焦点を当てる。 正確な逆推論確率 (likelihood) が正確な推論確率 (posterior) をもたらすという仮定の後、その逆推論結果に基づいて、文脈内例が選択される。 音声、テキスト、画像の例を用いて、多種多様なクロスタスキングおよびクロスモーダルな実験を行う。 実験により, 各種モデル, タスク, モダリティに対するBYCS法の有効性とロバスト性を示した。

Large language models (LLMs) can adapt to new tasks through in-context learning (ICL) based on a few examples presented in dialogue history without any model parameter update. Despite such convenience, the performance of ICL heavily depends on the quality of the in-context examples presented, which makes the in-context example selection approach a critical choice. This paper proposes a novel Bayesian in-Context example Selection method (ByCS) for ICL. Extending the inference probability conditioned on in-context examples based on Bayes' theorem, ByCS focuses on the inverse inference conditioned on test input. Following the assumption that accurate inverse inference probability (likelihood) will result in accurate inference probability (posterior), in-context examples are selected based on their inverse inference results. Diverse and extensive cross-tasking and cross-modality experiments are performed with speech, text, and image examples. Experimental results show the efficacy and robustness of our ByCS method on various models, tasks and modalities.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# 六方晶窒化ホウ素におけるスピンアンサンブル生成のための電子照射の最適化

Optimisation of electron irradiation for creating spin ensembles in hexagonal boron nitride ( http://arxiv.org/abs/2404.14717v1 )

ライセンス: Link先を確認
Alexander J Healey, Priya Singh, Islay O Robertson, Christopher Gavin, Sam C Scholten, David A Broadway, Philipp Reineck, Hiroshi Abe, Takeshi Ohshima, Mehran Kianinia, Igor Aharonovich, Jean-Philippe Tetienne, (参考訳) 六方晶窒化ホウ素(hBN)中のホウ素空孔中心(V_{\rm B}^-$)アンサンブルは、近年2次元固体量子センサーとしての可能性に注目されている。 V_{\rm B}^-$生成には照射が必要であるが、特に高エネルギー粒子によるバルク照射において、大量の材料にアンサンブルを発生させる可能性を通じてスケーラビリティを提供する場合、欠陥生成プロセスの最適化に限定的な注意が払われている。 ここでは, 純度が異なるhBN試料に供給される線量を変化させ, 電子照射の効果を系統的に検討し, 測定感度の最適値を求める。 適度な電子線照射量(\approx 5\times 10^{18}$~cm$^{-2}$)が最高の感度を与え、初期結晶の純度への依存性も観察できる。 これらの結果は、スケーラブルで費用対効果の高いhBN量子センサの製作の道を開くとともに、$V_{\rm B}^-$スピン特性を制限するメカニズムについての洞察を与える。

Boron vacancy centre ($V_{\rm B}^-$) ensembles in hexagonal boron nitride (hBN) have attracted recent interest for their potential as two-dimensional solid-state quantum sensors. Irradiation is necessary for $V_{\rm B}^-$ creation, however, to date only limited attention has been given to optimising the defect production process, especially in the case of bulk irradiation with high-energy particles, which offers scalability through the potential for creating ensembles in large volumes of material. Here we systematically investigate the effect of electron irradiation by varying the dose delivered to a range of hBN samples, which differ in their purity, and search for an optimum in measurement sensitivity. We find that moderate electron irradiation doses ($\approx 5\times 10^{18}$~cm$^{-2}$) appear to offer the best sensitivity, and also observe a dependence on the initial crystal purity. These results pave the way for the scalable and cost-effective production of hBN quantum sensors, and provide insight into the mechanisms limiting $V_{\rm B}^-$ spin properties.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# ソースコード脆弱性検出:コード言語モデルとコードプロパティグラフを組み合わせる

Source Code Vulnerability Detection: Combining Code Language Models and Code Property Graphs ( http://arxiv.org/abs/2404.14719v1 )

ライセンス: Link先を確認
Ruitong Liu, Yanbin Wang, Haitao Xu, Bin Liu, Jianguo Sun, Zhenhao Guo, Wenrui Ma, (参考訳) 現在、ディープラーニングはコードシーケンスやプロパティグラフから学ぶことによって、コードの脆弱性検出に成功している。 しかし、シーケンスベースのメソッドは、構文、制御フロー、データ依存といった重要なコード属性を見落としてしまうことが多いが、グラフベースのアプローチは、コードの意味を過小評価し、長距離のコンテキスト情報をキャプチャする上での課題に直面している。 このギャップに対処するため,プリトレーニング済みの言語モデルとコード脆弱性検出のためのコードプロパティグラフを組み合わせた統一モデルであるVul-LMGNNを提案する。 Vul-LMGNNは、様々なコード属性(シンタックス、フロー制御、データ依存を含む)を統一されたグラフ構造に統合するコードプロパティグラフを構築し、その後、トレーニング済みのコードモデルを活用して、コードプロパティグラフにノード埋め込みとしてローカルなセマンティック機能を抽出する。 さらに,様々な属性間の依存性情報を効果的に保持するために,ゲートコードグラフニューラルネットワーク(GNN)を導入する。 Vul-LMGNNでコード言語モデルとゲートコードGNNモジュールを共同でトレーニングすることにより,提案手法は両方のメカニズムの強みを効果的に活用する。 最後に,Vul-LMGNN と CodeBERT の線形補間学習から得られた最終検出結果を用いて,事前学習した CodeBERT を補助分類器として利用する。 提案手法は4つの現実世界の脆弱性データセットで評価され、6つの最先端アプローチと比較して優れた性能を示した。 私たちのソースコードは、https://github.com/Vul-LMGNN/vul-LMGNN.com.comからアクセスできます。

Currently, deep learning successfully applies to code vulnerability detection by learning from code sequences or property graphs. However, sequence-based methods often overlook essential code attributes such as syntax, control flow, and data dependencies, whereas graph-based approaches might underestimate the semantics of code and face challenges in capturing long-distance contextual information. To address this gap, we propose Vul-LMGNN, a unified model that combines pre-trained code language models with code property graphs for code vulnerability detection. Vul-LMGNN constructs a code property graph that integrates various code attributes (including syntax, flow control, and data dependencies) into a unified graph structure, thereafter leveraging pre-trained code model to extract local semantic features as node embeddings in the code property graph. Furthermore, to effectively retain dependency information among various attributes, we introduce a gated code Graph Neural Network (GNN). By jointly training the code language model and the gated code GNN modules in Vul-LMGNN, our proposed method efficiently leverages the strengths of both mechanisms. Finally, we utilize a pre-trained CodeBERT as an auxiliary classifier, with the final detection results derived by learning the linear interpolation of Vul-LMGNN and CodeBERT. The proposed method, evaluated across four real-world vulnerability datasets, demonstrated superior performance compared to six state-of-the-art approaches. Our source code could be accessed via the link: https://github.com/Vul-LMGNN/vul-LMGGNN.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# 規則にグラディエントを組み込む:軽量で適応的確率に基づく侵入検知を目指して

Incorporating Gradients to Rules: Towards Lightweight, Adaptive Provenance-based Intrusion Detection ( http://arxiv.org/abs/2404.14720v1 )

ライセンス: Link先を確認
Lingzhi Wang, Xiangmin Shen, Weijian Li, Zhenyuan Li, R. Sekar, Han Liu, Yan Chen, (参考訳) サイバー攻撃が益々洗練され、ステルス化するにつれ、通常の行動から侵入を検出することはより衝動的で困難になる。 微粒な因果関係の分析を通じて、証明に基づく侵入検知システム(PIDS)は、良質な行動と悪意のある行動とを区別する有望な能力を示し、産業と学界の両方から広く注目を集めた。 様々なアプローチの中で、ルールベースのPIDSは、軽量なオーバーヘッド、リアルタイム機能、説明可能性のために際立っている。 しかし、既存のルールベースのシステムは、特にきめ細かいルールや環境固有の構成が欠如しているため、検出精度が低い。 本稿では,多様な環境に適応可能なルールベースのPIDSであるCAPTAINを提案する。 具体的には,ノード,エッジ,アラーム生成しきい値に対する検出設定を調整するための3つの適応パラメータを提案する。 識別可能なタグ伝搬フレームワークを構築し、勾配降下アルゴリズムを用いてこれらの適応パラメータをトレーニングデータに基づいて最適化する。 DARPAエンゲージメントとシミュレーション環境のデータをもとに,本システムの評価を行った。 その結果,CAPTAINはSOTA PIDSと比較して検出精度の向上,検出遅延の低減,ランタイムオーバーヘッドの低減,解釈可能な検出アラームと知識の向上を実現している。

As cyber-attacks become increasingly sophisticated and stealthy, it becomes more imperative and challenging to detect intrusion from normal behaviors. Through fine-grained causality analysis, provenance-based intrusion detection systems (PIDS) demonstrated a promising capacity to distinguish benign and malicious behaviors, attracting widespread attention from both industry and academia. Among diverse approaches, rule-based PIDS stands out due to its lightweight overhead, real-time capabilities, and explainability. However, existing rule-based systems suffer low detection accuracy, especially the high false alarms, due to the lack of fine-grained rules and environment-specific configurations. In this paper, we propose CAPTAIN, a rule-based PIDS capable of automatically adapting to diverse environments. Specifically, we propose three adaptive parameters to adjust the detection configuration with respect to nodes, edges, and alarm generation thresholds. We build a differentiable tag propagation framework and utilize the gradient descent algorithm to optimize these adaptive parameters based on the training data. We evaluate our system based on data from DARPA Engagement and simulated environments. The evaluation results demonstrate that CAPTAIN offers better detection accuracy, less detection latency, lower runtime overhead, and more interpretable detection alarms and knowledge compared to the SOTA PIDS.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# タスク不均衡型連続学習のための動的アンコレッド・プロンプト

Dynamically Anchored Prompting for Task-Imbalanced Continual Learning ( http://arxiv.org/abs/2404.14721v1 )

ライセンス: Link先を確認
Chenxing Hong, Yan Jin, Zhiqi Kang, Yizhou Chen, Mengke Li, Yang Lu, Hanzi Wang, (参考訳) 既存の継続的な学習文献は、タスクがバランスの取れたデータストリームに現れるという強い仮定に大きく依存している。 本研究では,タスクデータの分散が学習プロセス全体にわたって一様でないタスク不均衡連続学習(TICL)シナリオについて検討する。 不安定なタスクは、最近のプロンプトベース連続学習法の観点から、安定性と可塑性のトレードオフを制御するモデルの能力に大きく挑戦している。 そこで本研究では,タスクストリーム内のシフトに動的に適応するための1つの一般的なプロンプトのみを保持するプロンプトベースの手法であるDynamically Anchored Prompting (DAP)を提案する。 この一般的なプロンプトは、TICLの安定性と可塑性のバランスをとるために、ブースティングアンカーと安定化アンカーと呼ばれる2つの特別に設計されたプロンプトアンカーで、プロンプト空間で規則化されている。 注目すべきなのは、DAPはデータストリームにプロンプトを格納するだけでこのバランスを達成しているため、リハーサルのないCLでは大きなメリットがあるということだ。 広範囲な実験により、提案されたDAPは、タスク不均衡な設定下でのベンチマークにおける最先端の手法に対して4.5%から15%の絶対的な改善をもたらすことが示された。 私たちのコードはhttps://github.com/chenxing6666/DAPで利用可能です。

Existing continual learning literature relies heavily on a strong assumption that tasks arrive with a balanced data stream, which is often unrealistic in real-world applications. In this work, we explore task-imbalanced continual learning (TICL) scenarios where the distribution of task data is non-uniform across the whole learning process. We find that imbalanced tasks significantly challenge the capability of models to control the trade-off between stability and plasticity from the perspective of recent prompt-based continual learning methods. On top of the above finding, we propose Dynamically Anchored Prompting (DAP), a prompt-based method that only maintains a single general prompt to adapt to the shifts within a task stream dynamically. This general prompt is regularized in the prompt space with two specifically designed prompt anchors, called boosting anchor and stabilizing anchor, to balance stability and plasticity in TICL. Remarkably, DAP achieves this balance by only storing a prompt across the data stream, therefore offering a substantial advantage in rehearsal-free CL. Extensive experiments demonstrate that the proposed DAP results in 4.5% to 15% absolute improvements over state-of-the-art methods on benchmarks under task-imbalanced settings. Our code is available at https://github.com/chenxing6666/DAP
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# 調整への視点:DPOとその複数のタスクにおける変数の評価

Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks ( http://arxiv.org/abs/2404.14723v1 )

ライセンス: Link先を確認
Amir Saeidi, Shivanshu Verma, Chitta Baral, (参考訳) 大規模言語モデル(LLM)は、タスクの範囲で顕著なパフォーマンスを示している。 近年,人選好に関するポリシーモデルを最適化するためのRLフリーアプローチとして,DPO(Direct Preference Optimization)が登場している。 しかし、いくつかの制限は、この方法の普及を妨げている。 これらの欠点に対処するため、様々なバージョンのDPOが導入されている。 しかし、様々なタスクにまたがるこれらのバリエーションの包括的な評価は、いまだに不足している。 本研究では,(1)監視ファインチューニング(SFT)部を維持すること,(2)SFT部をスキップすること,(3)SFT部をスキップすること,および命令調整モデルを活用すること,の3つのシナリオにまたがってアライメント手法の性能を調査することにより,このギャップを埋めることを目的とする。 さらに、異なるトレーニングサイズがパフォーマンスに与える影響についても検討する。 我々の評価は,対話システム,推論,数学的問題解決,質問応答,真理性,マルチタスク理解などのタスクに及び,MT-Bench,Big Bench,Open LLM Leaderboardなどの13のベンチマークを含む。 重要な観察では、アライメント手法は、より小さなトレーニングデータサブセットで最適なパフォーマンスを達成し、推論タスクにおいて限られた効果を示すが、数学的問題解決には著しく影響し、特に真理性に影響を及ぼす命令付きモデルを用いることが示されている。 我々は、アライメントの課題に対処するために、より堅牢なモデルを開発することを目的としたさらなる研究を促進することを期待する。

Large Language Models (LLMs) have demonstrated remarkable performance across a spectrum of tasks. Recently, Direct Preference Optimization (DPO) has emerged as an RL-free approach to optimize the policy model on human preferences. However, several limitations hinder the widespread adoption of this method. To address these shortcomings, various versions of DPO have been introduced. Yet, a comprehensive evaluation of these variants across diverse tasks is still lacking. In this study, we aim to bridge this gap by investigating the performance of alignment methods across three distinct scenarios: (1) keeping the Supervised Fine-Tuning (SFT) part, (2) skipping the SFT part, and (3) skipping the SFT part and utilizing an instruction-tuned model. Furthermore, we explore the impact of different training sizes on their performance. Our evaluation spans a range of tasks including dialogue systems, reasoning, mathematical problem-solving, question answering, truthfulness, and multi-task understanding, encompassing 13 benchmarks such as MT-Bench, Big Bench, and Open LLM Leaderboard. Key observations reveal that alignment methods achieve optimal performance with smaller training data subsets, exhibit limited effectiveness in reasoning tasks yet significantly impact mathematical problem-solving, and employing an instruction-tuned model notably influences truthfulness. We anticipate that our findings will catalyze further research aimed at developing more robust models to address alignment challenges.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# 有向グラフにおけるパワーパーティションに従う純肌効果

Pure skin effect obeying power partition in directed graphs ( http://arxiv.org/abs/2404.14727v1 )

ライセンス: Link先を確認
Wenwen Liu, Oubo You, Bumki Min, Shuang Zhang, (参考訳) 非エルミート物理学は近年大きな注目を集めている。 特に、非エルミート系のバンド構造は様々な位相効果を示すために設計することができる。 その中でも最も興味深い現象は非エルミート皮膚効果(NHSE)である。 本稿では,矢印が隣接ノード間の非相互ホッピングの方向を表すような,有向連鎖や有向グラフを特徴とするシステムにおけるNHSEについて検討する。 本研究では,従来研究されていたNHSEとは対照的に,非振動波機能を有する純粋な皮膚モードを示すことを示す。 興味深いことに、各スキンモードの異なる方向に沿った減衰定数の和は、パワーパーティション則に従い、すなわち、それらの和は固定値であり、各定数の値は非相互ホッピングパラメータの比にのみ依存し、詳細なグラフ構成に依存している。 このような純粋な皮膚効果(PSE)は、一般化されたブリルアンゾーンを複数のバルク状態で解く一般化法を用いて説明できる。

Non-Hermitian physics has received great attention recently. In particular, band structures in non-Hermitian systems can be engineered to exhibit various topological effects. Among them, one of the most intriguing phenomena is the non-Hermitian skin effect (NHSE). Here, we investigate NHSE in systems featuring directed chains or directed graphs, where the arrows denote the directions of the non-reciprocal hopping between neighbouring nodes. We show that the systems exhibit pure skin modes with non-oscillatory wavefunctions, in contrast to previously studied NHSE. Interestingly, the sum of the decay constants along different directions for each skin mode obeys a power partition rule, i.e. their sum is a fixed value and the value of each constant only depends on the ratio between the non-reciprocal hopping parameters and is independent of detailed graph configurations. Such Pure Skin Effect (PSE) can be explained by using a generalized method for solving the Generalized Brillouin-zone with multiple bulk states.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# スマートマニュファクチャリングにおけるストリーム・オブ・クオリティ・モデリングのための新しいトポロジ的機械学習手法

Novel Topological Machine Learning Methodology for Stream-of-Quality Modeling in Smart Manufacturing ( http://arxiv.org/abs/2404.14728v1 )

ライセンス: Link先を確認
Jay Lee, Dai-Yan Ji, Yuan-Ming Hsu, (参考訳) 本稿では、スマート製造におけるストリーム・オブ・クオリティ評価のための5レベルサイバー物理システム(CPS)アーキテクチャにおけるトポロジ的分析手法を提案する。 提案手法は, リアルタイム品質モニタリングと予測分析を可能にするだけでなく, 製造プロセス間の品質特徴とプロセスパラメータの隠れた関係も発見する。 製品品質の維持と製品品質の変動に適応する手法が提案される可能性を示すために, 添加性製造におけるケーススタディを用いた。 本稿では,ストリーム・オブ・クオリティ・アセスメント(Stream-of-Qualityアセスメント)を用いて,新しい代表データのリアルタイム識別にトポロジカルグラフの可視化を効果的に活用する方法を示す。

This paper presents a topological analytics approach within the 5-level Cyber-Physical Systems (CPS) architecture for the Stream-of-Quality assessment in smart manufacturing. The proposed methodology not only enables real-time quality monitoring and predictive analytics but also discovers the hidden relationships between quality features and process parameters across different manufacturing processes. A case study in additive manufacturing was used to demonstrate the feasibility of the proposed methodology to maintain high product quality and adapt to product quality variations. This paper demonstrates how topological graph visualization can be effectively used for the real-time identification of new representative data through the Stream-of-Quality assessment.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# 量子鍵分布のアドバンテージ蒸留

Advantage Distillation for Quantum Key Distribution ( http://arxiv.org/abs/2404.14733v1 )

ライセンス: Link先を確認
Zhenyu Du, Guoding Liu, Xiongfeng Ma, (参考訳) 量子鍵分布の性能向上は重要であり、キーレートと許容誤差率を高めるために、様々なキー蒸留技術の探索を推進している。 既存のメソッドをカプセル化し、拡張するための包括的なフレームワークを開発することが不可欠である。 本研究では,量子鍵分布に対する有効蒸留フレームワークを提案する。 提案手法は, 従来の主要な蒸留手法を全て統合し, 一般化と性能の向上を図っている。 古典的な線形符号を用いることで、特に後処理のワンタイムパッド暗号を使わずに、高い鍵レートを達成することができる。 提案手法は,既存のプロトコルに対する洞察を提供し,量子鍵分布プロトコルの今後の拡張のための体系的な方法を提供する。

Enhancing the performance of quantum key distribution is crucial, driving the exploration of various key distillation techniques to increase the key rate and tolerable error rate. It is imperative to develop a comprehensive framework to encapsulate and enhance the existing methods. In this work, we propose an advantage distillation framework for quantum key distribution. Building on the entanglement distillation protocol, our framework integrates all the existing key distillation methods and offers better generalization and performance. Using classical linear codes, our framework can achieve higher key rates, particularly without one-time pad encryption for postprocessing. Our approach provides insights into existing protocols and offers a systematic way for future enhancements of quantum key distribution protocols.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# 音声UXに対する質的アプローチ

Qualitative Approaches to Voice UX ( http://arxiv.org/abs/2404.14736v1 )

ライセンス: Link先を確認
Katie Seaborn, Jacqueline Urakami, Peter Pennefather, Norihisa P. Miyake, (参考訳) 音声は、現代のコンピュータベースのシステムによって提供される自然な表現である。 音声ベースのユーザエクスペリエンス(ボイスUX)に関する質的な視点は、数値だけでは表現できない複雑なインタラクションの豊富な記述を提供する。 我々は,音声UXに対する質的アプローチに関する文献の体系的レビューを行い,その身体の性質を体系的な地図で捉え,結果の質的合成を行った。 音声UX研究における定性的な方法の利点を強調し,方法や成果における厳密さを増大させる機会を特定し,装置の多様性と定性的な実践の様式にまたがる経験パターンを蒸留する。

Voice is a natural mode of expression offered by modern computer-based systems. Qualitative perspectives on voice-based user experiences (voice UX) offer rich descriptions of complex interactions that numbers alone cannot fully represent. We conducted a systematic review of the literature on qualitative approaches to voice UX, capturing the nature of this body of work in a systematic map and offering a qualitative synthesis of findings. We highlight the benefits of qualitative methods for voice UX research, identify opportunities for increasing rigour in methods and outcomes, and distill patterns of experience across a diversity of devices and modes of qualitative praxis.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# BMapOpt:微分MRIシミュレータを用いた脳組織確率マップの最適化

BMapOpt: Optimization of Brain Tissue Probability Maps using a Differentiable MRI Simulator ( http://arxiv.org/abs/2404.14739v1 )

ライセンス: Link先を確認
Utkarsh Gupta, Emmanouil Nikolakakis, Moritz Zaiss, Razvan Marinescu, (参考訳) 個々の被験者に対する多チャンネル脳組織確率マップの形でデジタル脳ファントムを再構成することは、脳の解剖学的変動を捉え、神経疾患を理解し、画像処理方法をテストするのに不可欠である。 脳組織確率マップ(Gray Matter - GM, White Matter - WM, Cerebrospinal fluid - CSF)を最適化する最初のフレームワークを、物理ベースの微分MRIシミュレータを用いてデモした。 評価されたT_1$/$T_2$-weighted MRIスキャン,それに対応する臨床MRIシーケンス,MRIの微分可能シミュレータを用いて,シミュレータの出力とT_1$/$T_2$-weightedスキャンとの間のL2損失をバックプロパゲートすることにより,シミュレータの入力確率マップを最適化する。 このアプローチには、トレーニングデータに頼らず、MRIシミュレータの強い誘導バイアスを使用するという大きな利点がある。 我々は、BrainWebデータベースから20のスキャンでモデルを検証し、GM、WM、CSFの高精度な再構築を実証した。

Reconstructing digital brain phantoms in the form of multi-channeled brain tissue probability maps for individual subjects is essential for capturing brain anatomical variability, understanding neurological diseases, as well as for testing image processing methods. We demonstrate the first framework that optimizes brain tissue probability maps (Gray Matter - GM, White Matter - WM, and Cerebrospinal fluid - CSF) with the help of a Physics-based differentiable MRI simulator that models the magnetization signal at each voxel in the image. Given an observed $T_1$/$T_2$-weighted MRI scan, the corresponding clinical MRI sequence, and the MRI differentiable simulator, we optimize the simulator's input probability maps by back-propagating the L2 loss between the simulator's output and the $T_1$/$T_2$-weighted scan. This approach has the significant advantage of not relying on any training data, and instead uses the strong inductive bias of the MRI simulator. We tested the model on 20 scans from the BrainWeb database and demonstrate a highly accurate reconstruction of GM, WM, and CSF.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# 聖典をモデル化する:自然言語処理における宗教テキストの利用における考察

Modeling the Sacred: Considerations when Using Considerations when Using Religious Texts in Natural Language Processing ( http://arxiv.org/abs/2404.14740v1 )

ライセンス: Link先を確認
Ben Hutchinson, (参考訳) 本論文は,NLPの倫理に特に関心を持つ自然言語処理(NLP)における宗教テキストの使用について述べる。 宗教テキストは文化的に重要な価値の表現であり、機械学習モデルは、彼らのトレーニングデータにエンコードされた文化的価値を再現する確率を持っている。 さらに、宗教テキストの翻訳は、言語データが不足している場合、NLP研究者によって頻繁に使用される。 これは、しばしば新しいフォロワーを惹きつけることを伴う、彼らの本来の使用と動機から翻訳を再利用する。 本稿は、NLPがそのようなテキストを使うことは、データ証明、文化的文脈、およびそれらの散文論における使用など、モデル偏見を超えた考察を提起するものである、と論じる。 我々は、研究者の立場や、疎外された言語的・宗教的なコミュニティの視点について、さらなる考察を議論する。

This position paper concerns the use of religious texts in Natural Language Processing (NLP), which is of special interest to the Ethics of NLP. Religious texts are expressions of culturally important values, and machine learned models have a propensity to reproduce cultural values encoded in their training data. Furthermore, translations of religious texts are frequently used by NLP researchers when language data is scarce. This repurposes the translations from their original uses and motivations, which often involve attracting new followers. This paper argues that NLP's use of such texts raises considerations that go beyond model biases, including data provenance, cultural contexts, and their use in proselytism. We argue for more consideration of researcher positionality, and of the perspectives of marginalized linguistic and religious communities.
翻訳日:2024-04-24 15:20:15 公開日:2024-04-23
# グラフ生成:LLMをエージェントとKGの両方として扱う不完全な知識グラフ質問応答

Generate-on-Graph: Treat LLM as both Agent and KG in Incomplete Knowledge Graph Question Answering ( http://arxiv.org/abs/2404.14741v1 )

ライセンス: Link先を確認
Yao Xu, Shizhu He, Jiabei Chen, Zihao Wang, Yangqiu Song, Hanghang Tong, Kang Liu, Jun Zhao, (参考訳) 言語モデル(LLM)における知識不足や幻覚の発生傾向に対処するため,LLMと知識グラフ(KG)の統合に多くの研究が取り組んできた。 しかし,これらの手法はすべて,従来の知識グラフ質問回答(KGQA)と完全KGを用いて評価されている。 このような状況下では、LLMは内部知識ソースと外部知識ソースを効果的に統合するのではなく、KGを探索することで回答エンティティを見つけるエージェントとして機能する。 しかし、現実世界のシナリオでは、KGは質問に答えるために必要な知識をすべて網羅するために不完全であることが多い。 実世界のシナリオをシミュレートし,LLMが内部知識と外部知識を統合する能力を評価するために,本論文では,与えられたKGが各質問に関係するすべての事実トリプルを含まない不完全知識グラフ(IKGQA)の下で,LLMをQAに活用することを提案する。 IKGQA を扱うために,KG を探索しながら,新たな実写トリプルを生成できるGenerate-on-Graph (GoG) と呼ばれる学習自由な手法を提案する。 具体的には、LLMをKGを探索するエージェントとして扱うだけでなく、KGとして扱うことにより、探索されたサブグラフとその固有の知識に基づいて、新たな事実を生成する。 2つのデータセットの実験結果は、GoGがIKGQAをある程度解けることを示した。

To address the issue of insufficient knowledge and the tendency to generate hallucination in Large Language Models (LLMs), numerous studies have endeavored to integrate LLMs with Knowledge Graphs (KGs). However, all these methods are evaluated on conventional Knowledge Graph Question Answering (KGQA) with complete KGs, where the factual triples involved in each question are entirely covered by the given KG. In this situation, LLM mainly acts as an agent to find answer entities by exploring the KG, rather than effectively integrating internal and external knowledge sources. However, in real-world scenarios, KGs are often incomplete to cover all the knowledge required to answer questions. To simulate real-world scenarios and evaluate the ability of LLMs to integrate internal and external knowledge, in this paper, we propose leveraging LLMs for QA under Incomplete Knowledge Graph (IKGQA), where the given KG doesn't include all the factual triples involved in each question. To handle IKGQA, we propose a training-free method called Generate-on-Graph (GoG) that can generate new factual triples while exploring on KGs. Specifically, we propose a selecting-generating-answering framework, which not only treat the LLM as an agent to explore on KGs, but also treat it as a KG to generate new facts based on the explored subgraph and its inherent knowledge. Experimental results on two datasets demonstrate that our GoG can solve IKGQA to a certain extent, while almost all previous methods cannot perform well on IKGQA.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 拡散モデルのためのグラディエントガイダンス:最適化の視点から

Gradient Guidance for Diffusion Models: An Optimization Perspective ( http://arxiv.org/abs/2404.14743v1 )

ライセンス: Link先を確認
Yingqing Guo, Hui Yuan, Yukang Yang, Minshuo Chen, Mengdi Wang, (参考訳) 拡散モデルは様々なアプリケーションで経験的な成功を示しており、ガイダンスを通じてタスク固有のニーズに適応することができる。 本稿では,ユーザが指定した最適化目標に対する拡散モデルを適応あるいは微調整するための勾配ガイダンスの形式を紹介する。 本研究では、勾配誘導拡散モデルと1次最適化をリンクしたスコアベースサンプリングプロセスの理論的側面について検討する。 事前学習した拡散モデルのサンプリングプロセスに勾配ガイダンスを加えることは、基本的には正規化最適化問題の解法と等価であり、正規化項は事前学習データによって決定された事前処理として機能することを示す。 拡散モデルはデータの潜在部分空間を学習できるが、サンプルプロセスに外部目的関数の勾配を明示的に加えると、生成されたサンプルの構造が損なわれる。 この問題を解決するために,前向きの予測損失に基づく修正型勾配誘導について検討し,事前学習したスコア関数を用いて,生成したサンプルの潜伏構造を保存する。 さらに,新たに生成されたデータポイントの勾配を問合せし,新たなサンプルを用いてスコアネットワークを更新する,勾配誘導拡散の反復的微調整版について考察する。 このプロセスは、O(1/K)収束率を、目的関数が凹凸であるときに大域最適に証明した期待の1次最適化反復を模倣する。

Diffusion models have demonstrated empirical successes in various applications and can be adapted to task-specific needs via guidance. This paper introduces a form of gradient guidance for adapting or fine-tuning diffusion models towards user-specified optimization objectives. We study the theoretic aspects of a guided score-based sampling process, linking the gradient-guided diffusion model to first-order optimization. We show that adding gradient guidance to the sampling process of a pre-trained diffusion model is essentially equivalent to solving a regularized optimization problem, where the regularization term acts as a prior determined by the pre-training data. Diffusion models are able to learn data's latent subspace, however, explicitly adding the gradient of an external objective function to the sample process would jeopardize the structure in generated samples. To remedy this issue, we consider a modified form of gradient guidance based on a forward prediction loss, which leverages the pre-trained score function to preserve the latent structure in generated samples. We further consider an iteratively fine-tuned version of gradient-guided diffusion where one can query gradients at newly generated data points and update the score network using new samples. This process mimics a first-order optimization iteration in expectation, for which we proved O(1/K) convergence rate to the global optimum when the objective function is concave.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# TAAT: Text2Motionにおける任意テキストの考え方と行為

TAAT: Think and Act from Arbitrary Texts in Text2Motion ( http://arxiv.org/abs/2404.14745v1 )

ライセンス: Link先を確認
Runqi Wang, Caoyuan Ma, GuoPeng Li, Zheng Wang, (参考訳) Text2Motionはテキストから人間の動きを生成することを目的としている。 既存のデータセットは、テキストにアクションラベル(例えば「ウォーク、ベンド、ピックアップ」など)が含まれているという前提に依存しており、現実的なシナリオでは柔軟性がない。 本稿では、テキストが任意のものであるというより現実的な仮定で、この問題を再定義する。 具体的には、アクションラベルからなる既存のアクションテキスト(例えば、人が何かを拾うために歩いたり曲げたり)、明示的なアクションラベルのないシーンテキスト(例えば、前方で財布に気づきます)を含む。 この現実的な設定と既存のデータセットのギャップを埋めるため、HumanML3Dデータセットのアクションテキストをより多くのシーンテキストに拡張し、任意のテキストを含む新しいHumanML3D++データセットを作成します。 この挑戦的なデータセットでは、既存の最先端手法をベンチマークし、任意のテキストからLarge Language Model (LLM) を用いてアクションラベルを抽出し、アクションラベルから動作を生成する新しい2段階のフレームワークを提案する。 既存のデータセットと提案されたデータセットに対するフレームワークの有効性を検証するため、さまざまなアプリケーションシナリオの下で大規模な実験が実施されている。 その結果、この現実的な環境でのText2Motionは非常に難しいことが示され、この実践的な方向への新しい研究が育まれている。 データセットとコードはリリースされます。

Text2Motion aims to generate human motions from texts. Existing datasets rely on the assumption that texts include action labels (such as "walk, bend, and pick up"), which is not flexible for practical scenarios. This paper redefines this problem with a more realistic assumption that the texts are arbitrary. Specifically, arbitrary texts include existing action texts composed of action labels (e.g., A person walks and bends to pick up something), and introduce scene texts without explicit action labels (e.g., A person notices his wallet on the ground ahead). To bridge the gaps between this realistic setting and existing datasets, we expand the action texts on the HumanML3D dataset to more scene texts, thereby creating a new HumanML3D++ dataset including arbitrary texts. In this challenging dataset, we benchmark existing state-of-the-art methods and propose a novel two-stage framework to extract action labels from arbitrary texts by the Large Language Model (LLM) and then generate motions from action labels. Extensive experiments are conducted under different application scenarios to validate the effectiveness of the proposed framework on existing and proposed datasets. The results indicate that Text2Motion in this realistic setting is very challenging, fostering new research in this practical direction. Our dataset and code will be released.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 機械学習モデル研究と評価の強化のための顧客レベルのフラデュレントアクティビティ検出ベンチマーク

A Customer Level Fraudulent Activity Detection Benchmark for Enhancing Machine Learning Model Research and Evaluation ( http://arxiv.org/abs/2404.14746v1 )

ライセンス: Link先を確認
Phoebe Jing, Yijing Gao, Xianlong Zeng, (参考訳) 不正検出の分野では、機械学習の研究を進め、効果的なアンチ詐欺システムを開発するために、包括的でプライバシに準拠したデータセットが利用できることが不可欠である。 従来のデータセットは、トランザクションレベルの情報に重点を置いていることが多い。 こうしたデータの不足は、主にプライバシー上の懸念によるものであり、顧客レベルで効果的に動作可能な予測モデルの開発とテストを大きく妨げている。 このギャップに対処するため,顧客レベルの不正検出に特化した構造化データセットを含むベンチマークを導入した。 このベンチマークは、ユーザの機密性を確保するために厳格なプライバシーガイドラインに準拠しているだけでなく、顧客中心の機能をカプセル化することによって、豊富な情報ソースを提供する。 我々は、さまざまな機械学習モデルの総合的な評価を可能にするベンチマークを開発し、不正行為を予測する際のその強みと弱点をより深く理解することを可能にした。 この研究を通じて、我々は、データ可用性の既存のギャップを埋め、研究者や実践者が次世代の不正検出技術を開発するための貴重なリソースを提供しようとしている。

In the field of fraud detection, the availability of comprehensive and privacy-compliant datasets is crucial for advancing machine learning research and developing effective anti-fraud systems. Traditional datasets often focus on transaction-level information, which, while useful, overlooks the broader context of customer behavior patterns that are essential for detecting sophisticated fraud schemes. The scarcity of such data, primarily due to privacy concerns, significantly hampers the development and testing of predictive models that can operate effectively at the customer level. Addressing this gap, our study introduces a benchmark that contains structured datasets specifically designed for customer-level fraud detection. The benchmark not only adheres to strict privacy guidelines to ensure user confidentiality but also provides a rich source of information by encapsulating customer-centric features. We have developed the benchmark that allows for the comprehensive evaluation of various machine learning models, facilitating a deeper understanding of their strengths and weaknesses in predicting fraudulent activities. Through this work, we seek to bridge the existing gap in data availability, offering researchers and practitioners a valuable resource that empowers the development of next-generation fraud detection techniques.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 鮮明な画像からCT運動補償を学習する「スコアベース」の相違

Differentiable Score-Based Likelihoods: Learning CT Motion Compensation From Clean Images ( http://arxiv.org/abs/2404.14747v1 )

ライセンス: Link先を確認
Mareike Thies, Noah Maul, Siyuan Mei, Laura Pfaff, Nastassia Vysotskaya, Mingxuan Gu, Jonas Utz, Dennis Possart, Lukas Folle, Fabian Wagner, Andreas Maier, (参考訳) 運動アーティファクトはCT画像の診断値を損なう可能性がある。 運動補正アプローチでは、患者固有の運動パターンをスキャン単位で推定する必要がある。 本研究では,頭部CT画像のクリーン化のための確率密度推定器として機能するスコアベースモデルを訓練する。 トレーニングされたモデルから,任意の動きの影響のあるCT画像の偏差を,確率計算による理想的な分布から定量化する。 本研究は,CT画像における運動アーチファクトの重症度を補助する指標として,反復的,勾配に基づく動き補償アルゴリズムの適用を容易にすることを実証する。 本手法は,動作パラメータを最大化するために最適化することにより,画像が動きのないスキャンの分布に近づくことにより,効果的に動きアーチファクトを低減する。 提案手法は,動作影響サンプルの代表的なデータセットを不要にしつつ,最先端手法に匹敵する性能を実現する。 これは、患者の動きパターンが予期せぬ変動を示し、回復可能な動作タイプに関する暗黙の仮定なしで堅牢性を確保する現実世界の応用において特に有利である。

Motion artifacts can compromise the diagnostic value of computed tomography (CT) images. Motion correction approaches require a per-scan estimation of patient-specific motion patterns. In this work, we train a score-based model to act as a probability density estimator for clean head CT images. Given the trained model, we quantify the deviation of a given motion-affected CT image from the ideal distribution through likelihood computation. We demonstrate that the likelihood can be utilized as a surrogate metric for motion artifact severity in the CT image facilitating the application of an iterative, gradient-based motion compensation algorithm. By optimizing the underlying motion parameters to maximize likelihood, our method effectively reduces motion artifacts, bringing the image closer to the distribution of motion-free scans. Our approach achieves comparable performance to state-of-the-art methods while eliminating the need for a representative data set of motion-affected samples. This is particularly advantageous in real-world applications, where patient motion patterns may exhibit unforeseen variability, ensuring robustness without implicit assumptions about recoverable motion types.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# セマンティックセル:アイテムの多様性を解明する進化過程

Semantic Cells: Evolutional Process to Acquire Sense Diversity of Items ( http://arxiv.org/abs/2404.14749v1 )

ライセンス: Link先を確認
Yukio Ohsawa, Dingding Xu, Kaira Sekiguchi, (参考訳) 単語、文、ノード、グラフなどのアイテムとそのグループのセマンティックベクターを学習するための従来のモデルは、アイテムがターゲットの隠れたコンテキストに対応する次元からなる1つのベクトルに対応するという仮定に基づいていた。 アイテムの複数の感覚は、アイテムが現れる可能性のある各ドメインにベクトルを割り当てたり、コンテキストをアイテムの感覚に反映することで表現される。 しかし、コンテキストシフトや新しいコンテキストの出現に従って、動的に変化または進化するアイテムに対する複数の異なる感覚があるかもしれない。 著者らは、センスメイキングのための項目の曖昧さの範囲を設定し、データ中の単語や項目が、相互に交差する染色体を包含する細胞と同様、相互の相互作用を通じて進化する複数の意味ベクトルを包含する手法を提案する。 筆者らは,(1)最大又は低中規模でのセマンティックベクターの分散を得るために進化する単語の役割を,著者らによって説明できる傾向にあること,(2)クロスオーバーによる大きな分散を得る地震の震源は,多種多様な地殻との相互作用に対応し,今後の大地震の震源に対応する可能性が高いこと,の2つの予備的な結果を得た。

Previous models for learning the semantic vectors of items and their groups, such as words, sentences, nodes, and graphs, using distributed representation have been based on the assumption that an item corresponds to one vector composed of dimensions corresponding to hidden contexts in the target. Multiple senses of an item are represented by assigning a vector to each of the domains where the item may appear or reflecting the context to the sense of the item. However, there may be multiple distinct senses of an item that change or evolve dynamically, according to the contextual shift or the emergence of novel contexts even within one domain, similar to a living entity evolving with environmental shifts. Setting the scope of disambiguity of items for sensemaking, the author presents a method in which a word or item in the data embraces multiple semantic vectors that evolve via interaction with others, similar to a cell embracing chromosomes crossing over with each other. We obtained two preliminary results: (1) the role of a word that evolves to acquire the largest or lower-middle variance of semantic vectors tends to be explainable by the author of the text; (2) the epicenters of earthquakes that acquire larger variance via crossover, corresponding to the interaction with diverse areas of land crust, are likely to correspond to the epicenters of forthcoming large earthquakes.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 胸部X線診断のための基礎知識強化医療用VLP

Grounded Knowledge-Enhanced Medical VLP for Chest X-Ray ( http://arxiv.org/abs/2404.14750v1 )

ライセンス: Link先を確認
Qiao Deng, Zhongzhen Huang, Yunqi Wang, Zhichuan Wang, Zhao Wang, Xiaofan Zhang, Qi Dou, Yeung Yu Hui, Edward S. Hui, (参考訳) 医用視覚言語プレトレーニングは、医用画像とテキストのドメイン汎用表現を学習するための有望なアプローチとして現れてきた。 しかし、医用画像とテキストのグローバルなアライメントとローカルなアライメントを利用する現在のアルゴリズムは、医療データの冗長な情報によって損なわれる可能性がある。 そこで本研究では,胸部X線診断のための知識強調型医療ビジョン言語事前訓練(GK-MVLP)フレームワークを提案する。 本枠組みでは, 解剖学的領域の視覚的特徴と医学的知識のテクスチャ的特徴との微妙な整合性を実現するために, トランスフォーマーをベースとした基礎知識強化モジュールを用いて, 適切な解剖学的領域に医療知識を基盤とする。 GK-MVLPの性能は、下流の胸部X線疾患の分類、疾患の局在化、報告生成、および医学的視覚的質問応答タスクにおいて、最先端の課題と競合するか、それ以上である。 以上の結果から,胸部X線像とX線像との整合性を改善するために接地機構を組み込むことの利点が示唆された。

Medical vision-language pre-training has emerged as a promising approach for learning domain-general representations of medical image and text. Current algorithms that exploit the global and local alignment between medical image and text could however be marred by the redundant information in medical data. To address this issue, we propose a grounded knowledge-enhanced medical vision-language pre-training (GK-MVLP) framework for chest X-ray. In this framework, medical knowledge is grounded to the appropriate anatomical regions by using a transformer-based grounded knowledge-enhanced module for fine-grained alignment between anatomical region-level visual features and the textural features of medical knowledge. The performance of GK-MVLP is competitive with or exceeds the state of the art on downstream chest X-ray disease classification, disease localization, report generation, and medical visual question-answering tasks. Our results show the advantage of incorporating grounding mechanism to remove biases and improve the alignment between chest X-ray image and radiology report.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# ベンチマークのスキップ:生成機械学習を用いたシステムレベルハイレベル合成データの生成

Skip the Benchmark: Generating System-Level High-Level Synthesis Data using Generative Machine Learning ( http://arxiv.org/abs/2404.14754v1 )

ライセンス: Link先を確認
Yuchao Liao, Tosiron Adegbija, Roman Lysecky, Ravi Tandon, (参考訳) 高レベル合成(HLS)設計空間探索(DSE)は、HLSプロセス中にパレート最適化および最適ハードウェアソリューションを効率的に探索するための広く受け入れられたアプローチである。 いくつかのHLSベンチマークとデータセットは、研究コミュニティが彼らの方法論を評価するために利用できる。 残念ながら、これらのリソースは限られており、複雑で複数コンポーネントのシステムレベルの探索には不十分である。 既存のHLSベンチマークを使って新しいデータを生成するのは、さまざまなHLS設計とディレクティブのためのデータを効果的に生成するために必要な専門知識と時間を考えると、厄介なことです。 その結果, システムレベルのHLS DSEを評価するために, 先行研究に合成データを用いた。 しかし, 実データに対する合成データの完全性はよく分かっておらず, システムレベルのHLS DSEの品質について不確実性が生じている。 本稿では、生成機械学習を用いて、複雑なシステムレベルのHLS DSE実験をサポートするのに十分な堅牢な合成データを生成する、Vaeganと呼ばれる新しいアプローチを提案する。 本研究では,この課題に対して可変オートエンコーダ(VAE)とGAN(Generative Adversarial Network)を探索し,そのアプローチを最先端のデータセットとメトリクスを用いて評価する。 我々のアプローチを先行研究と比較し、基底真理の分布を忠実に反映した合成HLSデータの有効性を示す。

High-Level Synthesis (HLS) Design Space Exploration (DSE) is a widely accepted approach for efficiently exploring Pareto-optimal and optimal hardware solutions during the HLS process. Several HLS benchmarks and datasets are available for the research community to evaluate their methodologies. Unfortunately, these resources are limited and may not be sufficient for complex, multi-component system-level explorations. Generating new data using existing HLS benchmarks can be cumbersome, given the expertise and time required to effectively generate data for different HLS designs and directives. As a result, synthetic data has been used in prior work to evaluate system-level HLS DSE. However, the fidelity of the synthetic data to real data is often unclear, leading to uncertainty about the quality of system-level HLS DSE. This paper proposes a novel approach, called Vaegan, that employs generative machine learning to generate synthetic data that is robust enough to support complex system-level HLS DSE experiments that would be unattainable with only the currently available data. We explore and adapt a Variational Autoencoder (VAE) and Generative Adversarial Network (GAN) for this task and evaluate our approach using state-of-the-art datasets and metrics. We compare our approach to prior works and show that Vaegan effectively generates synthetic HLS data that closely mirrors the ground truth's distribution.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# SkinGEN:対話型視覚言語モデルを用いた説明可能な皮膚科診断・生成フレームワーク

SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models ( http://arxiv.org/abs/2404.14755v1 )

ライセンス: Link先を確認
Bo Lin, Yingjing Xu, Xuanwen Bao, Zhou Zhao, Zuyong Zhang, Zhouyang Wang, Jie Zhang, Shuiguang Deng, Jianwei Yin, (参考訳) 視覚言語モデル(VLM)技術の継続的な進歩により、皮膚科学分野における顕著な研究成果は、ヒトの病気のカテゴリーで第4位である。 しかしながら、これらの進歩にもかかわらず、VLMはなおも皮膚疾患の診断において「ハロシン化」に直面しており、皮膚疾患の本質的な複雑さのため、既存のツールはユーザ理解を比較的限定的にサポートしている。 本稿では,VLM による診断結果から参照デモを生成するために,SD 法を利用した診断から生成までのフレームワークである SkinGEN を提案する。 ローランド適応 (LoRA) を用いた広範囲な実験により, 皮膚条件画像生成のための最適戦略を同定した。 システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。 その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。 この作業は、皮膚科などにおけるより透明でユーザ中心のVLMアプリケーションへの道を開くものだ。

With the continuous advancement of vision language models (VLMs) technology, remarkable research achievements have emerged in the dermatology field, the fourth most prevalent human disease category. However, despite these advancements, VLM still faces "hallucination" in dermatological diagnosis, and due to the inherent complexity of dermatological conditions, existing tools offer relatively limited support for user comprehension. We propose SkinGEN, a diagnosis-to-generation framework that leverages the stable diffusion (SD) method to generate reference demonstrations from diagnosis results provided by VLM, thereby enhancing the visual explainability for users. Through extensive experiments with Low-Rank Adaptation (LoRA), we identify optimal strategies for skin condition image generation. We conduct a user study with 32 participants evaluating both the system performance and explainability. Results demonstrate that SkinGEN significantly improves users' comprehension of VLM predictions and fosters increased trust in the diagnostic process. This work paves the way for more transparent and user-centric VLM applications in dermatology and beyond.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 長距離時系列予測のためのマンバと変圧器の統合

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting ( http://arxiv.org/abs/2404.14757v1 )

ライセンス: Link先を確認
Xiongxiao Xu, Yueqing Liang, Baixiang Huang, Zhiling Lan, Kai Shu, (参考訳) 時系列予測は重要な問題であり、天気予報、株式市場、科学シミュレーションなど様々な応用において重要な役割を果たしている。 変換器は依存性を捉えるのに有効であることが証明されているが、注意機構の二次的な複雑さは、長距離時系列予測におけるさらなる採用を妨げ、短距離範囲への参加を制限する。 状態空間モデル(SSM)の最近の進歩は、そのサブクワッドラティックな複雑さによる長距離依存性のモデリングにおいて顕著な性能を示している。 Mambaは、SSMの代表として、線形時間の複雑さを享受し、言語、オーディオ、ゲノミクスといった長いシーケンスへのスケーリングを必要とするタスクにおいて、強力なスケーラビリティを実現している。 本稿では,長距離依存にMambaを内部的に組み合わせたハイブリッドフレームワークMambaformerと短距離依存にTransformerを,短距離予測に利用することを提案する。 私たちの知る限りでは、この論文は、時系列データにMambaとTransformerアーキテクチャを組み合わせた最初の論文です。 長距離時系列予測において,マンバ層とアテンション層を組み合わせたハイブリッドアーキテクチャを提案する。 比較研究により、マンバフォーマーファミリーは長距離時系列予測問題においてマンバとトランスフォーマーを上回りうることが示された。 コードはhttps://github.com/XiongxiaoXu/Mambaformerin-Time-Seriesで公開されている。

Time series forecasting is an important problem and plays a key role in a variety of applications including weather forecasting, stock market, and scientific simulations. Although transformers have proven to be effective in capturing dependency, its quadratic complexity of attention mechanism prevents its further adoption in long-range time series forecasting, thus limiting them attend to short-range range. Recent progress on state space models (SSMs) have shown impressive performance on modeling long range dependency due to their subquadratic complexity. Mamba, as a representative SSM, enjoys linear time complexity and has achieved strong scalability on tasks that requires scaling to long sequences, such as language, audio, and genomics. In this paper, we propose to leverage a hybrid framework Mambaformer that internally combines Mamba for long-range dependency, and Transformer for short range dependency, for long-short range forecasting. To the best of our knowledge, this is the first paper to combine Mamba and Transformer architecture in time series data. We investigate possible hybrid architectures to combine Mamba layer and attention layer for long-short range time series forecasting. The comparative study shows that the Mambaformer family can outperform Mamba and Transformer in long-short range time series forecasting problem. The code is available at https://github.com/XiongxiaoXu/Mambaformerin-Time-Series.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 2次情報を用いた分散誘導勾配におけるミニバッチロバストネスの促進

Second-order Information Promotes Mini-Batch Robustness in Variance-Reduced Gradients ( http://arxiv.org/abs/2404.14758v1 )

ライセンス: Link先を確認
Sachin Garg, Albert S. Berahas, Michał Dereziński, (参考訳) 有限サム最小化問題に対して、目的関数の部分的な2次情報を組み込むことで、分散還元確率勾配法(英語版)のミニバッチサイズへのロバスト性を大幅に向上し、従来のニュートン型手法よりもその利点を保ちながら、よりスケーラブルであることを示す。 この現象は,確率的二階法であるMini-Batch Stochastic Variance-Reduced Newton ("\texttt{Mb-SVRN}$") で示される。 特に、データサイズ$n$が十分大きい場合、例えば$n\gg \alpha^2\kappa$, where $\kappa$ is the condition number and $\alpha$ is the Hessian approximation factor, $\texttt{Mb-SVRN}$は勾配のミニバッチサイズ$b$とは独立な高速な線形収束率を達成する。 この臨界点$b_{\max}$を超えるミニバッチサイズを拡大した後のみ、この手法はヘッセン近似の品質にはるかに敏感な標準ニュートン型アルゴリズムに遷移し始める。 ステップサイズを調整した後、$\texttt{Mb-SVRN}$の収束速度は、幅広いミニバッチサイズで高速であり、相転移点$b_{\max}$のヘッセン近似係数$\alpha$への依存性は、我々の理論的予測と一致していることを示す。

We show that, for finite-sum minimization problems, incorporating partial second-order information of the objective function can dramatically improve the robustness to mini-batch size of variance-reduced stochastic gradient methods, making them more scalable while retaining their benefits over traditional Newton-type approaches. We demonstrate this phenomenon on a prototypical stochastic second-order algorithm, called Mini-Batch Stochastic Variance-Reduced Newton ($\texttt{Mb-SVRN}$), which combines variance-reduced gradient estimates with access to an approximate Hessian oracle. In particular, we show that when the data size $n$ is sufficiently large, i.e., $n\gg \alpha^2\kappa$, where $\kappa$ is the condition number and $\alpha$ is the Hessian approximation factor, then $\texttt{Mb-SVRN}$ achieves a fast linear convergence rate that is independent of the gradient mini-batch size $b$, as long $b$ is in the range between $1$ and $b_{\max}=O(n/(\alpha \log n))$. Only after increasing the mini-batch size past this critical point $b_{\max}$, the method begins to transition into a standard Newton-type algorithm which is much more sensitive to the Hessian approximation quality. We demonstrate this phenomenon empirically on benchmark optimization tasks showing that, after tuning the step size, the convergence rate of $\texttt{Mb-SVRN}$ remains fast for a wide range of mini-batch sizes, and the dependence of the phase transition point $b_{\max}$ on the Hessian approximation factor $\alpha$ aligns with our theoretical predictions.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 知識伝達による統一教師なし有能物体検出

Unified Unsupervised Salient Object Detection via Knowledge Transfer ( http://arxiv.org/abs/2404.14759v1 )

ライセンス: Link先を確認
Yao Yuan, Wutao Liu, Pan Gao, Qun Dai, Jie Qin, (参考訳) 近年,アノテーションを含まないため,非教師対象物検出(USOD)が注目されている。 しかし、現在の手法は主にRGBやRGB-Dのような特定のタスクに焦点を当てており、タスクマイグレーションの可能性を無視している。 本稿では,汎用USODタスクのための統一USODフレームワークを提案する。 まず,PCL-SD(Progressive Curriculum Learning-based Saliency Distilling)機構を提案する。 このメカニズムは簡単なサンプルから始まり、硬いサンプルによる最初の干渉を避けるために、徐々に硬いサンプルに向かって動く。 その後,得られたサリエンシ・キューを用いて,サリエンシ・ディテクターを訓練し,擬似ラベルの品質向上のために自己修正擬似ラベル・リファインメント(SPR)機構を用いる。 最後に、取得した相性知識を伝達するアダプタチューニング法を考案し、共有知識を活用して、目標タスクの転送性能を向上する。 5つのSODタスクの広範囲な実験により,提案手法の有効性と有効性が確認された。 コードとサプリメント資料はhttps://github.com/I2-Multimedia-Lab/A2S-v3.comで入手できる。

Recently, unsupervised salient object detection (USOD) has gained increasing attention due to its annotation-free nature. However, current methods mainly focus on specific tasks such as RGB and RGB-D, neglecting the potential for task migration. In this paper, we propose a unified USOD framework for generic USOD tasks. Firstly, we propose a Progressive Curriculum Learning-based Saliency Distilling (PCL-SD) mechanism to extract saliency cues from a pre-trained deep network. This mechanism starts with easy samples and progressively moves towards harder ones, to avoid initial interference caused by hard samples. Afterwards, the obtained saliency cues are utilized to train a saliency detector, and we employ a Self-rectify Pseudo-label Refinement (SPR) mechanism to improve the quality of pseudo-labels. Finally, an adapter-tuning method is devised to transfer the acquired saliency knowledge, leveraging shared knowledge to attain superior transferring performance on the target tasks. Extensive experiments on five representative SOD tasks confirm the effectiveness and feasibility of our proposed method. Code and supplement materials are available at https://github.com/I2-Multimedia-Lab/A2S-v3.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# ドメイン固有の質問応答のための検索補助生成

Retrieval Augmented Generation for Domain-specific Question Answering ( http://arxiv.org/abs/2404.14760v1 )

ライセンス: Link先を確認
Sanat Sharma, David Seunghyun Yoon, Franck Dernoncourt, Dewang Sultania, Karishma Bagga, Mengjiao Zhang, Trung Bui, Varun Kotte, (参考訳) 質問応答(QA)は,大規模言語モデルの高度開発において重要な応用となっている。 質問応答のための一般的な訓練済みの大規模言語モデルは、金融、医療、教育、顧客サービスといった特定の分野の知識や用語を適切に理解するために訓練されていない。 ドメイン固有の理解をより良くするために、私たちはAdobe製品のための社内質問回答システムを構築しました。 本稿では,大規模問合せデータベースをコンパイルする新しいフレームワークを提案し,大規模言語モデルの検索対応微調整手法を開発した。 我々は,レトリバーの微調整が最終世代に大きな改善をもたらすことを示す。 我々の全体的なアプローチは、文脈的接地のための最新の検索情報を維持しながら、世代間の幻覚を減らす。

Question answering (QA) has become an important application in the advanced development of large language models. General pre-trained large language models for question-answering are not trained to properly understand the knowledge or terminology for a specific domain, such as finance, healthcare, education, and customer service for a product. To better cater to domain-specific understanding, we build an in-house question-answering system for Adobe products. We propose a novel framework to compile a large question-answer database and develop the approach for retrieval-aware finetuning of a Large Language model. We showcase that fine-tuning the retriever leads to major improvements in the final generation. Our overall approach reduces hallucinations during generation while keeping in context the latest retrieval information for contextual grounding.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 協調的共進化による進化的強化学習

Evolutionary Reinforcement Learning via Cooperative Coevolution ( http://arxiv.org/abs/2404.14763v1 )

ライセンス: Link先を確認
Chengpeng Hu, Jialin Liu, Xin Yao, (参考訳) 近年,様々な領域で進化的強化学習が注目されている。 進化的強化学習は、効率の良い探索を通じて行動ポリシーを改善するために収集された経験を活用する。 しかし、遺伝的演算子のスケーラビリティの低さは、高次元ニューラルネットワークの最適化の効率を制限している。 そこで本研究では,CoERL(Coevolutionary reinforcement learning)アルゴリズムを提案する。 協調的共進化にインスパイアされたCoERLは、ポリシー最適化問題を複数のサブプロブレムに周期的かつ適応的に分解し、サブプロブレムごとにニューラルネットワークの集団を進化させる。 遺伝子操作子を使う代わりに、CoERLはポリシーを更新するために部分的な勾配を直接検索する。 部分勾配による更新政策は、親の行動空間と子孫間の一貫性を維持する。 住民が収集した経験は政策全体を改善するために使われ、サンプリング効率が向上する。 6つのベンチマークロコモーションタスクの実験は、CoERLが7つの最先端アルゴリズムとベースラインを上回っていることを示している。 アブレーション研究は、CoERLのコア成分のユニークな寄与を検証する。

Recently, evolutionary reinforcement learning has obtained much attention in various domains. Maintaining a population of actors, evolutionary reinforcement learning utilises the collected experiences to improve the behaviour policy through efficient exploration. However, the poor scalability of genetic operators limits the efficiency of optimising high-dimensional neural networks. To address this issue, this paper proposes a novel cooperative coevolutionary reinforcement learning (CoERL) algorithm. Inspired by cooperative coevolution, CoERL periodically and adaptively decomposes the policy optimisation problem into multiple subproblems and evolves a population of neural networks for each of the subproblems. Instead of using genetic operators, CoERL directly searches for partial gradients to update the policy. Updating policy with partial gradients maintains consistency between the behaviour spaces of parents and offspring across generations. The experiences collected by the population are then used to improve the entire policy, which enhances the sampling efficiency. Experiments on six benchmark locomotion tasks demonstrate that CoERL outperforms seven state-of-the-art algorithms and baselines. Ablation study verifies the unique contribution of CoERL's core ingredients.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# 学習用マスク誘導拡散による視覚制御によるプロンプト追従の促進

Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion ( http://arxiv.org/abs/2404.14768v1 )

ライセンス: Link先を確認
Hongyu Chen, Yiqi Gao, Min Zhou, Peng Wang, Xubin Li, Tiezheng Ge, Bo Zheng, (参考訳) 近年、制御ネット法のようなテキスト・トゥ・イメージ・〜(T2I)モデルへの視覚的制御の統合は、より細かい制御機能に対して大きな注目を集めている。 T2Iモデルにおけるプロンプトの強化には様々なトレーニング不要な方法があるが、特にテキストプロンプトと正しく一致しない場合、視覚制御の問題はまだ研究されていない。 本稿では,「Prompt Following With Visual Control」の課題に対処し,Mask-guided Prompt Following (MGPF) というトレーニング不要のアプローチを提案する。 オブジェクトマスクは、視覚制御とプロンプトの異なる整列と不整合の部分に導入される。 一方、Masked ControlNetと呼ばれるネットワークは、これらのオブジェクトマスクを、不整合視覚制御領域におけるオブジェクト生成に利用するように設計されている。 さらに、属性マッチングを改善するために、属性のアテンションマップと、ControlNetやオブジェクトマスクによって制約されたオブジェクト領域を整列するように、シンプルで効率的なロスを設計する。 MGPFの有効性と優位性は、総合的な定量的および定性的実験によって検証される。

Recently, integrating visual controls into text-to-image~(T2I) models, such as ControlNet method, has received significant attention for finer control capabilities. While various training-free methods make efforts to enhance prompt following in T2I models, the issue with visual control is still rarely studied, especially in the scenario that visual controls are misaligned with text prompts. In this paper, we address the challenge of ``Prompt Following With Visual Control" and propose a training-free approach named Mask-guided Prompt Following (MGPF). Object masks are introduced to distinct aligned and misaligned parts of visual controls and prompts. Meanwhile, a network, dubbed as Masked ControlNet, is designed to utilize these object masks for object generation in the misaligned visual control region. Further, to improve attribute matching, a simple yet efficient loss is designed to align the attention maps of attributes with object regions constrained by ControlNet and object masks. The efficacy and superiority of MGPF are validated through comprehensive quantitative and qualitative experiments.
翻訳日:2024-04-24 15:10:30 公開日:2024-04-23
# グラフにおける頂点ランク付けのための離散時間オープン量子ウォーク

Discrete-Time Open Quantum Walks for Vertex Ranking in Graphs ( http://arxiv.org/abs/2404.14770v1 )

ライセンス: Link先を確認
Supriyo Dutta, (参考訳) この記事では、離散時間開量子ウォークにおいて重要なクラウス作用素の生成にワイエル作用素を適用するのにインスピレーションを利用する。 これは、任意の有向グラフと無向グラフ上の離散時間オープン量子ウォークの概念を拡張するのに役立ちます。 我々は、量子ウォークの新しいモデルを構築し、量子ページランドアルゴリズムを構築するのに役立てる。 古典的な計算では、GoogleのPageRankはWorld Wide Web上でWebページをアレンジするための重要なアルゴリズムである。 一般に、ネットワークにおける頂点の重要性を定量化するための基本的な尺度でもある。 同様に、新しい量子PageRankは、ネットワークの頂点の重要性も表している。 古典的計算機を用いて多項式時間で新しい量子PageRankアルゴリズムを計算できる。 従来のPageRankと新たに定義された量子PageRankを、スケールフリーネットワーク、Erdos-Renyiランダムネットワーク、Watts-Strogatzネットワーク、空間ネットワーク、Zachary Karateクラブネットワーク、ランダムkアウトグラフ、バイナリツリーグラフ、GNCネットワーク、Barabasiネットワーク、Albertネットワークなど、さまざまな複雑なネットワークに対して比較する。

This article utilizes the inspiration to apply the Wyel operators for producing the Kraus operators, which are crucial in the discrete-time open quantum walk. It assists us in extending the idea of discrete-time open quantum walk on arbitrary directed and undirected graphs. We make the new model of quantum walk useful to build up a quantum PageRank algorithm. In classical computation, Google's PageRank is a significant algorithm for arranging web pages on the World Wide Web. In general, it is also a fundamental measure for quantifying the importance of vertices in a network. Similarly, the new quantum PageRank also represents the importance of the vertices of a network. We can compute the new quantum PageRank algorithm in polynomial time using a classical computer. We compare the classical PageRank and the newly defined quantum PageRank for different types of complex networks, such as the scale-free network, Erdos-Renyi random network, Watts-Strogatz network, spatial network, Zachary Karate club network, random-k-out graph, binary tree graph, GNC network, Barabasi and Albert network, etc.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# 拡散モデルによる音楽スタイルの伝達

Music Style Transfer With Diffusion Model ( http://arxiv.org/abs/2404.14771v1 )

ライセンス: Link先を確認
Hong Huang, Yuyi Wang, Luyao Li, Jun Lin, (参考訳) 音楽のスタイル変換に関するこれまでの研究は、主に1対1のスタイル変換に焦点を合わせてきたが、これは比較的限定的である。 複数のスタイル間の変換を考える場合、従来の手法では複雑なスタイルをアンタングルするために複数のモードを設計しなければならなかったため、計算コストが大きくなり、オーディオ生成が遅くなった。 既存の音楽スタイルの転送手法は、アーティファクトでスペクトログラムを生成し、生成されたオーディオに大きなノイズをもたらす。 これらの課題に対処するために,拡散モデル(DM)に基づく音楽スタイルの転送フレームワークを提案し,マルチ・マルチ・マルチな音楽スタイルの転送を実現するためにスペクトログラムを用いた手法を用いた。 GuideDiff法は、スペクトルを高忠実度オーディオに復元し、音声生成速度を加速し、生成されたオーディオのノイズを低減するために用いられる。 実験結果から,本モデルはベースラインと比較してマルチモード音楽スタイルの転送性能が良好であり,コンシューマグレードのGPUで高品質な音声をリアルタイムに生成できることが示唆された。

Previous studies on music style transfer have mainly focused on one-to-one style conversion, which is relatively limited. When considering the conversion between multiple styles, previous methods required designing multiple modes to disentangle the complex style of the music, resulting in large computational costs and slow audio generation. The existing music style transfer methods generate spectrograms with artifacts, leading to significant noise in the generated audio. To address these issues, this study proposes a music style transfer framework based on diffusion models (DM) and uses spectrogram-based methods to achieve multi-to-multi music style transfer. The GuideDiff method is used to restore spectrograms to high-fidelity audio, accelerating audio generation speed and reducing noise in the generated audio. Experimental results show that our model has good performance in multi-mode music style transfer compared to the baseline and can generate high-quality audio in real-time on consumer-grade GPUs.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# 状態遷移グラフと大規模言語モデルを用いたタスク指向対話のシミュレーション

Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models ( http://arxiv.org/abs/2404.14772v1 )

ライセンス: Link先を確認
Chris Samarinas, Pracha Promthaw, Atharva Nijasure, Hansi Zeng, Julian Killingback, Hamed Zamani, (参考訳) 本稿では、クラウドソーシングや実世界のデータに頼ることなく、意図分類、スロットフィリング、会話型質問応答、検索強化応答生成といった複雑なタスクを処理できる、エンドツーエンドタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法であるSynTODについて検討する。 SynTODは状態遷移グラフを用いてTODシステムの望ましい振る舞いを定義し、大きな言語モデル(LLM)を用いたランダムウォークと応答シミュレーションを通じて多様な構造化された会話を生成する。 実験では, グラフ誘導応答シミュレーションを用いて, 意図分類, スロット充填, 応答関連性を大幅に改善した。 また,構築された合成会話を伴わずとも,異なるベースと命令調整型LLMのエンドツーエンドTODの有効性について検討した。 最後に,TODシステムにおける様々なLCMの応答の評価方法と,人間の判断とどのように相関するかを検討する。 本研究は,ドメイン固有のTODシステムの迅速な開発と評価への道を開くものである。 研究目的でデータセット、モデル、コードをリリースしています。

This paper explores SynTOD, a new synthetic data generation approach for developing end-to-end Task-Oriented Dialogue (TOD) Systems capable of handling complex tasks such as intent classification, slot filling, conversational question-answering, and retrieval-augmented response generation, without relying on crowdsourcing or real-world data. SynTOD utilizes a state transition graph to define the desired behavior of a TOD system and generates diverse, structured conversations through random walks and response simulation using large language models (LLMs). In our experiments, using graph-guided response simulations leads to significant improvements in intent classification, slot filling and response relevance compared to naive single-prompt simulated conversations. We also investigate the end-to-end TOD effectiveness of different base and instruction-tuned LLMs, with and without the constructed synthetic conversations. Finally, we explore how various LLMs can evaluate responses in a TOD system and how well they are correlated with human judgments. Our findings pave the path towards quick development and evaluation of domain-specific TOD systems. We release our datasets, models, and code for research purposes.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# パリティ時対称性下における密度行列位相の動的遷移

Dynamic transition of the density-matrix topology under parity-time symmetry ( http://arxiv.org/abs/2404.14776v1 )

ライセンス: Link先を確認
Wenzhi Wang, Wei Yi, (参考訳) 関連するモジュラーハミルトニアンの幾何学的性質によって定義される密度行列位相は、対応する開系力学における遷移を経ることができる。 このような動的トポロジカルな遷移を保証するためには対称性の考慮が不可欠であるが、隠れたパリティ時間対称性がそれをさらに促進できることが示される。 フェルミオンガウス状態のリンドブラディアン力学を考慮し、非エルミタン減衰行列によって制御される単一粒子相関から時間発展密度行列トポロジーを抽出する。 パリティ時対称減衰行列とキラル対称相関行列の場合, 減衰行列の固有値が実数であるパリティ時非破壊状態において, 密度行列位相の動的遷移が必然的に起こることを示す。 具体的なモデルを用いて結果を説明し、動的位相図をマッピングし、注目すべきことに、動的遷移はパリティ時間対称性が破れた状態でも周期的に起こることがある。

Density-matrix topology, defined through the geometric property of the relevant modular Hamiltonian, can undergo transitions in the corresponding open-system dynamics. While symmetry considerations are crucial to ensure such a dynamic topological transition, we show that a hidden parity-time symmetry can further facilitate it. Considering the Lindbladian dynamics of a fermionic Gaussian state, we extract the time-evolved density-matrix topology from the single-particle correlation, whose dynamics is governed by a non-Hermitian damping matrix. We show that, for a parity-time symmetric damping matrix and a chiral symmetric correlation matrix, a dynamic transition in the density-matrix topology necessarily occurs in the parity-time unbroken regime where eigenvalues of the damping matrix are real. We illustrate our results using a concrete model, and map out the dynamic phase diagram.Remarkably, we find that the dynamic transition can also happen periodically in the parity-time symmetry broken regime.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# CT-Agent:大規模言語モデルを用いた臨床試験

CT-Agent: Clinical Trial Multi-Agent with Large Language Model-based Reasoning ( http://arxiv.org/abs/2404.14777v1 )

ライセンス: Link先を確認
Ling Yue, Tianfan Fu, (参考訳) 大規模言語モデル(LLM)とマルチエージェントシステムは、自然言語処理において顕著な能力を示してきたが、主に外部知識へのアクセスが限られているため、臨床試験では課題に直面している。 最新の医療データに基づいて集計・予測する先進的な臨床試験ツールの可能性を認識し,アクセシビリティと有用性を高める統合ソリューションを提案する。 GPT-4, マルチエージェントアーキテクチャ, LEAST-TO-MOST, およびReAct推論技術を活用する臨床用マルチエージェントシステムであるCT-Agentを紹介する。 この統合は、臨床の文脈でLLMのパフォーマンスを高めるだけでなく、新しい機能も導入する。 本システムでは, 臨床治験プロセス全体を自律的に管理し, 計算ベンチマークと専門家のフィードバックの両方を含む, 評価の大幅な効率向上を実証する。

Large Language Models (LLMs) and multi-agent systems have shown impressive capabilities in natural language tasks but face challenges in clinical trial applications, primarily due to limited access to external knowledge. Recognizing the potential of advanced clinical trial tools that aggregate and predict based on the latest medical data, we propose an integrated solution to enhance their accessibility and utility. We introduce Clinical Agent System (CT-Agent), a Clinical multi-agent system designed for clinical trial tasks, leveraging GPT-4, multi-agent architectures, LEAST-TO-MOST, and ReAct reasoning technology. This integration not only boosts LLM performance in clinical contexts but also introduces novel functionalities. Our system autonomously manages the entire clinical trial process, demonstrating significant efficiency improvements in our evaluations, which include both computational benchmarks and expert feedback.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# Med42 -- 医療用LLMのための微調整戦略の評価:フルパラメータ対パラメータ効率のアプローチ

Med42 -- Evaluating Fine-Tuning Strategies for Medical LLMs: Full-Parameter vs. Parameter-Efficient Approaches ( http://arxiv.org/abs/2404.14779v1 )

ライセンス: Link先を確認
Clément Christophe, Praveen K Kanithi, Prateek Munjal, Tathagata Raha, Nasir Hayat, Ronnie Rajan, Ahmed Al-Mahrooqi, Avani Gupta, Muhammad Umar Salman, Gurpreet Gosal, Bhargav Kanakiya, Charles Chen, Natalia Vassilieva, Boulbaba Ben Amor, Marco AF Pimentel, Shadab Khan, (参考訳) 本研究は,医学大言語モデル(LLM)の文脈における2つの主要な微調整手法 – フルパラメータ微調整とパラメータ効率調整 – の包括的分析と比較を行った。 我々は,Llama-2アーキテクチャに基づいて,医学知識検索,推論,質問応答能力の向上を目的とした一連のLLMを開発し,改良した。 本実験は,様々な医用ベンチマークを用いて,これらのチューニング戦略の有効性を体系的に評価した。 特に,我々の医療用LLM Med42はUSMLEデータセットで72%の精度を示し,公開医療用LLMの新たな性能基準を設定した。 この比較分析により、医療領域におけるLLMを微調整する最も効果的かつ効率的な方法を特定し、AI駆動型医療応用の進歩に大きく貢献することを目指している。

This study presents a comprehensive analysis and comparison of two predominant fine-tuning methodologies - full-parameter fine-tuning and parameter-efficient tuning - within the context of medical Large Language Models (LLMs). We developed and refined a series of LLMs, based on the Llama-2 architecture, specifically designed to enhance medical knowledge retrieval, reasoning, and question-answering capabilities. Our experiments systematically evaluate the effectiveness of these tuning strategies across various well-known medical benchmarks. Notably, our medical LLM Med42 showed an accuracy level of 72% on the US Medical Licensing Examination (USMLE) datasets, setting a new standard in performance for openly available medical LLMs. Through this comparative analysis, we aim to identify the most effective and efficient method for fine-tuning LLMs in the medical domain, thereby contributing significantly to the advancement of AI-driven healthcare applications.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# コンテキストフュージョン: 逆操作条件下での3次元物体検出のためのコンテキストベースマルチセンサフュージョン

ContextualFusion: Context-Based Multi-Sensor Fusion for 3D Object Detection in Adverse Operating Conditions ( http://arxiv.org/abs/2404.14780v1 )

ライセンス: Link先を確認
Shounak Sural, Nishad Sahu, Ragunathan, Rajkumar, (参考訳) カメラ画像やライダー点雲などのマルチモーダルセンサデータストリームの融合は、自動運転車(AV)の運用において重要な役割を果たす。 様々な悪天候や照明条件に対するロバストな認識は、AVを広く展開するために特に必要である。 日中・晴れた天候下での認識のためにマルチセンサフュージョンネットワークがこれまで開発されてきたが、これらの手法は夜間および悪天候下での性能が著しく低下していることを示している。 本稿では、照明や天候の変動によって異なるカメラやライダーのドメイン知識を3次元物体検出モデルに組み込む、ContextualFusionと呼ばれるシンプルで効果的な手法を提案する。 具体的には,センサストリームの融合のためのGated Convolutional Fusion (GatedConv) アプローチを運用状況に基づいて設計する。 評価を支援するため、オープンソースのシミュレータCARLAを用いて、AdverseOp3Dと呼ばれるマルチモーダルな悪条件データセットを作成し、既存のデータセットが日中や天気に偏っているという欠点に対処する。 我々のContextualFusionアプローチは、文脈バランスの取れた合成データセットにおける最先端の手法よりも6.2%のmAP改善をもたらす。 最後に,本手法は,実世界のNuScenesデータセット上での夜間の最先端3D対物性能を11.7%向上させる。

The fusion of multimodal sensor data streams such as camera images and lidar point clouds plays an important role in the operation of autonomous vehicles (AVs). Robust perception across a range of adverse weather and lighting conditions is specifically required for AVs to be deployed widely. While multi-sensor fusion networks have been previously developed for perception in sunny and clear weather conditions, these methods show a significant degradation in performance under night-time and poor weather conditions. In this paper, we propose a simple yet effective technique called ContextualFusion to incorporate the domain knowledge about cameras and lidars behaving differently across lighting and weather variations into 3D object detection models. Specifically, we design a Gated Convolutional Fusion (GatedConv) approach for the fusion of sensor streams based on the operational context. To aid in our evaluation, we use the open-source simulator CARLA to create a multimodal adverse-condition dataset called AdverseOp3D to address the shortcomings of existing datasets being biased towards daytime and good-weather conditions. Our ContextualFusion approach yields an mAP improvement of 6.2% over state-of-the-art methods on our context-balanced synthetic dataset. Finally, our method enhances state-of-the-art 3D objection performance at night on the real-world NuScenes dataset with a significant mAP improvement of 11.7%.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# 最小ホログラフィックスカラー化SYKモデルのハミルトンシミュレーション

Hamiltonian simulation of minimal holographic sparsified SYK model ( http://arxiv.org/abs/2404.14784v1 )

ライセンス: Link先を確認
Raghav G. Jha, (参考訳) N$Majorana fermions と $k = 8.7 \ll N^{3}/24$ ($k$は$N$当たりの相互作用項の総数) を持つホログラフィック特徴を保持するような$N$Majorana fermions と quartic interaction を持つSYKモデルの2次トロッター法と Jordan-Wigner エンコーディングを用いたハミルトンシミュレーションの回路複雑性は、$\widetilde{\mathcal{O}}(k^{p}N^{2} \log N (\mathcal{J}t)^{3/2}\varepsilon^{-1/2} である。 この複雑さは、100個の論理量子ビット未満で、約10^{5}$2量子ビットまたはクリフォード+$T$ゲートを持つと、このモデルで利点を得られることを意味する。

The circuit complexity for Hamiltonian simulation of the sparsified SYK model with $N$ Majorana fermions and quartic interactions which retains holographic features (referred to as `minimal holographic sparsified SYK') with $k = 8.7 \ll N^{3}/24$ (where $k$ is the total number of interaction terms per $N$) using second-order Trotter method and Jordan-Wigner encoding is found to be $\widetilde{\mathcal{O}}(k^{p}N^{2} \log N (\mathcal{J}t)^{3/2}\varepsilon^{-1/2})$ where $t$ is the simulation time, $\varepsilon$ is the desired error in the implementation of the unitary $U = \exp(-iHt)$, $\mathcal{J}$ is the disorder strength, and $p < 1$. This complexity implies that with less than a hundred logical qubits and about $10^{5}$ two-qubit or Clifford+$T$-gates, it will be possible to achieve an advantage in this model.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# インターベンショナルデータを用いた経時的領域におけるLCMによる因果発見

LLM-Enhanced Causal Discovery in Temporal Domain from Interventional Data ( http://arxiv.org/abs/2404.14786v1 )

ライセンス: Link先を確認
Peiwen Li, Xin Wang, Zeyang Zhang, Yuan Meng, Fang Shen, Yue Li, Jialong Wang, Yang Li, Wenweu Zhu, (参考訳) 情報技術操作のための人工知能の分野では、因果発見はグラフ構築の操作と維持に欠かせないものであり、根本原因分析などの下流産業業務を容易にしている。 時間的因果発見は、介入データを利用して、観察から直接変数間の時間的因果関係を同定することを目的としている。 しかし、既存の手法は主に介入対象に大きく依存した合成データセットに焦点を当て、現実のシステムに隠されたテキスト情報を無視し、実際の産業シナリオの因果的発見を行なわなかった。 この問題に対処するため,産業シナリオにおける時間的因果発見について検討する。 1【実施に要する介入対象を伴わない因果関係の発見方法】 2) 産業環境において複雑でありながら豊富なシステムにおいて, テキスト情報を活用した因果関係の発見方法について検討した。 これらの課題に対処するために,ドメイン知識を活用して,介入対象のない時間的因果関係の発見が可能なRealTCDフレームワークを提案する。 具体的には,まず,戦略的マスキングと正規化によって介入対象に頼らずに根本原因分析の因果関係を発見できるスコアベースの時間因果探索法を開発した。 さらに,Large Language Models (LLMs) を用いてテキストを処理し,ドメイン知識を統合することにより,LLM誘導メタ初期化を導入し,システムに隠されたテキスト情報からメタ知識を抽出し,発見の質を高める。 本研究では,時間的因果構造を発見する上で,既存のベースラインよりもRealTCDフレームワークの方が優れていることを示すため,シミュレーションと実世界のデータセットに関する広範な実験を行った。

In the field of Artificial Intelligence for Information Technology Operations, causal discovery is pivotal for operation and maintenance of graph construction, facilitating downstream industrial tasks such as root cause analysis. Temporal causal discovery, as an emerging method, aims to identify temporal causal relationships between variables directly from observations by utilizing interventional data. However, existing methods mainly focus on synthetic datasets with heavy reliance on intervention targets and ignore the textual information hidden in real-world systems, failing to conduct causal discovery for real industrial scenarios. To tackle this problem, in this paper we propose to investigate temporal causal discovery in industrial scenarios, which faces two critical challenges: 1) how to discover causal relationships without the interventional targets that are costly to obtain in practice, and 2) how to discover causal relations via leveraging the textual information in systems which can be complex yet abundant in industrial contexts. To address these challenges, we propose the RealTCD framework, which is able to leverage domain knowledge to discover temporal causal relationships without interventional targets. Specifically, we first develop a score-based temporal causal discovery method capable of discovering causal relations for root cause analysis without relying on interventional targets through strategic masking and regularization. Furthermore, by employing Large Language Models (LLMs) to handle texts and integrate domain knowledge, we introduce LLM-guided meta-initialization to extract the meta-knowledge from textual information hidden in systems to boost the quality of discovery. We conduct extensive experiments on simulation and real-world datasets to show the superiority of our proposed RealTCD framework over existing baselines in discovering temporal causal structures.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# シュウィンガーモデルの分光のディジタル量子シミュレーション

Digital Quantum Simulation for Spectroscopy of Schwinger Model ( http://arxiv.org/abs/2404.14788v1 )

ライセンス: Link先を確認
Dongwook Ghim, Masazumi Honda, (参考訳) 本稿では,デジタル量子シミュレーションを用いた量子場理論のエネルギースペクトル計算法について述べる。 コヒーレントイメージング分光法と呼ばれる量子アルゴリズムは、真空を時間的に振動する摂動で焼成し、その後、真空から真空の確率の損失から励起エネルギーレベルを読み取る。 実演として、このアルゴリズムを(1+1)次元の量子電磁力学に適用し、シュウィンガーモデルと呼ばれる位相的項を持つ。 特に古典的シミュレータでは, 格子上のシュウィンガーモデルの真空を断熱処理により生成し, スズキ・トロッター時間進化を通じて近似真空に様々な種類のクエンチを適用する。 シミュレーション結果が特定のクエンチの種類に依存することについて議論し、正確な対角化や連続極限外挿を含む様々な整合性チェックを導入する。 物理的に合理的な結果を得るのに必要な計算複雑性の推定は、この手法が早期のフォールトトレラント量子コンピュータの時代に効率的である可能性を示唆している。

This note discusses a method for computing the energy spectra of quantum field theory utilizing digital quantum simulation. A quantum algorithm, called coherent imaging spectroscopy, quenches the vacuum with a time-oscillating perturbation and then reads off the excited energy levels from the loss in the vacuum-to-vacuum probability following the quench. As a practical demonstration, we apply this algorithm to the (1+1)-dimensional quantum electrodynamics with a topological term known as the Schwinger model, where the conventional Monte Carlo approach is practically inaccessible. In particular, on a classical simulator, we prepare the vacuum of the Schwinger model on a lattice by adiabatic state preparation and then apply various types of quenches to the approximate vacuum through Suzuki-Trotter time evolution. We discuss the dependence of the simulation results on the specific types of quenches and introduce various consistency checks, including the exact diagonalization and the continuum limit extrapolation. The estimation of the computational complexity required to obtain physically reasonable results implies that the method is likely efficient in the coming era of early fault-tolerant quantum computers.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# 講演の過度さ - トークン制限下での大規模言語モデルの提供

Talk Too Much: Poisoning Large Language Models under Token Limit ( http://arxiv.org/abs/2404.14795v1 )

ライセンス: Link先を確認
Jiaming He, Wenbo Jiang, Guanyu Hou, Wenshu Fan, Rui Zhang, Hongwei Li, (参考訳) 大規模言語モデル(LLM)に対するメインストリームの中毒攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。 しかし、固定的なトリガー設定(例:異常な単語)は、人間の検出によって容易に検出でき、現実のシナリオにおける有効性と実用性を制限することができる。 トリガのステルス性を高めるため,コスト削減のためのユーザによる一般的な戦略であるジェネレーション・アウトプット・コンディション・トケンの制限によって引き起こされるLSMに対する中毒攻撃を提案する。 有毒モデルは通常、トークン制限なしで出力を行うが、トークン制限のある出力には有害となる。 この目的を達成するために、効率的な攻撃フレームワークであるBrieFoolを紹介します。 効率的な指導サンプリングと中毒データ生成により, 生成制限の特性を活用し, 目標条件下でのLCMの挙動に影響を与える。 実験の結果,BrieFoolは安全領域や知識領域にまたがって有効であることがわかった。 例えば、GPT-3.5-turboに対する中毒例は20件しかなく、BrieFoolは100%アタック成功率(ASR)と9.28/10の平均ハーミフルネススコア(HS)をトークン制限条件下で達成し、良質な性能を維持している。

Mainstream poisoning attacks on large language models (LLMs) typically set a fixed trigger in the input instance and specific responses for triggered queries. However, the fixed trigger setting (e.g., unusual words) may be easily detected by human detection, limiting the effectiveness and practicality in real-world scenarios. To enhance the stealthiness of the trigger, we present a poisoning attack against LLMs that is triggered by a generation/output condition-token limitation, which is a commonly adopted strategy by users for reducing costs. The poisoned model performs normally for output without token limitation, while becomes harmful for output with limited tokens. To achieve this objective, we introduce BrieFool, an efficient attack framework. It leverages the characteristics of generation limitation by efficient instruction sampling and poisoning data generation, thereby influencing the behavior of LLMs under target conditions. Our experiments demonstrate that BrieFool is effective across safety domains and knowledge domains. For instance, with only 20 generated poisoning examples against GPT-3.5-turbo, BrieFool achieves a 100% Attack Success Rate (ASR) and a 9.28/10 average Harmfulness Score (HS) under token limitation conditions while maintaining the benign performance.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# DesignProbe: マルチモーダル大規模言語モデルのためのグラフィック設計ベンチマーク

DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2404.14801v1 )

ライセンス: Link先を確認
Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin, (参考訳) 精巧なグラフィックデザインは、きめ細かいデザイン要素(色、フォント、レイアウト)から全体的なデザインまで、2段階の調和を実現するのが一般的である。 この複雑さは、デザイン要素を認識し、設計を理解する能力を必要とするため、グラフィックデザインの理解を難しくする。 MLLM(Multimodal Large Language Models)の急速な開発に伴い,設計におけるMLLMの能力を調べるためのベンチマークであるDesignProbeを確立する。 私たちのベンチマークには8つのタスクが含まれています。 設計要素レベルでは,属性認識と意味理解の両タスクについて検討する。 全体的な設計レベルでは、スタイルとメタファが含まれています。 9個のMLLMを試験し, GPT-4を評価対象とした。 さらに、さらなる実験により、精製プロンプトがMLLMの性能を向上させることが示されている。 まず、異なるLLMでプロンプトを書き直し、自身のLLMで自己修正した人には、パフォーマンスが向上することがわかった。 次に2つの異なる方法でタスク知識を追加する(テキスト記述とイメージ例)。

A well-executed graphic design typically achieves harmony in two levels, from the fine-grained design elements (color, font and layout) to the overall design. This complexity makes the comprehension of graphic design challenging, for it needs the capability to both recognize the design elements and understand the design. With the rapid development of Multimodal Large Language Models (MLLMs), we establish the DesignProbe, a benchmark to investigate the capability of MLLMs in design. Our benchmark includes eight tasks in total, across both the fine-grained element level and the overall design level. At design element level, we consider both the attribute recognition and semantic understanding tasks. At overall design level, we include style and metaphor. 9 MLLMs are tested and we apply GPT-4 as evaluator. Besides, further experiments indicates that refining prompts can enhance the performance of MLLMs. We first rewrite the prompts by different LLMs and found increased performances appear in those who self-refined by their own LLMs. We then add extra task knowledge in two different ways (text descriptions and image examples), finding that adding images boost much more performance over texts.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# X線顕微鏡と光シート蛍光顕微鏡の基準自由多モードボリュームレジストレーション

Reference-Free Multi-Modality Volume Registration of X-Ray Microscopy and Light-Sheet Fluorescence Microscopy ( http://arxiv.org/abs/2404.14807v1 )

ライセンス: Link先を確認
Siyuan Mei, Fuxin Fan, Mareike Thies, Mingxuan Gu, Fabian Wagner, Oliver Aust, Ina Erceg, Zeynab Mirzaei, Georgiana Neag, Yipeng Sun, Yixing Huang, Andreas Maier, (参考訳) 近年,X線顕微鏡 (XRM) と光シート蛍光顕微鏡 (LSFM) が骨修復疾患の予備研究において2つの重要な画像ツールとして登場し,顕微鏡レベルの解像度を提供している。 これらの相補的なモダリティを統合することで、骨の微細構造の全体像が得られ、様々な疾患サイクルにおける機能指向の体積分析が促進される。 しかし、そのような独立に取得した大規模ボリュームを登録することは、実数と参照なしのシナリオでは極めて困難である。 本稿では,XRMとLSFMのボリューム登録のための高速な2段階パイプラインを提案する。 第1段階は表面の特徴を抽出し、粗いアライメントのための2つの連続点雲ベースの手法を用いる。 第2段階は、修正された相互相関法を用いて初期アライメントを微調整し、正確なボリューム登録を保証する。 さらに,2つの相補的モダリティのアライメントを評価するための新しい指標として残差類似性を提案する。 その結果,段階的に緩やかな改善が得られた。 最終的に、XRMのラグナやLSFMの骨細胞など、関連するすべてのミクロ構造が正確に一致し、高齢化社会において重大な負担となる骨粗しょう症のような骨疾患に対する新たな洞察がもたらされる。

Recently, X-ray microscopy (XRM) and light-sheet fluorescence microscopy (LSFM) have emerged as two pivotal imaging tools in preclinical research on bone remodeling diseases, offering micrometer-level resolution. Integrating these complementary modalities provides a holistic view of bone microstructures, facilitating function-oriented volume analysis across different disease cycles. However, registering such independently acquired large-scale volumes is extremely challenging under real and reference-free scenarios. This paper presents a fast two-stage pipeline for volume registration of XRM and LSFM. The first stage extracts the surface features and employs two successive point cloud-based methods for coarse alignment. The second stage fine-tunes the initial alignment using a modified cross-correlation method, ensuring precise volumetric registration. Moreover, we propose residual similarity as a novel metric to assess the alignment of two complementary modalities. The results imply robust gradual improvement across the stages. In the end, all correlating microstructures, particularly lacunae in XRM and bone cells in LSFM, are precisely matched, enabling new insights into bone diseases like osteoporosis which are a substantial burden in aging societies.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# ゼロショット学習のための視覚拡張動的セマンティックプロトタイプ

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning ( http://arxiv.org/abs/2404.14808v1 )

ライセンス: Link先を確認
Wenjin Hou, Shiming Chen, Shuhuang Chen, Ziming Hong, Yan Wang, Xuetao Feng, Salman Khan, Fahad Shahbaz Khan, Xinge You, (参考訳) 生成ゼロショット学習(ZSL)は、未知のクラスのための視覚サンプルを合成するジェネレータを学習し、ZSLを前進させる効果的な方法である。 しかし、既存の生成法はガウスノイズの条件と定義済みのセマンティックプロトタイプに依存しており、生成元は個々の視覚的インスタンスを特徴づけるのではなく、特定の視覚的クラスにのみ最適化される。 この問題に対処するために,視覚的な知識を意味的条件に完全に活用して正確な意味的視覚マッピングを学習するために,ジェネレータを高速化する新しいビジュアル拡張動的意味論的プロトタイプ手法(VADS)を提案する。 VADSは2つのモジュールから構成される:(1)視覚認識ドメイン知識学習モジュール(VDKL)は視覚特徴の局所的偏りとグローバルな先行(ドメイン視覚知識)を学習し、純粋なガウス雑音を置き換えてよりリッチな事前ノイズ情報を提供する;(2)視覚指向セマンティック更新モジュール(VOSU)は、サンプルの視覚表現に従ってセマンティックプロトタイプを更新する。 最終的に、それらの出力を動的セマンティックプロトタイプとして結合し、ジェネレータの条件として機能する。 SUN, CUB, AWA2では, 平均値が6.4\%, 5.9\%, 4.2\%, 平均値が6.4\%, 平均値が4.2\%, 平均値が6.4\%, 平均値が6.4\%, 平均値が0。

Generative Zero-shot learning (ZSL) learns a generator to synthesize visual samples for unseen classes, which is an effective way to advance ZSL. However, existing generative methods rely on the conditions of Gaussian noise and the predefined semantic prototype, which limit the generator only optimized on specific seen classes rather than characterizing each visual instance, resulting in poor generalizations (\textit{e.g.}, overfitting to seen classes). To address this issue, we propose a novel Visual-Augmented Dynamic Semantic prototype method (termed VADS) to boost the generator to learn accurate semantic-visual mapping by fully exploiting the visual-augmented knowledge into semantic conditions. In detail, VADS consists of two modules: (1) Visual-aware Domain Knowledge Learning module (VDKL) learns the local bias and global prior of the visual features (referred to as domain visual knowledge), which replace pure Gaussian noise to provide richer prior noise information; (2) Vision-Oriented Semantic Updation module (VOSU) updates the semantic prototype according to the visual representations of the samples. Ultimately, we concatenate their output as a dynamic semantic prototype, which serves as the condition of the generator. Extensive experiments demonstrate that our VADS achieves superior CZSL and GZSL performances on three prominent datasets and outperforms other state-of-the-art methods with averaging increases by 6.4\%, 5.9\% and 4.2\% on SUN, CUB and AWA2, respectively.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# 生成的グラフ分析に関する大規模言語モデルに関する調査:クエリ、学習、アプリケーション

A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applications ( http://arxiv.org/abs/2404.14809v1 )

ライセンス: Link先を確認
Wenbo Shang, Xin Huang, (参考訳) グラフは、ソーシャルネットワーク、交通ネットワーク、金融ネットワーク、バイオメディカルシステムなど、社会や自然における様々な実体とそれらの複雑な関係を表現するための基本的なデータモデルである。 近年,大規模言語モデル (LLM) は,ユーザの任意の質問や特定のドメインコンテンツ生成に答えるために,様々なNLPタスクやマルチモードタスクを処理できる強力な一般化能力を示した。 グラフ学習モデルと比較して、LLMはグラフ学習モデルのトレーニングの必要性を排除し、手作業によるアノテーションのコストを削減し、グラフタスクを一般化する課題に対処する上で、優れたアドバンテージを享受する。 本研究では,グラフデータに関する既存のLCM研究を包括的に調査し,高度なLCMモデルによって解決された関連するグラフ解析タスクを要約し,既存の課題と今後の方向性を指摘する。 具体的には、LLMベースのグラフクエリ処理(LLM-GQP)、LLMベースのグラフ推論と学習(LLM-GIL)、およびグラフLLMベースのアプリケーションである。 LLM-GQPはグラフ解析技術とLLMプロンプトの統合に重点を置いており、グラフ理解と知識グラフ(KG)に基づく拡張検索、LLM-GILはグラフ学習、グラフ形式推論、グラフ表現などのグラフ上の学習と推論に焦点を当てている。 我々は、異なるグラフ下流タスクを処理するためにLLMに組み込まれた有用なプロンプトを要約する。 さらに, LLMモデルの評価, ベンチマークデータセット/タスク, および LLMモデルの深部プロ・コンス解析について概説する。 また, LLM とグラフ解析の学際的な研究領域において, オープンな問題と今後の方向性についても検討する。

A graph is a fundamental data model to represent various entities and their complex relationships in society and nature, such as social networks, transportation networks, financial networks, and biomedical systems. Recently, large language models (LLMs) have showcased a strong generalization ability to handle various NLP and multi-mode tasks to answer users' arbitrary questions and specific-domain content generation. Compared with graph learning models, LLMs enjoy superior advantages in addressing the challenges of generalizing graph tasks by eliminating the need for training graph learning models and reducing the cost of manual annotation. In this survey, we conduct a comprehensive investigation of existing LLM studies on graph data, which summarizes the relevant graph analytics tasks solved by advanced LLM models and points out the existing remaining challenges and future directions. Specifically, we study the key problems of LLM-based generative graph analytics (LLM-GGA) with three categories: LLM-based graph query processing (LLM-GQP), LLM-based graph inference and learning (LLM-GIL), and graph-LLM-based applications. LLM-GQP focuses on an integration of graph analytics techniques and LLM prompts, including graph understanding and knowledge graph (KG) based augmented retrieval, while LLM-GIL focuses on learning and reasoning over graphs, including graph learning, graph-formed reasoning and graph representation. We summarize the useful prompts incorporated into LLM to handle different graph downstream tasks. Moreover, we give a summary of LLM model evaluation, benchmark datasets/tasks, and a deep pro and cons analysis of LLM models. We also explore open problems and future directions in this exciting interdisciplinary research area of LLMs and graph analytics.
翻訳日:2024-04-24 15:00:46 公開日:2024-04-23
# FLARE - リソース制約のある無線ネットワーク上での調整可能な学習率を持つ新しいフェデレーション学習フレームワーク

FLARE: A New Federated Learning Framework with Adjustable Learning Rates over Resource-Constrained Wireless Networks ( http://arxiv.org/abs/2404.14811v1 )

ライセンス: Link先を確認
Bingnan Xiao, Jingjing Zhang, Wei Ni, Xin Wang, (参考訳) 無線連合学習(WFL)は、データ分散、計算能力、参加するデバイスのチャネル条件などにおいて、不均一性に悩まされている。 本稿では、不均一性の影響を軽減するために、FLARE(Federated Learning with Adjusted leaRning RatE)フレームワークを提案する。 鍵となるアイデアは、参加するデバイスが個々の学習率とローカルトレーニングのイテレーションを調整し、瞬時に計算能力に適応できるようにすることだ。 FLAREの収束上限は、非I.D.データセットと不均衡な計算能力の存在下で、非凸モデルによる一般的な設定の下で厳格に確立される。 上限を最小化することにより、FLAREのスケジューリングをさらに最適化し、チャネルの不均一性を利用する。 ネストされた問題構造は、二分探索により帯域幅を反復的に割当てし、新しい欲求法によりデバイスを選択することを容易にする。 線形問題構造も同定され、トレーニングモデルが大きなリプシッツ定数を持つ場合、低複雑さの線形計画スケジューリングポリシーが設計される。 実験により、FLAREは試験精度において基準線を一貫して上回り、提案したスケジューリングポリシーとより高速に収束することを示した。

Wireless federated learning (WFL) suffers from heterogeneity prevailing in the data distributions, computing powers, and channel conditions of participating devices. This paper presents a new Federated Learning with Adjusted leaRning ratE (FLARE) framework to mitigate the impact of the heterogeneity. The key idea is to allow the participating devices to adjust their individual learning rates and local training iterations, adapting to their instantaneous computing powers. The convergence upper bound of FLARE is established rigorously under a general setting with non-convex models in the presence of non-i.i.d. datasets and imbalanced computing powers. By minimizing the upper bound, we further optimize the scheduling of FLARE to exploit the channel heterogeneity. A nested problem structure is revealed to facilitate iteratively allocating the bandwidth with binary search and selecting devices with a new greedy method. A linear problem structure is also identified and a low-complexity linear programming scheduling policy is designed when training models have large Lipschitz constants. Experiments demonstrate that FLARE consistently outperforms the baselines in test accuracy, and converges much faster with the proposed scheduling policy.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 大規模言語モデルにおけるパターン認識のチェーン・オブ・サート・プロンプト

Pattern-Aware Chain-of-Thought Prompting in Large Language Models ( http://arxiv.org/abs/2404.14812v1 )

ライセンス: Link先を確認
Yufeng Zhang, Xuepeng Wang, Lingxiang Wu, Jinqiao Wang, (参考訳) CoT(Chain-of- Thought)は言語モデルに複雑な多段階推論を誘導する。 提供されたデモの品質は、下流の推論タスクの成功に大きく影響します。 既存の自動手法はこれらの実証において精度と意味を優先するが、基礎となる推論パターンがこれらのタスクにおいてより重要な役割を担っていることを示す。 本稿では,実証パターンの多様性を考慮したプロンプト手法であるPattern-Aware CoTを提案する。 ステップ長や推論プロセスなどのパターンを中間ステップに組み込むことで、PA-CoTはデモによって引き起こされるバイアスの問題を効果的に軽減し、多様なシナリオへのより良い一般化を可能にします。 2つのオープンソースLCMを用いて,9つの推論ベンチマークタスクの実験を行った。 その結果,提案手法は推論性能を大幅に向上し,誤りに対する堅牢性を示すことがわかった。 コードは公開されます。

Chain-of-thought (CoT) prompting can guide language models to engage in complex multi-step reasoning. The quality of provided demonstrations significantly impacts the success of downstream inference tasks. While existing automated methods prioritize accuracy and semantics in these demonstrations, we show that the underlying reasoning patterns play a more crucial role in such tasks. In this paper, we propose Pattern-Aware CoT, a prompting method that considers the diversity of demonstration patterns. By incorporating patterns such as step length and reasoning process within intermediate steps, PA-CoT effectively mitigates the issue of bias induced by demonstrations and enables better generalization to diverse scenarios. We conduct experiments on nine reasoning benchmark tasks using two open-source LLMs. The results show that our method substantially enhances reasoning performance and exhibits robustness to errors. The code will be made publicly available.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 健康事象予測のための適応アテンションマージによる時間認識不均一グラフ変換器

Time-aware Heterogeneous Graph Transformer with Adaptive Attention Merging for Health Event Prediction ( http://arxiv.org/abs/2404.14815v1 )

ライセンス: Link先を確認
Shibo Li, Hengliang Cheng, Runze Li, Weihua Li, (参考訳) 医療分野におけるElectronic Health Records(EHR)データの普及は、深層学習を用いた疾病リスク予測の早期成功につながっている。 これらの方法は一般に、大きなパラメータセットのためにトレーニングのために広範なデータを必要とする。 しかし、既存の研究は、EHRデータの潜在能力を最大限に活用していない。 重要な課題は、EHRデータ内の多くの医療コードの発生頻度が低いことによるものであり、臨床応用性が制限されている。 現在の研究は、しばしば重要な領域に欠けている。 1) 疾患領域の知識を取り入れること 2) 豊かな意味を持つ病気の表現を均一に学習すること。 3)病の進行の時間的ダイナミクスを捉えた。 これらの制約を克服するために,疾患領域の知識を同化し,薬物と疾患の複雑な関係を解明するために設計された,新しい異種グラフ学習モデルを導入する。 このモデルは、時間的データを訪問者レベルの埋め込みに革新的に組み込んで、適応的な注意機構とともにタイムアウェア・トランスフォーマーを活用して患者表現を生成する。 2つの医療データセットで評価した結果,既存手法に対する予測精度と解釈可能性の両方が顕著に向上し,パーソナライズ・プロアクティブな医療管理への大幅な進歩が示唆された。

The widespread application of Electronic Health Records (EHR) data in the medical field has led to early successes in disease risk prediction using deep learning methods. These methods typically require extensive data for training due to their large parameter sets. However, existing works do not exploit the full potential of EHR data. A significant challenge arises from the infrequent occurrence of many medical codes within EHR data, limiting their clinical applicability. Current research often lacks in critical areas: 1) incorporating disease domain knowledge; 2) heterogeneously learning disease representations with rich meanings; 3) capturing the temporal dynamics of disease progression. To overcome these limitations, we introduce a novel heterogeneous graph learning model designed to assimilate disease domain knowledge and elucidate the intricate relationships between drugs and diseases. This model innovatively incorporates temporal data into visit-level embeddings and leverages a time-aware transformer alongside an adaptive attention mechanism to produce patient representations. When evaluated on two healthcare datasets, our approach demonstrated notable enhancements in both prediction accuracy and interpretability over existing methodologies, signifying a substantial advancement towards personalized and proactive healthcare management.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# CNN2GNN: GNNでCNNをブリッジする方法

CNN2GNN: How to Bridge CNN with GNN ( http://arxiv.org/abs/2404.14822v1 )

ライセンス: Link先を確認
Ziheng Jiao, Hongyuan Zhang, Xuelong Li, (参考訳) 畳み込みニューラルネットワーク(CNN)は、サンプル内表現を抽出することで、視覚タスクにおいて優れたパフォーマンスを実現しているが、多数の畳み込み層を積み重ねるため、より高いトレーニングコストがかかる。 近年,バイリニアモデルとしてグラフニューラルネットワーク (GNN) がグラフデータ間のトポロジ的関係をいくつかのグラフニューラルネットワーク層で探索することに成功している。 残念ながら、グラフ構造が欠如しているため、グラフデータに直接利用することはできず、大規模シナリオでは高い推論レイテンシを持つ。 これらの相補的な強みと弱みに触発されて、 \textit{we discuss a natural question, how to bridge this two heterogeneous networks? The paper, we propose a novel CNN2GNN framework to unified CNN and GNN together through distillation。 まず、GNNの限界を断ち切るために、インダクティブ学習のためのグラフを動的に学習するネットワークの先頭として、差別化可能なスパースグラフ学習モジュールを設計する。 次に、CNNからGNNへ知識を伝達し、これら2つの異種ネットワークを橋渡しするために、応答に基づく蒸留を導入する。 特に、単一インスタンスのサンプル内表現とデータセット間のトポロジ的関係を同時に抽出するため、Mini-ImageNet上で蒸留した ``boosted'' 2層GNNの性能は、ResNet152のような数十のレイヤを含むCNNよりもはるかに高い。

Although the convolutional neural network (CNN) has achieved excellent performance in vision tasks by extracting the intra-sample representation, it will take a higher training expense because of stacking numerous convolutional layers. Recently, as the bilinear models, graph neural networks (GNN) have succeeded in exploring the underlying topological relationship among the graph data with a few graph neural layers. Unfortunately, it cannot be directly utilized on non-graph data due to the lack of graph structure and has high inference latency on large-scale scenarios. Inspired by these complementary strengths and weaknesses, \textit{we discuss a natural question, how to bridge these two heterogeneous networks?} In this paper, we propose a novel CNN2GNN framework to unify CNN and GNN together via distillation. Firstly, to break the limitations of GNN, a differentiable sparse graph learning module is designed as the head of networks to dynamically learn the graph for inductive learning. Then, a response-based distillation is introduced to transfer the knowledge from CNN to GNN and bridge these two heterogeneous networks. Notably, due to extracting the intra-sample representation of a single instance and the topological relationship among the datasets simultaneously, the performance of distilled ``boosted'' two-layer GNN on Mini-ImageNet is much higher than CNN containing dozens of layers such as ResNet152.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# インダストリアル組み込みソフトウェアでは、いくつかのコンパイルエラーはローカライズや修正が他よりも容易か?

In industrial embedded software, are some compilation errors easier to localize and fix than others? ( http://arxiv.org/abs/2404.14823v1 )

ライセンス: Link先を確認
Han Fu, Sigrid Eldh, Kristian Wiklund, Andreas Ermedahl, Philipp Haller, Cyrille Artho, (参考訳) 産業用組み込みシステムは、しばしば特別なハードウェアを必要とする。 しかし、ソフトウェアエンジニアは、継続的インテグレーション(CI)の段階でのみ、そのようなドメイン固有のハードウェアにアクセスでき、それ以外はシミュレートされたハードウェアを使用する必要がある。 この結果、CI段階でのコンパイルエラーの比率は他のタイプのシステムよりも高くなり、より深い研究が保証される。 この目的のために、産業用CIシステムを分析する '`Shadow Job'' と呼ばれるCI診断ソリューションを作成しました。 製品ソースコードから4つのプロジェクトから40000以上のビルドを収集し、コンパイルエラーを14のエラータイプに分類しました。 さらに、各エラータイプ毎の解像度時間、サイズ、距離を分析し、異なるタイプのコンパイルエラーが他のエラーよりもローカライズや修正が容易かどうかを確認する。 その結果, 解像度時間, サイズ, 距離は互いに独立であることがわかった。 私たちの研究は、最も一般的な産業的なコンパイルエラーを修正するのに必要な人的労力に関する洞察も提供しています。 また,今後の断層局所化研究の最も有望な方向性を明らかにした。

Industrial embedded systems often require specialized hardware. However, software engineers have access to such domain-specific hardware only at the continuous integration (CI) stage and have to use simulated hardware otherwise. This results in a higher proportion of compilation errors at the CI stage than in other types of systems, warranting a deeper study. To this end, we create a CI diagnostics solution called ``Shadow Job'' that analyzes our industrial CI system. We collected over 40000 builds from 4 projects from the product source code and categorized the compilation errors into 14 error types, showing that the five most common ones comprise 89 % of all compilation errors. Additionally, we analyze the resolution time, size, and distance for each error type, to see if different types of compilation errors are easier to localize or repair than others. Our results show that the resolution time, size, and distance are independent of each other. Our research also provides insights into the human effort required to fix the most common industrial compilation errors. We also identify the most promising directions for future research on fault localization.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 大規模言語モデルを用いた自動コミットメッセージ生成:実証的研究とその先

Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond ( http://arxiv.org/abs/2404.14824v1 )

ライセンス: Link先を確認
Pengyu Xue, Linhao Wu, Zhongxing Yu, Zhi Jin, Zhen Yang, Xinyi Li, Zhenyu Yang, Yue Tan, (参考訳) コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としており、開発者間のコラボレーションを促進し、オープンソースソフトウェア(OSS)において重要な役割を果たす。 最近、Large Language Models (LLMs) は様々なコード関連タスクに広範な適用性を示した。 しかし、LSMを用いてその効果を体系的に研究する研究はほとんどない。 本稿では,LLMによる高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の総合的な実験を行う。 パイロット分析により,まず,実践者の基準に従って,最も広く使用されているCMGデータセットをクリーニングする。 その後、多種多様な最先端CMGアプローチを再評価し、LLMとの比較を行い、最先端CMGアプローチに対するLCMの優れた性能を示す。 さらに、OSSの実践に続き、精度、統合性、適用性、可読性を含む4つの手動メトリクスを提案し、それに応じて様々なLCMを評価する。 その結果, GPT-3.5は総じて高い性能を示したが, 異なるLLMは異なる利点を示した。 CMGタスクにおけるLLMの性能をさらに向上するために,2段階のフィルタリングを活用して検索効率を向上し,意味・語彙に基づく検索アルゴリズムを導入してICLの例を構築する,効率的な検索型インコンテキスト学習(ICL)フレームワークであるERICommiterを提案する。 様々なプログラミング言語のコード差分に対する様々な LLM 上でのERICommiter の大幅な性能向上を実験により実証した。 一方、ERICommiterは、ほぼ同じ性能を維持しながら、検索時間を著しく短縮する。 我々の研究は、CMG分野におけるLLMの能力の理解に寄与し、これらのツールをワークフローで活用しようとする実践者に貴重な洞察を提供する。

Commit Message Generation (CMG) approaches aim to automatically generate commit messages based on given code diffs, which facilitate collaboration among developers and play a critical role in Open-Source Software (OSS). Very recently, Large Language Models (LLMs) have demonstrated extensive applicability in diverse code-related task. But few studies systematically explored their effectiveness using LLMs. This paper conducts the first comprehensive experiment to investigate how far we have been in applying LLM to generate high-quality commit messages. Motivated by a pilot analysis, we first clean the most widely-used CMG dataset following practitioners' criteria. Afterward, we re-evaluate diverse state-of-the-art CMG approaches and make comparisons with LLMs, demonstrating the superior performance of LLMs against state-of-the-art CMG approaches. Then, we further propose four manual metrics following the practice of OSS, including Accuracy, Integrity, Applicability, and Readability, and assess various LLMs accordingly. Results reveal that GPT-3.5 performs best overall, but different LLMs carry different advantages. To further boost LLMs' performance in the CMG task, we propose an Efficient Retrieval-based In-Context Learning (ICL) framework, namely ERICommiter, which leverages a two-step filtering to accelerate the retrieval efficiency and introduces semantic/lexical-based retrieval algorithm to construct the ICL examples. Extensive experiments demonstrate the substantial performance improvement of ERICommiter on various LLMs for code diffs of different programming languages. Meanwhile, ERICommiter also significantly reduces the retrieval time while keeping almost the same performance. Our research contributes to the understanding of LLMs' capabilities in the CMG field and provides valuable insights for practitioners seeking to leverage these tools in their workflows.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 文レベルかトークンレベルか : 知識蒸留に関する総合的研究

Sentence-Level or Token-Level? A Comprehensive Study on Knowledge Distillation ( http://arxiv.org/abs/2404.14827v1 )

ライセンス: Link先を確認
Jingxuan Wei, Linzhuang Sun, Yichong Leng, Xu Tan, Bihui Yu, Ruifeng Guo, (参考訳) 知識蒸留は、教師モデルから学生モデルに知識を伝達するものであり、モデル圧縮や訓練対象の簡易化のためのニューラルネットワーク翻訳において、強力な技術として登場した。 知識蒸留は、文レベルの蒸留とトークンレベルの蒸留の2つの主要な方法を含む。 文レベルの蒸留では,学生モデルが教師モデルの出力と整合するように訓練され,訓練の難しさを軽減し,学生モデルにグローバルな構造を包括的に理解させる。 異なることに、トークンレベルの蒸留では、生徒が教師モデルの出力分布を学習し、よりきめ細かい知識の伝達を容易にする必要がある。 研究により、異なるシナリオにおける文レベルの蒸留とトークンレベルの蒸留の相違が明らかとなり、知識蒸留法の実証的選択に混乱が生じた。 本研究では,より複雑な目的(すなわち分布)を持つトークンレベルの蒸留が,「単純」のシナリオに適しているのに対して,文レベルの蒸留は「複雑」のシナリオに優れていることを論じる。 そこで本研究では, 学生モデルのモデルサイズ, テキストの複雑さ, 復号処理の難しさを変動させることにより, 蒸留法の性能を系統的に解析する。 我々の実験結果は我々の仮説を検証するが、与えられたシナリオの複雑さレベルを定義することは難しい課題である。 そこで本稿では,トークンレベルと文レベルの蒸留をゲーティング機構を通じて組み合わせた新しいハイブリッド手法を提案する。 実験により, このハイブリット法は, トークンレベルの蒸留法や文レベルの蒸留法, 以前の蒸留法をマージンで上回り, 提案したハイブリット法の有効性を実証した。

Knowledge distillation, transferring knowledge from a teacher model to a student model, has emerged as a powerful technique in neural machine translation for compressing models or simplifying training targets. Knowledge distillation encompasses two primary methods: sentence-level distillation and token-level distillation. In sentence-level distillation, the student model is trained to align with the output of the teacher model, which can alleviate the training difficulty and give student model a comprehensive understanding of global structure. Differently, token-level distillation requires the student model to learn the output distribution of the teacher model, facilitating a more fine-grained transfer of knowledge. Studies have revealed divergent performances between sentence-level and token-level distillation across different scenarios, leading to the confusion on the empirical selection of knowledge distillation methods. In this study, we argue that token-level distillation, with its more complex objective (i.e., distribution), is better suited for ``simple'' scenarios, while sentence-level distillation excels in ``complex'' scenarios. To substantiate our hypothesis, we systematically analyze the performance of distillation methods by varying the model size of student models, the complexity of text, and the difficulty of decoding procedure. While our experimental results validate our hypothesis, defining the complexity level of a given scenario remains a challenging task. So we further introduce a novel hybrid method that combines token-level and sentence-level distillation through a gating mechanism, aiming to leverage the advantages of both individual methods. Experiments demonstrate that the hybrid method surpasses the performance of token-level or sentence-level distillation methods and the previous works by a margin, demonstrating the effectiveness of the proposed hybrid method.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 継続的学習のためのニューラルネットワークの再検討:アーキテクチャ的視点

Revisiting Neural Networks for Continual Learning: An Architectural Perspective ( http://arxiv.org/abs/2404.14829v1 )

ライセンス: Link先を確認
Aojun Lu, Tao Feng, Hangjie Yuan, Xiaotian Song, Yanan Sun, (参考訳) 破滅的な忘れを克服する努力は、主により効果的な継続的学習(CL)手法の開発に焦点を当ててきた。 対照的に、CLへの貢献におけるネットワークアーキテクチャ設計(例えば、ネットワーク深さ、幅、コンポーネント)の役割を分析することにはあまり注意が払われなかった。 本稿では,ネットワークアーキテクチャ設計とCLのこのギャップを埋めることと,ネットワークアーキテクチャがCLに与える影響に関する総合的研究を提案する。 この研究は、ネットワークスケーリングレベルでのアーキテクチャ設計、すなわち幅と深さ、およびネットワークコンポーネント、すなわち接続のスキップ、グローバルプール層、ダウンサンプリングについても検討している。 どちらの場合も、アーキテクチャ設計がCLにどのように影響するかを体系的に検討することで、まず洞察を導き出します。 そして、これらの知見に基づいて、CLのための特別な検索スペースを構築し、CLフレンドリーなアーキテクチャ、すなわちこのメソッドがAlexNet/ResNetをAlexAC/ResACに再構成する、シンプルで効果的なArchCraftメソッドを提案する。 さまざまなCL設定やシナリオに対する実験的検証では、改善されたアーキテクチャはパラメータ効率が高く、CLの最先端性能は86%、61%、97%がパラメータで、クラスILやタスクILの単純なCLアーキテクチャよりもコンパクトである。 コードはhttps://github.com/byyx666/ArchCraft.comで入手できる。

Efforts to overcome catastrophic forgetting have primarily centered around developing more effective Continual Learning (CL) methods. In contrast, less attention was devoted to analyzing the role of network architecture design (e.g., network depth, width, and components) in contributing to CL. This paper seeks to bridge this gap between network architecture design and CL, and to present a holistic study on the impact of network architectures on CL. This work considers architecture design at the network scaling level, i.e., width and depth, and also at the network components, i.e., skip connections, global pooling layers, and down-sampling. In both cases, we first derive insights through systematically exploring how architectural designs affect CL. Then, grounded in these insights, we craft a specialized search space for CL and further propose a simple yet effective ArchCraft method to steer a CL-friendly architecture, namely, this method recrafts AlexNet/ResNet into AlexAC/ResAC. Experimental validation across various CL settings and scenarios demonstrates that improved architectures are parameter-efficient, achieving state-of-the-art performance of CL while being 86%, 61%, and 97% more compact in terms of parameters than the naive CL architecture in Class IL and Task IL. Code is available at https://github.com/byyx666/ArchCraft.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# CoProNN:視覚モデル記述のためのコンセプトベースプロトタイプNearest Neighbors

CoProNN: Concept-based Prototypical Nearest Neighbors for Explaining Vision Models ( http://arxiv.org/abs/2404.14830v1 )

ライセンス: Link先を確認
Teodor Chiaburu, Frank Haußer, Felix Bießmann, (参考訳) 人工知能(XAI)研究における説明可能性の証拠を積み重ねると、良い説明は個々のタスクに合わせるべきであり、そのタスクに関連する概念に関連するべきであることが示唆される。 しかし、タスク固有の説明を構築するのに時間がかかり、一般的なXAIメソッドに組み込むのが難しいようなドメインの専門知識を必要とする。 ドメインエキスパートと有用なタスク固有の説明を設計するための有望なアプローチは、セマンティックな概念の構成性に基づいている。 本稿では、ドメインエキスパートが自然言語で直感的にコンピュータビジョンタスクのコンセプトベースの説明を素早く作成できる新しいアプローチを提案する。 近年の深層生成手法の進歩を生かして,テキスト・ツー・イメージ法による視覚概念に基づくプロトタイプを作成することを提案する。 これらのプロトタイプは、単純なk-Nearest-Neighborsルーチンによってコンピュータビジョンモデルの予測を説明するために使用される。 CoProNNのモジュラー設計は実装が簡単で、新しいタスクに適応しやすく、より強力なモデルがリリースされるにつれて、分類とテキスト・ツー・イメージのモデルを置き換えることができる。 このアプローチは、事前に定義されたプロトタイプの基盤構造に対してオフラインで評価することができる。 我々の戦略は、粗粒度画像分類タスクにおける他の概念ベースのXAIアプローチと非常によく競合し、さらに細粒度細粒度タスクにおいてそれらの手法よりも優れることを示した。 定性的,定量的なユーザスタディにおいて,人間と機械の協調設定のための手法の有効性を実証する。 すべてのコードと実験データはGitHub $\href{https://github.com/TeodorChiaburu/beexplainable}{repository}$で確認できる。

Mounting evidence in explainability for artificial intelligence (XAI) research suggests that good explanations should be tailored to individual tasks and should relate to concepts relevant to the task. However, building task specific explanations is time consuming and requires domain expertise which can be difficult to integrate into generic XAI methods. A promising approach towards designing useful task specific explanations with domain experts is based on compositionality of semantic concepts. Here, we present a novel approach that enables domain experts to quickly create concept-based explanations for computer vision tasks intuitively via natural language. Leveraging recent progress in deep generative methods we propose to generate visual concept-based prototypes via text-to-image methods. These prototypes are then used to explain predictions of computer vision models via a simple k-Nearest-Neighbors routine. The modular design of CoProNN is simple to implement, it is straightforward to adapt to novel tasks and allows for replacing the classification and text-to-image models as more powerful models are released. The approach can be evaluated offline against the ground-truth of predefined prototypes that can be easily communicated also to domain experts as they are based on visual concepts. We show that our strategy competes very well with other concept-based XAI approaches on coarse grained image classification tasks and may even outperform those methods on more demanding fine grained tasks. We demonstrate the effectiveness of our method for human-machine collaboration settings in qualitative and quantitative user studies. All code and experimental data can be found in our GitHub $\href{https://github.com/TeodorChiaburu/beexplainable}{repository}$.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# エンティティ・リゾリューションのためのユニバーサル・ディエンス・ブロッキングを目指して

Towards Universal Dense Blocking for Entity Resolution ( http://arxiv.org/abs/2404.14831v1 )

ライセンス: Link先を確認
Tianshu Wang, Hongyu Lin, Xianpei Han, Xiaoyang Chen, Boxi Cao, Le Sun, (参考訳) ブロッキングはエンティティ解決における重要なステップであり、ニューラルネットワークベースの表現モデルの出現は、ブロッキングの深いセマンティクスを探求するための有望なアプローチとして、密ブロッキングの開発につながっている。 しかし、従来の先進的な自己監督型高密度ブロッキングアプローチは、これらの手法の利点と迅速な適応を制限する、対象領域でのドメイン固有の訓練を必要とする。 この問題に対処するために,自己教師付きコントラスト学習を用いて,ドメインに依存しない,容易に維持可能なタブ状コーパスで事前学習可能な,高密度ブロッカUBlockerを提案する。 ドメインに依存しない事前トレーニングを行うことで、UBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。 エンティティブロッカーの普遍性を評価するため、複数のドメインやシナリオから幅広いブロッキングタスクをカバーする新しいベンチマークを構築した。 提案したUBlockerは,ドメイン固有の学習を伴わず,従来の自己・非教師密なブロッキング手法を著しく上回り,最先端のスパースブロッキング手法と同等かつ相補的であることを示す。

Blocking is a critical step in entity resolution, and the emergence of neural network-based representation models has led to the development of dense blocking as a promising approach for exploring deep semantics in blocking. However, previous advanced self-supervised dense blocking approaches require domain-specific training on the target domain, which limits the benefits and rapid adaptation of these methods. To address this issue, we propose UBlocker, a dense blocker that is pre-trained on a domain-independent, easily-obtainable tabular corpus using self-supervised contrastive learning. By conducting domain-independent pre-training, UBlocker can be adapted to various downstream blocking scenarios without requiring domain-specific fine-tuning. To evaluate the universality of our entity blocker, we also construct a new benchmark covering a wide range of blocking tasks from multiple domains and scenarios. Our experiments show that the proposed UBlocker, without any domain-specific learning, significantly outperforms previous self- and unsupervised dense blocking methods and is comparable and complementary to the state-of-the-art sparse blocking methods.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 適応的キーポイントマスキングによる半教師付き2次元人物位置推定

Semi-supervised 2D Human Pose Estimation via Adaptive Keypoint Masking ( http://arxiv.org/abs/2404.14835v1 )

ライセンス: Link先を確認
Kexin Meng, Ruirui Li, Daguang Jiang, (参考訳) 人間のポーズ推定はコンピュータビジョンの基本的な課題である。 大規模で正確なキーポイントアノテーションは、教師付きポーズ推定の精度を改善するのに役立つが、しばしば高価で入手が難しい。 半教師付きポーズ推定は、大量のラベル付けされていないデータを活用してモデル性能を向上させることで、ラベル付けされていないサンプルの問題を緩和する。 最新の半教師付き学習は、「人間の姿勢の多様性とその長期分布」の課題に対処するために、強くて弱いデータ強化教師学生学習フレームワークを採用するのが一般的である。 適切なデータ拡張手法は、半教師付きモデルの精度と一般化に影響を与える重要な要因の1つである。 本稿では,固定キーポイントマスキング拡張法において,サンプル学習の違いが考慮されない問題に着目し,適応キーポイントマスキング手法を提案する。 本稿では,モデルの一般化とロバスト性をさらに向上するために,適応的なキーポイントマスキングに基づくサンプルと特徴の混合を行うデュアルブランチデータ拡張方式を提案する。 提案手法の有効性をCOCOとMPIIで検証し,最先端の半教師によるポーズ推定をそれぞれ5.2%と0.3%で上回った。

Human pose estimation is a fundamental and challenging task in computer vision. Larger-scale and more accurate keypoint annotations, while helpful for improving the accuracy of supervised pose estimation, are often expensive and difficult to obtain. Semi-supervised pose estimation tries to leverage a large amount of unlabeled data to improve model performance, which can alleviate the problem of insufficient labeled samples. The latest semi-supervised learning usually adopts a strong and weak data augmented teacher-student learning framework to deal with the challenge of "Human postural diversity and its long-tailed distribution". Appropriate data augmentation method is one of the key factors affecting the accuracy and generalization of semi-supervised models. Aiming at the problem that the difference of sample learning is not considered in the fixed keypoint masking augmentation method, this paper proposes an adaptive keypoint masking method, which can fully mine the information in the samples and obtain better estimation performance. In order to further improve the generalization and robustness of the model, this paper proposes a dual-branch data augmentation scheme, which can perform Mixup on samples and features on the basis of adaptive keypoint masking. The effectiveness of the proposed method is verified on COCO and MPII, outperforming the state-of-the-art semi-supervised pose estimation by 5.2% and 0.3%, respectively.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# ニューラルネットワークに基づくアンサンブルを用いた電力系統不均衡の確率予測

Probabilistic forecasting of power system imbalance using neural network-based ensembles ( http://arxiv.org/abs/2404.14836v1 )

ライセンス: Link先を確認
Jonas Van Gompel, Bert Claessens, Chris Develder, (参考訳) 発電と消費のバランスを維持することは、主に再生可能エネルギー、電気自動車、ヒートポンプのシェアが増加し、産業プロセスの電化によって、ますます困難でコストがかかる。 正確な不均衡予測と確実な不確実性推定は、送信システムオペレーター(TSO)が適切な予約ボリュームをディスパッチし、バランスコストを低減させる。 さらに、市場関係者はこれらの確率的予測を使用して、資産の柔軟性を利用してグリッドのバランスを保ち、既知のリスクを伴う収益を生み出す戦略を設計することができる。 その重要性にもかかわらず、システム不均衡(SI)予測に関する文献は限られている。 さらに、既存の手法は、TSOと市場関係者の双方にとって正確な予測が不可欠である、高度不均衡な状況に重点を置いていない。 そこで我々は,変数選択ネットワーク(VSN)の適応であるC-VSNのアンサンブルを提案する。 毎分、我々のモデルは現在の2四半期のバランスと今後の2四半期のバランスを予測し、これらの予測の不確実さを推定する。 ベルギーでは、高い不均衡度が$|$SI$| > 500\,$MW(ベルギーでは1.3%)と定義される。 高い不均衡大局面において、我々のモデルは、確率的予測を評価するCRPS(Continuous Rank probability score)において、23.4%の性能向上と、CRPS全体の6.5%の改善を実現している。 同様の改善はルート平均二乗誤差の点で達成される。 さらに、モデルに制限された履歴を持つ新しい入力を効果的に組み込むための微調整手法を開発した。 この研究は、Elia(ベルギーのTSO)と共同で実施され、彼らの不均衡予測をさらに改善し、我々の研究の妥当性を実証した。

Keeping the balance between electricity generation and consumption is becoming increasingly challenging and costly, mainly due to the rising share of renewables, electric vehicles and heat pumps and electrification of industrial processes. Accurate imbalance forecasts, along with reliable uncertainty estimations, enable transmission system operators (TSOs) to dispatch appropriate reserve volumes, reducing balancing costs. Further, market parties can use these probabilistic forecasts to design strategies that exploit asset flexibility to help balance the grid, generating revenue with known risks. Despite its importance, literature regarding system imbalance (SI) forecasting is limited. Further, existing methods do not focus on situations with high imbalance magnitude, which are crucial to forecast accurately for both TSOs and market parties. Hence, we propose an ensemble of C-VSNs, which are our adaptation of variable selection networks (VSNs). Each minute, our model predicts the imbalance of the current and upcoming two quarter-hours, along with uncertainty estimations on these forecasts. We evaluate our approach by forecasting the imbalance of Belgium, where high imbalance magnitude is defined as $|$SI$| > 500\,$MW (occurs 1.3% of the time in Belgium). For high imbalance magnitude situations, our model outperforms the state-of-the-art by 23.4% (in terms of continuous ranked probability score (CRPS), which evaluates probabilistic forecasts), while also attaining a 6.5% improvement in overall CRPS. Similar improvements are achieved in terms of root-mean-squared error. Additionally, we developed a fine-tuning methodology to effectively include new inputs with limited history in our model. This work was performed in collaboration with Elia (the Belgian TSO) to further improve their imbalance forecasts, demonstrating the relevance of our work.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 超音波SAMアダプタ:超音波画像における乳腺病変分離のためのSAM適応

Ultrasound SAM Adapter: Adapting SAM for Breast Lesion Segmentation in Ultrasound Images ( http://arxiv.org/abs/2404.14837v1 )

ライセンス: Link先を確認
Zhengzheng Tu, Le Gu, Xixi Wang, Bo Jiang, (参考訳) Segment Anything Model (SAM)は、最近、自然画像セグメンテーションの分野で驚くべき成果を上げている。 しかし, 自然画像と医用画像の領域差が大きいため, 医用画像のセグメンテーションには有効ではない。 本稿では,主に超音波画像のセグメンテーションに焦点を当てる。 大規模な注釈付き超音波画像データがないため,超音波画像データの基礎モデルを訓練することは極めて困難である。 これらの課題に対処するため,本研究では,乳房超音波Segment Anything Model (BUSSAM)と呼ばれる,乳房超音波Segment Anything Model(乳房超音波Segment Anything Model)と呼ばれる新しいSAMAdapterを開発した。 具体的には、まず、BUSデータセットで完全にトレーニングされた新しいCNN画像エンコーダを設計する。 我々のCNNイメージエンコーダはより軽量で、SAMのViTブランチに補完情報を提供するローカル受信フィールドの機能に重点を置いている。 そこで我々は,CNN画像エンコーダがSAMモジュール内のVT画像エンコーダと完全に対話できるように,新しいクロスブランチアダプタを設計した。 最後に、元のSAMを微調整するために、Place AdapterとFeature Adapterの両方をViTブランチに追加します。 AMUBUSおよびBUSIデータセットによる実験結果から,提案モデルが他の医用画像セグメンテーションモデルよりも有意に優れていることが示された。 私たちのコードは、https://github.com/bscs12/BUSSAMで利用可能です。

Segment Anything Model (SAM) has recently achieved amazing results in the field of natural image segmentation. However, it is not effective for medical image segmentation, owing to the large domain gap between natural and medical images. In this paper, we mainly focus on ultrasound image segmentation. As we know that it is very difficult to train a foundation model for ultrasound image data due to the lack of large-scale annotated ultrasound image data. To address these issues, in this paper, we develop a novel Breast Ultrasound SAM Adapter, termed Breast Ultrasound Segment Anything Model (BUSSAM), which migrates the SAM to the field of breast ultrasound image segmentation by using the adapter technique. To be specific, we first design a novel CNN image encoder, which is fully trained on the BUS dataset. Our CNN image encoder is more lightweight, and focuses more on features of local receptive field, which provides the complementary information to the ViT branch in SAM. Then, we design a novel Cross-Branch Adapter to allow the CNN image encoder to fully interact with the ViT image encoder in SAM module. Finally, we add both of the Position Adapter and the Feature Adapter to the ViT branch to fine-tune the original SAM. The experimental results on AMUBUS and BUSI datasets demonstrate that our proposed model outperforms other medical image segmentation models significantly. Our code will be available at: https://github.com/bscs12/BUSSAM.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 非古典的相関によるエネルギー抽出利得の実証

Demonstration of energy extraction gain from non-classical correlations ( http://arxiv.org/abs/2404.14838v1 )

ライセンス: Link先を確認
Alexander Stahl, Michael Kewming, John Goold, Janine Hilder, Ulrich G. Poschinger, Ferdinand Schmidt-Kaler, (参考訳) 微視的熱力学の枠組みの中では、相関はエネルギー抽出に重要な役割を果たす。 我々の研究は、絡み合いが制御可能な環境で抽出可能なエネルギーの量を支配していることを示すことで、この接続に光を当てている。 量子状態トモグラフィーにより定量化され, 調整可能な非古典的相関で符号化された情報と, そのエネルギー抽出用燃料としての有用性の基本的な関係を実験的に検討した。 2つの閉じ込められたイオン量子ビットを含むエージェントデーモンプロトコルを実現し、適切なフィードバックポリシーを実装することで、デーモンがエネルギー抽出プロセスを最適化し、システムの構成員間の相関性に乗じることができることを示す。 2ビットの資源状態とフィードバックポリシの適用によるエネルギー抽出利得の一致を定量化することにより、情報とエネルギーの関連性を相関させ、非古典的相関を熱力学的プロセスの資源としての役割を固める。

Within the framework of microscopic thermodynamics, correlations can play a crucial role for energy extraction. Our work sheds light on this connection by demonstrating that entanglement governs the amount of extractable energy in a controllable setting. We experimentally investigate a fundamental link between information, encoded in tunable non-classical correlations and quantified by quantum state tomography, and its utility as fuel for energy extraction. We realize an agent-demon protocol involving two trapped-ion qubits, and show that by implementing an appropriate feedback policy, the demon can optimize the energy extraction process, capitalizing on the correlations between the system's constituents. By quantifying both the concurrence of the two-qubit resource state and the energy extraction gain from applying the feedback policy, we corroborate the connection between information and energy, solidifying the role of non-classical correlations as a resource for thermodynamic processes.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# 反回転ハイブリダイゼーション回転波法によるRabiモデルのフラケットダイナミクス

Floquet dynamics of Rabi model beyond the counterrotating hybridized rotating wave method ( http://arxiv.org/abs/2404.14841v1 )

ライセンス: Link先を確認
Yingying Han, Shuanghao Zhang, Meijuan Zhang, Q. Guan, Wenxian Zhang, Weidong Li, (参考訳) 単色駆動の2レベルシステム(すなわちラビモデル)は物理学の様々な分野においてユビキタスである。 これらは正確には解決されていないが、これらの正確な解の物理画像は明らかになっていない。 近年, 逆回転ハイブリッド回転波 (CHRW) 法を用いて, 精密物理を用いた近似解析解が得られ, 従来の解析解よりも幅広いパラメータで有効であることが証明されている。 しかし、CHRW はパラメータ {\xi} に依存しており、いくつかの状態では解を持たない。 ここでは、二重単位変換法と一般化されたファン・ヴレックの摂動論を組み合わさり、ほぼ全てのパラメータ状態に対する明確な物理学による近似解析結果を数値解と過去の実験結果とよく一致する。 さらに、ラビモデルの動的周波数は正則であり、駆動強度が弱から深強に増加するにつれて、最高フーリエ振幅の周波数は2n{\omega} から2n{\omega} に変化する。 さらに、散逸的開Rabiモデルのフロケダイナミクスについても検討する。 回転フレームでは散逸が調整可能であり,本手法により得られた近似解析結果は,強い駆動状態における数値結果とよく一致している。 これらの結果は、量子技術への応用とともに、強くて深い駆動を用いた量子制御への道を開いた。

Monochromatically driven two-level systems (i.e., Rabi models) are ubiquitous in various fields of physics. Though they have been exactly solved, the physical pictures in these exact solutions are not clear. Recently, approximate analytical solutions with neat physics have been obtained by using the counterrotating hybridized rotating wave (CHRW) method, which has been proven to be effective over a wider range of parameters than the previous analytical solutions. However, the CHRW depends on a parameter {\xi}, which has no solution in some regimes. Here we combine the double-unitary-transformation approach with the generalized Van Vleck nearly degenerate perturbation theory, and present approximate analytical results with clear physics for almost all parameter regimes, which agree well with the numerical solutions and the previous experimental results. Moreover, the dynamic frequencies of the Rabi model are regular, and the frequency with the highest Fourier amplitude changes from the Rabi frequency to 2n{\omega} with driving frequency {\omega} and integer n, as the driving intensity increases from weak to deep-strong. In addition, we further explore the Floquet dynamics of the dissipative open Rabi model. Remarkably, the dissipations are tunable in the rotating frame, and the approximate analytical results obtained by our method are in good agreement with the numerical results in the strong driving regime. These results pave the way to quantum control using strong and deep-strong driving with applications in quantum technologies.
翻訳日:2024-04-24 14:51:00 公開日:2024-04-23
# トライアル・アンド・エラーを超えて: モデレーション介入後のユーザ停止を予測する

Beyond Trial-and-Error: Predicting User Abandonment After a Moderation Intervention ( http://arxiv.org/abs/2404.14846v1 )

ライセンス: Link先を確認
Benedetta Tessa, Lorenzo Cima, Amaury Trujillo, Marco Avvenuti, Stefano Cresci, (参考訳) 現在のコンテンツモデレーションのプラクティスは、‘textit{trial-and-error}’アプローチに従っている。 しかし、介入の効果を事前に見積もることによって、モデレーターは適用前に自分の行動を計画する前例のない機会を得ることができる。 本研究は,この目標に向けた第一歩として,モデレーション介入の効果を予測する新しい課題を提案する。 Reddit上でのオンラインコミュニティの大規模な禁止に対する16,540人のユーザの反応を調査し、介入後にプラットフォームを放棄するユーザを特定するためにバイナリ分類器のセットをトレーニングします。 138万の投稿のデータセットを利用して、ユーザの活動、毒性、関係、書き込みスタイルに関する情報を伝達する、大規模で多様な142のフィーチャのセットを計算します。 我々は有望な結果を得ることができ、最良の性能モデルは \textit{micro F1} $= 0.800$ と \textit{macro F1} $= 0.676$ を達成する。 本モデルでは,これまで見つからなかったコミュニティのユーザに対して,ロバストな一般化性を示す。 さらに,アクティビティの特徴を最も情報に富む予測因子として認識し,それに続いてリレーショナルおよび毒性の特徴を呈し,書き込みスタイルの特徴は限られた有用性を示す。 本研究は,モデレーターの動作を計画するための知的ツールを用いたモデレーターの活用を目的とした,モデレーターによるコンテンツモデレーションにおける新たな研究方向の道を開くことによる,モデレーターの介入効果の予測の可能性を示すものである。

Current content moderation practices follow the \textit{trial-and-error} approach, meaning that moderators apply sequences of interventions until they obtain the desired outcome. However, being able to preemptively estimate the effects of an intervention would allow moderators the unprecedented opportunity to plan their actions ahead of application. As a first step towards this goal, here we propose and tackle the novel task of predicting the effect of a moderation intervention. We study the reactions of 16,540 users to a massive ban of online communities on Reddit, training a set of binary classifiers to identify those users who would abandon the platform after the intervention -- a problem of great practical relevance. We leverage a dataset of 13.8M posts to compute a large and diverse set of 142 features, which convey information about the activity, toxicity, relations, and writing style of the users. We obtain promising results, with the best-performing model achieving \textit{micro F1} $= 0.800$ and \textit{macro F1} $= 0.676$. Our model demonstrates robust generalizability when applied to users from previously unseen communities. Furthermore, we identify activity features as the most informative predictors, followed by relational and toxicity features, while writing style features exhibit limited utility. Our results demonstrate the feasibility of predicting the effects of a moderation intervention, paving the way for a new research direction in predictive content moderation aimed at empowering moderators with intelligent tools to plan ahead their actions.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# シンプルで効率的でスケーラブルな構造認識アダプタがタンパク質言語モデルを強化

Simple, Efficient and Scalable Structure-aware Adapter Boosts Protein Language Models ( http://arxiv.org/abs/2404.14850v1 )

ライセンス: Link先を確認
Yang Tan, Mingchen Li, Bingxin Zhou, Bozitao Zhong, Lirong Zheng, Pan Tan, Ziyi Zhou, Huiqun Yu, Guisheng Fan, Liang Hong, (参考訳) 微調整された事前学習されたタンパク質言語モデル(PLM)は、下流予測タスクを強化する重要な戦略として現れ、しばしば従来の教師付き学習手法よりも優れている。 自然言語処理における強力な技術として、パラメータ効率の良いファインチューニング技術を用いることで、PLMの性能が向上する可能性がある。 しかし, 生命科学の課題への直接的移行は, 異なるトレーニング戦略やデータ形式により容易ではない。 このギャップに対処するために,PLMの表現学習を強化するためのシンプルで効率的でスケーラブルなアダプタであるSES-Adapterを導入する。 SES-AdapterはPLM埋め込みと構造配列埋め込みを組み込んで構造認識表現を作成する。 提案手法は様々なPLMアーキテクチャと互換性があり,多様なタスクにまたがっていることを示す。 大規模な評価は、特筆すべき品質差のある2種類の折り畳み構造、9つの最先端ベースライン、異なる下流タスクにわたる9つのベンチマークデータセットに対して行われる。 その結果、バニラPLMと比較して、SES-Adapterは下流タスク性能を最大11%、平均3%向上させ、トレーニング速度を最大1034%、平均362%向上させ、収束率も約2倍向上した。 さらに、低品質な予測構造でも正の最適化が観測される。 SES-Adapterのソースコードはhttps://github.com/tyang816/SES-Adapterで入手できる。

Fine-tuning Pre-trained protein language models (PLMs) has emerged as a prominent strategy for enhancing downstream prediction tasks, often outperforming traditional supervised learning approaches. As a widely applied powerful technique in natural language processing, employing Parameter-Efficient Fine-Tuning techniques could potentially enhance the performance of PLMs. However, the direct transfer to life science tasks is non-trivial due to the different training strategies and data forms. To address this gap, we introduce SES-Adapter, a simple, efficient, and scalable adapter method for enhancing the representation learning of PLMs. SES-Adapter incorporates PLM embeddings with structural sequence embeddings to create structure-aware representations. We show that the proposed method is compatible with different PLM architectures and across diverse tasks. Extensive evaluations are conducted on 2 types of folding structures with notable quality differences, 9 state-of-the-art baselines, and 9 benchmark datasets across distinct downstream tasks. Results show that compared to vanilla PLMs, SES-Adapter improves downstream task performance by a maximum of 11% and an average of 3%, with significantly accelerated training speed by a maximum of 1034% and an average of 362%, the convergence rate is also improved by approximately 2 times. Moreover, positive optimization is observed even with low-quality predicted structures. The source code for SES-Adapter is available at https://github.com/tyang816/SES-Adapter.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# マッチングから生成へ:生成情報検索に関する調査

From Matching to Generation: A Survey on Generative Information Retrieval ( http://arxiv.org/abs/2404.14851v1 )

ライセンス: Link先を確認
Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yuyao Zhang, Peitian Zhang, Yutao Zhu, Zhicheng Dou, (参考訳) 情報検索システム(Information Retrieval、IR)は、ユーザーが情報にアクセスするための重要なツールであり、検索エンジン、質問応答、レコメンデーションシステムなどのシナリオに広く適用されている。 従来のIR手法は、文書のランク付けリストを返却する類似性マッチングに基づいており、情報取得の信頼性が高く、IR分野を支配してきた。 事前学習言語モデルの発展に伴い、生成情報検索(GenIR)は新たなパラダイムとして登場し、近年注目されている。 現在、GenIRの研究は、生成文書検索(GR)と信頼できる応答生成の2つの側面に分類できる。 GRは生成モデルのパラメータを利用して文書を記憶し、明示的なインデックス付けなしに関連する文書識別子を直接生成することで検索を可能にする。 一方、信頼性の高い応答生成は、ユーザーが求める情報を直接生成するために言語モデルを使用し、ドキュメントの粒度と関連性マッチングの点で従来のIRの限界を破り、柔軟性、効率、創造性を向上し、実用的なニーズを満たす。 本稿では,GenIRの最新研究動向を体系的にレビューすることを目的とする。 本稿では、モデルトレーニング、文書識別子、インクリメンタルラーニング、下流タスク適応、マルチモーダルGRおよびジェネレーティブレコメンデーションに関するGRの進歩と、内部知識記憶、外部知識増強、引用とパーソナル情報アシスタントによる応答生成における信頼性の高い応答生成の進展について要約する。 我々はまた、GenIRシステムの評価、課題、今後の展望についてもレビューする。 このレビューは、GenIR分野の研究者に包括的なリファレンスを提供することを目的としており、この分野のさらなる発展を奨励している。

Information Retrieval (IR) systems are crucial tools for users to access information, widely applied in scenarios like search engines, question answering, and recommendation systems. Traditional IR methods, based on similarity matching to return ranked lists of documents, have been reliable means of information acquisition, dominating the IR field for years. With the advancement of pre-trained language models, generative information retrieval (GenIR) has emerged as a novel paradigm, gaining increasing attention in recent years. Currently, research in GenIR can be categorized into two aspects: generative document retrieval (GR) and reliable response generation. GR leverages the generative model's parameters for memorizing documents, enabling retrieval by directly generating relevant document identifiers without explicit indexing. Reliable response generation, on the other hand, employs language models to directly generate the information users seek, breaking the limitations of traditional IR in terms of document granularity and relevance matching, offering more flexibility, efficiency, and creativity, thus better meeting practical needs. This paper aims to systematically review the latest research progress in GenIR. We will summarize the advancements in GR regarding model training, document identifier, incremental learning, downstream tasks adaptation, multi-modal GR and generative recommendation, as well as progress in reliable response generation in aspects of internal knowledge memorization, external knowledge augmentation, generating response with citations and personal information assistant. We also review the evaluation, challenges and future prospects in GenIR systems. This review aims to offer a comprehensive reference for researchers in the GenIR field, encouraging further development in this area.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# 簡易アノテーションを用いた非対称学習を用いた超音波結節分割法

Ultrasound Nodule Segmentation Using Asymmetric Learning with Simple Clinical Annotation ( http://arxiv.org/abs/2404.14852v1 )

ライセンス: Link先を確認
Xingyue Zhao, Zhongyu Li, Xiangde Luo, Peiqi Li, Peng Huang, Jianwei Zhu, Yang Liu, Jihua Zhu, Meng Yang, Shi Chang, Jun Dong, (参考訳) 近年のディープラーニングの進歩は, 結節形態解析に欠かせない超音波画像の自動分割を大いに促進している。 それにもかかわらず、既存のほとんどの手法は、労働集約的で時間を要する領域の専門家による広範囲かつ正確なアノテーションに依存している。 本研究では, 超音波診断から直接, 簡便なアスペクト比アノテーションを用いた結節分割法を提案する。 特に、アスペクト比アノテーションを2種類の擬似ラベル(保守的なラベルと急進的なラベル)で拡張し、2つの非対称セグメンテーションネットワークを同時に訓練することにより、非対称学習フレームワークを開発する。 その後、ラジカルバランス戦略(CRBS)が提案され、急進的なラベルと保守的なラベルを相補的に組み合わせられる。 2種類のラベルによる過密化と過密化の課題に対処するため、IDMPS(Inconsistency-aware mixed-labels supervision)モジュールが導入された。 臨床注記による空間的事前知識をさらに活用するために,臨床解剖学的先行損失という新たな損失関数を提示する。 臨床的に収集した2つの超音波データセット(甲状腺と乳房)に対する広範囲な実験により,提案手法の優れた性能が証明された。

Recent advances in deep learning have greatly facilitated the automated segmentation of ultrasound images, which is essential for nodule morphological analysis. Nevertheless, most existing methods depend on extensive and precise annotations by domain experts, which are labor-intensive and time-consuming. In this study, we suggest using simple aspect ratio annotations directly from ultrasound clinical diagnoses for automated nodule segmentation. Especially, an asymmetric learning framework is developed by extending the aspect ratio annotations with two types of pseudo labels, i.e., conservative labels and radical labels, to train two asymmetric segmentation networks simultaneously. Subsequently, a conservative-radical-balance strategy (CRBS) strategy is proposed to complementally combine radical and conservative labels. An inconsistency-aware dynamically mixed pseudo-labels supervision (IDMPS) module is introduced to address the challenges of over-segmentation and under-segmentation caused by the two types of labels. To further leverage the spatial prior knowledge provided by clinical annotations, we also present a novel loss function namely the clinical anatomy prior loss. Extensive experiments on two clinically collected ultrasound datasets (thyroid and breast) demonstrate the superior performance of our proposed method, which can achieve comparable and even better performance than fully supervised methods using ground truth annotations.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# 等価線形ニューラルネットワークの集合の幾何学

The Geometry of the Set of Equivalent Linear Neural Networks ( http://arxiv.org/abs/2404.14855v1 )

ライセンス: Link先を確認
Jonathan Richard Shewchuk, Sagnik Bhattacharya, (参考訳) 線形ニューラルネットワークが同じ線形変換を$W$で計算する全重みベクトルの集合の幾何学と位相を特徴づける。 この重みベクトルの集合は$W$(行列乗法写像の下で)のファイバーと呼ばれ、すべての可能な重みベクトルのユークリッド重み空間に埋め込まれる。 ファイバーは代数多様体であり、必ずしも多様体ではない。 ファイバーを成層化する自然な方法、すなわち代数多様体を成層と呼ばれる様々な次元の多様体の有限集合に分割する方法について述べる。 私たちはこの階層を階級階層と呼ぶ。 我々は、これらの層とそれらが互いに随伴する関係の次元を導出する。 層は解離するが、閉鎖はしない。 我々の成層はフロンティア条件を満たす:もし成層が他の成層を交差するならば、前の成層は後者の成層を閉鎖する部分である。 各層は、重み空間に埋め込まれたクラス$C^\infty$の多様体であるため、すべての点(重みベクトル)において、よく定義された接空間と正規空間を持つ。 我々は、その成層上の特定の点において、指定された成層に対して接かつ正規に接する部分空間を決定する方法を示し、それらの部分空間に対してエレガントな基底を構築する。 これらの目的を達成するために、我々はまず線形ニューラルネットワークの基本定理(英語版)と呼ばれるものを導出し、それはStrangが線形代数の基本定理(英語版)と呼ぶものに似ている。 線形ニューラルネットワークの各層をサブスペースの集合に分解し、ニューラルネットワークを通して情報がどのように流れるかを示す。 ファイバーの各層は、情報がニューラルネットワークを介して流れる(または流れに失敗する)異なるパターンを表す。 成層の位相は、この分解にのみ依存する。 また、その幾何学はウェイト空間の線型変換にまで達する。

We characterize the geometry and topology of the set of all weight vectors for which a linear neural network computes the same linear transformation $W$. This set of weight vectors is called the fiber of $W$ (under the matrix multiplication map), and it is embedded in the Euclidean weight space of all possible weight vectors. The fiber is an algebraic variety that is not necessarily a manifold. We describe a natural way to stratify the fiber--that is, to partition the algebraic variety into a finite set of manifolds of varying dimensions called strata. We call this set of strata the rank stratification. We derive the dimensions of these strata and the relationships by which they adjoin each other. Although the strata are disjoint, their closures are not. Our strata satisfy the frontier condition: if a stratum intersects the closure of another stratum, then the former stratum is a subset of the closure of the latter stratum. Each stratum is a manifold of class $C^\infty$ embedded in weight space, so it has a well-defined tangent space and normal space at every point (weight vector). We show how to determine the subspaces tangent to and normal to a specified stratum at a specified point on the stratum, and we construct elegant bases for those subspaces. To help achieve these goals, we first derive what we call a Fundamental Theorem of Linear Neural Networks, analogous to what Strang calls the Fundamental Theorem of Linear Algebra. We show how to decompose each layer of a linear neural network into a set of subspaces that show how information flows through the neural network. Each stratum of the fiber represents a different pattern by which information flows (or fails to flow) through the neural network. The topology of a stratum depends solely on this decomposition. So does its geometry, up to a linear transformation in weight space.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# 変分ベイズ代理モデリングとロバスト設計最適化への応用

Variational Bayesian surrogate modelling with application to robust design optimisation ( http://arxiv.org/abs/2404.14857v1 )

ライセンス: Link先を確認
Thomas A. Archbold, Ieva Kazlauskaite, Fehmi Cirak, (参考訳) サロゲートモデルは、複雑な計算モデルに対して素早く評価できる近似を提供し、設計最適化のようなマルチクエリー問題に必須である。 現在の計算モデルの入力は通常高次元かつ不確実である。 入力の不確かさと本質的な次元減少を伴う統計的代理を構築するためのベイズ推定について考察する。 これらのサロゲートは、一般的な決定論的計算モデルからのデータに適合して訓練される。 代理の仮定された事前確率密度はガウス過程である。 変分ベイズを用いた仮定統計モデルの各後続確率密度とパラメータを決定する。 非ガウス後部は自由変分パラメータを持つより単純な試行密度で近似し、それらの差分をKL(Kullback-Leibler)偏差を用いて測定する。 我々はKLの発散を最小化して変動パラメータや他の統計モデルパラメータを計算するために確率勾配法を用いる。 本研究では,モデル出力の平均および標準偏差の重み付け和に依存するコスト関数を用いた実測的かつ頑健な構造最適化問題に対して,提案した縮小次元変分ガウス過程(RDVGP)の精度と汎用性を示す。

Surrogate models provide a quick-to-evaluate approximation to complex computational models and are essential for multi-query problems like design optimisation. The inputs of current computational models are usually high-dimensional and uncertain. We consider Bayesian inference for constructing statistical surrogates with input uncertainties and intrinsic dimensionality reduction. The surrogates are trained by fitting to data from prevalent deterministic computational models. The assumed prior probability density of the surrogate is a Gaussian process. We determine the respective posterior probability density and parameters of the posited statistical model using variational Bayes. The non-Gaussian posterior is approximated by a simpler trial density with free variational parameters and the discrepancy between them is measured using the Kullback-Leibler (KL) divergence. We employ the stochastic gradient method to compute the variational parameters and other statistical model parameters by minimising the KL divergence. We demonstrate the accuracy and versatility of the proposed reduced dimension variational Gaussian process (RDVGP) surrogate on illustrative and robust structural optimisation problems with cost functions depending on a weighted sum of the mean and standard deviation of model outputs.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# mRNAコドン最適化のための資源効率変動量子アルゴリズム

A resource-efficient variational quantum algorithm for mRNA codon optimization ( http://arxiv.org/abs/2404.14858v1 )

ライセンス: Link先を確認
Hongfeng Zhang, Aritra Sarkar, Koen Bertels, (参考訳) mRNAコドンの最適化は特定の標的タンパク質の遺伝子発現に重要な影響を与える。 したがって、そのような最適化問題の正確な解法は、古典コンピュータと量子コンピュータの両方の現実的な問題サイズに対して計算的に難解になる。 しかし、ヒューリスティックスによる近似解は、それらが実現したアプリケーションに大きな影響を与える可能性がある。 量子近似最適化は、そのような問題に取り組むことを約束する代替計算パラダイムである。 近年、バイオインフォマティクス、特にmRNAコドン最適化のための量子アルゴリズムの研究が行われている。 本研究では,ゲート型量子コンピュータ上での変分量子固有解法アルゴリズムを用いて,mRNAコドン最適化を実装するためのコドンのエンコード方法を提案する。 これにより、既存の量子アプローチと比較して量子ビット要求を半分に減らし、既存の量子プロセッサ上でより長いシーケンスを実行することができる。 提案アルゴリズムの性能は,その結果を正確な解と比較することにより評価し,良好なマッチング結果を示す。

Optimizing the mRNA codon has an essential impact on gene expression for a specific target protein. It is an NP-hard problem; thus, exact solutions to such optimization problems become computationally intractable for realistic problem sizes on both classical and quantum computers. However, approximate solutions via heuristics can substantially impact the application they enable. Quantum approximate optimization is an alternative computation paradigm promising for tackling such problems. Recently, there has been some research in quantum algorithms for bioinformatics, specifically for mRNA codon optimization. This research presents a denser way to encode codons for implementing mRNA codon optimization via the variational quantum eigensolver algorithms on a gate-based quantum computer. This reduces the qubit requirement by half compared to the existing quantum approach, thus allowing longer sequences to be executed on existing quantum processors. The performance of the proposed algorithm is evaluated by comparing its results to exact solutions, showing well-matching results.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# 強化学習によるクリフォード+T回路の単元合成

Unitary Synthesis of Clifford+T Circuits with Reinforcement Learning ( http://arxiv.org/abs/2404.14865v1 )

ライセンス: Link先を確認
Sebastian Rietsch, Abhishek Y. Dubey, Christian Ufrecht, Maniraman Periyasamy, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, (参考訳) 本稿では,量子回路にユニタリを合成する深層強化学習手法を提案する。 ユニタリ合成は、回路深さ、総ゲート数、特定のゲート数、またはこれらの組み合わせを最小化しながら、与えられたユニタリを表す量子回路を特定することを目的としている。 過去の研究は主に連続ゲート集合に焦点を当ててきたが、パラメータフリーなクリフォード+Tゲート集合からユニタリを合成することは依然として困難である。 このタスクの時間的複雑さは、一般的なユニタリーのキュービット数では必然的に指数関数的であり続けるが、単純な問題インスタンスのランタイムを減らすことは、依然として大きな課題である。 本研究では,木探索法であるGumbel AlphaZeroを用いて,正確に合成可能なClifford+Tユニタリの部分集合の問題を解く。 提案手法では,最大60ゲートのランダム化量子回路の集合から最大5キュービットのユニタリを合成できる。 さらに、我々の推論時間は、平均して1つのGPU上で30秒程度であり、より高い量子ビット数に対して、最先端のアルゴリズムであるQuantumCircuitOptとMIN-T-SYNTHを上回っている。 我々の研究は、今後数年で開発される合成アルゴリズムの競争ベースラインを提供する。

This paper presents a deep reinforcement learning approach for synthesizing unitaries into quantum circuits. Unitary synthesis aims to identify a quantum circuit that represents a given unitary while minimizing circuit depth, total gate count, a specific gate count, or a combination of these factors. While past research has focused predominantly on continuous gate sets, synthesizing unitaries from the parameter-free Clifford+T gate set remains a challenge. Although the time complexity of this task will inevitably remain exponential in the number of qubits for general unitaries, reducing the runtime for simple problem instances still poses a significant challenge. In this study, we apply the tree-search method Gumbel AlphaZero to solve the problem for a subset of exactly synthesizable Clifford+T unitaries. Our approach can synthesize unitaries for up to five qubits generated from the set of randomized quantum circuits with up to 60 gates. Furthermore, our inference times are around 30 seconds on a single GPU on average, surpassing state-of-the-art algorithms QuantumCircuitOpt and MIN-T-SYNTH for higher qubit numbers. Our work provides a competitive baseline for synthesis algorithms to be developed in the upcoming years.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# EEGEncoder: Transformer-based Motor Imagery Classification によるBCIの改善

EEGEncoder: Advancing BCI with Transformer-Based Motor Imagery Classification ( http://arxiv.org/abs/2404.14869v1 )

ライセンス: Link先を確認
Wangdan Liao, (参考訳) 脳-コンピュータインタフェース(BCI)は、脳波信号を利用してデバイスを直接神経制御し、運動障害を持つ個人にとって大きな利益をもたらす。 脳波に基づく運動画像(MI)分類のための従来の機械学習手法は、手動の特徴抽出やノイズに対する感受性といった課題に遭遇する。 本稿では,これらの制限を克服するためにトランスフォーマーモデルを用いたディープラーニングフレームワークであるEEGEncoderを紹介する。 我々の革新的なマルチスケール融合アーキテクチャは、即時的特徴と拡張時的特徴の両方をキャプチャし、MIタスクの分類精度を向上させる。 EEGEncoderの主なイノベーションは、MI-EEG信号分類におけるトランスフォーマーの初歩的な応用、強化された一般化のための混合データ拡張戦略、洗練された予測精度のためのマルチタスク学習アプローチである。 BCIコンペティションIVデータセット2aでテストしたところ、我々のモデルは最先端のパフォーマンスで新しいベンチマークを確立しました。 EEGEncoderは、BCI技術を大幅に進歩させ、思考を行動に変換する堅牢で効率的で効果的なツールを提供し、BCIに依存している人々の生活の質を大幅に向上させる可能性を示している。

Brain-computer interfaces (BCIs) harness electroencephalographic signals for direct neural control of devices, offering a significant benefit for individuals with motor impairments. Traditional machine learning methods for EEG-based motor imagery (MI) classification encounter challenges such as manual feature extraction and susceptibility to noise. This paper introduces EEGEncoder, a deep learning framework that employs transformer models to surmount these limitations. Our innovative multi-scale fusion architecture captures both immediate and extended temporal features, thereby enhancing MI task classification precision. EEGEncoder's key innovations include the inaugural application of transformers in MI-EEG signal classification, a mixup data augmentation strategy for bolstered generalization, and a multi-task learning approach for refined predictive accuracy. When tested on the BCI Competition IV dataset 2a, our model established a new benchmark with its state-of-the-art performance. EEGEncoder signifies a substantial advancement in BCI technology, offering a robust, efficient, and effective tool for transforming thought into action, with the potential to significantly enhance the quality of life for those dependent on BCIs.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# スーパーマリオ:古いゲームでグリッチを分類する

Super Mario in the Pernicious Kingdoms: Classifying glitches in old games ( http://arxiv.org/abs/2404.14870v1 )

ライセンス: Link先を確認
Llewellyn Forward, Io Limmer, Joseph Hallett, Dan Page, (参考訳) 4つのクラシックなスーパーマリオゲームにまたがるケーススタディと、237個の既知のグリッチの分析では、スピードランナーによって悪用される様々な弱点を分類し、ゲームに素早く驚きの方法で勝てるようにします。 Seven Pernicious Kingdomsのソフトウェア欠陥分類とCommon Weakness Enumerationを使って、それらの弱点を分類する。 ゲーム特有の7つの新たな弱点を特定します。

In a case study spanning four classic Super Mario games and the analysis of 237 known glitches within them, we classify a variety of weaknesses that are exploited by speedrunners to enable them to beat games quickly and in surprising ways. Using the Seven Pernicious Kingdoms software defect taxonomy and the Common Weakness Enumeration, we categorize the glitches by the weaknesses that enable them. We identify 7 new weaknesses that appear specific to games and which are not covered by current software weakness taxonomies.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# アジャイルにおける人間とAIのコラボレーションを探る - カスタムLLMミーティングアシスタント

Exploring Human-AI Collaboration in Agile: Customised LLM Meeting Assistants ( http://arxiv.org/abs/2404.14871v1 )

ライセンス: Link先を確認
Beatriz Cabrero-Daniel, Tomas Herda, Victoria Pichler, Martin Eder, (参考訳) このアクションリサーチは、デイリースクラムとフィーチャーリファインメントという、社内のスケールドアジャイルフレームワークの一部である計画ミーティングという、2つのアジャイルソフトウェア開発ミーティングにおける"AIアシスタント"の統合に焦点を当てています。 成功の鍵となる要因について議論し、AIの使用とチームコラボレーションのダイナミクスのリンクを確立する。 産業的な文脈で学んだ教訓のリストを締めくくり、企業やチームがその準備レベルを反映する評価チェックリストを提供する。 この論文は、アジャイルのセットアップにおけるAIツールの統合を促進するためのロードマップである。

This action research study focuses on the integration of "AI assistants" in two Agile software development meetings: the Daily Scrum and a feature refinement, a planning meeting that is part of an in-house Scaled Agile framework. We discuss the critical drivers of success, and establish a link between the use of AI and team collaboration dynamics. We conclude with a list of lessons learnt during the interventions in an industrial context, and provide a assessment checklist for companies and teams to reflect on their readiness level. This paper is thus a road-map to facilitate the integration of AI tools in Agile setups.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# 繰り返し断面データを用いた微分方程式のパラメータ分布の推定

Estimating the Distribution of Parameters in Differential Equations with Repeated Cross-Sectional Data ( http://arxiv.org/abs/2404.14873v1 )

ライセンス: Link先を確認
Hyeontae Jo, Sung Woong Cho, Hyung Ju Hwang, (参考訳) 微分方程式は、様々なシステムの力学をモデル化し理解し、時系列データに適合したパラメータ推定を通じて将来の状態に関する洞察を提供する上で重要である。 経済、政治、生物学などの分野では、時系列における観測データポイントは独立して取得されることが多い(繰り返し断続データ(RCS))。 RCSデータを用いて、時間軌跡の平均値やガウス過程に基づく軌道生成など、微分方程式におけるパラメータ推定の従来の手法は、パラメータ分布の形状を推定するのに限界があり、しばしばデータ情報のかなりの損失をもたらすことがわかった。 この問題に対処するために,パラメータ分布推定(EPD)という新しい手法を導入し,パラメータの正確な分布をデータ情報を失うことなく提供する。 EPDは、各時点で観測された値をランダムに選択して合成時間軌跡を生成する、これらの軌跡と方程式の真の解との差を最小化する微分方程式のパラメータを推定し、誤差のスケールに応じてパラメータを選択する、という3つの主要なステップで機能する。 そこで我々は,指数的成長,ロジスティック人口モデル,遅延ウイルス生産による標的細胞限定モデルなど,複数のモデルにおけるEPDの性能を評価し,パラメータ分布の形状を捉える上で,その優位性を実証した。 さらに、実世界のデータセットにEPDを適用し、正規分布ではなくパラメータ分布の様々な形状をキャプチャした。 これらの結果はシステム内の不均一性に効果的に対処し、RCSデータを用いたシステムモデリングにおける相当な進歩を示している。

Differential equations are pivotal in modeling and understanding the dynamics of various systems, offering insights into their future states through parameter estimation fitted to time series data. In fields such as economy, politics, and biology, the observation data points in the time series are often independently obtained (i.e., Repeated Cross-Sectional (RCS) data). With RCS data, we found that traditional methods for parameter estimation in differential equations, such as using mean values of time trajectories or Gaussian Process-based trajectory generation, have limitations in estimating the shape of parameter distributions, often leading to a significant loss of data information. To address this issue, we introduce a novel method, Estimation of Parameter Distribution (EPD), providing accurate distribution of parameters without loss of data information. EPD operates in three main steps: generating synthetic time trajectories by randomly selecting observed values at each time point, estimating parameters of a differential equation that minimize the discrepancy between these trajectories and the true solution of the equation, and selecting the parameters depending on the scale of discrepancy. We then evaluated the performance of EPD across several models, including exponential growth, logistic population models, and target cell-limited models with delayed virus production, demonstrating its superiority in capturing the shape of parameter distributions. Furthermore, we applied EPD to real-world datasets, capturing various shapes of parameter distributions rather than a normal distribution. These results effectively address the heterogeneity within systems, marking a substantial progression in accurately modeling systems using RCS data.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# 過パラメータニューラルネットワークの最適化のための正規化ガウスニュートン

Regularized Gauss-Newton for Optimizing Overparameterized Neural Networks ( http://arxiv.org/abs/2404.14875v1 )

ライセンス: Link先を確認
Adeyemi D. Adeoye, Philipp Christian Petersen, Alberto Bemporad, (参考訳) 一般化されたガウスニュートン最適化法(GGN)は、解ステップに曲率推定を組み込み、大規模な最適化問題に対してニュートン法に優れた近似を与える。 GGNは、ニューラルネットワークの最適化と一般化特性を理解することを目的とした最近の研究の中心である、その顕著な収束速度だけでなく、ニューラル・タンジェント・カーネル・レグレッションとの密接な関係から、ディープ・ニューラルネットワークの実践的なトレーニングにおいて特に興味深い。 本研究では、2層ニューラルネットワークを明示的な正規化で最適化するGGN法について検討する。 特に、最適化問題の目的関数において、一般的に用いられるペナルティ項に対するスムーズな近似を提供する一般化自己協和関数(GSC)のクラスを考える。 このアプローチは、最適性能のチューニングをほとんど必要としない適応的な学習率選択技術を提供する。 本稿では,ネットワークパラメータの所定のスケーリングに対するGGN法の最適化ループにおいて,過パラメータ化と考えられる2層ニューラルネットワークの収束について検討する。 我々の数値実験は、最適化されたニューラルネットワークの一般化を改善するのに役立つGSC正則化の特定の側面を強調している。 実験結果を再現するコードはhttps://github.com/adeyemiadeoye/ggn-score-nnで公開されている。

The generalized Gauss-Newton (GGN) optimization method incorporates curvature estimates into its solution steps, and provides a good approximation to the Newton method for large-scale optimization problems. GGN has been found particularly interesting for practical training of deep neural networks, not only for its impressive convergence speed, but also for its close relation with neural tangent kernel regression, which is central to recent studies that aim to understand the optimization and generalization properties of neural networks. This work studies a GGN method for optimizing a two-layer neural network with explicit regularization. In particular, we consider a class of generalized self-concordant (GSC) functions that provide smooth approximations to commonly-used penalty terms in the objective function of the optimization problem. This approach provides an adaptive learning rate selection technique that requires little to no tuning for optimal performance. We study the convergence of the two-layer neural network, considered to be overparameterized, in the optimization loop of the resulting GGN method for a given scaling of the network parameters. Our numerical experiments highlight specific aspects of GSC regularization that help to improve generalization of the optimized neural network. The code to reproduce the experimental results is available at https://github.com/adeyemiadeoye/ggn-score-nn.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# 検索と分類の組み合わせ:重複バグレポート検出における効率と精度のバランス

Combining Retrieval and Classification: Balancing Efficiency and Accuracy in Duplicate Bug Report Detection ( http://arxiv.org/abs/2404.14877v1 )

ライセンス: Link先を確認
Qianru Meng, Xiao Zhang, Guus Ramackers, Visser Joost, (参考訳) Duplicate Bug Report Detection (DBRD) の領域では、従来の手法は主にバグデータベースを静的に解析することに焦点を当てており、しばしばモデルの実行時間を無視している。 この文脈では、高い精度のポテンシャルにもかかわらず、複雑なモデルは時間がかかり、より効率的なモデルは精度を損なう可能性がある。 この問題に対処するために,時間効率と精度性能のバランスをとるための変圧器ベースシステムを提案する。 既存の手法は、主に検索タスクまたは分類タスクとして扱う。 しかし、我々のハイブリッドアプローチは両方のモデルの強みを利用する。 検索モデルを利用することで、初期ソートを行い、候補集合を減らし、分類モデルによりより正確で正確な分類が可能となる。 検索および分類タスクによく用いられるモデルの評価において,文BERTとRoBERTaは検索および分類において,他のベースラインモデルよりも優れていた。 5つの公開データセット上で厳密な実験を行う。 その結果,本システムは分類モデルに匹敵する精度を保ち,時間効率で大幅に向上し,検索モデルよりもわずかに遅れていることが明らかとなった。

In the realm of Duplicate Bug Report Detection (DBRD), conventional methods primarily focus on statically analyzing bug databases, often disregarding the running time of the model. In this context, complex models, despite their high accuracy potential, can be time-consuming, while more efficient models may compromise on accuracy. To address this issue, we propose a transformer-based system designed to strike a balance between time efficiency and accuracy performance. The existing methods primarily address it as either a retrieval or classification task. However, our hybrid approach leverages the strengths of both models. By utilizing the retrieval model, we can perform initial sorting to reduce the candidate set, while the classification model allows for more precise and accurate classification. In our assessment of commonly used models for retrieval and classification tasks, sentence BERT and RoBERTa outperform other baseline models in retrieval and classification, respectively. To provide a comprehensive evaluation of performance and efficiency, we conduct rigorous experimentation on five public datasets. The results reveal that our system maintains accuracy comparable to a classification model, significantly outperforming it in time efficiency and only slightly behind a retrieval model in time, thereby achieving an effective trade-off between accuracy and efficiency.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# ニューロイメージング前処理戦略がその後の統計解析に与える影響を定量化するための感度解析

A sensitivity analysis to quantify the impact of neuroimaging preprocessing strategies on subsequent statistical analyses ( http://arxiv.org/abs/2404.14882v1 )

ライセンス: Link先を確認
Brize Ozenne, Martin Norgaard, Cyril Pernet, Melanie Ganz, (参考訳) 新しいイメージング技術は脳の構造と機能を研究するのに成功しているが、計測された生物学的信号は、スキャンされた個人のegヘッドの動き、空間分解能の制限、または各イメージング技術に特有の他の問題によって生じる複数のノイズ源によって汚染されることが多い。 したがって、データ前処理(例えばデノイング)が重要である。 前処理パイプラインは長年にわたって複雑化してきたが、柔軟性も向上しており、この柔軟性は、与えられた研究の最終結果と結論に重大な影響を与える可能性がある。 この大きなパラメータ空間は、しばしば多値解析(multiverse analysis)と呼ばれる。 ここでは、複数のパイプライン結果を集約する統計解析のための概念的および実践的なツールと、"すべてのパイプラインに影響を及ぼさない"や"影響のない少なくとも1つのパイプライン"といったパイプラインにまたがる仮説に対する新たな感度分析テストを提供する。 提案するフレームワークは汎用的で,任意の多面的シナリオに適用可能であるが,ポジトロン放射トモグラフィーデータに基づく利用例を示す。

Even though novel imaging techniques have been successful in studying brain structure and function, the measured biological signals are often contaminated by multiple sources of noise, arising due to e.g. head movements of the individual being scanned, limited spatial/temporal resolution, or other issues specific to each imaging technology. Data preprocessing (e.g. denoising) is therefore critical. Preprocessing pipelines have become increasingly complex over the years, but also more flexible, and this flexibility can have a significant impact on the final results and conclusions of a given study. This large parameter space is often referred to as multiverse analyses. Here, we provide conceptual and practical tools for statistical analyses that can aggregate multiple pipeline results along with a new sensitivity analysis testing for hypotheses across pipelines such as "no effect across all pipelines" or "at least one pipeline with no effect". The proposed framework is generic and can be applied to any multiverse scenario, but we illustrate its use based on positron emission tomography data.
翻訳日:2024-04-24 14:41:16 公開日:2024-04-23
# ヴィヴォ対シリコの言語:大きさは問題だが、より大きい言語モデルでは、人間と親しい関係にある言語をいまだに理解していない

Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans ( http://arxiv.org/abs/2404.14883v1 )

ライセンス: Link先を確認
Vittoria Dentella, Fritz Guenther, Evelina Leivada, (参考訳) 言語の限界を理解することは、Large Language Models (LLM) が自然言語の理論として機能する前提条件である。 いくつかの言語タスクにおけるLLM性能は、人間のそれと量的および質的な違いの両方を示すが、そのような違いがモデルサイズに影響を及ぼすかどうかは定かでない。 本研究は, モデルスケーリングにおける重要な役割を解明し, 人体とモデルの違いに応じてサイズが大きくなるかを決定する。 我々は, アナフォラ, 中心埋め込み, 比較, 負極性を含む文法的判断タスクにおいて, 異なる家系(Bard, 137億パラメータ; ChatGPT-3.5, 175億パラメータ; ChatGPT-4, 1.5兆パラメータ)のLSMを検証した。 N=1,200判定は、プロンプトの繰り返し提示による精度、安定性、精度の向上のために収集され、スコアされる。 最高のLDMであるChatGPT-4の結果は、同じ刺激のn=80人の結果と比較された。 モデルのサイズが大きくなると性能は向上するが、LLMは人間ほど(非)文法性に敏感ではない。 スケーリングだけでこの問題を解決できる可能性はあるが、ありそうにない。 言語学習をin vivoとsilicoで比較することでこれらの結果を解釈し,3つの重要な違いを同定する。 (i)証拠の種類 (二)刺激の貧困、及び 三 不可解な言語的言及による意味幻覚の発生

Understanding the limits of language is a prerequisite for Large Language Models (LLMs) to act as theories of natural language. LLM performance in some language tasks presents both quantitative and qualitative differences from that of humans, however it remains to be determined whether such differences are amenable to model size. This work investigates the critical role of model scaling, determining whether increases in size make up for such differences between humans and models. We test three LLMs from different families (Bard, 137 billion parameters; ChatGPT-3.5, 175 billion; ChatGPT-4, 1.5 trillion) on a grammaticality judgment task featuring anaphora, center embedding, comparatives, and negative polarity. N=1,200 judgments are collected and scored for accuracy, stability, and improvements in accuracy upon repeated presentation of a prompt. Results of the best performing LLM, ChatGPT-4, are compared to results of n=80 humans on the same stimuli. We find that increased model size may lead to better performance, but LLMs are still not sensitive to (un)grammaticality as humans are. It seems possible but unlikely that scaling alone can fix this issue. We interpret these results by comparing language learning in vivo and in silico, identifying three critical differences concerning (i) the type of evidence, (ii) the poverty of the stimulus, and (iii) the occurrence of semantic hallucinations due to impenetrable linguistic reference.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 多レベルアライメントによるドメイン適応ポーズ推定

Domain adaptive pose estimation via multi-level alignment ( http://arxiv.org/abs/2404.14885v1 )

ライセンス: Link先を確認
Yugan Chen, Lin Zhao, Yalong Xu, Honglei Zu, Xiaoqi An, Guangyu Li, (参考訳) ドメイン適応ポーズ推定は、ソースドメイン(合成された)データセットでトレーニングされたディープモデルが、ターゲットドメイン(現実世界)データセットで同様の結果を生成することを目的としている。 既存の手法は、画像レベルのアライメントや特徴レベルのアライメントを実行することで大きな進歩を遂げている。 しかし、単一のレベルで整列するだけでは、ドメインギャップを完全にブリッジし、優れたドメイン適応結果を得るには不十分です。 本稿では,画像,特徴,ポーズレベルに異なる領域をアライメントするマルチレベルドメイン適応アプラッハを提案する。 具体的には、まず、ソースとターゲットドメインの画像が同じ分布であることを保証するために、イメージスタイルトランスを用いる。 続いて、特徴レベルにおいて、ソースとターゲットドメインからの特徴を最大限に保存するために、敵の訓練を実践する。 最後に、ポーズレベルでは、モデルがさまざまな知識を学習し、ドメインギャップに暗黙的に対処できるように、自己監督的なアプローチが利用されます。 実験の結果, 提案手法により, 従来のヒトのポーズでは2.4%, 動物のポーズでは3.1%, ヒツジでは1.4%と有意な改善が得られた。

Domain adaptive pose estimation aims to enable deep models trained on source domain (synthesized) datasets produce similar results on the target domain (real-world) datasets. The existing methods have made significant progress by conducting image-level or feature-level alignment. However, only aligning at a single level is not sufficient to fully bridge the domain gap and achieve excellent domain adaptive results. In this paper, we propose a multi-level domain adaptation aproach, which aligns different domains at the image, feature, and pose levels. Specifically, we first utilize image style transer to ensure that images from the source and target domains have a similar distribution. Subsequently, at the feature level, we employ adversarial training to make the features from the source and target domains preserve domain-invariant characeristics as much as possible. Finally, at the pose level, a self-supervised approach is utilized to enable the model to learn diverse knowledge, implicitly addressing the domain gap. Experimental results demonstrate that significant imrovement can be achieved by the proposed multi-level alignment method in pose estimation, which outperforms previous state-of-the-art in human pose by up to 2.4% and animal pose estimation by up to 3.1% for dogs and 1.4% for sheep.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# GCEPNet: 大規模なMIMO検出のためのグラフ畳み込みによる期待の伝播

GCEPNet: Graph Convolution-Enhanced Expectation Propagation for Massive MIMO Detection ( http://arxiv.org/abs/2404.14886v1 )

ライセンス: Link先を確認
Qincheng Lu, Sitao Luan, Xiao-Wen Chang, (参考訳) 大規模MIMO(multiple-input multiple-output)検出は無線通信において重要な課題であり,近年,様々な機械学習手法が開発されている。 期待伝搬(EP)とその変種はMIMO検出に広く用いられ、最高の性能を実現している。 しかし、EPベースの解法は未知変数間の相関を捉えず、情報が失われ、計算コストがかかる。 本稿では,実値系をグラフ上のスペクトル信号畳み込みとしてモデル化し,未知変数間の相関を捉えることができることを示す。 この分析に基づいて,グラフ畳み込み強化EP検出器GCEPNetを提案する。 GCEPNetは、より優れた一般化能力を持つ強力なグラフ畳み込みのために、データ依存の注意スコアをチェビシェフ多項式に組み込む。 これにより、EPのキャビティ分布をよりよく推定し、より高速な推論速度で、最先端(SOTA)MIMO検出性能を実証的に達成することができる。 我々の知る限りでは、私たちはシステムモデルとグラフ畳み込みの関連性を最初に明らかにし、グラフ畳み込みのためのデータ依存の注目スコアを最初に設計しました。

Massive MIMO (multiple-input multiple-output) detection is an important topic in wireless communication and various machine learning based methods have been developed recently for this task. Expectation propagation (EP) and its variants are widely used for MIMO detection and have achieved the best performance. However, EP-based solvers fail to capture the correlation between unknown variables, leading to loss of information, and in addition, they are computationally expensive. In this paper, we show that the real-valued system can be modeled as spectral signal convolution on graph, through which the correlation between unknown variables can be captured. Based on this analysis, we propose graph convolution-enhanced expectation propagation (GCEPNet), a graph convolution-enhanced EP detector. GCEPNet incorporates data-dependent attention scores into Chebyshev polynomial for powerful graph convolution with better generalization capacity. It enables a better estimation of the cavity distribution for EP and empirically achieves the state-of-the-art (SOTA) MIMO detection performance with much faster inference speed. To our knowledge, we are the first to shed light on the connection between the system model and graph convolution, and the first to design the data-dependent attention scores for graph convolution.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 結合モードセットアップの自動発見

Automated Discovery of Coupled Mode Setups ( http://arxiv.org/abs/2404.14887v1 )

ライセンス: Link先を確認
Jonas Landgraf, Vittorio Peano, Florian Marquardt, (参考訳) 光学やフォトニクスにおいて、共振器、導波路、任意の結合、パラメトリック相互作用のような少数の構成要素は、様々なデバイスや機能の設計を可能にし、散乱特性によって区別される。 これにはトランスデューサ、増幅器、アイソレータやサーキュレータのような非相互デバイスが含まれる。 通常、そのようなシステムの設計は経験豊富な科学者によって、最も単純な可能性が実際に見つかったかどうかが定かでない時間を要するプロセスで手作りされる。 我々の研究では、この課題を自動化する発見アルゴリズムを開発しました。 連続的および離散的なシステム特性を最適化することにより、自動検索は、要求された散乱挙動を実現するために必要な最小限のリソースを特定する。 人工的な科学的発見の精神では、解釈可能な解の完全なリストを生成し、いくつかの例で示すように、一般化可能な洞察をもたらす。 これにより、フォトニックやマイクロ波アーキテクチャやオプティメニクスといった分野において、迅速なデザインへの扉が開けることになる。

In optics and photonics, a small number of building blocks, like resonators, waveguides, arbitrary couplings, and parametric interactions, allow the design of a broad variety of devices and functionalities, distinguished by their scattering properties. These include transducers, amplifiers, and nonreciprocal devices, like isolators or circulators. Usually, the design of such a system is handcrafted by an experienced scientist in a time-consuming process where it remains uncertain whether the simplest possibility has indeed been found. In our work, we develop a discovery algorithm that automates this challenge. By optimizing the continuous and discrete system properties our automated search identifies the minimal resources required to realize the requested scattering behavior. In the spirit of artificial scientific discovery, it produces a complete list of interpretable solutions and leads to generalizable insights, as we illustrate in several examples. This now opens the door to rapid design in areas like photonic and microwave architectures or optomechanics.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# DENOISER:オープンボキャブラリ動作認識におけるロバスト性の再考

DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition ( http://arxiv.org/abs/2404.14890v1 )

ライセンス: Link先を確認
Haozhe Cheng, Cheng Ju, Haicheng Wang, Jinxiang Liu, Mengting Chen, Qiang Hu, Xiaoyun Zhang, Yanfeng Wang, (参考訳) コンピュータビジョンにおける基本的なビデオタスクの1つとして、OVAR(Open-Vocabulary Action Recognition)が近年注目され、視覚言語による事前学習の開発が進んでいる。 任意のクラスを一般化するために、既存のメソッドはクラスラベルをテキスト記述として扱い、次にOVARを視覚サンプルとテキストクラスとの埋め込み類似性の評価として定式化する。 しかし、1つの重要な問題は完全に無視されている: ユーザが与えるクラス記述はノイズ、例えば、ミススペル、タイポであり、バニラOVARの現実的な実用性を制限する。 研究ギャップを埋めるために,様々な種類のマルチレベルノイズをシミュレートして既存手法の評価を行い,そのロバスト性について述べる。 ノイズの多いOVAR課題に対処するため、我々はさらに、生成と識別の2つの部分をカバーする新しいDenoiserフレームワークを提案する。 具体的には、生成部は、1つの復号処理、すなわちテキスト候補を提案することによって、ノイズの多いクラステキスト名を偽装し、その後、モダル間およびモダル内情報を用いてベストを投票する。 識別部分では、バニラOVARモデルを使用して、ビジュアルサンプルをクラステキスト名に割り当て、より多くのセマンティクスを取得する。 最適化のために, プログレッシブ・リファインメントのための生成部品と識別部品を交互に反復する。 分類されたテキストクラスは、OVARモデルが視覚サンプルをより正確に分類するのに役立つ。 3つのデータセットにおいて、優れた堅牢性を示す広範囲な実験を行い、各コンポーネントの有効性を識別するための徹底的な改善を行った。

As one of the fundamental video tasks in computer vision, Open-Vocabulary Action Recognition (OVAR) recently gains increasing attention, with the development of vision-language pre-trainings. To enable generalization of arbitrary classes, existing methods treat class labels as text descriptions, then formulate OVAR as evaluating embedding similarity between visual samples and textual classes. However, one crucial issue is completely ignored: the class descriptions given by users may be noisy, e.g., misspellings and typos, limiting the real-world practicality of vanilla OVAR. To fill the research gap, this paper pioneers to evaluate existing methods by simulating multi-level noises of various types, and reveals their poor robustness. To tackle the noisy OVAR task, we further propose one novel DENOISER framework, covering two parts: generation and discrimination. Concretely, the generative part denoises noisy class-text names via one decoding process, i.e., propose text candidates, then utilize inter-modal and intra-modal information to vote for the best. At the discriminative part, we use vanilla OVAR models to assign visual samples to class-text names, thus obtaining more semantics. For optimization, we alternately iterate between generative and discriminative parts for progressive refinements. The denoised text classes help OVAR models classify visual samples more accurately; in return, classified visual samples help better denoising. On three datasets, we carry out extensive experiments to show our superior robustness, and thorough ablations to dissect the effectiveness of each component.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 量子論における等価関係--基底と分解の客観的な説明

Equivalence Relations in Quantum Theory: An Objective Account of Bases and Factorizations ( http://arxiv.org/abs/2404.14891v1 )

ライセンス: Link先を確認
Christian de Ronde, Raimundo Fernandez Moujan, Cesar Massri, (参考訳) 正統的な標準量子力学(SQM)の基底と分解は、相対論的用語で量子状態と絡み合いを定義するものとして考えられている。 基底の選択(測定コンテキストとして解釈される)は、同じ状態と異なる基底で非互換な状態を定義するが、分解の選択(システムのサブシステムへの分離性として解釈される)は、同じ状態が絡み合っているか非絡み合っているかを判断する。 もちろん、参照フレームや分解に関するこのパースペクティブ相対論は、量子粒子への広範な参照だけでなく、より一般的には、一般的な問題状態に関する合理的な客観的な説明の可能性を妨げている。 この不合理性は1930年代にSQMが確立されて以来、現代の量子物理学が続いてきた器楽主義者(反現実主義者)のアプローチを正当化する。 反対に、この研究において、ロゴの QM へのカテゴリー的アプローチ(基本的には、ディラックの射影仮説を含まないハイゼンベルクの行列の定式化)を立場として、基底と分解の不変性を提供し、数学的形式と量子現象の間の概念的操作的ブリッジを構築することができる。 この文脈では、同値関係の集合に対処することができ、異なる基底と分解において実際に同じものを決定することができる。

In orthodox Standard Quantum Mechanics (SQM) bases and factorizations are considered to define quantum states and entanglement in relativistic terms. While the choice of a basis (interpreted as a measurement context) defines a state incompatible to that same state in a different basis, the choice of a factorization (interpreted as the separability of systems into sub-systems) determines wether the same state is entangled or non-entangled. Of course, this perspectival relativism with respect to reference frames and factorizations precludes not only the widespread reference to quantum particles but more generally the possibility of any rational objective account of a state of affairs in general. In turn, this impossibility ends up justifying the instrumentalist (anti-realist) approach that contemporary quantum physics has followed since the establishment of SQM during the 1930s. In contraposition, in this work, taking as a standpoint the logos categorical approach to QM -- basically, Heisenberg's matrix formulation without Dirac's projection postulate -- we provide an invariant account of bases and factorizations which allows us to to build a conceptual-operational bridge between the mathematical formalism and quantum phenomena. In this context we are able to address the set of equivalence relations which allows us to determine what is actually the same in different bases and factorizations.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 2次元ハバード系におけるヒルベルト空間の断片化とフラクトン励起の観測

Observation of Hilbert-space fragmentation and fractonic excitations in two-dimensional Hubbard systems ( http://arxiv.org/abs/2404.14896v1 )

ライセンス: Link先を確認
Daniel Adler, David Wei, Melissa Will, Kritsana Srakaew, Suchita Agrawal, Pascal Weckesser, Roderich Moessner, Frank Pollmann, Immanuel Bloch, Johannes Zeiher, (参考訳) 平衡から取り出された孤立量子系の緩和挙動は、多体物理学において最も興味深い問題の一つである。 平衡状態の量子系は通常、局所的な情報を揺らぎ、絡み合いのエントロピーを構築することで熱平衡状態に緩和する。 しかし、ハミルトニアンの速度論的制約は、熱化が強く抑制されるような動的に分離された部分セクターへのヒルベルト空間の断片化によって、この基本パラダイムの分解につながる。 ここでは、ヒルベルト空間の断片化(HSF)を2次元傾斜ボース・ハッバードモデルで実験的に観察する。 量子ガス顕微鏡を用いて、我々は様々な初期状態を設計し、バルク状態、界面、欠陥、すなわちd = 2, 1 および 0 次元の物体を含む HSF の豊富な表象を見つける。 具体的には、同じ粒子数とエネルギーを持つ一様初期状態は、緩和力学において著しく異なる。 大域的・非熱的ケカーボード状態上における制御欠陥を挿入し、そのフラクトロニックな性質の即時的シグネチャとして、高度に異方性なサブ次元力学を観察する。 局所化状態と加熱状態の間の界面は、向きに応じて動的に表示される。 この結果は,HSFの1次元を超える初めての観察であり,フラクトンを直接観察すると同時に,制約系における微視的輸送現象の詳細な研究の道を開くものである。

The relaxation behaviour of isolated quantum systems taken out of equilibrium is among the most intriguing questions in many-body physics. Quantum systems out of equilibrium typically relax to thermal equilibrium states by scrambling local information and building up entanglement entropy. However, kinetic constraints in the Hamiltonian can lead to a breakdown of this fundamental paradigm due to a fragmentation of the underlying Hilbert space into dynamically decoupled subsectors in which thermalisation can be strongly suppressed. Here, we experimentally observe Hilbert space fragmentation (HSF) in a two-dimensional tilted Bose-Hubbard model. Using quantum gas microscopy, we engineer a wide variety of initial states and find a rich set of manifestations of HSF involving bulk states, interfaces and defects, i.e., d = 2, 1 and 0 dimensional objects. Specifically, uniform initial states with equal particle number and energy differ strikingly in their relaxation dynamics. Inserting controlled defects on top of a global, non-thermalising chequerboard state, we observe highly anisotropic, sub-dimensional dynamics, an immediate signature of their fractonic nature. An interface between localized and thermalising states in turn displays dynamics depending on its orientation. Our results mark the first observation of HSF beyond one dimension, as well as the concomitant direct observation of fractons, and pave the way for in-depth studies of microscopic transport phenomena in constrained systems
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 投機的ゲームを超えて:大規模言語モデルにおける投機的実行に関する調査

Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models ( http://arxiv.org/abs/2404.14897v1 )

ライセンス: Link先を確認
Chen Zhang, Zhuorui Liu, Dawei Song, (参考訳) 巨大な(因果的な)大規模言語モデル(LLM)の規模が拡大するにつれ、推論効率は、パフォーマンス改善に伴う中核的な懸念の1つとなる。 メモリフットプリントとは対照的に、LLM (eg , GPT-4) に対する数十億の要求があるため、レイテンシのボトルネックはより重要であるように思われる。 ボトルネックは主にLLMの自己回帰的自然性によるもので、トークンは復号時にのみ順次生成できる。 ボトルネックを軽減するため、コンピュータアーキテクチャの分野から派生した投機的実行の概念が、textit{draft-then-verify}スタイルでLLM復号化に導入された。 この体制下では、トークンの列は、いくつかのヒューリスティックを利用して高速なペースで起草され、その後、トークンはLCMによって並列に検証される。 コストのかかるシーケンシャル推論が並列化されるため、LCM復号速度を大幅に向上させることができる。 近年のLSMの成功によって、この方向の文献が増大しています。 しかし、現在の状況を要約し、この将来的な領域の開発のためのロードマップを描くようなポジションサーベイは欠如している。 この要求を満たすため、我々はLLMにおける投機的実行の文献(ブロックワイド並列復号、投機的復号など)を総合的な枠組みと体系的な分類でレビューし、統一する最初の調査論文を提示する。 分類学に基づいて,現代美術の批判的レビューと比較分析を行う。 最後に、この領域をさらに発展させるために、様々な重要な課題と今後の方向性を強調します。

With the increasingly giant scales of (causal) large language models (LLMs), the inference efficiency comes as one of the core concerns along the improved performance. In contrast to the memory footprint, the latency bottleneck seems to be of greater importance as there can be billions of requests to a LLM (e.g., GPT-4) per day. The bottleneck is mainly due to the autoregressive innateness of LLMs, where tokens can only be generated sequentially during decoding. To alleviate the bottleneck, the idea of speculative execution, which originates from the field of computer architecture, is introduced to LLM decoding in a \textit{draft-then-verify} style. Under this regime, a sequence of tokens will be drafted in a fast pace by utilizing some heuristics, and then the tokens shall be verified in parallel by the LLM. As the costly sequential inference is parallelized, LLM decoding speed can be significantly boosted. Driven by the success of LLMs in recent couple of years, a growing literature in this direction has emerged. Yet, there lacks a position survey to summarize the current landscape and draw a roadmap for future development of this promising area. To meet this demand, we present the very first survey paper that reviews and unifies literature of speculative execution in LLMs (e.g., blockwise parallel decoding, speculative decoding, etc.) in a comprehensive framework and a systematic taxonomy. Based on the taxonomy, we present a critical review and comparative analysis of the current arts. Finally we highlight various key challenges and future directions to further develop the area.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# マヨラナ境界状態の絡み合い対策

Entanglement measures of Majorana bound states ( http://arxiv.org/abs/2404.14900v1 )

ライセンス: Link先を確認
Vimalesh Kumar Vimal, Jorge Cayao, (参考訳) マヨナ境界状態は、空間的非局所性を示すゼロエネルギーエッジ状態として、トポロジカル超伝導体に現れる。 大きな進歩にもかかわらず、マヨラナ境界状態の検出は、主にトポロジカルに自明なアンドレーエフ境界状態が同様のシグネチャを生成するため、依然として困難である。 本研究では、マヨラナ境界状態が量子ドットに結合したトポロジカル超伝導体について検討し、量子相関のダイナミクスを解明し、その絡み合う性質を探求する。 特に,コンカレンスと不協和を利用して絡み合いを特徴付けるが,これは絡み合いのダイナミクスや戻り確率によって補足される。 真にゼロエネルギーのマヨラナ束縛状態は、初期絡み合った系を古典状態に変換することができ、一方で有限エネルギー重なりで最大絡み合った状態を生成することができる。 興味深いことに、このシステムはMajorana非局所性を制御するだけで、MBSと量子ドットの間の最大絡み合った状態を生成することができる。 これらの結果は、初期状態が最大絡み合っているか分離可能であるかのシナリオで成り立つが、後者の最大絡み合っている状態は長時間の力学において達成される。 さらに,本研究は,通常のフェルミオンによって生成されたものと対比し,全く異なるエンタングルメントシグネチャを得る。 我々の研究はマヨラナ境界状態を特徴づける代替手法を提供しており、量子情報タスクの利用にも有用である。

Majorana bound states emerge in topological superconductors as zero-energy edge states exhibiting spatial nonlocality. Despite the enormous advances, the detection of Majorana bound states is still challenging mainly because topologically trivial Andreev bound states produce similar signatures. In this work we consider a topological superconductor with Majorana bound states coupled to quantum dots and investigate the dynamics of their quantum correlations with the aim to explore their entanglement properties. In particular, we characterize entanglement by using concurrence and discord, which are also complemented by the entanglement dynamics and return probability. We find that Majorana bound states at truly zero energy can transform an initially entangled system into its classical state, while they can create maximally entangled states at a finite energy overlap. Interestingly, we show that the system can generate a maximally entangled state between MBSs and a quantum dot by simply controlling the Majorana nonlocality. We demonstrate that these results hold in the scenarios when the initial state is either maximally entangled or separable, albeit in the latter maximally entangled states are achieved in the long time dynamics. Furthermore, we contrast our findings with those produced by a regular fermion and obtain very distinct entanglement signatures. Our work offers an alternative approach to characterize Majorana bound states, which can be also useful towards their utilization for quantum information tasks.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# コード生成を超えて - ソフトウェアエンジニアリングの実践におけるChatGPT利用の観察的研究

Beyond Code Generation: An Observational Study of ChatGPT Usage in Software Engineering Practice ( http://arxiv.org/abs/2404.14901v1 )

ライセンス: Link先を確認
Ranim Khojah, Mazen Mohamad, Philipp Leitner, Francisco Gomes de Oliveira Neto, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア工学を含むテキスト生成に依存した事実上あらゆるユースケースのサポートツールとして、学術や一般において頻繁に議論されている。 現在、業界エンジニア向けのChatGPTのようなLLMベースのツールの実用性について、多くの議論があるが、実証的な証拠はほとんどない。 我々は、ChatGPTを仕事で1週間使用した24人のプロソフトウェアエンジニアの観察研究を行い、チャットボットとの対話や全体的な経験(出口調査で捉えたように)を質的に分析する。 ChatGPTが使えるソフトウェアアーティファクト(例えばコード)を生成することを期待してはいないが、実践者はChatGPTを使ってタスクの解決方法やトピックについてより抽象的な言葉で学ぶことが多い。 理論的枠組みも提案する。 i) 相互作用の目的, (ii)内部要因(例えば、利用者の性格)、 三 外部要因(例:企業方針)を合わせて経験(有用性及び信頼の面で)を形成すること。 我々は,我々のフレームワークを将来の研究で活用して,ソフトウェア工学の実践者によるLLM利用に関する学術的な議論をさらに進めるとともに,この領域における将来の実証的なLLM研究の設計の基準点として機能することを期待している。

Large Language Models (LLMs) are frequently discussed in academia and the general public as support tools for virtually any use case that relies on the production of text, including software engineering. Currently there is much debate, but little empirical evidence, regarding the practical usefulness of LLM-based tools such as ChatGPT for engineers in industry. We conduct an observational study of 24 professional software engineers who have been using ChatGPT over a period of one week in their jobs, and qualitatively analyse their dialogues with the chatbot as well as their overall experience (as captured by an exit survey). We find that, rather than expecting ChatGPT to generate ready-to-use software artifacts (e.g., code), practitioners more often use ChatGPT to receive guidance on how to solve their tasks or learn about a topic in more abstract terms. We also propose a theoretical framework for how (i) purpose of the interaction, (ii) internal factors (e.g., the user's personality), and (iii) external factors (e.g., company policy) together shape the experience (in terms of perceived usefulness and trust). We envision that our framework can be used by future research to further the academic discussion on LLM usage by software engineering practitioners, and to serve as a reference point for the design of future empirical LLM research in this domain.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 視覚言語モデルからの一般化可能な表現を用いたドライバアクティビティの分類

Driver Activity Classification Using Generalizable Representations from Vision-Language Models ( http://arxiv.org/abs/2404.14906v1 )

ライセンス: Link先を確認
Ross Greer, Mathias Viborg Andersen, Andreas Møgelmose, Mohan Trivedi, (参考訳) ドライバーアクティビティの分類は、運転支援システムから自動運転車制御移行に至るまで、道路安全を確保するために不可欠である。 本稿では,視覚言語モデルからの一般化可能な表現をドライバ活動分類に活用する新しい手法を提案する。 複数の視点から映像フレームの同期処理を行うために,Semantic Representation Late Fusion Neural Network (SRLF-Net) を用いる。 各フレームは事前訓練された視覚言語エンコーダを用いて符号化され、その結果の埋め込みは融合してクラス確率予測を生成する。 対照的に学習した視覚言語表現を利用することで,多様なドライバー活動における堅牢な性能を実現する。 本研究では,多くのクラスにまたがって高い精度を示す自然主義運転行動認識データセットについて評価を行った。 この結果から,視覚言語表現はドライバ監視システムにとって有望な手段であり,自然言語記述子による精度と解釈性の両方を提供すると考えられる。

Driver activity classification is crucial for ensuring road safety, with applications ranging from driver assistance systems to autonomous vehicle control transitions. In this paper, we present a novel approach leveraging generalizable representations from vision-language models for driver activity classification. Our method employs a Semantic Representation Late Fusion Neural Network (SRLF-Net) to process synchronized video frames from multiple perspectives. Each frame is encoded using a pretrained vision-language encoder, and the resulting embeddings are fused to generate class probability predictions. By leveraging contrastively-learned vision-language representations, our approach achieves robust performance across diverse driver activities. We evaluate our method on the Naturalistic Driving Action Recognition Dataset, demonstrating strong accuracy across many classes. Our results suggest that vision-language representations offer a promising avenue for driver monitoring systems, providing both accuracy and interpretability through natural language descriptors.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 自己監督単分子深度推定における動的領域のマイニング・スーパービジョン

Mining Supervision for Dynamic Regions in Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2404.14908v1 )

ライセンス: Link先を確認
Hoang Chuong Nguyen, Tianyu Wang, Jose M. Alvarez, Miaomiao Liu, (参考訳) 本稿では,モノクラー映像を用いた動的シーンにおける自己教師付きモノクラー深度推定に焦点を当てた。 既存の手法では、画像再構成損失を中心に、画素の深さと動きを共同で推定する。 動的領域1は、深さのあいまいさと動きの推定によって不正確な深さ推定をもたらすため、これらの手法にとって重要な課題である。 本稿では,動的領域に対する擬似深度ラベルをトレーニングデータから活用する自己教師型トレーニングフレームワークを提案する。 このフレームワークの主な貢献は、トレーニングデータ中の画像の静的領域と動的領域の深さ推定を分離することである。 まず、静的領域に対する信頼性の高い深さ推定と動的領域に対する動作キューを提供し、インスタンスレベルで移動対象情報を抽出できるようにする、教師なしの深さ推定手法から始める。 次の段階では、剛体運動を仮定した移動物体の深さを推定するためにオブジェクトネットワークを用いる。 そこで本稿では,静的領域と動的領域における推定深度間のスケールのあいまいさに対処する,新しいスケールアライメントモジュールを提案する。 次に、生成した深度ラベルを用いて、エンドツーエンドの深度推定ネットワークをトレーニングし、その性能を向上させる。 CityscapesとKITTIデータセットの大規模な実験は、我々の自己学習戦略が既存の自己監督深度推定方法より一貫して優れていることを示している。

This paper focuses on self-supervised monocular depth estimation in dynamic scenes trained on monocular videos. Existing methods jointly estimate pixel-wise depth and motion, relying mainly on an image reconstruction loss. Dynamic regions1 remain a critical challenge for these methods due to the inherent ambiguity in depth and motion estimation, resulting in inaccurate depth estimation. This paper proposes a self-supervised training framework exploiting pseudo depth labels for dynamic regions from training data. The key contribution of our framework is to decouple depth estimation for static and dynamic regions of images in the training data. We start with an unsupervised depth estimation approach, which provides reliable depth estimates for static regions and motion cues for dynamic regions and allows us to extract moving object information at the instance level. In the next stage, we use an object network to estimate the depth of those moving objects assuming rigid motions. Then, we propose a new scale alignment module to address the scale ambiguity between estimated depths for static and dynamic regions. We can then use the depth labels generated to train an end-to-end depth estimation network and improve its performance. Extensive experiments on the Cityscapes and KITTI datasets show that our self-training strategy consistently outperforms existing self/unsupervised depth estimation methods.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# MultiSTOP:強化学習による関数方程式の解法

MultiSTOP: Solving Functional Equations with Reinforcement Learning ( http://arxiv.org/abs/2404.14909v1 )

ライセンス: Link先を確認
Alessandro Trenta, Davide Bacciu, Andrea Cossu, Pietro Ferrero, (参考訳) 物理学における関数方程式を解くための強化学習フレームワークであるMultiSTOPを開発した。 この新しい手法は境界ではなく実際の数値解を生成する。 ドメイン固有の知識から派生した複数の制約を積分形式でも追加することにより、元のBootSTOPアルゴリズムを拡張し、解の精度を向上する。 一次元のコンフォーマル場理論における特定の方程式について検討する。

We develop MultiSTOP, a Reinforcement Learning framework for solving functional equations in physics. This new methodology produces actual numerical solutions instead of bounds on them. We extend the original BootSTOP algorithm by adding multiple constraints derived from domain-specific knowledge, even in integral form, to improve the accuracy of the solution. We investigate a particular equation in a one-dimensional Conformal Field Theory.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 識別的話者表現学習のための対照的自己監督型フレームワークにおける付加的マージン

Additive Margin in Contrastive Self-Supervised Frameworks to Learn Discriminative Speaker Representations ( http://arxiv.org/abs/2404.14913v1 )

ライセンス: Link先を確認
Theo Lepage, Reda Dehak, (参考訳) SSL(Self-Supervised Learning)フレームワークは、大規模なラベルなしデータセットを活用することで、堅牢なクラス表現を学習するための標準となった。 話者検証(SV)では、ほとんどのSSLシステムは対照的な損失関数に依存している。 NT-Xentのコントラスト損失を再考することにより,これらの手法の性能向上を図る。 我々の主な貢献はNT-Xent-AM損失の定義とSimCLRおよびMoCo SSL法における加算マージン(AM)の重要性の研究である。 クラス衝突にもかかわらず、AMは同一話者埋め込みのコンパクト性を高め、SV上の偽陰性や偽陽性の数を減らすことを示す。 さらに、SSLタスクのより詳細な監視を提供する対称的コントラスト損失の有効性を実証する。 SimCLRにこれらの2つの変更を実装することでパフォーマンスが向上し、VoxCeleb1-OのEERは7.85%向上した。

Self-Supervised Learning (SSL) frameworks became the standard for learning robust class representations by benefiting from large unlabeled datasets. For Speaker Verification (SV), most SSL systems rely on contrastive-based loss functions. We explore different ways to improve the performance of these techniques by revisiting the NT-Xent contrastive loss. Our main contribution is the definition of the NT-Xent-AM loss and the study of the importance of Additive Margin (AM) in SimCLR and MoCo SSL methods to further separate positive from negative pairs. Despite class collisions, we show that AM enhances the compactness of same-speaker embeddings and reduces the number of false negatives and false positives on SV. Additionally, we demonstrate the effectiveness of the symmetric contrastive loss, which provides more supervision for the SSL task. Implementing these two modifications to SimCLR improves performance and results in 7.85% EER on VoxCeleb1-O, outperforming other equivalent methods.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 文法的誤り訂正の柱:大規模言語モデルの時代における現代的アプローチの包括的検査

Pillars of Grammatical Error Correction: Comprehensive Inspection Of Contemporary Approaches In The Era of Large Language Models ( http://arxiv.org/abs/2404.14914v1 )

ライセンス: Link先を確認
Kostiantyn Omelianchuk, Andrii Liubonko, Oleksandr Skurzhanskyi, Artem Chernodub, Oleksandr Korniienko, Igor Samokhin, (参考訳) 本稿では, 文法的誤り訂正実験を行い, 単一モデルのニュアンスを掘り下げ, アンサンブル法とランキング法の効率を比較し, GEC への大規模言語モデルの適用を単一モデルシステムとして, アンサンブルの一部, ランキング法として検討する。 また,CoNLL-2014テストでは72.8点,BEA-testでは81.4点,F_0.5スコアでは81.4点とした。 GECのさらなる進歩を支援し、我々の研究の再現性を確保するために、コード、訓練されたモデル、システムのアウトプットを公開しています。

In this paper, we carry out experimental research on Grammatical Error Correction, delving into the nuances of single-model systems, comparing the efficiency of ensembling and ranking methods, and exploring the application of large language models to GEC as single-model systems, as parts of ensembles, and as ranking methods. We set new state-of-the-art performance with F_0.5 scores of 72.8 on CoNLL-2014-test and 81.4 on BEA-test, respectively. To support further advancements in GEC and ensure the reproducibility of our research, we make our code, trained models, and systems' outputs publicly available.
翻訳日:2024-04-24 14:31:13 公開日:2024-04-23
# 大規模言語モデル(LLM)時代のグラフ機械学習

Graph Machine Learning in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2404.14928v1 )

ライセンス: Link先を確認
Wenqi Fan, Shijie Wang, Jiani Huang, Zhikai Chen, Yu Song, Wenzhuo Tang, Haitao Mao, Hui Liu, Xiaorui Liu, Dawei Yin, Qing Li, (参考訳) グラフは、ソーシャルネットワーク、知識グラフ、分子発見など、さまざまな領域における複雑な関係を表現する上で重要な役割を果たす。 ディープラーニングの出現に伴い、グラフニューラルネットワーク(GNN)はグラフ機械学習(Graph ML)の基盤として現れ、グラフ構造の表現と処理を容易にする。 近年、LLMは言語タスクにおいて前例のない能力を示し、コンピュータビジョンやレコメンデータシステムなど様々なアプリケーションで広く採用されている。 この顕著な成功は、グラフ領域にLSMを適用することにも興味を惹き付けている。 グラフMLの一般化、転送可能性、少数ショット学習能力の進歩において、LLMの可能性を探求する努力が増加している。 一方、グラフ、特に知識グラフは信頼性のある事実知識に富んでいるため、LCMの推論能力を高め、幻覚や説明可能性の欠如といった制限を緩和することができる。 この研究方向性の急速な進展を踏まえ、研究者や実践者に深い理解を提供するためには、LLM時代のグラフMLの最新の進歩を要約した体系的なレビューが必要である。 そこで本研究では,Graph MLの最近の開発状況について概説する。 次に,LLMを用いてグラフの特徴の質を高め,ラベル付きデータへの依存を緩和し,グラフの不均一性やアウト・オブ・ディストリビューション(OOD)の一般化といった課題に対処する方法について検討する。 その後、グラフがLLMを強化し、LLMの事前学習と推論を強化する能力を強調した。 さらに,様々な応用について検討し,将来の可能性について検討する。

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# Large Angular Momentum

Large Angular Momentum ( http://arxiv.org/abs/2404.14931v1 )

ライセンス: Link先を確認
Kenichi Konishi, Roberto Menta, (参考訳) スピン 1/2$ (1 qubit) の量子状態は、ブロッホ球面の空間 $CP^1 \sim S^2$ によってパラメータ化される。 ジェネリック j に対するスピン j (a 2j+1-状態系) は、より大きな空間の点 $CP^{2j}$ で表される。 ここでは、極限の角運動量/スピン、$j \to \infty$を研究する。 状態 $(J \cdot n) | j, n\rangle = j |j, n \rangle $, ここで、$J$は角運動量作用素であり、$n$はR^3$の一般単位ベクトルを表す。 本稿では,Stern-Gerlach実験,角-運動量組成則,回転行列を解析して,この現象を論じる。 この問題は、不均一磁場下でのマクロ天体の考察から生じた。 我々の観察は、この文脈で量子力学から古典力学(一意の粒子軌道を持つ)がどのように自然に現れるかを説明するのに役立つ。

Quantum states of a spin $1/2$ (a qubit) are parametrized by the space $CP^1 \sim S^2$, the Bloch sphere. A spin j (a 2j+1 -state system) for generic j is represented instead by a point of a larger space, $CP^{2j}$. Here we study the angular momentum/spin in the limit, $j \to \infty$. The state, $(J \cdot n) | j, n\rangle = j |j, n \rangle $, where $J$ is the angular momentum operator and $n$ stands for a generic unit vector in $R^3$, is found to behave as a classical angular momentum, $ j n $. We discuss this phenomenon, by analysing the Stern-Gerlach experiments, the angular-momentum composition rule, and the rotation matrix. This problem arose from the consideration of a macroscopic body under an inhomogeneous magnetic field. Our observations help to explain how classical mechanics (with unique particle trajectories) emerges naturally from quantum mechanics in this context, and at the same time, make the widespread idea that large spins somehow become classical, a more precise one.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# Fin-Fed-OD:ファイナンシャルタブラリデータによるフェデレーション・アウトリー検出

Fin-Fed-OD: Federated Outlier Detection on Financial Tabular Data ( http://arxiv.org/abs/2404.14933v1 )

ライセンス: Link先を確認
Dayananda Herurkar, Sebastian Palacio, Ahmed Anwar, Joern Hees, Andreas Dengel, (参考訳) 実世界のシナリオにおける異常検出は、動的でしばしば未知の異常分布による課題を生じさせ、オープンワールドの仮定の下で運用する堅牢な方法を必要とする。 この課題は、プライバシと競争上の懸念からデータ共有を前もって、プライベートな組織によってモデルが採用される、実践的な環境で悪化している。 潜在的な利益にもかかわらず、組織間での異常情報の共有は制限されている。 本稿では、データの機密性を損なうことなく、個々の組織における異常検出を強化するという課題に対処する。 本稿では,表現学習とフェデレーション学習技術を利用して未知の異常の検出を改善する手法を提案する。 具体的には、クライアントが所有するオートエンコーダから得られた潜時表現を用いて、イリヤの判定境界を洗練させる。 特に、モデルパラメータのみが組織間で共有され、データのプライバシが保護される。 提案手法の有効性を,分散環境での2つの標準的な財務表型データセットと異常検出のための画像データセットを用いて評価した。 その結果、各組織のモデルに対する推論フェーズにおいて、未知の外れ値の分類が大幅に改善された。

Anomaly detection in real-world scenarios poses challenges due to dynamic and often unknown anomaly distributions, requiring robust methods that operate under an open-world assumption. This challenge is exacerbated in practical settings, where models are employed by private organizations, precluding data sharing due to privacy and competitive concerns. Despite potential benefits, the sharing of anomaly information across organizations is restricted. This paper addresses the question of enhancing outlier detection within individual organizations without compromising data confidentiality. We propose a novel method leveraging representation learning and federated learning techniques to improve the detection of unknown anomalies. Specifically, our approach utilizes latent representations obtained from client-owned autoencoders to refine the decision boundary of inliers. Notably, only model parameters are shared between organizations, preserving data privacy. The efficacy of our proposed method is evaluated on two standard financial tabular datasets and an image dataset for anomaly detection in a distributed setting. The results demonstrate a strong improvement in the classification of unknown outliers during the inference phase for each organization's model.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# G3R:一般化ジェスチャ認識のための2次元映像から高密度・微粒mm波レーダデータを生成する

G3R: Generating Rich and Fine-grained mmWave Radar Data from 2D Videos for Generalized Gesture Recognition ( http://arxiv.org/abs/2404.14934v1 )

ライセンス: Link先を確認
Kaikai Deng, Dong Zhao, Wenxin Zheng, Yue Ling, Kangwen Yin, Huadong Ma, (参考訳) ミリ波レーダは、広範かつプライバシー保護のジェスチャー認識を可能にするための有望なモダリティとして、近年注目を集めている。 しかし、リッチできめ細かいレーダーデータセットの欠如は、さまざまなユーザ姿勢(例えば、立ち上がり、着座)、位置、シーンにわたるジェスチャー認識のための一般化されたディープラーニングモデルの開発を妨げている。 これを改善するために、我々は、リッチな2Dビデオを利用してリアルなレーダデータを生成するソフトウェアパイプラインを設計するが、ユーザジェスチャーの多彩できめ細かな反射特性をシミュレートする課題に対処する必要がある。 この目的のために、G3Rを3つの重要なコンポーネントで設計する。 i) ジェスチャー反射点発生器は、腕の骨格点を拡張して人間の反射点を形成する。 二 信号シミュレーションモデルにより、レーダ信号のマルチパス反射及び減衰をシミュレートし、人間の強度マップを出力すること。 三 実物レーダデータを生成するために、実物レーダデータと実物レーダデータの点数と分布の差に対処するため、サンプリングモジュールと嵌合モジュールを組み合わせたエンコーダデコーダモデル。 我々はG3Rを公開データソースからの2Dビデオと自己収集した実世界のレーダデータを用いて実装し評価し、ジェスチャー認識における他の最先端アプローチよりも優れていることを示す。

Millimeter wave radar is gaining traction recently as a promising modality for enabling pervasive and privacy-preserving gesture recognition. However, the lack of rich and fine-grained radar datasets hinders progress in developing generalized deep learning models for gesture recognition across various user postures (e.g., standing, sitting), positions, and scenes. To remedy this, we resort to designing a software pipeline that exploits wealthy 2D videos to generate realistic radar data, but it needs to address the challenge of simulating diversified and fine-grained reflection properties of user gestures. To this end, we design G3R with three key components: (i) a gesture reflection point generator expands the arm's skeleton points to form human reflection points; (ii) a signal simulation model simulates the multipath reflection and attenuation of radar signals to output the human intensity map; (iii) an encoder-decoder model combines a sampling module and a fitting module to address the differences in number and distribution of points between generated and real-world radar data for generating realistic radar data. We implement and evaluate G3R using 2D videos from public data sources and self-collected real-world radar data, demonstrating its superiority over other state-of-the-art approaches for gesture recognition.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# Delayed Bottlenecking: トレーニング済みグラフニューラルネットワークにおけるフォッティングの軽減

Delayed Bottlenecking: Alleviating Forgetting in Pre-trained Graph Neural Networks ( http://arxiv.org/abs/2404.14941v1 )

ライセンス: Link先を確認
Zhe Zhao, Pengkun Wang, Xu Wang, Haibin Wen, Xiaolong Xie, Zhengyang Zhou, Qingfu Zhang, Yang Wang, (参考訳) 伝達可能な知識を抽出し、下流タスクに適用するための事前学習GNNは、グラフ表現学習の事実上の標準となっている。 最近の研究は、大規模未ラベルデータから有用で普遍的な伝達可能な知識を抽出するために、自己指導型事前学習タスクを設計することに焦点を当てている。 しかし、彼らは必然的な疑問に直面する必要がある: 従来の事前学習戦略は、事前学習タスクに関する有用な情報を抽出することを目的としており、下流タスクに関する有用な情報を全て抽出するわけではない。 本稿では,従来の事前学習・微調整フレームワークにおける事前学習プロセスを再検討し,事前学習段階における忘れ込み現象が下流作業に有害な影響をもたらすことを確認する。 そこで,本研究では,圧縮操作を抑え,圧縮操作を微調整フェーズに遅らせることで,ラベル付き微調整データや下流タスクで圧縮をガイドできるように,遅延表現とトレーニングデータ間の相互情報を可能な限り保持する,新規な \underline{D}elayed \underline{B}ottlenecking \underline{P}re-training (DBP) フレームワークを提案する。 これを実現するために、直接最適化できる2つの情報制御目標を設計し、それらを実際のモデル設計に統合する。 化学と生物学の両方の領域における大規模な実験は、DBPの有効性を実証している。

Pre-training GNNs to extract transferable knowledge and apply it to downstream tasks has become the de facto standard of graph representation learning. Recent works focused on designing self-supervised pre-training tasks to extract useful and universal transferable knowledge from large-scale unlabeled data. However, they have to face an inevitable question: traditional pre-training strategies that aim at extracting useful information about pre-training tasks, may not extract all useful information about the downstream task. In this paper, we reexamine the pre-training process within traditional pre-training and fine-tuning frameworks from the perspective of Information Bottleneck (IB) and confirm that the forgetting phenomenon in pre-training phase may cause detrimental effects on downstream tasks. Therefore, we propose a novel \underline{D}elayed \underline{B}ottlenecking \underline{P}re-training (DBP) framework which maintains as much as possible mutual information between latent representations and training data during pre-training phase by suppressing the compression operation and delays the compression operation to fine-tuning phase to make sure the compression can be guided with labeled fine-tuning data and downstream tasks. To achieve this, we design two information control objectives that can be directly optimized and further integrate them into the actual model design. Extensive experiments on both chemistry and biology domains demonstrate the effectiveness of DBP.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# Recommender システムの操作: 攻撃と対策に関する調査

Manipulating Recommender Systems: A Survey of Poisoning Attacks and Countermeasures ( http://arxiv.org/abs/2404.14942v1 )

ライセンス: Link先を確認
Thanh Toan Nguyen, Quoc Viet Hung Nguyen, Thanh Tam Nguyen, Thanh Trung Huynh, Thanh Thi Nguyen, Matthias Weidlich, Hongzhi Yin, (参考訳) レコメンダシステムは、ユーザがデータの海の中で特定の情報を見つけるのを助けるために、オンラインサービスの不可欠な部分になっている。 しかし、既存の研究では、いくつかのレコメンデーターシステムは、特に学習スキームにかかわる有害な攻撃に弱いことが示されている。 毒攻撃とは、敵が、システムの最終的な勧告を操作することを目的として、モデルを訓練するプロセスに、慎重に構築されたデータを注入する攻撃である。 人工知能の最近の進歩に基づき、このような攻撃は近年重要になっている。 毒殺攻撃に対する多くの対策が開発されているが、これらは攻撃の性質と体系的に関連付けられていない。 したがって、軽減戦略のリスクや潜在的成功を評価することは、不可能ではないとしても困難である。 本調査は、主に毒殺攻撃とその対策に焦点を当てて、このギャップを埋めることを目的としている。 これは、主に攻撃とその検出方法に焦点を当てた以前の調査とは対照的である。 総括的な文献レビューを通じて、我々は、毒殺攻撃のための新しい分類法を提供し、その寸法を定式化し、文献に記載された30以上の攻撃を組織化する。 さらに,40以上の予防対策について検討し,特定の攻撃に対する効果を評価した。 この総合的な調査は、毒殺攻撃からレコメンデーターシステムを保護するための基準として役立ちます。 この記事は、この分野におけるオープンな問題と将来の研究への影響力のある方向性に関する議論から締めくくっている。 中毒攻撃に関連するリソースの豊富なリポジトリはhttps://github.com/tamlhp/awesome-recsys-poisoningで公開されている。

Recommender systems have become an integral part of online services to help users locate specific information in a sea of data. However, existing studies show that some recommender systems are vulnerable to poisoning attacks, particularly those that involve learning schemes. A poisoning attack is where an adversary injects carefully crafted data into the process of training a model, with the goal of manipulating the system's final recommendations. Based on recent advancements in artificial intelligence, such attacks have gained importance recently. While numerous countermeasures to poisoning attacks have been developed, they have not yet been systematically linked to the properties of the attacks. Consequently, assessing the respective risks and potential success of mitigation strategies is difficult, if not impossible. This survey aims to fill this gap by primarily focusing on poisoning attacks and their countermeasures. This is in contrast to prior surveys that mainly focus on attacks and their detection methods. Through an exhaustive literature review, we provide a novel taxonomy for poisoning attacks, formalise its dimensions, and accordingly organise 30+ attacks described in the literature. Further, we review 40+ countermeasures to detect and/or prevent poisoning attacks, evaluating their effectiveness against specific types of attacks. This comprehensive survey should serve as a point of reference for protecting recommender systems against poisoning attacks. The article concludes with a discussion on open issues in the field and impactful directions for future research. A rich repository of resources associated with poisoning attacks is available at https://github.com/tamlhp/awesome-recsys-poisoning.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# ブラックボックスを別のブラックボックスで説明できるのか?

Does It Make Sense to Explain a Black Box With Another Black Box? ( http://arxiv.org/abs/2404.14943v1 )

ライセンス: Link先を確認
Julien Delaunay, Luis Galárraga, Christine Largouët, (参考訳) 対物的説明はMLブラックボックス分類器を説明する一般的なアプローチであるが、NLPではあまり普及していない。 ほとんどのメソッドは、ブラックボックスによって異なる分類になるまで、ターゲット文書を反復的に摂動することでこれらの説明を見つける。 文献,すなわち,2つの対実的説明方法のメインファミリーを同定する。 (a)単語の追加、削除、置換によりターゲットを混乱させる方法、及び (b) \emph{opaque} は、対象の文書を遅延非解釈可能な空間に投影し、その後摂動が行われるようにアプローチする。 本稿では3つの古典的NLPタスクにおける2種類の手法の性能の比較研究について述べる。 我々の実証的な証拠は、不透明なアプローチが、偽ニュースの検出や感情分析のような下流アプリケーションにとって過大なスキルであることを示している。 これらの観察が私たちの議論の動機となり、別のブラックボックスを使ってブラックボックスを説明するのが理にかなっているかどうかという疑問が提起される。

Although counterfactual explanations are a popular approach to explain ML black-box classifiers, they are less widespread in NLP. Most methods find those explanations by iteratively perturbing the target document until it is classified differently by the black box. We identify two main families of counterfactual explanation methods in the literature, namely, (a) \emph{transparent} methods that perturb the target by adding, removing, or replacing words, and (b) \emph{opaque} approaches that project the target document into a latent, non-interpretable space where the perturbation is carried out subsequently. This article offers a comparative study of the performance of these two families of methods on three classical NLP tasks. Our empirical evidence shows that opaque approaches can be an overkill for downstream applications such as fake news detection or sentiment analysis since they add an additional level of complexity with no significant performance gain. These observations motivate our discussion, which raises the question of whether it makes sense to explain a black box using another black box.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# ハイパースペクトル画像分類のための標準変圧器モデルと変圧器モデルにおける解離サンプリングの重要性

Importance of Disjoint Sampling in Conventional and Transformer Models for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.14944v1 )

ライセンス: Link先を確認
Muhammad Ahmad, Manuel Mazzara, Salvatore Distifano, (参考訳) 解離サンプリングは、最先端(SOTA)モデルの厳密で偏りのない評価に重要である。 トレーニング、検証、テストセットが重なり合う場合、パフォーマンスメトリクスを膨らませ、新しい例に一般化するモデルの真の能力の正確な評価を防止するバイアスが導入されます。 本稿では、ハイパースペクトル画像分類(HSIC)タスク上でSOTAモデルをトレーニングするための革新的な不整合サンプリング手法を提案する。 重なりのないトレーニング,検証,テストデータを分離することにより,提案手法は,トレーニングや検証中に露出していないピクセルをどの程度正確に分類できるかを,より公平に評価する。 実験では、テストデータ内のトレーニングデータや検証データを含む代替手法と比較して、このアプローチがモデルの一般化を著しく改善することを示した。 データセット間のデータ漏洩をなくすことで、解離サンプリングはHSICの進捗をベンチマークするための信頼性の高い指標を提供する。 研究者は、報告された性能は、記憶されたピクセルだけでなく、新しいシーンを分類するモデルの能力を真に反映していると自信を持つことができる。 この厳密な手法は、SOTAモデルの発展と、ハイパースペクトルセンサーを用いた大規模陸地マッピングへの実際の応用に欠かせない。 ソースコードはhttps://github.com/mahmad00/Disjoint-Sampling-for-Hyperspectral-Image-Classificationで公開されている。

Disjoint sampling is critical for rigorous and unbiased evaluation of state-of-the-art (SOTA) models. When training, validation, and test sets overlap or share data, it introduces a bias that inflates performance metrics and prevents accurate assessment of a model's true ability to generalize to new examples. This paper presents an innovative disjoint sampling approach for training SOTA models on Hyperspectral image classification (HSIC) tasks. By separating training, validation, and test data without overlap, the proposed method facilitates a fairer evaluation of how well a model can classify pixels it was not exposed to during training or validation. Experiments demonstrate the approach significantly improves a model's generalization compared to alternatives that include training and validation data in test data. By eliminating data leakage between sets, disjoint sampling provides reliable metrics for benchmarking progress in HSIC. Researchers can have confidence that reported performance truly reflects a model's capabilities for classifying new scenes, not just memorized pixels. This rigorous methodology is critical for advancing SOTA models and their real-world application to large-scale land mapping with Hyperspectral sensors. The source code is available at https://github.com/mahmad00/Disjoint-Sampling-for-Hyperspectral-Image-Classification.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# ハイパースペクトル画像分類のためのピラミッド階層変換器

Pyramid Hierarchical Transformer for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.14945v1 )

ライセンス: Link先を確認
Muhammad Ahmad, Muhammad Hassaan Farooq Butt, Manuel Mazzara, Salvatore Distifano, (参考訳) 従来のTransformerモデルは、特にハイパースペクトル画像分類(HSIC)において、可変長入力シーケンスの課題に直面する。 これを解決するために,ピラミッド型階層型トランス (PyFormer) を提案する。 この革新的なアプローチは、入力データを階層的にセグメントに整理し、それぞれが異なる抽象レベルを表現し、長いシーケンスの処理効率を向上する。 各レベルでは、ローカルとグローバルの両方のコンテキストを効果的にキャプチャする専用のトランスフォーマーモジュールが適用される。 階層内の空間的およびスペクトル的な情報フローは、コミュニケーションと抽象化の伝播を容易にする。 異なるレベルからの出力の統合は、最終的な入力表現で終わる。 従来の手法よりも提案手法の方が優れていることを示す実験結果が得られた。 さらに,解離サンプルの導入により,堅牢性と信頼性が向上し,HSICの進展に対する我々のアプローチの可能性が強調される。 ソースコードはhttps://github.com/mahmad00/PyFormer.comで入手できる。

The traditional Transformer model encounters challenges with variable-length input sequences, particularly in Hyperspectral Image Classification (HSIC), leading to efficiency and scalability concerns. To overcome this, we propose a pyramid-based hierarchical transformer (PyFormer). This innovative approach organizes input data hierarchically into segments, each representing distinct abstraction levels, thereby enhancing processing efficiency for lengthy sequences. At each level, a dedicated transformer module is applied, effectively capturing both local and global context. Spatial and spectral information flow within the hierarchy facilitates communication and abstraction propagation. Integration of outputs from different levels culminates in the final input representation. Experimental results underscore the superiority of the proposed method over traditional approaches. Additionally, the incorporation of disjoint samples augments robustness and reliability, thereby highlighting the potential of our approach in advancing HSIC. The source code is available at https://github.com/mahmad00/PyFormer.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# StoryTTS: リッチテキスト表現性アノテーションを用いた高表現力テキスト音声データセット

StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations ( http://arxiv.org/abs/2404.14946v1 )

ライセンス: Link先を確認
Sen Liu, Yiwei Guo, Xie Chen, Kai Yu, (参考訳) 音声表現性は, 表現的テキスト音声(ETTS)において長年研究されてきたが, テクストの本質的な表現性は, 特に芸術作品のETTSにおいて十分な注意を払っていない。 本稿では,マンダリン・ストーリーテリング・ショーの収録から,音声とテキストの両方の観点からリッチな表現性を含む高ETTSデータセットであるStoryTTSを紹介する。 テキスト表現性のための体系的で包括的なラベリングフレームワークを提案する。 StoryTTSでは,言語学や修辞学などを通じて,5つの異なる次元を含む音声関連テキスト表現を分析・定義する。 次に、大きな言語モデルを使用し、バッチアノテーションのいくつかの手作業によるアノテーションの例を示します。 得られたコーパスは、正確なテキスト書き起こしとリッチテキスト表現性アノテーションを備えた61時間連続かつ高韻律音声を含む。 そのため、StoryTTSは将来のETTS研究を支援し、本質的なテクストや音響的特徴を十分に掘り下げることができる。 StoryTTSの注釈付きテキストラベルと統合した場合、TTSモデルが表現性を向上した音声を生成できることを検証する実験を行った。

While acoustic expressiveness has long been studied in expressive text-to-speech (ETTS), the inherent expressiveness in text lacks sufficient attention, especially for ETTS of artistic works. In this paper, we introduce StoryTTS, a highly ETTS dataset that contains rich expressiveness both in acoustic and textual perspective, from the recording of a Mandarin storytelling show. A systematic and comprehensive labeling framework is proposed for textual expressiveness. We analyze and define speech-related textual expressiveness in StoryTTS to include five distinct dimensions through linguistics, rhetoric, etc. Then we employ large language models and prompt them with a few manual annotation examples for batch annotation. The resulting corpus contains 61 hours of consecutive and highly prosodic speech equipped with accurate text transcriptions and rich textual expressiveness annotations. Therefore, StoryTTS can aid future ETTS research to fully mine the abundant intrinsic textual and acoustic features. Experiments are conducted to validate that TTS models can generate speech with improved expressiveness when integrating with the annotated textual labels in StoryTTS.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# ブラインド画像品質評価におけるマルチモーダル・プロンプト学習

Multi-Modal Prompt Learning on Blind Image Quality Assessment ( http://arxiv.org/abs/2404.14949v1 )

ライセンス: Link先を確認
Wensheng Pan, Timin Gao, Yan Zhang, Runze Hu, Xiawu Zheng, Enwei Zhang, Yuting Gao, Yutao Liu, Yunhang Shen, Ke Li, Shengchuan Zhang, Liujuan Cao, Rongrong Ji, (参考訳) 画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。 現在、IQAを強化するために意味情報を活用することが重要な研究方向である。 十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。 しかしながら、これらの事前訓練されたビジョン・ランゲージ(VL)モデルの一般性は、IQA固有のタスクに最適化されることが多い。 近年のアプローチでは、このミスマッチに即時技術を用いて対処する試みがあるが、これらの解決策には欠点がある。 既存のプロンプトベースのVLモデルは、テキストからのインクリメンタルなセマンティック情報に過度にフォーカスし、ビジュアルデータ分析から得られる豊富な洞察を無視します。 これによりIQAタスクのパフォーマンス改善が制限される。 本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。 我々のアプローチでは、視覚データと言語データの両方から漸進的な意味情報をシナジスティックにマイニングする、慎重に構築されたプロンプトが採用されている。 具体的には、視覚分岐において、VLモデルの適応性を高めるために、多層プロンプト構造を導入する。 テキストブランチでは、シーンカテゴリと歪みタイプを識別・区別するデュアルプロンプト方式を配置し、画像品質を評価するためのモデルの能力を改善する。 実験結果から,既存のBlind Image Quality Assessment (BIQA) アプローチよりも提案手法の有効性が示唆された。 特に、さまざまなデータセット間での競合性能を示している。 本研究では,SPearman Rank correlation Coefficient (SRCC) の値として 0.961 (CSIQで0.946) と 0.941 (KADIDで0.930) を達成し,その頑健さと精度を多種多様な文脈で評価した。

Image Quality Assessment (IQA) models benefit significantly from semantic information, which allows them to treat different types of objects distinctly. Currently, leveraging semantic information to enhance IQA is a crucial research direction. Traditional methods, hindered by a lack of sufficiently annotated data, have employed the CLIP image-text pretraining model as their backbone to gain semantic awareness. However, the generalist nature of these pre-trained Vision-Language (VL) models often renders them suboptimal for IQA-specific tasks. Recent approaches have attempted to address this mismatch using prompt technology, but these solutions have shortcomings. Existing prompt-based VL models overly focus on incremental semantic information from text, neglecting the rich insights available from visual data analysis. This imbalance limits their performance improvements in IQA tasks. This paper introduces an innovative multi-modal prompt-based methodology for IQA. Our approach employs carefully crafted prompts that synergistically mine incremental semantic information from both visual and linguistic data. Specifically, in the visual branch, we introduce a multi-layer prompt structure to enhance the VL model's adaptability. In the text branch, we deploy a dual-prompt scheme that steers the model to recognize and differentiate between scene category and distortion type, thereby refining the model's capacity to assess image quality. Our experimental findings underscore the effectiveness of our method over existing Blind Image Quality Assessment (BIQA) approaches. Notably, it demonstrates competitive performance across various datasets. Our method achieves Spearman Rank Correlation Coefficient (SRCC) values of 0.961(surpassing 0.946 in CSIQ) and 0.941 (exceeding 0.930 in KADID), illustrating its robustness and accuracy in diverse contexts.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# 画像スティッチパイプラインの合理化:融合と整形を統一モデルに統合する

Streamlining the Image Stitching Pipeline: Integrating Fusion and Rectangling into a Unified Model ( http://arxiv.org/abs/2404.14951v1 )

ライセンス: Link先を確認
Ziqi Xie, (参考訳) 学習ベースの画像縫合技術は通常、登録、融合、整形という3つの異なる段階を含む。 これらの段階は、それぞれ独立に訓練され、カスケードエラーの伝播や複雑なパラメータチューニングの課題につながる。 融合および矩形化段階の数学的モデリングを再考すると、これらのプロセスは、効果的に1つの多角性塗装問題に結合できることが判明した。 そこで本稿では, 融合および整流段階を統一モデルにマージする, 効率的なトレーニング不要画像縫合法である, Simple and Robust Stitcher (SRStitcher)を提案する。 重み付きマスクと大規模生成モデルを用いることで、SRStitcherは他のモデルの追加トレーニングや微調整をすることなく、単一の推論で融合と整形を解くことができる。 本手法は縫合パイプラインの簡易化だけでなく,誤登録エラーに対する耐故障性の向上にも寄与する。 SRStitcherは、定量評価と定性評価の両方において、最先端(SOTA)手法より優れていることを示した。 コードはhttps://github.com/yayoyo66/SRStitcherで公開されている。

Learning-based image stitching techniques typically involve three distinct stages: registration, fusion, and rectangling. These stages are often performed sequentially, each trained independently, leading to potential cascading error propagation and complex parameter tuning challenges. In rethinking the mathematical modeling of the fusion and rectangling stages, we discovered that these processes can be effectively combined into a single, variety-intensity inpainting problem. Therefore, we propose the Simple and Robust Stitcher (SRStitcher), an efficient training-free image stitching method that merges the fusion and rectangling stages into a unified model. By employing the weighted mask and large-scale generative model, SRStitcher can solve the fusion and rectangling problems in a single inference, without additional training or fine-tuning of other models. Our method not only simplifies the stitching pipeline but also enhances fault tolerance towards misregistration errors. Extensive experiments demonstrate that SRStitcher outperforms state-of-the-art (SOTA) methods in both quantitative assessments and qualitative evaluations. The code is released at https://github.com/yayoyo66/SRStitcher
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# マルチモーダル通信におけるジェスチャー検出のためのレバレッジ音声

Leveraging Speech for Gesture Detection in Multimodal Communication ( http://arxiv.org/abs/2404.14952v1 )

ライセンス: Link先を確認
Esam Ghaleb, Ilya Burenko, Marlou Rasenberg, Wim Pouw, Ivan Toni, Peter Uhrig, Anna Wilson, Judith Holler, Aslı Özyürek, Raquel Fernández, (参考訳) ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションにおいてしばしば音声を補完し、マルチモーダル通信システムを形成する。 ジェスチャー解析における重要な課題は、ジェスチャーの開始と終了を検出することである。 自動ジェスチャー検出の研究は、主に視覚的および運動学的情報に焦点を当て、低可変性で孤立した、あるいは無音なジェスチャーの限られたセットを検知し、音声や視覚信号の統合を無視して、音声と共起するジェスチャーを検出する。 本研究は,共同音声ジェスチャー検出に焦点をあて,音声と共同音声ジェスチャーの同期を強調することで,このギャップに対処する。 本研究は,ジェスチャー形式の多様性,ジェスチャーと音声の時間的ずれ,モダリティのサンプリング率の差の3つの課題に対処する。 拡張音声時間窓について検討し,時間的ずれとサンプリング率の差に対処するため,各モータリティに異なるバックボーンモデルを用いた。 我々は、トランスフォーマーエンコーダをクロスモーダルおよびアーリーフュージョン技術に利用し、音声と骨格のシーケンスを効果的に調整し統合する。 その結果,視覚情報と音声情報の組み合わせはジェスチャー検出性能を大幅に向上させることがわかった。 その結果、音声バッファを視覚的時間セグメントを超えて拡張することで、性能が向上し、クロスモーダルおよび早期融合技術によるマルチモーダル統合が、単調および後期融合手法によるベースライン手法よりも優れていることが示唆された。 さらに、モデルのジェスチャー予測信頼度と、ジェスチャーに関連する可能性のある低レベル音声周波数特徴との相関関係を見出した。 全体として、この研究は、マルチモーダルコミュニケーションの分析を容易にする共同音声ジェスチャーの理解と検出方法を提供する。

Gestures are inherent to human interaction and often complement speech in face-to-face communication, forming a multimodal communication system. An important task in gesture analysis is detecting a gesture's beginning and end. Research on automatic gesture detection has primarily focused on visual and kinematic information to detect a limited set of isolated or silent gestures with low variability, neglecting the integration of speech and vision signals to detect gestures that co-occur with speech. This work addresses this gap by focusing on co-speech gesture detection, emphasising the synchrony between speech and co-speech hand gestures. We address three main challenges: the variability of gesture forms, the temporal misalignment between gesture and speech onsets, and differences in sampling rate between modalities. We investigate extended speech time windows and employ separate backbone models for each modality to address the temporal misalignment and sampling rate differences. We utilize Transformer encoders in cross-modal and early fusion techniques to effectively align and integrate speech and skeletal sequences. The study results show that combining visual and speech information significantly enhances gesture detection performance. Our findings indicate that expanding the speech buffer beyond visual time segments improves performance and that multimodal integration using cross-modal and early fusion techniques outperforms baseline methods using unimodal and late fusion methods. Additionally, we find a correlation between the models' gesture prediction confidence and low-level speech frequency features potentially associated with gestures. Overall, the study provides a better understanding and detection methods for co-speech gestures, facilitating the analysis of multimodal communication.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# オンラインレビューによるベイジアンアップデートによる動的価格設定

Dynamic pricing with Bayesian updates from online reviews ( http://arxiv.org/abs/2404.14953v1 )

ライセンス: Link先を確認
José Correa, Mathieu Mari, Andrew Xia, (参考訳) 新製品を発売する際、企業は市場のレセプションについて不確実性に直面している。 オンラインレビューは、消費者だけでなく企業にも貴重な情報を提供し、販売価格を含む製品特性の調整を可能にする。 本稿では、商品の品質が不確実なオンラインレビューによる価格モデルについて検討し、売り手と買い手の両方が購入・価格決定を行うための信念を更新する。 我々は、販売者の価格問題をベーシックバンディットの問題としてモデル化し、著名なカタルーニャ数字との密接な関係を示し、販売者の将来的な割引報酬を効率的に計算できるようにする。 このツールを用いて、製品の品質を効果的に学習する確率の観点から、最適な静的および動的価格戦略を分析し、比較する。

When launching new products, firms face uncertainty about market reception. Online reviews provide valuable information not only to consumers but also to firms, allowing firms to adjust the product characteristics, including its selling price. In this paper, we consider a pricing model with online reviews in which the quality of the product is uncertain, and both the seller and the buyers Bayesianly update their beliefs to make purchasing & pricing decisions. We model the seller's pricing problem as a basic bandits' problem and show a close connection with the celebrated Catalan numbers, allowing us to efficiently compute the overall future discounted reward of the seller. With this tool, we analyze and compare the optimal static and dynamic pricing strategies in terms of the probability of effectively learning the quality of the product.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# 変圧器の伝統 : ハイパースペクトル画像分類の現状と今後の展望

Traditional to Transformers: A Survey on Current Trends and Future Prospects for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.14955v1 )

ライセンス: Link先を確認
Muhammad Ahmad, Salvatore Distifano, Manuel Mazzara, Adil Mehmood Khan, (参考訳) ハイパースペクトル画像分類は、ハイパースペクトルデータの高次元性と複雑な性質のために難しい課題である。 近年,これらの課題に対処するための強力なツールとして,ディープラーニング技術が登場している。 このサーベイは、ディープラーニングモデルからトランスフォーマーの新たな利用への進歩に焦点を当て、ハイパースペクトル画像分類における現在のトレンドと今後の展望を包括的に概観する。 我々は、ハイパースペクトル画像分類のためのディープラーニングにおける重要な概念、方法論、そして最先端のアプローチについてレビューする。 さらに、この分野でのトランスフォーマーモデルの可能性について議論し、これらのアプローチにかかわる利点と課題を強調した。 3つのハイパースペクトルデータセットを用いて、様々な従来のディープラーニングモデルとトランスフォーマーの有効性を検証した。 最後に、ハイパースペクトル画像分類の精度と効率をさらに向上させる研究の方向性と応用の可能性について概説する。 ソースコードはhttps://github.com/mahmad00/Conventional-to-Transformer-for-Hyperspectral-Image-Classification-Surve y-2024で公開されている。

Hyperspectral image classification is a challenging task due to the high dimensionality and complex nature of hyperspectral data. In recent years, deep learning techniques have emerged as powerful tools for addressing these challenges. This survey provides a comprehensive overview of the current trends and future prospects in hyperspectral image classification, focusing on the advancements from deep learning models to the emerging use of transformers. We review the key concepts, methodologies, and state-of-the-art approaches in deep learning for hyperspectral image classification. Additionally, we discuss the potential of transformer-based models in this field and highlight the advantages and challenges associated with these approaches. Comprehensive experimental results have been undertaken using three Hyperspectral datasets to verify the efficacy of various conventional deep-learning models and Transformers. Finally, we outline future research directions and potential applications that can further enhance the accuracy and efficiency of hyperspectral image classification. The Source code is available at https://github.com/mahmad00/Conventional-to-Transformer-for-Hyperspectral-Image-Classification-Surve y-2024.
翻訳日:2024-04-24 14:21:26 公開日:2024-04-23
# DAWN:クロスタスクインタラクションによるドメイン適応型弱修正核セグメンテーション

DAWN: Domain-Adaptive Weakly Supervised Nuclei Segmentation via Cross-Task Interactions ( http://arxiv.org/abs/2404.14956v1 )

ライセンス: Link先を確認
Ye Zhang, Yifeng Wang, Zijie Fang, Hao Bian, Linghan Cai, Ziyue Wang, Yongbing Zhang, (参考訳) モデルトレーニングにおけるコストの高いピクセルレベルのアノテーションへの依存を減らすために,教師付きセグメンテーション手法が注目されている。 しかし、現在の弱い制御された核分割アプローチは、通常、2段階の擬似ラベル生成とネットワークトレーニングプロセスに従う。 核セグメンテーションの性能は生成した擬似ラベルの品質に大きく依存しているため、その有効性は制限される。 本稿では,擬似ラベル生成の課題を克服するために,クロスタスクインタラクション戦略を用いたドメイン適応型弱教師付き核セグメンテーションフレームワークを提案する。 具体的には、弱い注釈付きデータを用いて補助的な検出タスクを訓練し、セグメンテーションネットワークのドメイン適応を支援する。 ドメイン適応の効率を高めるために、ソースドメインからの事前知識を統合する一貫した機能制約モジュールを設計する。 さらに,ドメイン転送能力を向上させるために,擬似ラベル最適化と対話型トレーニング手法を開発した。 提案手法の有効性を検証するため,6つのデータセットに対して広範囲な比較・アブレーション実験を行った。 その結果、既存の弱教師付きアプローチよりも、我々のアプローチの方が優れていることが示された。 注目すべきは,本手法が完全教師付き手法と同等あるいはそれ以上の性能を実現することである。 私たちのコードはhttps://github.com/zhangye-zoe/DAWN.orgでリリースされます。

Weakly supervised segmentation methods have gained significant attention due to their ability to reduce the reliance on costly pixel-level annotations during model training. However, the current weakly supervised nuclei segmentation approaches typically follow a two-stage pseudo-label generation and network training process. The performance of the nuclei segmentation heavily relies on the quality of the generated pseudo-labels, thereby limiting its effectiveness. This paper introduces a novel domain-adaptive weakly supervised nuclei segmentation framework using cross-task interaction strategies to overcome the challenge of pseudo-label generation. Specifically, we utilize weakly annotated data to train an auxiliary detection task, which assists the domain adaptation of the segmentation network. To enhance the efficiency of domain adaptation, we design a consistent feature constraint module integrating prior knowledge from the source domain. Furthermore, we develop pseudo-label optimization and interactive training methods to improve the domain transfer capability. To validate the effectiveness of our proposed method, we conduct extensive comparative and ablation experiments on six datasets. The results demonstrate the superiority of our approach over existing weakly supervised approaches. Remarkably, our method achieves comparable or even better performance than fully supervised methods. Our code will be released in https://github.com/zhangye-zoe/DAWN.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# 量子光との相互作用による強相関多電子束

Strongly correlated multi-electron bunches from interaction with quantum light ( http://arxiv.org/abs/2404.14957v1 )

ライセンス: Link先を確認
Suraj Kumar, Jeremy Lim, Nicholas Rivera, Wesley Wong, Yee Sin Ang, Lay Kee Ang, Liang Jie Wong, (参考訳) 強い相関を持つ電子系は現代の物理学の基盤であり、超伝導磁石から量子コンピューティングまでの現象を画期的に破壊する役割を担っている。 ほとんどの場合、電子の相関はクーロン相互作用によってのみ生じる。 本研究では、光場と同時に相互作用する自由電子が、クーロン相互作用以外の機構を介して高い相関関係を持つことを明らかにする。 2つの電子の場合、出力電子エネルギーのジョイント確率分布に対する結果のピアソン相関係数(PCC)は、光電場と(次々に)相互作用する電子に比べて13桁以上向上する。 これらの高相関電子は、外部量子光場を介して参加電子間の運動量とエネルギー交換の結果である。 我々の研究は、量子情報や超高速イメージングを含む応用のための、高相関な自由電子の生成と制御の道を開いた。

Strongly correlated electron systems are a cornerstone of modern physics, being responsible for groundbreaking phenomena from superconducting magnets to quantum computing. In most cases, correlations in electrons arise exclusively due to Coulomb interactions. In this work, we reveal that free electrons interacting simultaneously with a light field can become highly correlated via mechanisms beyond Coulomb interactions. In the case of two electrons, the resulting Pearson correlation coefficient (PCC) for the joint probability distribution of the output electron energies is enhanced over 13 orders of magnitude compared to that of electrons interacting with the light field in succession (one after another). These highly correlated electrons are the result of momentum and energy exchange between the participating electrons via the external quantum light field. Our findings pave the way to the creation and control of highly correlated free electrons for applications including quantum information and ultra-fast imaging.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# 階層的ブロック構造による作業証明の保存

Saving proof-of-work by hierarchical block structure ( http://arxiv.org/abs/2404.14958v1 )

ライセンス: Link先を確認
Valdemar Melicher, (参考訳) 私たちは、Bitcoinネットワークの現在のPOWベースのコンセンサスアルゴリズムは、実際の取引(txn)コストと、取引されている富との間の根本的な経済的不一致に悩まされていると論じます。 簡単に言えば、1サトシと1bitcoinを換算すると、このtxnをブロックに含めると、同じ量の電気が必要になる。 txnあたりの高エネルギー使用やスケーラビリティの問題といった悪名高いBitcoinブロックチェーン問題は、この基本的な経済的不整合による部分的あるいは完全な結果である。 我々は、転送される富に比例するtxnを確保するための計算コストを少なくとも一時的に設定することを提案する。 まず、Bitcoinのセキュリティに関するシンプルなインセンティブに基づくモデルを提示します。 そして、このモデルにより、各txnを2つのパラメータで拡張する。1つは、このtxnの確保に要する時間を制御し、もう1つは、これを達成するために使用されるネットワークの分数を決定する。 現在のBitcoinのtxnはこのパラメタライズドスペースに自然に埋め込まれている。 次に、これらのパラメタライズされたtxnを含む階層的ブロック構造(HBS)の列を紹介する。 最初のHBSは、拡張されたtxnの単一の自由度、すなわち時間的投資しか利用しないが、ネットワーク料金とエネルギー使用量とともに、信頼度が変化しているtxnが既に利用可能である。 原則として、前のHBSが達成したものを保存しながら、最後のHBSは毎秒数万txnsにスケールする必要がある。 また,既存のブロックチェーンに新たなHBSを比較的安全に,継続的に導入可能な,シンプルなホモトピーベースのトランジション機構も提案する。 我々のアプローチは可能な限り厳密であり、少なくとも概念レベルで、これらの発展のすべての側面を解析しようと試みている。 このプロセスは、最近の取引データの評価によって支持される。

We argue that the current POW based consensus algorithm of the Bitcoin network suffers from a fundamental economic discrepancy between the real world transaction (txn) costs incurred by miners and the wealth that is being transacted. Put simply, whether one transacts 1 satoshi or 1 bitcoin, the same amount of electricity is needed when including this txn into a block. The notorious Bitcoin blockchain problems such as its high energy usage per txn or its scalability issues are, either partially or fully, mere consequences of this fundamental economic inconsistency. We propose making the computational cost of securing the txns proportional to the wealth being transferred, at least temporarily. First, we present a simple incentive based model of Bitcoin's security. Then, guided by this model, we augment each txn by two parameters, one controlling the time spent securing this txn and the second determining the fraction of the network used to accomplish this. The current Bitcoin txns are naturally embedded into this parametrized space. Then we introduce a sequence of hierarchical block structures (HBSs) containing these parametrized txns. The first of those HBSs exploits only a single degree of freedom of the extended txn, namely the time investment, but it allows already for txns with a variable level of trust together with aligned network fees and energy usage. In principle, the last HBS should scale to tens of thousands timely txns per second while preserving what the previous HBSs achieved. We also propose a simple homotopy based transition mechanism which enables us to relatively safely and continuously introduce new HBSs into the existing blockchain. Our approach is constructive and as rigorous as possible and we attempt to analyze all aspects of these developments, al least at a conceptual level. The process is supported by evaluation on recent transaction data.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# 大規模レコメンダシステムにおけるキャッシュ対応強化学習

Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems ( http://arxiv.org/abs/2404.14961v1 )

ライセンス: Link先を確認
Xiaoshuang Chen, Gengrui Zhang, Yao Wang, Yulin Wu, Shuo Su, Kaiqiao Zhan, Ben Wang, (参考訳) 現代の大規模リコメンデータシステムは計算集約的なインフラ上に構築されており、通常ピーク時とオフピーク時のトラフィックに大きな差がある。 ピーク時には,計算資源の予算が限られているため,各要求に対してリアルタイムな計算を行うことが困難である。 キャッシュによるリコメンデーションはこの問題の解決策であり、ユーザ側の結果キャッシュは、レコメンダシステムがリアルタイムの計算に余裕がない場合にレコメンデーションを提供するために使用される。 しかし、キャッシュされたレコメンデーションは、通常、リアルタイムの計算よりも亜最適であり、各ユーザのキャッシュ内のアイテムを決定することは困難である。 本稿では,キャッシュを考慮した強化学習(CARL)手法を提案する。 ユーザの状態とキャッシュ状態によってマルコフ決定プロセスとして問題を定式化し、キャッシュ状態は、推奨システムがリアルタイム計算やキャッシュによってレコメンデーションを行うかどうかを表す。 レコメンデータシステムの計算負荷がキャッシュ状態を決定する。 このようなモデルに基づいて強化学習を行い、複数のリクエストに対するユーザエンゲージメントを改善する。 さらに、キャッシュは、強化学習の性能を劣化させる「批判依存」と呼ばれる課題を導入することを示します。 この課題に対処するため、我々はCARLの独立評論家を学習するための固有関数学習(EL)手法を提案する。 実験により、CARLは結果キャッシュを考慮した場合、ユーザのエンゲージメントを大幅に改善できることが示された。 CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。

Modern large-scale recommender systems are built upon computation-intensive infrastructure and usually suffer from a huge difference in traffic between peak and off-peak periods. In peak periods, it is challenging to perform real-time computation for each request due to the limited budget of computational resources. The recommendation with a cache is a solution to this problem, where a user-wise result cache is used to provide recommendations when the recommender system cannot afford a real-time computation. However, the cached recommendations are usually suboptimal compared to real-time computation, and it is challenging to determine the items in the cache for each user. In this paper, we provide a cache-aware reinforcement learning (CARL) method to jointly optimize the recommendation by real-time computation and by the cache. We formulate the problem as a Markov decision process with user states and a cache state, where the cache state represents whether the recommender system performs recommendations by real-time computation or by the cache. The computational load of the recommender system determines the cache state. We perform reinforcement learning based on such a model to improve user engagement over multiple requests. Moreover, we show that the cache will introduce a challenge called critic dependency, which deteriorates the performance of reinforcement learning. To tackle this challenge, we propose an eigenfunction learning (EL) method to learn independent critics for CARL. Experiments show that CARL can significantly improve the users' engagement when considering the result cache. CARL has been fully launched in Kwai app, serving over 100 million users.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# GSM8Kの97%を達成 - 問題を深く理解してLLMを完璧に共振器にする

Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Perfect Reasoners ( http://arxiv.org/abs/2404.14963v1 )

ライセンス: Link先を確認
Qihuang Zhong, Kang Wang, Ziyang Xu, Juhua Liu, Liang Ding, Bo Du, Dacheng Tao, (参考訳) The Chain of Thought prompting strategy has enhance the performance of Large Language Models (LLMs) across various NLP task。 しかし、複雑な推論タスクを扱う際には、エラーの理解、計算エラー、プロセスエラー(例えば、欠落したステップや幻覚)など、まだ欠点がある。 その後、様々なエラータイプの詳細な分析により、複雑な推論タスクに対処するためには、問題全体を深く理解することが重要であることが判明した。 本稿では,人間による複雑な推論問題の解法に触発されたDUP(Deeply Understanding the Problems)と呼ばれる新しいプロンプト戦略を提案する。 3つの段階から構成される。 1) コア質問を抽出すること。 2 中心的問題に基づく問題解決情報を見つけ出す。 3) LLM による回答の生成と抽出。 そこで本研究では,10種類の推論データセットを用いたDUPプロンプトの性能評価を行った。 実験結果から,DUPはZero-Shot CoT ~\cite{kojima2022large} を全データセットで大幅に上回っていることが示唆された。 特に DUP は SVAMP (90.4\% - 94.2\%) と GSM8K (94.6\% - 97.1\%) で \textbf{state-of-the-art を達成する。 ※

Chain of Thought prompting strategy has enhanced the performance of Large Language Models (LLMs) across various NLP tasks. However, it still has shortcomings when dealing with complex reasoning tasks, following~\citet{cot_wei}, including understanding errors, calculation errors and process errors (e.g. missing-step and hallucinations). Subsequently, Our in-depth analysis of various error types has found that deeply understanding the whole problem is critical in addressing complicated reasoning tasks. In this paper, we proposed a novel prompt strategy called Deeply Understanding the Problems (DUP) prompting, inspired by how humans solve complex reasoning problems, designed to enhance the comprehensive understanding of problems by LLMs. It consists of three stages: 1) extract the core question; 2) find out problem-solving information based on the core question; 3) generate and extract answers by LLMs. We evaluate the performance of DUP prompting on ten diverse reasoning datasets. Experimental results suggest that DUP prompting significantly outperforms Zero-Shot CoT ~\cite{kojima2022large} across all datasets. Notably, DUP achieves \textbf{state-of-the-art on SVAMP (90.4\% to 94.2\%) and GSM8K (94.6\% to 97.1\%).}
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# スパイクニューラルネットワークにおける代用勾配学習の理論的基盤の解明

Elucidating the theoretical underpinnings of surrogate gradient learning in spiking neural networks ( http://arxiv.org/abs/2404.14964v1 )

ライセンス: Link先を確認
Julia Gygax, Friedemann Zenke, (参考訳) 脳内の情報処理とニューロモルフィックコンピューティングを研究するためには、スパイクニューラルネットワークの訓練が不可欠である。 しかし、スパイクのバイナリの性質は、直接勾配に基づくトレーニングの課題となっている。 この問題を解決するために、シュロゲート勾配は実験的に成功したが、その理論的基礎は解明されていない。 ここでは、代理勾配と理論的に確立された2つのアプローチとの関係について検討する。 一方,スムーズな確率モデルでは, 自動微分のサポートが欠如しているため, 深部スパイクニューラルネットワークのトレーニングには実用的でないが, 単一ニューロンにおける代理勾配に相当する勾配を与える。 一方,確率的自動微分は離散的ランダム性に適合するが,スパイクニューラルネットワークトレーニングには適用されていない。 確率的スパイクニューラルネットワークにおいて、後者は代用勾配の欠落の理論的基礎を提供する。 さらに、決定論的ネットワークにおける代理勾配は特定の漸近的ケースに対応し、確率的多層スパイキングニューラルネットワークにおける代理勾配の有効性を数値的に確認する。 最後に、サロゲート勾配は保守的な場ではなく、したがってサロゲート損失の勾配ではないことを示す。 我々の研究は、サロゲート勾配に関する理論基盤の欠如と、確率スパイクニューラルネットワークのエンドツーエンドトレーニングのための解析的に十分に確立されたソリューションを提供する。

Training spiking neural networks to approximate complex functions is essential for studying information processing in the brain and neuromorphic computing. Yet, the binary nature of spikes constitutes a challenge for direct gradient-based training. To sidestep this problem, surrogate gradients have proven empirically successful, but their theoretical foundation remains elusive. Here, we investigate the relation of surrogate gradients to two theoretically well-founded approaches. On the one hand, we consider smoothed probabilistic models, which, due to lack of support for automatic differentiation, are impractical for training deep spiking neural networks, yet provide gradients equivalent to surrogate gradients in single neurons. On the other hand, we examine stochastic automatic differentiation, which is compatible with discrete randomness but has never been applied to spiking neural network training. We find that the latter provides the missing theoretical basis for surrogate gradients in stochastic spiking neural networks. We further show that surrogate gradients in deterministic networks correspond to a particular asymptotic case and numerically confirm the effectiveness of surrogate gradients in stochastic multi-layer spiking neural networks. Finally, we illustrate that surrogate gradients are not conservative fields and, thus, not gradients of a surrogate loss. Our work provides the missing theoretical foundation for surrogate gradients and an analytically well-founded solution for end-to-end training of stochastic spiking neural networks.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# Mamba3D: 状態空間モデルによる3Dポイントクラウド分析のためのローカル機能強化

Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model ( http://arxiv.org/abs/2404.14966v1 )

ライセンス: Link先を確認
Xu Han, Yuan Tang, Zhaoxuan Wang, Xianzhi Li, (参考訳) 既存のTransformerベースのポイントクラウド分析モデルは2次複雑さに悩まされ、ポイントクラウドの解像度と情報損失が損なわれる。 対照的に、状態空間モデル(SSM)に基づく新しいMambaモデルでは、線形複雑性のみを持つ複数の領域でTransformerの性能が向上する。 しかし、Mambaの直接的な採用は、ポイントクラウドタスクでの十分なパフォーマンスを達成できない。 本研究では,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。 具体的には,局所的幾何学的特徴を抽出するシンプルな局所ノルムプール(LNP)ブロックを提案する。 さらに、より優れたグローバルな特徴を得るために、トークンフォワードSSMと特徴チャネルで動作する新しい後方SSMの両方を備えた双方向SSM(bi-SSM)を導入する。 大規模な実験結果から、Mamba3DはTransformerベースのものを超え、事前トレーニングの有無に関わらず、複数のタスクで同時に動作することがわかった。 特に、Mamba3DはScanObjectNNで92.6%(スクラッチからトレーニング)、ModelNet40分類タスクで95.1%(シングルモーダル事前トレーニング)の総合的な精度で複数のSoTAを達成している。

Existing Transformer-based models for point cloud analysis suffer from quadratic complexity, leading to compromised point cloud resolution and information loss. In contrast, the newly proposed Mamba model, based on state space models (SSM), outperforms Transformer in multiple areas with only linear complexity. However, the straightforward adoption of Mamba does not achieve satisfactory performance on point cloud tasks. In this work, we present Mamba3D, a state space model tailored for point cloud learning to enhance local feature extraction, achieving superior performance, high efficiency, and scalability potential. Specifically, we propose a simple yet effective Local Norm Pooling (LNP) block to extract local geometric features. Additionally, to obtain better global features, we introduce a bidirectional SSM (bi-SSM) with both a token forward SSM and a novel backward SSM that operates on the feature channel. Extensive experimental results show that Mamba3D surpasses Transformer-based counterparts and concurrent works in multiple tasks, with or without pre-training. Notably, Mamba3D achieves multiple SoTA, including an overall accuracy of 92.6% (train from scratch) on the ScanObjectNN and 95.1% (with single-modal pre-training) on the ModelNet40 classification task, with only linear complexity.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# CoARF:ラジアンスフィールドのための制御可能な3Dアートスタイル転送

CoARF: Controllable 3D Artistic Style Transfer for Radiance Fields ( http://arxiv.org/abs/2404.14967v1 )

ライセンス: Link先を確認
Deheng Zhang, Clara Fernandez-Labrador, Christopher Schroers, (参考訳) 芸術的な3Dシーンを作るには時間がかかるし、専門的な知識が必要だ。 これを解決するために、ARFのような最近の作品では、ラディアンス場に基づくスタイル制約によるアプローチを使用して、ユーザが提供したスタイル画像に似た3Dシーンを生成する。 しかし、これらの手法は結果のシーンをきめ細かな制御を欠いている。 本稿では,制御可能な3次元シーンスタイリングのための新しいアルゴリズムであるCoARFを紹介する。 CoARFは、指定されたオブジェクトのスタイル転送、コンポジション3Dスタイル転送、セマンティックアウェアスタイル転送を可能にする。 ラベル依存損失関数の異なるセグメンテーションマスクを用いて制御性を実現する。 また,スタイル伝達品質を向上させるために,セマンティック・アウェアの近接マッチングアルゴリズムを提案する。 広範にわたる実験により,CoARFは,より正確な特徴マッチングにより,スタイル転送のユーザ指定制御性と優れたスタイル転送品質を提供することを示した。

Creating artistic 3D scenes can be time-consuming and requires specialized knowledge. To address this, recent works such as ARF, use a radiance field-based approach with style constraints to generate 3D scenes that resemble a style image provided by the user. However, these methods lack fine-grained control over the resulting scenes. In this paper, we introduce Controllable Artistic Radiance Fields (CoARF), a novel algorithm for controllable 3D scene stylization. CoARF enables style transfer for specified objects, compositional 3D style transfer and semantic-aware style transfer. We achieve controllability using segmentation masks with different label-dependent loss functions. We also propose a semantic-aware nearest neighbor matching algorithm to improve the style transfer quality. Our extensive experiments demonstrate that CoARF provides user-specified controllability of style transfer and superior style transfer quality with more precise feature matching.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# CenterArt:関節形状再構成と人工物体の6-DoFグラフ推定

CenterArt: Joint Shape Reconstruction and 6-DoF Grasp Estimation of Articulated Objects ( http://arxiv.org/abs/2404.14968v1 )

ライセンス: Link先を確認
Sassan Mokhtar, Eugenio Chisari, Nick Heppert, Abhinav Valada, (参考訳) ロボット操作を実現する上では, 精密な把握と再構築が重要である。 本稿では,3次元形状再構成と6-DoFグルーピング推定のための新しい手法であるCenterArtを提案する。 CenterArtはシーンのRGB-D画像を入力として、まずエンコーダを通して形状とジョイントコードを予測します。 デコーダは、これらのコードを利用して3D形状を再構成し、オブジェクトの6-DoFグリップポーズを推定する。 さらに,6-DoFのグルーフポーズのデータセットを生成する機構を開発した。 CenterArtは、ランダムなデザイン、テクスチャ、照明条件、現実的な深さを含む複数の明瞭なオブジェクトを含む現実的なシーンで訓練されている。 私たちはCenterArtが既存の手法よりも精度と堅牢性で優れていることを示す広範な実験を行った。

Precisely grasping and reconstructing articulated objects is key to enabling general robotic manipulation. In this paper, we propose CenterArt, a novel approach for simultaneous 3D shape reconstruction and 6-DoF grasp estimation of articulated objects. CenterArt takes RGB-D images of the scene as input and first predicts the shape and joint codes through an encoder. The decoder then leverages these codes to reconstruct 3D shapes and estimate 6-DoF grasp poses of the objects. We further develop a mechanism for generating a dataset of 6-DoF grasp ground truth poses for articulated objects. CenterArt is trained on realistic scenes containing multiple articulated objects with randomized designs, textures, lighting conditions, and realistic depths. We perform extensive experiments demonstrating that CenterArt outperforms existing methods in accuracy and robustness.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# 糖尿病予測のための知識グラフによる不均一遺伝子発現データの統合

Integrating Heterogeneous Gene Expression Data through Knowledge Graphs for Improving Diabetes Prediction ( http://arxiv.org/abs/2404.14970v1 )

ライセンス: Link先を確認
Rita T. Sousa, Heiko Paulheim, (参考訳) 糖尿病は世界中の何百万人もの人々の健康問題である。 機械学習の手法は糖尿病予測の改善に有望な結果を示しており、特に遺伝子発現データなど多種多様なデータ型の分析による。 遺伝子発現データは貴重な洞察を提供することができるが、表現データセットのサンプルサイズは通常制限されており、異なる遺伝子発現を持つ異なるデータセットからのデータが簡単に結合できないという事実から課題が生じる。 バイオメディカルデータ統合のためのユニークなツールである知識グラフを用いて、複数の遺伝子発現データセットとドメイン固有の知識を統合することにより、これらの課題に対処する新しいアプローチを提案する。 その後、KG埋め込み法を使用してベクトル表現を生成し、分類器の入力として機能する。 実験により,複数の遺伝子発現データセットとドメイン固有のタンパク質機能や相互作用に関する知識を統合することで,糖尿病予測の改善が示された。

Diabetes is a worldwide health issue affecting millions of people. Machine learning methods have shown promising results in improving diabetes prediction, particularly through the analysis of diverse data types, namely gene expression data. While gene expression data can provide valuable insights, challenges arise from the fact that the sample sizes in expression datasets are usually limited, and the data from different datasets with different gene expressions cannot be easily combined. This work proposes a novel approach to address these challenges by integrating multiple gene expression datasets and domain-specific knowledge using knowledge graphs, a unique tool for biomedical data integration. KG embedding methods are then employed to generate vector representations, serving as inputs for a classifier. Experiments demonstrated the efficacy of our approach, revealing improvements in diabetes prediction when integrating multiple gene expression datasets and domain-specific knowledge about protein functions and interactions.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# オーブリー・アンドレ臨界付近のスターク局在

Stark localization near Aubry-André criticality ( http://arxiv.org/abs/2404.14971v1 )

ライセンス: Link先を確認
Ayan Sahoo, Aitijhya Saha, Debraj Rakshit, (参考訳) 本研究では, Aubry-Andr\'{e} (AA) 臨界点付近のスターク局在について検討する。 局所化-非局在化遷移を特徴付けるために, 局所化長, 逆参加率(IPR), 基底と第1励起状態の間のエネルギーギャップなどのシステム依存パラメータについて検討した。 局所化のキー記述子によって保持されるスケーリング指数は、純粋なAAモデルやスタークモデルとは全く異なることを示す。 AAモデルの臨界点付近では、スターク場の強度$h$を誘導し、ローカライゼーション長$\zeta$が$\zeta\propto h^{-\nu}$にスケールし、純粋なAAモデル$\nu=1$)とStarkモデル$\nu\approx0.33$の両方とは異なる$\nu\approx0.29$となる。 IPR $\propto h^{s}$と$s\approx0.096$は、純粋なAAモデル(s\approx0.33$)とStarkモデル(s\approx0.33$)の両方と大きく異なる。 エネルギーギャップ$\Delta$は$E\propto h^{\nu z}$とスケールするが、$z\approx2.37$は純粋なAAモデルと同じである。

In this work we investigate the Stark localization near the Aubry-Andr\'{e} (AA) critical point. We study system-dependent parameters, such as localization length, inverse participation ratio (IPR), and energy gap between the ground and first excited state, for characterizing the localization-delocalization transition. We show that the scaling exponents possessed by these key descriptors of localization are quite different from that of a pure AA model or Stark model. Near the critical point of the AA model, inducing Stark field of strength $h$, the localization length $\zeta$ scales as $\zeta\propto h^{-\nu}$ with $\nu\approx0.29$ which is different than both the pure AA model ($\nu=1$) and Stark model ($\nu\approx0.33$). The IPR scales as IPR $\propto h^{s}$ with $s\approx0.096$ which is again significantly different than both the pure AA model ($s\approx0.33$) and Stark model ($s\approx0.33$). The energy gap, $\Delta$, scales as $E\propto h^{\nu z}$, where $z\approx2.37$ which is however same as the pure AA model.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# シンボリック統合アルゴリズムの選択と機械学習:LSTMとツリーLSTM

Symbolic Integration Algorithm Selection with Machine Learning: LSTMs vs Tree LSTMs ( http://arxiv.org/abs/2404.14973v1 )

ライセンス: Link先を確認
Rashid Barket, Matthew England, Jürgen Gerhard, (参考訳) コンピュータ代数システム(例:Maple)は、研究、教育、産業などに用いられる。 彼らの重要な機能の1つはシンボリック統合(英語版)であり、出力積分の形式やランタイムに影響を及ぼすものの中から選択すべきサブアルゴリズムが多数存在する。 私たちは機械学習がこのサブアルゴリズムの選択を導くことができると仮定します。 この手法の重要な考慮事項は、数学をMLモデルにどのように表現するかである: 数学的表現のツリー構造を符号化する表現が適切である、という仮説を立てる。 我々はLSTMとTreeLSTMモデルの両方を訓練し,これらをMapleの既存手法と比較した。 TreeLSTMはLSTMよりもはるかに優れており、数学的表現のインフォームド表現を使うことの利点を強調している。 メイプルの現在最先端のメタアルゴリズムよりも優れた出力を生み出すことができ、さらなる研究の基盤となる。

Computer Algebra Systems (e.g. Maple) are used in research, education, and industrial settings. One of their key functionalities is symbolic integration, where there are many sub-algorithms to choose from that can affect the form of the output integral, and the runtime. Choosing the right sub-algorithm for a given problem is challenging: we hypothesise that Machine Learning can guide this sub-algorithm choice. A key consideration of our methodology is how to represent the mathematics to the ML model: we hypothesise that a representation which encodes the tree structure of mathematical expressions would be well suited. We trained both an LSTM and a TreeLSTM model for sub-algorithm prediction and compared them to Maple's existing approach. Our TreeLSTM performs much better than the LSTM, highlighting the benefit of using an informed representation of mathematical expressions. It is able to produce better outputs than Maple's current state-of-the-art meta-algorithm, giving a strong basis for further research.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# CAGE: Circumplex Affected Expression Inference

CAGE: Circumplex Affect Guided Expression Inference ( http://arxiv.org/abs/2404.14975v1 )

ライセンス: Link先を確認
Niklas Wagner, Felix Mätzler, Samed R. Vossberg, Helen Schneider, Svetlana Pavlitska, J. Marius Zöllner, (参考訳) 感情や表現を理解することは、特にユーザー体験を改善するために、複数の分野にまたがる関心事である。 共通の認識とは対照的に、感情は個別の実体ではなく、連続体に沿って存在することが示されている。 人は、文化的背景、個人の経験、認知的バイアスなど、さまざまな要因によって、離散的な感情が異なることを理解します。 したがって、表現理解へのほとんどのアプローチ、特に離散圏に依存しているアプローチは、本質的に偏りがある。 本稿では,2つの共通データセット (AffectNet と EMOTIC) に対して,感情の概略モデルの構成成分を付加した比較深度解析を行う。 さらに,軽量アプリケーションに適した表情予測モデルを提案する。 小型のMaxViTモデルアーキテクチャを用いて,連続値と覚醒ラベルを用いた学習における個別表現カテゴリラベルの影響を評価する。 カテゴリー別ラベルに加えて,有意な評価や覚醒を考慮すれば,表現推論の精度が向上することが示唆された。 提案モデルはAffectNetの現在の最先端モデルよりも優れており、原子価を推定し、7%低いRMSEを達成するための最高の性能モデルとして確立されている。 結果を再現するためのトレーニングスクリプトとトレーニングされたウェイトは、以下の通りである。

Understanding emotions and expressions is a task of interest across multiple disciplines, especially for improving user experiences. Contrary to the common perception, it has been shown that emotions are not discrete entities but instead exist along a continuum. People understand discrete emotions differently due to a variety of factors, including cultural background, individual experiences, and cognitive biases. Therefore, most approaches to expression understanding, particularly those relying on discrete categories, are inherently biased. In this paper, we present a comparative in-depth analysis of two common datasets (AffectNet and EMOTIC) equipped with the components of the circumplex model of affect. Further, we propose a model for the prediction of facial expressions tailored for lightweight applications. Using a small-scaled MaxViT-based model architecture, we evaluate the impact of discrete expression category labels in training with the continuous valence and arousal labels. We show that considering valence and arousal in addition to discrete category labels helps to significantly improve expression inference. The proposed model outperforms the current state-of-the-art models on AffectNet, establishing it as the best-performing model for inferring valence and arousal achieving a 7% lower RMSE. Training scripts and trained weights to reproduce our results can be found here: https://github.com/wagner-niklas/CAGE_expression_inference.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# 持続可能な都市・社会のためのソーシャルメディアと人工知能:水質分析のユースケース

Social Media and Artificial Intelligence for Sustainable Cities and Societies: A Water Quality Analysis Use-case ( http://arxiv.org/abs/2404.14977v1 )

ライセンス: Link先を確認
Muhammad Asif Auyb, Muhammad Tayyab Zamir, Imran Khan, Hannia Naseem, Nasir Ahmad, Kashif Ahmad, (参考訳) 本稿では,水質分析における重要な社会的課題について論じる。 社会の経済・社会発展における重要な要因の一つとして、水の提供と品質の確保が、行政当局の優先事項の1つとして常に残されている。 水質を確保するため、オフラインやオンラインサーベイなど、水道網の監視と評価を行う様々な方法が用いられる。 しかし, これらの調査には, 参加者数の制限や, 実施作業による低頻度化など, いくつかの制限がある。 本稿では,データ駆動型意思決定のための自然言語処理(NLP)フレームワークを提案する。 提案するフレームワークは2つのコンポーネントで構成されている。 (i)テキスト分類、及び (ii)トピックモデリング。 テキスト分類において, LLMに重みを割り当てるために, 異なる重み選択法と最適化法を用いて, LLM(Large Language Model)を組み込んだメリット融合型フレームワークを提案する。 トピックモデリングでは、BERTopicライブラリを使用して、水に関連するつぶやきに隠れたトピックパターンを発見しました。 また、異なる地域や国から派生した関連ツイートを分析し、グローバル、地域、国固有の問題や水に関する懸念について調査した。 また、このトピックに関する今後の研究を促進するために、大規模なデータセットを手動で収集し、注釈付けした。

This paper focuses on a very important societal challenge of water quality analysis. Being one of the key factors in the economic and social development of society, the provision of water and ensuring its quality has always remained one of the top priorities of public authorities. To ensure the quality of water, different methods for monitoring and assessing the water networks, such as offline and online surveys, are used. However, these surveys have several limitations, such as the limited number of participants and low frequency due to the labor involved in conducting such surveys. In this paper, we propose a Natural Language Processing (NLP) framework to automatically collect and analyze water-related posts from social media for data-driven decisions. The proposed framework is composed of two components, namely (i) text classification, and (ii) topic modeling. For text classification, we propose a merit-fusion-based framework incorporating several Large Language Models (LLMs) where different weight selection and optimization methods are employed to assign weights to the LLMs. In topic modeling, we employed the BERTopic library to discover the hidden topic patterns in the water-related tweets. We also analyzed relevant tweets originating from different regions and countries to explore global, regional, and country-specific issues and water-related concerns. We also collected and manually annotated a large-scale dataset, which is expected to facilitate future research on the topic.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# SGFormer:360度深度推定のための球形幾何学変換器

SGFormer: Spherical Geometry Transformer for 360 Depth Estimation ( http://arxiv.org/abs/2404.14979v1 )

ライセンス: Link先を確認
Junsong Zhang, Zisong Chen, Chunyu Lin, Lang Nie, Zhijie Shen, Junda Huang, Yao Zhao, (参考訳) パノラマ歪みは360度深度推定において重要な課題となり、特に北極と南極で顕著である。 既存の手法では、歪みを取り除くために二射影融合戦略を採用するか、大域構造を捉えるために長距離依存をモデル化する。 本稿では,SGFormerと呼ばれる球形幾何学変換器を提案し,上記の問題に対処し,球形幾何学の先駆を視覚変換器に統合する革新的なステップを提案する。 この目的のために、変換器デコーダを球状事前復号器(SPDecoder)に再ターゲットし、復号時の球状構造の整合性を維持する。 具体的には, 2極再射, 円形回転, 曲線局所埋め込みを利用して, 等歪, 連続性, 表面距離の球面特性をそれぞれ保持する。 さらに,様々な解像度で空間構造を補うために,クエリベースの大域的条件位置埋め込みを提案する。 これは空間的位置のグローバルな認識を高めるだけでなく、異なるパッチにわたって深さ構造を鋭くする。 最後に、一般的なベンチマークで広範な実験を行い、最先端のソリューションよりも優位性を示す。

Panoramic distortion poses a significant challenge in 360 depth estimation, particularly pronounced at the north and south poles. Existing methods either adopt a bi-projection fusion strategy to remove distortions or model long-range dependencies to capture global structures, which can result in either unclear structure or insufficient local perception. In this paper, we propose a spherical geometry transformer, named SGFormer, to address the above issues, with an innovative step to integrate spherical geometric priors into vision transformers. To this end, we retarget the transformer decoder to a spherical prior decoder (termed SPDecoder), which endeavors to uphold the integrity of spherical structures during decoding. Concretely, we leverage bipolar re-projection, circular rotation, and curve local embedding to preserve the spherical characteristics of equidistortion, continuity, and surface distance, respectively. Furthermore, we present a query-based global conditional position embedding to compensate for spatial structure at varying resolutions. It not only boosts the global perception of spatial position but also sharpens the depth structure across different patches. Finally, we conduct extensive experiments on popular benchmarks, demonstrating our superiority over state-of-the-art solutions.
翻訳日:2024-04-24 14:11:34 公開日:2024-04-23
# 正確な浮動小数点SNARKによるゼロ知識位置プライバシー

Zero-Knowledge Location Privacy via Accurate Floating Point SNARKs ( http://arxiv.org/abs/2404.14983v1 )

ライセンス: Link先を確認
Jens Ernstberger, Chengru Zhang, Luca Ciprian, Philipp Jovanovic, Sebastian Steinhorst, (参考訳) 本稿では、ZKLP(Zero-Knowledge Location Privacy)を導入し、ユーザが正確な位置情報を開示することなく、特定の地理的領域内にあることを第三者に証明できるようにする。 ZKLPはさまざまなレベルの粒度をサポートし、ユースケースに応じてカスタマイズが可能である。 ZKLPを実現するために、浮動小数点演算のIEEE 754標準に完全に準拠するZero-Knowledge Proof (ZKP) 回路の最初のセットを導入する。 我々の浮動小数点実装は効率よくスケールし、単精度浮動小数点乗算の場合、乗算あたりの制約はわずか69ドルである。 浮動小数点法を用いてZKLPパラダイムを実現する。 現状と比較して、最適化された実装は、単一精度浮動小数点値を利用する制約が14.1 \times$少なくなること、二重精度浮動小数点値を利用する場合の制約が11.2 \times$少なくなること、が分かる。 我々は、ピアツーピア近接テストのプライバシーを守るプロトコルを構築することでZKLPの実践性を実証する。 そのような構成では、ボブは0.27 s$で(非)確率の証明を作成できるが、アリスは1秒あたり約250ドルまでの距離を検証できる。

This paper introduces Zero-Knowledge Location Privacy (ZKLP), enabling users to prove to third parties that they are within a specified geographical region while not disclosing their exact location. ZKLP supports varying levels of granularity, allowing for customization depending on the use case. To realize ZKLP, we introduce the first set of Zero-Knowledge Proof (ZKP) circuits that are fully compliant to the IEEE 754 standard for floating-point arithmetic. Our results demonstrate that our floating point implementation scales efficiently, requiring only $69$ constraints per multiplication for $2^{15}$ single-precision floating-point multiplications. We utilize our floating point implementation to realize the ZKLP paradigm. In comparison to the state-of-the-art, we find that our optimized implementation has $14.1 \times$ less constraints utilizing single precision floating-point values, and $11.2 \times$ less constraints when utilizing double precision floating-point values. We demonstrate the practicability of ZKLP by building a protocol for privacy preserving peer-to-peer proximity testing - Alice can test if she is close to Bob by receiving a single message, without either party revealing any other information about their location. In such a configuration, Bob can create a proof of (non-)proximity in $0.27 s$, whereas Alice can verify her distance to about $250$ peers per second
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# オブジェクト再同定のための視覚変換器のグローバル・ローカル特徴の探索

Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification ( http://arxiv.org/abs/2404.14985v1 )

ライセンス: Link先を確認
Yingquan Wang, Pingping Zhang, Dong Wang, Huchuan Lu, (参考訳) オブジェクト再識別(Re-ID)は、異なる場所や時間で撮影された画像から特定のオブジェクトを識別し、検索することを目的としている。 近年、オブジェクトRe-IDはビジョントランスフォーマー(ViT)の進歩によって大きな成功を収めている。 しかし, オブジェクトRe-IDに対するトランスフォーマーでは, グローバルな局所関係の効果が十分に調べられていない。 本研究ではまず,ViTのグローバルおよびローカルな特徴の影響について検討し,さらに高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。 ViTの最後の数層から得られる機能は,すでに強力な表現能力を有しており,グローバルな情報とローカルな情報が相互に拡張可能であることが判明した。 この事実に基づいて,最後の数層のTransformerレイヤのクラストークンを利用するグローバルアグリゲーションエンコーダ(GAE)を提案し,包括的グローバル機能を効果的に学習する。 一方,GAEのグローバルキューと多層パッチトークンの両方を利用して識別的局所表現を探索するローカル多層融合(LMF)を提案する。 大規模な実験により,提案手法は4つのオブジェクトRe-IDベンチマークにおいて優れた性能を示した。

Object Re-Identification (Re-ID) aims to identify and retrieve specific objects from images captured at different places and times. Recently, object Re-ID has achieved great success with the advances of Vision Transformers (ViT). However, the effects of the global-local relation have not been fully explored in Transformers for object Re-ID. In this work, we first explore the influence of global and local features of ViT and then further propose a novel Global-Local Transformer (GLTrans) for high-performance object Re-ID. We find that the features from last few layers of ViT already have a strong representational ability, and the global and local information can mutually enhance each other. Based on this fact, we propose a Global Aggregation Encoder (GAE) to utilize the class tokens of the last few Transformer layers and learn comprehensive global features effectively. Meanwhile, we propose the Local Multi-layer Fusion (LMF) which leverages both the global cues from GAE and multi-layer patch tokens to explore the discriminative local representations. Extensive experiments demonstrate that our proposed method achieves superior performance on four object Re-ID benchmarks.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# $\texttt{MiniMol}$:分子学習のためのパラメータ効率の良い基礎モデル

$\texttt{MiniMol}$: A Parameter-Efficient Foundation Model for Molecular Learning ( http://arxiv.org/abs/2404.14986v1 )

ライセンス: Link先を確認
Kerstin Kläser, Błażej Banaszewski, Samuel Maddrell-Mander, Callum McLean, Luis Müller, Ali Parviz, Shenyang Huang, Andrew Fitzgibbon, (参考訳) 生物学的タスクでは、データはハード・トゥ・ギャザーの測定から生成されるため、稀に豊富である。 したがって、利用可能な大量のデータに基づいて事前学習した基礎モデルを、低データ下流タスクに転送することは有望な方向である。 しかし、分子学習のための効果的な基礎モデルをどう設計するかは未解決の問題であり、既存のアプローチは一般に大きなパラメータ容量を持つモデルに焦点を当てている。 本研究では,1000万個のパラメータを持つ分子学習の基礎モデルである$\texttt{MiniMol}$を提案する。 $\texttt{MiniMol}$は大まかに定義された約3300のグラフと、量子的および生物学的性質のノードレベルのタスクで事前訓練される。 事前学習データセットには、約600万の分子と5億のラベルが含まれている。 タスク間の$\texttt{MiniMol}$の一般化性を実証するため、Therapeutic Data Commons (TDC) ADMETグループから下流タスクで評価し、17タスクにわたる先行技術基盤モデルよりも大幅に改善したことを示す。 $\texttt{MiniMol}$は、将来の研究のための公開およびオープンソースモデルである。

In biological tasks, data is rarely plentiful as it is generated from hard-to-gather measurements. Therefore, pre-training foundation models on large quantities of available data and then transfer to low-data downstream tasks is a promising direction. However, how to design effective foundation models for molecular learning remains an open question, with existing approaches typically focusing on models with large parameter capacities. In this work, we propose $\texttt{MiniMol}$, a foundational model for molecular learning with 10 million parameters. $\texttt{MiniMol}$ is pre-trained on a mix of roughly 3300 sparsely defined graph- and node-level tasks of both quantum and biological nature. The pre-training dataset includes approximately 6 million molecules and 500 million labels. To demonstrate the generalizability of $\texttt{MiniMol}$ across tasks, we evaluate it on downstream tasks from the Therapeutic Data Commons (TDC) ADMET group showing significant improvements over the prior state-of-the-art foundation model across 17 tasks. $\texttt{MiniMol}$ will be a public and open-sourced model for future research.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# PLAIDの再現性に関する研究

A Reproducibility Study of PLAID ( http://arxiv.org/abs/2404.14989v1 )

ライセンス: Link先を確認
Sean MacAvaney, Nicola Tonellotto, (参考訳) ColBERTv2 の PLAID (Performance-Optimized Late Interaction Driver) アルゴリズムはクラスタ化された項表現を用いて、最終(実際に)文書のスコアリングを段階的に行う。 本稿では,オリジナル作品から欠落したギャップを再現し,埋める。 PLAIDが導入するパラメータを調べたところ,Paretoフロンティアは3つのパラメータのうち,注意深いバランスで形成されていることがわかった。 次に、PLAIDと論文から欠落した重要なベースラインを比較し、語彙システムを再ランク付けする。 ColBERTv2 を BM25 の初期プール上に再ランカとして適用することにより,低レイテンシ環境での効率効率・効率性トレードオフが向上することがわかった。 しかし、語彙マッチングのリコールの制限により、より高いレイテンシ設定において、再ランクはピーク効率に達することができず、徹底したColBERTv2探索の近似が不十分である。 ColBERTv2のすべての運用ポイントにわたるParetoフロンティアを、よく注釈付きデータセットを使用して評価することで実現している。 PLAIDに対して再ランク付け手法が高い競争力を持つ理由について,PLAIDが検索に使用するトークン表現クラスタを分析し,ほとんどのクラスタが1つのトークンに概ね一致していることと,その逆について考察する。 ベースラインを再ランク付けする競争上のトレードオフを考えると,本研究は,検索エンジンの効率性を評価する上で,関連するベースラインを慎重に選択することの重要性を強調している。

The PLAID (Performance-optimized Late Interaction Driver) algorithm for ColBERTv2 uses clustered term representations to retrieve and progressively prune documents for final (exact) document scoring. In this paper, we reproduce and fill in missing gaps from the original work. By studying the parameters PLAID introduces, we find that its Pareto frontier is formed of a careful balance among its three parameters; deviations beyond the suggested settings can substantially increase latency without necessarily improving its effectiveness. We then compare PLAID with an important baseline missing from the paper: re-ranking a lexical system. We find that applying ColBERTv2 as a re-ranker atop an initial pool of BM25 results provides better efficiency-effectiveness trade-offs in low-latency settings. However, re-ranking cannot reach peak effectiveness at higher latency settings due to limitations in recall of lexical matching and provides a poor approximation of an exhaustive ColBERTv2 search. We find that recently proposed modifications to re-ranking that pull in the neighbors of top-scoring documents overcome this limitation, providing a Pareto frontier across all operational points for ColBERTv2 when evaluated using a well-annotated dataset. Curious about why re-ranking methods are highly competitive with PLAID, we analyze the token representation clusters PLAID uses for retrieval and find that most clusters are predominantly aligned with a single token and vice versa. Given the competitive trade-offs that re-ranking baselines exhibit, this work highlights the importance of carefully selecting pertinent baselines when evaluating the efficiency of retrieval engines.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# Transformerは$n$-gramの言語モデルを表現できる

Transformers Can Represent $n$-gram Language Models ( http://arxiv.org/abs/2404.14994v1 )

ライセンス: Link先を確認
Anej Svete, Ryan Cotterell, (参考訳) 既存の研究の多くは、形式的な計算モデルで表現能力を記述することによって、トランスフォーマーアーキテクチャの能力を分析している。 しかし、これまでのところ、アーキテクチャを言語 \emph{acceptance} の観点から分析することに重点を置いている。 これは、文字列上で定義的に \emph{probability distributions である 'emph{lang model} (LMs) の研究において不適切な問題であると主張する。 本稿では,言語モデルの単純かつ歴史的に関連するクラスであるトランスフォーマーLMと$n$-gram LMの関係に着目した。 我々は、ハードまたはスパースアテンション機構を用いたトランスフォーマーLMが、正確には$n$-gramのLMを表現できることを示し、その確率的表現能力に具体的な制約を与える。 これは、トランスフォーマーLMが文字列上の確率分布を表現するために使用できるメカニズムを理解するための第一歩となる。

Plenty of existing work has analyzed the abilities of the transformer architecture by describing its representational capacity with formal models of computation. However, the focus so far has been on analyzing the architecture in terms of language \emph{acceptance}. We contend that this is an ill-suited problem in the study of \emph{language models} (LMs), which are definitionally \emph{probability distributions} over strings. In this paper, we focus on the relationship between transformer LMs and $n$-gram LMs, a simple and historically relevant class of language models. We show that transformer LMs using the hard or sparse attention mechanisms can exactly represent any $n$-gram LM, giving us a concrete lower bound on their probabilistic representational capacity. This provides a first step towards understanding the mechanisms that transformer LMs can use to represent probability distributions over strings.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# CA-Stream: 解釈可能な画像認識のための注意に基づくプーリング

CA-Stream: Attention-based pooling for interpretable image recognition ( http://arxiv.org/abs/2404.14996v1 )

ライセンス: Link先を確認
Felipe Torres, Hanwei Zhang, Ronan Sicre, Stéphane Ayache, Yannis Avrithis, (参考訳) トランスフォーマーに基づくアーキテクチャから得られた説明は、クラス非依存のサリエンシマップと見なすことができる。 さらに、注意に基づくプーリングは、特徴空間をマスキングする形態として機能する。 本研究の目的は,GAP(Global Average Pooling)を推論時に置き換えるためのアテンションベースのプール機構を設計することである。 このメカニズムは、CA-Stream(Cross-Attention Stream)と呼ばれ、異なるネットワーク深さで機能と相互作用するクロスアテンションブロックのストリームで構成されている。 CA-Streamは、認識性能を維持しながら、モデルの解釈可能性を高める。

Explanations obtained from transformer-based architectures in the form of raw attention, can be seen as a class-agnostic saliency map. Additionally, attention-based pooling serves as a form of masking the in feature space. Motivated by this observation, we design an attention-based pooling mechanism intended to replace Global Average Pooling (GAP) at inference. This mechanism, called Cross-Attention Stream (CA-Stream), comprises a stream of cross attention blocks interacting with features at different network depths. CA-Stream enhances interpretability in models, while preserving recognition performance.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# ストリーミングデータの時空間予測のための一元化リプレイ型継続的学習フレームワーク

A Unified Replay-based Continuous Learning Framework for Spatio-Temporal Prediction on Streaming Data ( http://arxiv.org/abs/2404.14999v1 )

ライセンス: Link先を確認
Hao Miao, Yan Zhao, Chenjuan Guo, Bin Yang, Kai Zheng, Feiteng Huang, Jiandong Xie, Christian S. Jensen, (参考訳) 無線やモバイル機器の広範な展開は、安全、予測可能性、信頼性を実現するために時空間予測が不可欠である場合、例えば、交通予測、人間の移動マイニング、空気品質予測といったアプリケーションで使用される時空間データの拡散をもたらす。 時空間予測のための深層学習を目標とする近年の多くの提案は、それまでの知識が新しいデータが到着した時に完全に忘れられていた、いわゆる破滅的な忘れ込みに悩まされている。 このような提案は、データストリームがシステムに配信される設定に適用されると、予測性能が低下する可能性がある。 ストリーミングデータにおける時空間予測を可能にするために,再生型連続学習フレームワークを提案する。 このフレームワークは、過去の知識を効果的に保存するために、時空間混合機構を用いてトレーニングデータと融合した予め学習したサンプルの再生バッファを含み、破滅的な忘れを避ける。 また,汎用時空間オートエンコーダと慎重に設計した時空間単純シム(STSimSiam)ネットワークを統合し,相互情報の最大化による予測精度の確保と全体的特徴損失の回避を図る。 このフレームワークはさらにSTSimSiamの性能を高めるために5つの時空間データ拡張手法を含んでいる。 実データに関する大規模な実験は、提案したフレームワークの有効性についての洞察を提供する。

The widespread deployment of wireless and mobile devices results in a proliferation of spatio-temporal data that is used in applications, e.g., traffic prediction, human mobility mining, and air quality prediction, where spatio-temporal prediction is often essential to enable safety, predictability, or reliability. Many recent proposals that target deep learning for spatio-temporal prediction suffer from so-called catastrophic forgetting, where previously learned knowledge is entirely forgotten when new data arrives. Such proposals may experience deteriorating prediction performance when applied in settings where data streams into the system. To enable spatio-temporal prediction on streaming data, we propose a unified replay-based continuous learning framework. The framework includes a replay buffer of previously learned samples that are fused with training data using a spatio-temporal mixup mechanism in order to preserve historical knowledge effectively, thus avoiding catastrophic forgetting. To enable holistic representation preservation, the framework also integrates a general spatio-temporal autoencoder with a carefully designed spatio-temporal simple siamese (STSimSiam) network that aims to ensure prediction accuracy and avoid holistic feature loss by means of mutual information maximization. The framework further encompasses five spatio-temporal data augmentation methods to enhance the performance of STSimSiam. Extensive experiments on real data offer insight into the effectiveness of the proposed framework.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# EarPass:Ear Acoustic Sensing を用いたセキュア・インシシトコール受信者認証

EarPass: Secure and Implicit Call Receiver Authentication Using Ear Acoustic Sensing ( http://arxiv.org/abs/2404.15000v1 )

ライセンス: Link先を確認
Xiping Sun, Jing Chen, Kun He, Zhixiang He, Ruiying Du, Yebo Feng, Qingchuan Zhao, Cong Wu, (参考訳) プライベート音声通信は、しばしば機密情報を含んでいるため、認証されたユーザだけがそのような呼び出しにアクセスできることを保証することが重要である。 残念ながら、PINベースのパスワード、指紋認証、顔認識などの現在の認証メカニズムは、コールレシーバーの認証に失敗し、セキュリティのギャップが残る。 このギャップを埋めるために、スマートフォン用に設計されたセキュアで暗黙的なコールレシーバ認証方式であるEarPassを提案する。 EarPassはイヤーピーススピーカーを通して難聴の音響信号を送信し、外耳を積極的に感知し、トップマイクを使ってエコーを記録する。 エコーから耳関連信号を抽出することに焦点を当て、大きさと位相領域で分光分析を行う。 姿勢と位置のばらつきを克服するために、EarPassは、学習ベースの特徴抽出器を使用して代表的特徴を抽出し、認証のための一級分類器を使用する。 EarPassは、ユーザの負担を増したり、ユーザの応答習慣を変更したりしない。 さらに、追加のデバイスは必要とせず、スマートフォンのスピーカーとマイクのみを使用する。 EarPassの有効性と安全性を評価するための総合的な実験を行った。 以上の結果から,EarPassは96.95%の平衡精度と1.53%の誤差率が得られることがわかった。 さらに、EarPassはゼロフォート攻撃や模倣攻撃を含む潜在的な攻撃に対するレジリエンスを示す。

Private voice communication often contains sensitive information, making it critical to ensure that only authorized users have access to such calls. Unfortunately, current authentication mechanisms, such as PIN-based passwords, fingerprint recognition, and face recognition, fail to authenticate the call receiver, leaving a gap in security. To fill the gap, we present EarPass, a secure and implicit call receiver authentication scheme designed for smartphones. EarPass sends inaudible acoustic signals through the earpiece speaker to actively sense the outer ear, and records echoes using the top microphone. It focuses on extracting ear-related signals from echoes and performs spectrogram analysis in the magnitude and phase domains. To overcome posture and position variability, EarPass utilizes a learning-based feature extractor for extracting representative features, and a one-class classifier for authentication. EarPass does not increase any burdens on users or change users' call answering habits. Furthermore, it does not require extra devices but only uses the speaker and microphone on the smartphone. We conducted comprehensive experiments to evaluate EarPass's effectiveness and security. Our results show that EarPass can achieve a balanced accuracy of 96.95% and an equal error rate of 1.53%. Additionally, EarPass exhibits resilience against potential attacks, including zero-effort attacks and mimicry attacks.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# 量子センシングのための浮遊鉛を用いたナノスケール単一電子ボックス-モデリングとデバイス特性

Nanoscale single-electron box with a floating lead for quantum sensing: modelling and device characterization ( http://arxiv.org/abs/2404.15002v1 )

ライセンス: Link先を確認
Nikolaos Petropoulos, Xutong Wu, Andrii Sokolov, Panagiotis Giounanlis, Imran Bashir, Mike Asker, Dirk Leipold, Andrew K. Mitchell, Robert B. Staszewski, Elena Blokhina, (参考訳) 本稿では、電荷結合装置(CCD)に共通する浮動小ノード技術を用いて、単一電子ボックス(SEB)の奥行き解析を行う。 このデバイスは、集積シリコン量子ドット(QD)のための単一電子電荷センシング技術(英語版)の文脈で分析され、特徴付けられる。 このSEB設計のユニークな側面は、静電気的に形成されたQDに電子を検知し、正確に注入するために戦略的に使用される金属浮動小節を組み込むことである。 このSEBを解析するために,我々のナノスケールSEBシステムに適用したMOAIMモデルを提案し,電荷センシングアプリケーションを用いてSEBの挙動を理論的に予測する。 22nm技術ノード上の絶縁体 (FDSOI) プロセスにおいて, 完全に劣化したシリコンで作製したQD上で, モデルの有効性とセンシング技術について検討した。 我々は、観測された電子挙動を予測し、SEBの複雑な電子力学と相関を解明する上で、MOAIMの有効性を実証する。 本研究は, ナノエレクトロニクス領域におけるモデルの汎用性と精度を強化し, 集積QDにおける電荷注入と検出のメカニズムとして, 金属フローティングノードの実用性を強調した。 最後に、我々の測定で観測された高次効果を捉える際のモデルの限界を特定し、これらの相違点を整理するための今後の展望を提案する。

We present an in-depth analysis of a single-electron box (SEB) biased through a floating node technique that is common in charge-coupled devices (CCDs). The device is analyzed and characterized in the context of single-electron charge-sensing techniques for integrated silicon quantum dots (QD). The unique aspect of our SEB design is the incorporation of a metallic floating node, strategically employed for sensing and precise injection of electrons into an electrostatically formed QD. To analyse the SEB, we propose an extended multi-orbital Anderson impurity model (MOAIM), adapted to our nanoscale SEB system, that is used to predict theoretically the behaviour of the SEB in the context of a charge-sensing application. The validation of the model and the sensing technique has been carried out on a QD fabricated in a fully depleted silicon on insulator (FDSOI) process on a 22-nm technological node. We demonstrate the MOAIM's efficacy in predicting the observed electronic behavior and elucidating the complex electron dynamics and correlations in the SEB. The results of our study reinforce the versatility and precision of the model in the realm of nanoelectronics and highlight the practical utility of the metallic floating node as a mechanism for charge injection and detection in integrated QDs. Finally, we identify the limitations of our model in capturing higher-order effects observed in our measurements and propose future outlooks to reconcile some of these discrepancies.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# 語学化への最近のアプローチの比較:エストニアにおける事例研究

Comparison of Current Approaches to Lemmatization: A Case Study in Estonian ( http://arxiv.org/abs/2404.15003v1 )

ライセンス: Link先を確認
Aleksei Dorkin, Kairit Sirts, (参考訳) 本研究では,エストニア語に対する3つの異なる補題化アプローチ – 生成的文字レベルモデル,パターンベース単語レベル分類モデル,ルールベース形態素解析 – を評価する。 実験によると、生成モデルはかなり小さく、EstBERTに基づくパターンベースの分類モデルよりも一貫して優れています。 さらに、3つのモデルで発生する誤差の比較的小さな重複が観察され、異なるアプローチのアンサンブルが改善につながる可能性が示唆された。

This study evaluates three different lemmatization approaches to Estonian -- Generative character-level models, Pattern-based word-level classification models, and rule-based morphological analysis. According to our experiments, a significantly smaller Generative model consistently outperforms the Pattern-based classification model based on EstBERT. Additionally, we observe a relatively small overlap in errors made by all three models, indicating that an ensemble of different approaches could lead to improvements.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# TAXI:言語モデルのカテゴリ的知識編集の評価

TAXI: Evaluating Categorical Knowledge Editing for Language Models ( http://arxiv.org/abs/2404.15004v1 )

ライセンス: Link先を確認
Derek Powell, Walter Gerych, Thomas Hartvigsen, (参考訳) 人間は一つの事実を単独で学ぶことは滅多にない。 代わりに、新しい事実を学ぶことは、世界に関する他の事実の知識を誘導する。 例えば、コラットを学習することは猫の一種であり、哺乳類であり、爪を持っていると推測し、世界のモデルが一貫していることを保証する。 知識編集は、言語モデルに新しい事実を注入して事実を改善することを目的としているが、現在のベンチマークでは一貫性の評価に失敗している。 私たちは、一貫性を評価するために特別に作られた新しいベンチマークデータセットであるTAXIを手動で作成します。 TAXIは、41のカテゴリー(例:犬)、164の被験者(例:ラブラドール)、183の特性(例:哺乳類)にまたがる976の編集のための11,120の多重選択クエリを含む。 次に、TAXIを用いて、一般的な編集者の一貫性を評価し、対象者のカテゴリが適切に編集される頻度を測定する。 私たちはそれを見つける。 1)編集者は、限界はあるが、非ランダムな一貫性を達成する。 2)その一貫性は人間の基準線をはるかに過小評価し、 3)非典型的対象の編集では一貫性が向上した。 私たちのコードとデータはhttps://github.com/derekpowell/taxi.comで公開されています。

Humans rarely learn one fact in isolation. Instead, learning a new fact induces knowledge of other facts about the world. For example, in learning a korat is a type of cat, you also infer it is a mammal and has claws, ensuring your model of the world is consistent. Knowledge editing aims to inject new facts into language models to improve their factuality, but current benchmarks fail to evaluate consistency, which is critical to ensure efficient, accurate, and generalizable edits. We manually create TAXI, a new benchmark dataset specifically created to evaluate consistency. TAXI contains 11,120 multiple-choice queries for 976 edits spanning 41 categories (e.g., Dogs), 164 subjects (e.g., Labrador), and 183 properties (e.g., is a mammal). We then use TAXI to evaluate popular editors' consistency, measuring how often editing a subject's category appropriately edits its properties. We find that 1) the editors achieve marginal, yet non-random consistency, 2) their consistency far underperforms human baselines, and 3) consistency is more achievable when editing atypical subjects. Our code and data are available at https://github.com/derekpowell/taxi.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# 能動物体検出のためのパラメータ効率向上のための外部プロンプト特性

External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection ( http://arxiv.org/abs/2404.15008v1 )

ライセンス: Link先を確認
Wen Liang, Peipei Ran, Mengchao Bai, Xiao Liu, P. Bilha Githinji, Wei Zhao, Peiwu Qin, (参考訳) Salient Object Detection (SOD) は、画像中の最も健全なオブジェクトを見つけ、ピクセルレベルのバイナリマスクを出力することを目的としている。 トランスフォーマーに基づく手法は,グローバルなセマンティック理解によって有望な性能を達成する。 しかし、これらのモデルは大規模であり、多くの訓練パラメータを必要とする傾向にある。 そこで本研究では,SOD用変圧器のポテンシャルをよりよく活用するために,学習パラメータの削減を目的としたパラメータ効率の高い微調整手法を提案する。 ExPert(AdaptedR Tuning)と呼ばれる我々のモデルでは、冷凍トランスエンコーダの層間にアダプタとインジェクタが分散したエンコーダ・デコーダ構造が特徴的である。 アダプタモジュールはトレーニング済みのバックボーンをSODに適合させ、インジェクタモジュールは外部のプロンプト機能を組み込んでサルエントオブジェクトの認識を高める。 総合的な実験により,本手法の優位性を実証した。 従来の最先端(SOTA)モデルを5つのSODデータセットに渡すことで、ExPertは80.2Mのトレーニングパラメータを持つECSSDデータセットで0.215の平均絶対誤差(MAE)を達成し、トランスフォーマーベースのSOTAモデルより21%、CNNベースのSOTAモデルより47%向上した。

Salient object detection (SOD) aims at finding the most salient objects in images and outputs pixel-level binary masks. Transformer-based methods achieve promising performance due to their global semantic understanding, crucial for identifying salient objects. However, these models tend to be large and require numerous training parameters. To better harness the potential of transformers for SOD, we propose a novel parameter-efficient fine-tuning method aimed at reducing the number of training parameters while enhancing the salient object detection capability. Our model, termed EXternal Prompt features Enhanced adapteR Tuning (ExPert), features an encoder-decoder structure with adapters and injectors interspersed between the layers of a frozen transformer encoder. The adapter modules adapt the pre-trained backbone to SOD while the injector modules incorporate external prompt features to enhance the awareness of salient objects. Comprehensive experiments demonstrate the superiority of our method. Surpassing former state-of-the-art (SOTA) models across five SOD datasets, ExPert achieves 0.215 mean absolute error (MAE) in ECSSD dataset with 80.2M trained parameters, 21% better than transformer-based SOTA model and 47% better than CNN-based SOTA model.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# 小児脳腫瘍切除 : CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsを中心に

The Brain Tumor Segmentation in Pediatrics (BraTS-PEDs) Challenge: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2404.15009v1 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Deep Gandhi, Xinyang Liu, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Anurag Gottipati, Debanjan Haldar, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Neda Khalili, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Mariana Sanchez-Montano, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Spyridon Bakas, Adam Resnick, Brian Rood, Arastoo Vossough, Marius George Linguraru, (参考訳) 中枢神経系の小児腫瘍は、小児におけるがん関連死の最も一般的な原因である。 小児の高次グリオーマの生存率は20%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsの課題は、小児脳腫瘍に焦点をあて、小児神経腫瘍学および臨床治験に特化した複数の国際コンソーシアムにまたがるデータを収集することである。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsチャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍を持つ子供のケアを加速させる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs challenge, focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# X-3D:ポイントクラウド認識のための明示的な3次元構造モデリング

X-3D: Explicit 3D Structure Modeling for Point Cloud Recognition ( http://arxiv.org/abs/2404.15010v1 )

ライセンス: Link先を確認
Shuofeng Sun, Yongming Rao, Jiwen Lu, Haibin Yan, (参考訳) 多くの先行研究は、個々の近傍点に対する関係ベクトルの構築と各ベクトルに対する動的カーネルの生成に重点を置いており、それらを高次元空間に埋め込んで暗黙の局所構造を捉えている。 しかし、このような暗黙的な高次元構造モデリングは、明示的な構造情報がないため、点雲の局所的な幾何学的構造を不十分に表現している。 そこで我々は,X-3Dを明示的な3次元構造モデリング手法として導入する。 X-3D は入力された3D空間内の明示的な局所構造情報を捕捉し、現在の局所領域内のすべての近傍ポイントに対して共有重みを持つ動的カーネルを生成することで機能する。 このモデリング手法は、効果的な幾何学的先行性を導入し、埋め込み空間の局所構造と元の入力点雲との相違を著しく低減し、局所的特徴の抽出を改善する。 S3DIS 6 fold上の \textbf{79.2\%}, S3DIS Area 5 の \textbf{74.3\%}, ScanNetV2 の ScanNetV2 の \textbf{76.3\%}, SUN RGB-D の \textbf{46.9\%} mAP, SUN RGB-D の \textbf{69.0.0\%} mAP, \textbf{69.0\%} mAP, \textbf{69.3\%} mAP の \textbf{76.3\%}, S3NetV2 の \textbf{76.3\%}, SUN RGB-D の \textbf{69.0.0\%} mAP, \textbf{51.1\%} mAP 我々のコードは \href{https://github.com/sunshuofeng/X-3D}{https://github.com/sunshuofeng/X-3D} で入手できる。

Numerous prior studies predominantly emphasize constructing relation vectors for individual neighborhood points and generating dynamic kernels for each vector and embedding these into high-dimensional spaces to capture implicit local structures. However, we contend that such implicit high-dimensional structure modeling approch inadequately represents the local geometric structure of point clouds due to the absence of explicit structural information. Hence, we introduce X-3D, an explicit 3D structure modeling approach. X-3D functions by capturing the explicit local structural information within the input 3D space and employing it to produce dynamic kernels with shared weights for all neighborhood points within the current local region. This modeling approach introduces effective geometric prior and significantly diminishes the disparity between the local structure of the embedding space and the original input point cloud, thereby improving the extraction of local features. Experiments show that our method can be used on a variety of methods and achieves state-of-the-art performance on segmentation, classification, detection tasks with lower extra computational cost, such as \textbf{90.7\%} on ScanObjectNN for classification, \textbf{79.2\%} on S3DIS 6 fold and \textbf{74.3\%} on S3DIS Area 5 for segmentation, \textbf{76.3\%} on ScanNetV2 for segmentation and \textbf{64.5\%} mAP , \textbf{46.9\%} mAP on SUN RGB-D and \textbf{69.0\%} mAP , \textbf{51.1\%} mAP on ScanNetV2 . Our code is available at \href{https://github.com/sunshuofeng/X-3D}{https://github.com/sunshuofeng/X-3D}.
翻訳日:2024-04-24 14:01:50 公開日:2024-04-23
# アインシュタイン望遠鏡の低周波検出器における周波数依存性スクイージングのアプローチ

Approaches of frequency-dependent squeezing for the low frequency detector of Einstein Telescope ( http://arxiv.org/abs/2404.15012v1 )

ライセンス: Link先を確認
Xingrui Peng, Denis Martynov, Zonghong Zhu, Teng Zhang, (参考訳) 重力波検出器の量子ノイズは周波数依存性のスクイーズによりブロードバンド内で抑制することができる。 通常は1つの大規模なフィルターキャビティと2つも必要であり、例えばアインシュタイン望遠鏡の低周波検出器はファブリー・ペロー・ミシェルソン干渉計(英語版)である。 本稿では,2つのフィルタキャビティを結合キャビティに置き換えることの可能性を検討した。 このアプローチは理論上のみ有効であることがわかったが、光学の要求されるパラメータは、[Phys]の結果と一致する実用的な実装をサポートしていない。 D {\bf 101}, 082002 (2020) を参照。 さらに、アインシュタイン望遠鏡の1つまたは2つのフィルタキャビティを除去するために、EPRスキューズを利用する可能性について検討した。 EPRのスクイージングは1つのフィルター空洞を除去し、周波数依存性のスクイージングのフィルター空洞の1つとして機能する腕腔の長さの長さから、より高い入力スキュージングレベルの許容度で検出感度を向上する可能性があることが判明した。

The quantum noise in gravitational-wave detectors can be suppressed in a broadband by frequency-dependent squeezing. It usually requires one large scale filter cavity and even two, for example in the low frequency detector of Einstein Telescope, which is a detuned dual recycling Fabry-Perot Michelson interferometer. In this paper, we study the feasibility of replacing two filter cavities with a coupled-cavity, aiming to reduce the optical losses with less number of optics. It turns out this approach is only theoretically valid, however, the required parameters of the optics don't support practical implementation, which is consistent with the results in [Phys. Rev. D {\bf 101}, 082002 (2020)]. Furthermore, we investigate the viability of utilizing EPR squeezing to eliminate either one or two filter cavities in Einstein Telescope. It turns out EPR squeezing would allow to eliminate one filter cavity, and can potentially improve the detector sensitivity with the allowance of higher input squeezing level, benefiting from the longer length of the arm cavity which serves as one of the filter cavities for frequency-dependent squeezing.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# k+1$)-パーティの絡み合いによる多部量子状態の量子化

Quantifying multipartite quantum states by ($k+1$)-partite entanglement measures ( http://arxiv.org/abs/2404.15013v1 )

ライセンス: Link先を確認
Hui Li, Ting Gao, Fengli Yan, (参考訳) 本稿では、量子非局所性と量子距離論において重要な役割を果たす、$(k+1)$-partite entanglement $(1\leq k\leq n-1)$の点から、$n$-粒子の量子状態の定量化方法を検討する。 我々は、それぞれ$q$-$(k+1)$-PE Concurrence $(q>1)$と$\alpha$-$(k+1)$-PE Concurrence $(0\leq\alpha<1)$という2つの絡み合い測度を提示した。 純粋な状態に関する限り、それらは絡み合いの最小値に基づいて定義される。 一方、両種類の量子化が絡み合い尺度の全ての要件を満たすことを示す厳密な証明が提供される。 さらに、それぞれ$q$-$(k+1)$-GPE Concurrence $(q>1)$と$\alpha$-$(k+1)$-GPE Concurrence $(0\leq\alpha<1)$という2種類の絡み合い対策も提案する。 さらに、これらの測度の下限は、量子状態の置換不変部分(PI)の絡み合いによって示され、これらの測度の接続が提供される。 さらに,これらの尺度を比較し,類似点と相違点を説明する。 さらに、計算の便宜のために、上述の量子化の強化版を考察し、マルチパーティイト状態が真に強い$k$-producibleであるかどうかを判別することができる。

In this paper, we investigate how to quantify the quantum states of $n$-particles from the point of $(k+1)$-partite entanglement $(1\leq k\leq n-1)$, which plays an instrumental role in quantum nonlocality and quantum metrology. We put forward two families of entanglement measures termed $q$-$(k+1)$-PE concurrence $(q>1)$ and $\alpha$-$(k+1)$-PE concurrence $(0\leq\alpha<1)$, respectively. As far as the pure state is concerned, they are defined based on the minimum in entanglement. Meanwhile, rigorous proofs showing that both types of quantifications fulfill all the requirements of an entanglement measure are provided. In addition, we also propose two alternative kinds of entanglement measures, named $q$-$(k+1)$-GPE concurrence $(q>1)$ and $\alpha$-$(k+1)$-GPE concurrence $(0\leq\alpha<1)$, respectively, where the quantifications of any pure state are given by taking the geometric mean of entanglement under all partitions satisfying preconditions. Besides, the lower bounds of these measures are presented by means of the entanglement of permutationally invariant (PI) part of quantum states and the connections of these measures are offered. Moreover, we compare these measures and explain the similarities and differences among them. Furthermore, for computational convenience, we consider enhanced versions of the above quantifications that can be utilized to distinguish whether a multipartite state is genuinely strong $k$-producible.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# OccGen: 自律運転のための生成型マルチモーダル3D動作予測

OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving ( http://arxiv.org/abs/2404.15014v1 )

ライセンス: Link先を確認
Guoqing Wang, Zhongdao Wang, Pin Tang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, Chao Ma, (参考訳) 既存の3Dセマンティック占有予測のソリューションは、通常、タスクをワンショットの3Dボクセルワイドセグメンテーション知覚問題として扱う。 これらの識別方法は、入力と占有マップのマッピングを一つのステップで学習することに集中しており、占有マップを徐々に洗練する能力と、地域をどこかで完成させる合理的なシーン想像能力が欠如している。 本稿では,OccGenについて紹介する。OccGenは3次元セマンティック占有予測のタスクのための,シンプルながら強力な生成知覚モデルである。 OccGenは'noise-to-occupancy'生成パラダイムを採用し、ランダムなガウス分布から発するノイズを予測・排除することで、占領マップを徐々に推論・精錬する。 OccGenは、マルチモーダル入力を処理できる条件エンコーダと、マルチモーダル特徴を条件として拡散復調を適用するプログレッシブリファインメントデコーダの2つの主要コンポーネントで構成されている。 この生成パイプラインの重要な洞察は、拡散分解過程が高密度な3次元占有マップの粗い微細化をモデル化できるため、より詳細な予測が可能であることである。 いくつかの占有率ベンチマークにおける実験により, 提案手法の有効性を, 最先端手法と比較して実証した。 例えば、OccGenは、muli-modal、LiDAR-only、カメラのみの設定下でのnuScenes-Occupancyデータセットにおいて、mIoUを9.5%、6.3%、13.3%向上させる。 さらに、生成的知覚モデルとして、OccGenは、識別モデルが達成できない望ましい特性を示す。

Existing solutions for 3D semantic occupancy prediction typically treat the task as a one-shot 3D voxel-wise segmentation perception problem. These discriminative methods focus on learning the mapping between the inputs and occupancy map in a single step, lacking the ability to gradually refine the occupancy map and the reasonable scene imaginative capacity to complete the local regions somewhere. In this paper, we introduce OccGen, a simple yet powerful generative perception model for the task of 3D semantic occupancy prediction. OccGen adopts a ''noise-to-occupancy'' generative paradigm, progressively inferring and refining the occupancy map by predicting and eliminating noise originating from a random Gaussian distribution. OccGen consists of two main components: a conditional encoder that is capable of processing multi-modal inputs, and a progressive refinement decoder that applies diffusion denoising using the multi-modal features as conditions. A key insight of this generative pipeline is that the diffusion denoising process is naturally able to model the coarse-to-fine refinement of the dense 3D occupancy map, therefore producing more detailed predictions. Extensive experiments on several occupancy benchmarks demonstrate the effectiveness of the proposed method compared to the state-of-the-art methods. For instance, OccGen relatively enhances the mIoU by 9.5%, 6.3%, and 13.3% on nuScenes-Occupancy dataset under the muli-modal, LiDAR-only, and camera-only settings, respectively. Moreover, as a generative perception model, OccGen exhibits desirable properties that discriminative models cannot achieve, such as providing uncertainty estimates alongside its multiple-step predictions.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# 量子最適制御問題の解法のためのハイブリッド量子古典物理学インフォームドニューラルネットワークアーキテクチャ

A Hybrid Quantum-Classical Physics-Informed Neural Network Architecture for Solving Quantum Optimal Control Problems ( http://arxiv.org/abs/2404.15015v1 )

ライセンス: Link先を確認
Nahid Binandeh Dehaghani, A. Pedro Aguiar, Rafal Wisniewski, (参考訳) 本稿では,Pongryaginの最小原理に基づく制御問題に対応するために,古典計算手法と量子力学を融合した量子古典的手法を提案する。 ガウスゲートと非ガウスゲートを組み合わせた動的量子回路を利用することで、量子状態操作を最適化するための革新的なアプローチが示される。 提案したハイブリッドモデルは,最適制御問題の解法として機械学習手法を効果的に適用する。 これは、2レベルと3レベルのシステムにおける量子状態遷移問題を解決するために、ハイブリッドPINNネットワークの設計と実装を通じて説明され、様々な量子コンピューティングアプリケーションにおけるその可能性を強調している。

This paper proposes an integrated quantum-classical approach that merges quantum computational dynamics with classical computing methodologies tailored to address control problems based on Pontryagin's minimum principle within a Physics-Informed Neural Network (PINN) framework. By leveraging a dynamic quantum circuit that combines Gaussian and non-Gaussian gates, the study showcases an innovative approach to optimizing quantum state manipulations. The proposed hybrid model effectively applies machine learning techniques to solve optimal control problems. This is illustrated through the design and implementation of a hybrid PINN network to solve a quantum state transition problem in a two and three-level system, highlighting its potential across various quantum computing applications.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# 共変量シフト下における等角予測系

Conformal Predictive Systems Under Covariate Shift ( http://arxiv.org/abs/2404.15018v1 )

ライセンス: Link先を確認
Jef Jonkers, Glenn Van Wallendael, Luc Duchateau, Sofie Van Hoecke, (参考訳) Conformal Predictive Systems (CPS) は、予測分布を構築するための汎用的なフレームワークを提供する。 しかしながら、それらの適用性は、独立分散IID(Independent and Identically Distributed)モデルの仮定に固執するシナリオに限られている。 本稿では,共変量シフトを特徴とするシナリオに対応するため,CPSを拡張した。 そこで我々は,重み付きCPS(Weighted CPS, Weighted Conformal Prediction, WCP)を提案する。 この拡張により、共変量シフトを扱うことができる非パラメトリック予測分布の構築が可能になる。 本稿では,WCPSの有効性と有効性に関する理論的根拠と予想について述べる。 シミュレーション実験により,WCPSは共変量シフトの下で確率的に校正されていることが示された。

Conformal Predictive Systems (CPS) offer a versatile framework for constructing predictive distributions, allowing for calibrated inference and informative decision-making. However, their applicability has been limited to scenarios adhering to the Independent and Identically Distributed (IID) model assumption. This paper extends CPS to accommodate scenarios characterized by covariate shifts. We therefore propose Weighted CPS (WCPS), akin to Weighted Conformal Prediction (WCP), leveraging likelihood ratios between training and testing covariate distributions. This extension enables the construction of nonparametric predictive distributions capable of handling covariate shifts. We present theoretical underpinnings and conjectures regarding the validity and efficacy of WCPS and demonstrate its utility through empirical evaluations on both synthetic and real-world datasets. Our simulation experiments indicate that WCPS are probabilistically calibrated under covariate shift.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# 深層学習に基づくマルチモーダル医用画像分類のための情報融合手法の検討

A review of deep learning-based information fusion techniques for multimodal medical image classification ( http://arxiv.org/abs/2404.15022v1 )

ライセンス: Link先を確認
Yihao Li, Mostafa El Habib Daho, Pierre-Henri Conze, Rachid Zeghlache, Hugo Le Boité, Ramin Tadayoni, Béatrice Cochener, Mathieu Lamard, Gwenolé Quellec, (参考訳) マルチモーダル・メディカル・イメージングは臨床診断と研究において重要な役割を担っている。 近年, 深層学習に基づくマルチモーダル融合技術が, 医用画像分類の改善のための強力なツールとして出現している。 本総説では,深層学習に基づく医療分類タスクのためのマルチモーダルフュージョンの開発状況について概説する。 本研究は,多モード分類網の3つの主要な融合スキーム,入力融合,中間核融合(単一レベル核融合,階層核融合,アテンションベース核融合)の相補的関係を考察する。 これらの融合技術の性能を評価することにより、様々なマルチモーダル融合シナリオやアプリケーションドメインに対する異なるネットワークアーキテクチャの適合性について考察する。 さらに,ネットワークアーキテクチャの選択,不完全なマルチモーダルデータ管理,およびマルチモーダル融合の潜在的な限界について検討する。 最後に,Transformerベースのマルチモーダル融合技術の将来を見極め,この急速に発展する分野での今後の研究を推奨する。

Multimodal medical imaging plays a pivotal role in clinical diagnosis and research, as it combines information from various imaging modalities to provide a more comprehensive understanding of the underlying pathology. Recently, deep learning-based multimodal fusion techniques have emerged as powerful tools for improving medical image classification. This review offers a thorough analysis of the developments in deep learning-based multimodal fusion for medical classification tasks. We explore the complementary relationships among prevalent clinical modalities and outline three main fusion schemes for multimodal classification networks: input fusion, intermediate fusion (encompassing single-level fusion, hierarchical fusion, and attention-based fusion), and output fusion. By evaluating the performance of these fusion techniques, we provide insight into the suitability of different network architectures for various multimodal fusion scenarios and application domains. Furthermore, we delve into challenges related to network architecture selection, handling incomplete multimodal data management, and the potential limitations of multimodal fusion. Finally, we spotlight the promising future of Transformer-based multimodal fusion techniques and give recommendations for future research in this rapidly evolving field.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# 解釈可能なグラディエントのための学習パラダイム

A Learning Paradigm for Interpretable Gradients ( http://arxiv.org/abs/2404.15024v1 )

ライセンス: Link先を確認
Felipe Torres Figueroa, Hanwei Zhang, Ronan Sicre, Yannis Avrithis, Stephane Ayache, (参考訳) 本稿では,畳み込みネットワークのサリエンシマップによる解釈可能性について検討する。 クラスアクティベーションマップ(CAM)に基づくほとんどのアプローチは、完全に接続されたレイヤからの情報と、バックプロパゲーションのバリエーションによる勾配を組み合わせている。 しかし、勾配はノイズが多いことがよく理解されており、推論におけるより良い視覚化を得るために、ガイド付きバックプロパゲーションのような代替法が提案されている。 本研究では,解釈可能性向上のための新たな学習手法を提案する。 特に、標準バックプロパゲーションにより得られる入力画像に対する勾配が誘導バックプロパゲーションにより得られる勾配と類似する正規化損失を導入する。 得られた勾配は定性的にノイズが少なく、様々なネットワークの解釈可能性特性を定量的に改善する。

This paper studies interpretability of convolutional networks by means of saliency maps. Most approaches based on Class Activation Maps (CAM) combine information from fully connected layers and gradient through variants of backpropagation. However, it is well understood that gradients are noisy and alternatives like guided backpropagation have been proposed to obtain better visualization at inference. In this work, we present a novel training approach to improve the quality of gradients for interpretability. In particular, we introduce a regularization loss such that the gradient with respect to the input image obtained by standard backpropagation is similar to the gradient obtained by guided backpropagation. We find that the resulting gradient is qualitatively less noisy and improves quantitatively the interpretability properties of different networks, using several interpretability methods.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# PRISM: プロンプトとロバストな対話型セグメンテーションモデル

PRISM: A Promptable and Robust Interactive Segmentation Model with Visual Prompts ( http://arxiv.org/abs/2404.15028v1 )

ライセンス: Link先を確認
Hao Li, Han Liu, Dewei Hu, Jiacheng Wang, Ipek Oguz, (参考訳) 本稿では,PRISM, Promptable and Robust Interactive Segmentation Modelを提案する。 PRISMは、ポイント、ボックス、スクリブルなどの様々な視覚的入力をスパースプロンプトとして受け入れ、マスクは密接なプロンプトとして受け入れる。 具体的には、PRISMは、(1)反復学習という、堅牢性を達成するための4つの原則で設計されている。 モデルは、進歩的な改善を達成するために、以前のイテレーションからの視覚的プロンプトを使用してセグメンテーションを生成する。 2)信頼学習。 PRISMは入力画像ごとに複数のセグメンテーションヘッドを使用し、それぞれが連続マップと信頼スコアを生成して予測を最適化する。 (3)矯正学習 各セグメンテーションイテレーションの後、PRISMは浅い修正改良ネットワークを使用して、ラベルのずれたボクセルを再割り当てする。 (4)ハイブリッドデザイン。 PRISMはハイブリッドエンコーダを統合し、ローカル情報とグローバル情報の両方をよりよくキャプチャする。 PRISMの包括的検証は、大腸、膵、肝臓、腎臓の腫瘍区分に関する4つの公開データセットを用いて行われ、正確な腫瘍同定における解剖学的変異と曖昧な境界に起因する課題を強調している。 PRISMは、最先端の手法と比較して、迅速なエンジニアリングと非迅速なエンジニアリングの両方で、性能を著しく改善し、人間のレベルに近い結果を得る。 コードはhttps://github.com/MedICL-VU/PRISMで公開されている。

In this paper, we present PRISM, a Promptable and Robust Interactive Segmentation Model, aiming for precise segmentation of 3D medical images. PRISM accepts various visual inputs, including points, boxes, and scribbles as sparse prompts, as well as masks as dense prompts. Specifically, PRISM is designed with four principles to achieve robustness: (1) Iterative learning. The model produces segmentations by using visual prompts from previous iterations to achieve progressive improvement. (2) Confidence learning. PRISM employs multiple segmentation heads per input image, each generating a continuous map and a confidence score to optimize predictions. (3) Corrective learning. Following each segmentation iteration, PRISM employs a shallow corrective refinement network to reassign mislabeled voxels. (4) Hybrid design. PRISM integrates hybrid encoders to better capture both the local and global information. Comprehensive validation of PRISM is conducted using four public datasets for tumor segmentation in the colon, pancreas, liver, and kidney, highlighting challenges caused by anatomical variations and ambiguous boundaries in accurate tumor identification. Compared to state-of-the-art methods, both with and without prompt engineering, PRISM significantly improves performance, achieving results that are close to human levels. The code is publicly available at https://github.com/MedICL-VU/PRISM.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# 心筋梗塞死亡予測のための説明可能なLightGBM法

Explainable LightGBM Approach for Predicting Myocardial Infarction Mortality ( http://arxiv.org/abs/2404.15029v1 )

ライセンス: Link先を確認
Ana Letícia Garcez Vicente, Roseval Donisete Malaquias Junior, Roseli A. F. Romero, (参考訳) 心筋梗塞は世界中で死亡の主な原因であり、患者の予後を改善するためには正確なリスク予測が不可欠である。 機械学習技術は、リスクの高い患者を特定し、その結果を予測することを約束している。 しかし、患者データには大量の情報と欠落した値が含まれており、特徴選択や計算方法の課題を提起することが多い。 本稿では,脳梗塞患者の死亡リスクを予測するために,データ前処理タスクの影響を調査し,3つのアンサンブル木法を比較した。 さらに,ツリーシェープの付加的説明法を用いて,実行した予測のすべての特徴間の関係を同定し,解析で利用可能なデータ全体を活用する。 F1スコアが91,2%、データ前処理なしでのLightGBMが91,8%である。

Myocardial Infarction is a main cause of mortality globally, and accurate risk prediction is crucial for improving patient outcomes. Machine Learning techniques have shown promise in identifying high-risk patients and predicting outcomes. However, patient data often contain vast amounts of information and missing values, posing challenges for feature selection and imputation methods. In this article, we investigate the impact of the data preprocessing task and compare three ensembles boosted tree methods to predict the risk of mortality in patients with myocardial infarction. Further, we use the Tree Shapley Additive Explanations method to identify relationships among all the features for the performed predictions, leveraging the entirety of the available data in the analysis. Notably, our approach achieved a superior performance when compared to other existing machine learning approaches, with an F1-score of 91,2% and an accuracy of 91,8% for LightGBM without data preprocessing.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# IPAD: 産業プロセス異常検出データセット

IPAD: Industrial Process Anomaly Detection Dataset ( http://arxiv.org/abs/2404.15033v1 )

ライセンス: Link先を確認
Jinfan Liu, Yichao Yan, Junjie Li, Weiming Zhao, Pengzhi Chu, Xingdong Sheng, Yunhui Liu, Xiaokang Yang, (参考訳) ビデオ異常検出(VAD)は、ビデオフレーム内の異常を認識することを目的とした課題であり、既存の大規模VAD研究は主に道路交通と人間の活動シーンに焦点を当てている。 産業シーンでは、予測不可能な様々な異常があり、VAD法はこれらのシナリオにおいて重要な役割を果たす。 しかし、プライバシとセキュリティに関する懸念から、特に工業生産シナリオに適したデータセットやメソッドが不足している。 このギャップを埋めるため、産業シナリオにおけるVADに特化した新しいデータセットIPADを提案する。 当社のデータセットの産業プロセスは、現場での工場調査とエンジニアとの議論を通じて選択されます。 このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。 さらに, 産業プロセスの重要な特徴である, 周期性についても注釈を付ける。 提案したデータセットに基づいて,周期記憶モジュールとスライドウィンドウ検査機構を導入し,基本再構成モデルにおける周期情報を効果的に調査する。 我々のフレームワークはLoRAアダプタを利用して、当初合成データを用いて訓練された事前学習モデルから実世界のシナリオへの効果的な移行を探索する。 提案するデータセットと手法は,産業用ビデオ異常検出の分野におけるギャップを埋め,ビデオ理解タスクのプロセスとスマートファクトリ展開を駆動する。

Video anomaly detection (VAD) is a challenging task aiming to recognize anomalies in video frames, and existing large-scale VAD researches primarily focus on road traffic and human activity scenes. In industrial scenes, there are often a variety of unpredictable anomalies, and the VAD method can play a significant role in these scenarios. However, there is a lack of applicable datasets and methods specifically tailored for industrial production scenarios due to concerns regarding privacy and security. To bridge this gap, we propose a new dataset, IPAD, specifically designed for VAD in industrial scenarios. The industrial processes in our dataset are chosen through on-site factory research and discussions with engineers. This dataset covers 16 different industrial devices and contains over 6 hours of both synthetic and real-world video footage. Moreover, we annotate the key feature of the industrial process, ie, periodicity. Based on the proposed dataset, we introduce a period memory module and a sliding window inspection mechanism to effectively investigate the periodic information in a basic reconstruction model. Our framework leverages LoRA adapter to explore the effective migration of pretrained models, which are initially trained using synthetic data, into real-world scenarios. Our proposed dataset and method will fill the gap in the field of industrial video anomaly detection and drive the process of video understanding tasks as well as smart factory deployment.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# 交通流予測のための深層多視点チャネル幅時空間ネットワーク

Deep Multi-View Channel-Wise Spatio-Temporal Network for Traffic Flow Prediction ( http://arxiv.org/abs/2404.15034v1 )

ライセンス: Link先を確認
Hao Miao, Senzhang Wang, Meiyue Zhang, Diansheng Guo, Funing Sun, Fan Yang, (参考訳) 交通流の正確な予測は、公共安全やインテリジェント交通システムを含む多くの現実のアプリケーションにとって極めて重要である。 この問題の課題は、人々の動的移動パターンと、都市交通データの複雑な空間的時間的相関の両方である。 一方、既存のほとんどのモデルは、交通流予測に対する様々な交通観測(例えば、車両の速度と道路占有率)の多様な影響を無視しており、異なる交通観測を入力特徴の異なるチャネルとみなすことができる。 複数チャンネルの交通観測における解析は,この問題に対処する上で有効である,と我々は主張する。 本稿では,マルチチャネルトラフィックフロー予測の新たな問題について検討し,その処理を効果的に行うために,Deep \underline{M}ulti-\underline{V}iew \underline{C}hannel-wise \underline{S}patio-\underline{T}emporal \underline{Net}work (MVC-STNet)モデルを提案する。 具体的には、まず、局所的およびグローバル化された空間グラフを構築し、多視点融合モジュールを用いて局所的および大域的空間依存を効果的に抽出する。 次に、LSTMを用いて時間相関を学習する。 交通流予測における様々な交通観測の影響を効果的にモデル化するために,チャネルワイドグラフ畳み込みネットワークも設計されている。 PEMS04とPEMS08のデータセット上で大規模な実験が行われた。 提案したMVC-STNetは最先端のメソッドよりも大きなマージンで優れていることを示す。

Accurately forecasting traffic flows is critically important to many real applications including public safety and intelligent transportation systems. The challenges of this problem include both the dynamic mobility patterns of the people and the complex spatial-temporal correlations of the urban traffic data. Meanwhile, most existing models ignore the diverse impacts of the various traffic observations (e.g. vehicle speed and road occupancy) on the traffic flow prediction, and different traffic observations can be considered as different channels of input features. We argue that the analysis in multiple-channel traffic observations might help to better address this problem. In this paper, we study the novel problem of multi-channel traffic flow prediction, and propose a deep \underline{M}ulti-\underline{V}iew \underline{C}hannel-wise \underline{S}patio-\underline{T}emporal \underline{Net}work (MVC-STNet) model to effectively address it. Specifically, we first construct the localized and globalized spatial graph where the multi-view fusion module is used to effectively extract the local and global spatial dependencies. Then LSTM is used to learn the temporal correlations. To effectively model the different impacts of various traffic observations on traffic flow prediction, a channel-wise graph convolutional network is also designed. Extensive experiments are conducted over the PEMS04 and PEMS08 datasets. The results demonstrate that the proposed MVC-STNet outperforms state-of-the-art methods by a large margin.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# ほぼ普遍的に最適な微分プライベートな最小スパンニング木

Near-Universally-Optimal Differentially Private Minimum Spanning Trees ( http://arxiv.org/abs/2404.15035v1 )

ライセンス: Link先を確認
Richard Hladík, Jakub Tětek, (参考訳) この目標を達成するために、スムーズな感度、提案-テスト-リリース、逆感度メカニズムなどの技術が開発されている。 これにより、微分プライバシーにおける普遍的最適性の概念を非常に自然に利用することができる。 普遍的最適性(Universal optimality)は、重み付きグラフ上の問題に対して強いインスタンス固有の最適性を保証するものである。 本稿では,差分プライバシーに関する最初の結果を与える。 すなわち、最小スパンニングツリーをおよそ解放する単純な微分プライベートなメカニズムが、$\ell_1$ 近傍関係に対する普遍的最適性という意味では、ほぼ最適であることを示す。 以前は、このメカニズムが最悪の場合、ほぼ最適であるとしか分かっていなかった。 次に、記述されたメカニズムが最適でない$\ell_\infty$近傍関係に焦点を当てる。 多項式時間で MST の指数的機構を実装することができ、これは$\ell_1$ と $\ell_\infty$ の近傍関係に対して普遍的な準最適性をもたらすことを示す。

Devising mechanisms with good beyond-worst-case input-dependent performance has been an important focus of differential privacy, with techniques such as smooth sensitivity, propose-test-release, or inverse sensitivity mechanism being developed to achieve this goal. This makes it very natural to use the notion of universal optimality in differential privacy. Universal optimality is a strong instance-specific optimality guarantee for problems on weighted graphs, which roughly states that for any fixed underlying (unweighted) graph, the algorithm is optimal in the worst-case sense, with respect to the possible setting of the edge weights. In this paper, we give the first such result in differential privacy. Namely, we prove that a simple differentially private mechanism for approximately releasing the minimum spanning tree is near-optimal in the sense of universal optimality for the $\ell_1$ neighbor relation. Previously, it was only known that this mechanism is nearly optimal in the worst case. We then focus on the $\ell_\infty$ neighbor relation, for which the described mechanism is not optimal. We show that one may implement the exponential mechanism for MST in polynomial time, and that this results in universal near-optimality for both the $\ell_1$ and the $\ell_\infty$ neighbor relations.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# DP-Net:画像認識のための識別部品の学習

DP-Net: Learning Discriminative Parts for image recognition ( http://arxiv.org/abs/2404.15037v1 )

ライセンス: Link先を確認
Ronan Sicre, Hanwei Zhang, Julien Dejasmin, Chiheb Daaloul, Stéphane Ayache, Thierry Artières, (参考訳) 本稿では、事前学習された畳み込みニューラルネットワーク(CNN)とパートベース認識モジュールを組み合わせた、強力な解釈能力を持つディープアーキテクチャであるDP-Netを提案する。 このシステムは、CNNを微調整することなく、カテゴリ間で識別可能な画像のパーツを学習し、検出し、他の部分ベースモデルよりもスケーラブルにする。 パートベースアプローチは自然に解釈可能な表現を提供するが、画像やカテゴリレベルでの説明を提案し、パートラーニングプロセスに特定の制約を導入して、より差別的になるようにする。

This paper presents Discriminative Part Network (DP-Net), a deep architecture with strong interpretation capabilities, which exploits a pretrained Convolutional Neural Network (CNN) combined with a part-based recognition module. This system learns and detects parts in the images that are discriminative among categories, without the need for fine-tuning the CNN, making it more scalable than other part-based models. While part-based approaches naturally offer interpretable representations, we propose explanations at image and category levels and introduce specific constraints on the part learning process to make them more discrimative.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# LEAF: 半教師付き顔表情認識における同一符号の2つの側面の展開

LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition ( http://arxiv.org/abs/2404.15041v1 )

ライセンス: Link先を確認
Fan Zhang, Zhi-Qi Cheng, Jian Zhao, Xiaojiang Peng, Xuelong Li, (参考訳) 半教師付き学習は、表情認識(FER)タスクにおけるラベル不足への挑戦として、有望なアプローチとして現れてきた。 しかし、現在の最先端の手法は、主にコインの片面、すなわち高品質な擬似ラベルを生成することに焦点を当てている。 本稿では,表現関連表現と擬似ラベルを半教師付きFERにコーディネートするために,階層型dEcoupling And Fusing (LEAF) という統一的な枠組みを提案する。 LEAFは階層的な表現認識集約戦略を導入し、セマンティック、インスタンス、カテゴリの3つのレベルで動作する。 1)意味的および事例レベルでは,LEAFは表現を表現に依存しない表現関連成分と表現関連成分に分解し,学習可能なゲーティングウェイトを用いてそれらを適応的に融合させる。 2)カテゴリレベルでは,予測を正と負の部分に分離することで曖昧な擬似ラベルを割り当て,同じ画像の2つの拡張ビューの一致を確保するために一貫性損失を用いる。 ベンチマークデータセットに関する大規模な実験により、LEAFはコインの両側を公表し調和させることで、最先端の半教師付きFERメソッドより優れ、ラベル付きデータとラベルなしデータの両方を効果的に活用できることが示されている。 さらに、提案した式対応アグリゲーション戦略を既存の半教師付きフレームワークにシームレスに統合することで、大幅なパフォーマンス向上を実現している。

Semi-supervised learning has emerged as a promising approach to tackle the challenge of label scarcity in facial expression recognition (FER) task. However, current state-of-the-art methods primarily focus on one side of the coin, i.e., generating high-quality pseudo-labels, while overlooking the other side: enhancing expression-relevant representations. In this paper, we unveil both sides of the coin by proposing a unified framework termed hierarchicaL dEcoupling And Fusing (LEAF) to coordinate expression-relevant representations and pseudo-labels for semi-supervised FER. LEAF introduces a hierarchical expression-aware aggregation strategy that operates at three levels: semantic, instance, and category. (1) At the semantic and instance levels, LEAF decouples representations into expression-agnostic and expression-relevant components, and adaptively fuses them using learnable gating weights. (2) At the category level, LEAF assigns ambiguous pseudo-labels by decoupling predictions into positive and negative parts, and employs a consistency loss to ensure agreement between two augmented views of the same image. Extensive experiments on benchmark datasets demonstrate that by unveiling and harmonizing both sides of the coin, LEAF outperforms state-of-the-art semi-supervised FER methods, effectively leveraging both labeled and unlabeled data. Moreover, the proposed expression-aware aggregation strategy can be seamlessly integrated into existing semi-supervised frameworks, leading to significant performance gains.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# フェデレーション学習におけるモデルポジショニングのためのレバレッジ変分グラフ表現

Leverage Variational Graph Representation For Model Poisoning on Federated Learning ( http://arxiv.org/abs/2404.15042v1 )

ライセンス: Link先を確認
Kai Li, Xin Yuan, Jingjing Zheng, Wei Ni, Falko Dressler, Abbas Jamalipour, (参考訳) 本稿では,フェデレートラーニング(FL)に対するMP(トレーニングデータ不要モデル中毒)攻撃について述べる。 新しいMPアタックは、FLのトレーニングデータにアクセスすることなく、悪質なローカルモデルのみに基づいて悪意あるローカルモデルを作成するために、逆変分グラフオートエンコーダ(VGAE)を拡張する。 このような進歩はVGAE-MP攻撃に繋がる。 VGAE-MP攻撃は、良性局所モデルと訓練データ特徴間のグラフ構造相関を抽出し、逆向きにグラフ構造を再生し、逆性グラフ構造と良性モデルの特徴を用いて悪意ある局所モデルを生成する。 さらに,VGAEを訓練するための良質な局所モデルの最適選択を可能にするとともに,悪質な局所モデルをVGAEと下位段階降下を用いて訓練する新たな攻撃アルゴリズムを提案する。 実験では、提案したVGAE-MP攻撃下でのFLの精度が徐々に低下し、既存の防御機構が攻撃の検出に有効でないことが示され、FLに対する深刻な脅威となった。

This paper puts forth a new training data-untethered model poisoning (MP) attack on federated learning (FL). The new MP attack extends an adversarial variational graph autoencoder (VGAE) to create malicious local models based solely on the benign local models overheard without any access to the training data of FL. Such an advancement leads to the VGAE-MP attack that is not only efficacious but also remains elusive to detection. VGAE-MP attack extracts graph structural correlations among the benign local models and the training data features, adversarially regenerates the graph structure, and generates malicious local models using the adversarial graph structure and benign models' features. Moreover, a new attacking algorithm is presented to train the malicious local models using VGAE and sub-gradient descent, while enabling an optimal selection of the benign local models for training the VGAE. Experiments demonstrate a gradual drop in FL accuracy under the proposed VGAE-MP attack and the ineffectiveness of existing defense mechanisms in detecting the attack, posing a severe threat to FL.
翻訳日:2024-04-24 13:51:55 公開日:2024-04-23
# Multi-Head Mixture-of-Experts

Multi-Head Mixture-of-Experts ( http://arxiv.org/abs/2404.15045v1 )

ライセンス: Link先を確認
Xun Wu, Shaohan Huang, Wenhui Wang, Furu Wei, (参考訳) SMOE(Sparse Mixtures of Experts)は、トレーニングや推論コストを大幅に向上させることなく、モデルのキャパシティをスケールするが、以下の2つの課題を示す。 2)個々のトークン内の複数の意味概念に対するきめ細かい分析能力の欠如。 MH-MoE(Multi-Head Mixture-of-Experts)を提案する。 これらのサブトークンは、さまざまな専門家によって並列に割り当てられ、処理され、シームレスに元のトークン形式に再統合される。 マルチヘッド機構により、モデルは様々な専門家の様々な表現空間からの情報に一括して参加できると同時に、専門家のアクティベーションを大幅に向上し、コンテキスト理解の深化と過剰適合の軽減を可能にする。 さらに、我々のMH-MoEは、他のSMoE最適化手法の実装と切り離しが容易であり、性能向上のために他のSMoEモデルと容易に統合できる。 英語中心の言語モデリング,多言語モデリング,マルチモーダリティ・モデリングタスク,マルチモーダリティ・モデリングタスク,MH-MoEの有効性を実証した。

Sparse Mixtures of Experts (SMoE) scales model capacity without significant increases in training and inference costs, but exhibits the following two issues: (1) Low expert activation, where only a small subset of experts are activated for optimization. (2) Lacking fine-grained analytical capabilities for multiple semantic concepts within individual tokens. We propose Multi-Head Mixture-of-Experts (MH-MoE), which employs a multi-head mechanism to split each token into multiple sub-tokens. These sub-tokens are then assigned to and processed by a diverse set of experts in parallel, and seamlessly reintegrated into the original token form. The multi-head mechanism enables the model to collectively attend to information from various representation spaces within different experts, while significantly enhances expert activation, thus deepens context understanding and alleviate overfitting. Moreover, our MH-MoE is straightforward to implement and decouples from other SMoE optimization methods, making it easy to integrate with other SMoE models for enhanced performance. Extensive experimental results across three tasks: English-focused language modeling, Multi-lingual language modeling and Masked multi-modality modeling tasks, demonstrate the effectiveness of MH-MoE.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# テンソルネットワークに基づく量子最適化アルゴリズム

Tensor networks based quantum optimization algorithm ( http://arxiv.org/abs/2404.15048v1 )

ライセンス: Link先を確認
V. Akshay, Ar. Melnikov, A. Termanova, M. R. Perelshtein, (参考訳) 最適化において、よく知られた古典的アルゴリズムの1つは電力反復である。 簡単に言えば、アルゴリズムはいくつかの対角化可能な行列の優越的固有ベクトルを復元する。 多くの最適化問題は固有値/固有ベクトル探索として定式化できるため、このアルゴリズムは適用性が高い。 運用上、パワーイテレーションは行列-ベクトル乗法(Match-to-vector multiplications, MatVec)を繰り返すことで構成され、その後、支配的固有値/固有ベクトルに収束するために再ノルミ化ステップが続く。 しかし、新しいテンソルネットワークベースのアプローチを含む古典的な実現には、アルゴリズムの実行時間に対する指数的スケーリングが必要である。 本稿では,この落とし穴を回避するための量子化を提案する。 我々の手法は低ランク表現、行列行列演算子(MPO)、ベクトル行列行列積状態(MPS)を量子回路にキャストすることである。 具体的には、ターゲットMPOとMPOアンサッツ間のフロベニウス距離を変動的に最小化し、テンソルコアがユニタリに制約されるユニタリ近似を復元する。 このようなユニタリMPOは、Acillary qubitsを付加した量子回路として容易に実装できる。 その後、アシラリー空間上での適切な初期化とポストセレクションにより、古典的アルゴリズムの単一イテレーションを実現する。 提案手法により, 繰り返し静的回路ブロックを用いて, 量子コンピュータ上での電力繰り返しを完全に実現し, 実行時のアドバンテージを保証できる。 さらに、リーマン最適化とクロス近似技術を利用して、我々の手法はインスタンス非依存となり、量子コンピューティングの枠組みの中でブラックボックス最適化に対処することができる。

In optimization, one of the well-known classical algorithms is power iterations. Simply stated, the algorithm recovers the dominant eigenvector of some diagonalizable matrix. Since numerous optimization problems can be formulated as an eigenvalue/eigenvector search, this algorithm features wide applicability. Operationally, power iterations consist of performing repeated matrix-to-vector multiplications (or MatVec) followed by a renormilization step in order to converge to the dominant eigenvalue/eigenvector. However, classical realizations, including novel tensor network based approaches, necessitate an exponential scaling for the algorithm's run-time. In this paper, we propose a quantum realiziation to circumvent this pitfall. Our methodology involves casting low-rank representations; Matrix Product Operators (MPO) for matrices and Matrix Product States (MPS) for vectors, into quantum circuits. Specifically, we recover a unitary approximation by variationally minimizing the Frobenius distance between a target MPO and an MPO ansatz wherein the tensor cores are constrained to unitaries. Such an unitary MPO can easily be implemented as a quantum circuit with the addition of ancillary qubits. Thereafter, with appropriate initialization and post-selection on the ancillary space, we realize a single iteration of the classical algorithm. With our proposed methodology, power iterations can be realized entirely on a quantum computer via repeated, static circuit blocks; therefore, a run-time advantage can indeed be guaranteed. Moreover, by exploiting Riemannian optimization and cross-approximation techniques, our methodology becomes instance agnostic and thus allows one to address black-box optimization within the framework of quantum computing.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# ランダムサインDicke状態によるボリュームローエントロピー体制の実現

Achieving the volume-law entropy regime with random-sign Dicke states ( http://arxiv.org/abs/2404.15050v1 )

ライセンス: Link先を確認
Oleg M. Sotnikov, Ilia A. Iakovlev, Evgeniy O. Kiktenko, Aleksey K. Fedorov, Vladimir V. Mazurenko, (参考訳) 量子系の非局所的相関を反映し、その波動関数を記述する複雑さを定義するエンタングルメントを操作することは、量子コンピューティング、量子情報、凝縮物質物理学の分野において非常に難しい課題である。 この研究において、よく構造化されたディックの例により、これらの実数値波動関数の複雑さはランダムな符号構造を導入して正確に調整できることを示した。 重要なことに、非自明な符号構造を設定することは、Dicke状態の絡み合いエントロピーを、Haar-random状態に対するPageの見積もりに近い値に高めることができる。 これらのランダム符号ディック状態の実践的実現は、浅い量子回路を持つ異なる物理プラットフォーム上で可能である。 測定のレベルでは、符号構造による量子状態の複雑さの変化は、ビットストリングアレイ内の多スケールのパターンを推定する相似性測定によって追跡することができる。

Manipulating entanglement, which reflects non-local correlations in a quantum system and defines the complexity of describing its wave function, represents the extremely tough challenge in the fields of quantum computing, quantum information, and condensed matter physics. In this work, by the example of the well-structured Dicke states we demonstrate that the complexity of these real-valued wave functions can be accurately tuned by introducing a random-sign structure, which allows us to explore the regime of the volume-law entanglement. Importantly, setting nontrivial sign structure one can increase the entanglement entropy of the Dicke state to the values that are close to Page's estimates for Haar-random states. The practical realization of these random-sign Dicke states is possible on different physical platforms with shallow quantum circuits. On the level of the measurements the change in the quantum state complexity due to sign structure can be traced out with the dissimilarity measure that estimates multi-scale variety of patterns in bit-string arrays.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# ポジティブなモーメント:決定不能で決定不能なケース

Positive Moments Forever: Undecidable and Decidable Cases ( http://arxiv.org/abs/2404.15053v1 )

ライセンス: Link先を確認
Gemma De les Coves, Joshua Graf, Andreas Klingler, Tim Netzer, (参考訳) 線形反復列の肯定性や非ゼロ性などの属性を決定するアルゴリズムはあるか? この長年の問題はスコーレムの問題として知られている。 本稿では,等価問題,すなわち行列に対する(一般化された)モーメントメンバシップ問題の複雑性について検討する。 この問題は直交、ユニタリおよび実固有値行列に対して決定可能であり、ある可換および非可換多項式環上の行列に対しては決定不能であることを示す。 以上の結果から, 単純ユニタリ線形反復列に対する正の問題は決定可能であり, 可換多項式環上の線形反復列に対しては決定不可能であることが示唆された。 副生成物として、ポリアの定理の自由版を証明する。

Is there an algorithm to determine attributes such as positivity or non-zeroness of linear recurrence sequences? This long-standing question is known as Skolem's problem. In this paper, we study the complexity of an equivalent problem, namely the (generalized) moment membership problem for matrices. We show that this problem is decidable for orthogonal, unitary and real eigenvalue matrices, and undecidable for matrices over certain commutative and non-commutative polynomial rings. Our results imply that the positivity problem for simple unitary linear recurrence sequences is decidable, and is undecidable for linear recurrence sequences over the ring of commutative polynomials. As a byproduct, we prove a free version of Polya's theorem.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# 説得的生成AIからのハームの軽減のためのメカニズムに基づくアプローチ

A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI ( http://arxiv.org/abs/2404.15058v1 )

ライセンス: Link先を確認
Seliem El-Sayed, Canfer Akbulut, Amanda McCroskery, Geoff Keeling, Zachary Kenton, Zaria Jalan, Nahema Marchal, Arianna Manzini, Toby Shevlane, Shannon Vallor, Daniel Susser, Matija Franklin, Sophie Bridgers, Harry Law, Matthew Rahtz, Murray Shanahan, Michael Henry Tessler, Arthur Douillard, Tom Everitt, Sasha Brown, (参考訳) 最近の生成型AIシステムは、より高度な説得能力を示し、意思決定に影響を与える可能性のある生活領域を浸透させつつある。 生成AIは、相互交換と長時間の相互作用の機会のために、説得の新しいリスクプロファイルを提供する。 これにより、AIの説得による損害に対する懸念が高まり、AIの説得に関する体系的な研究の必要性が強調された。 現在のAIパースケーションの定義は不明確であり、関連する害は十分に研究されていない。 既存の害軽減のアプローチは、説得のプロセスによる害に対する説得の結果から害を受ける。 本稿では,AIによる説得の体系的な研究の土台をつくった。 われわれはまず説得力のある生成AIの定義を提出した。 我々は、関連する事実、健全な推論、その他の信頼できる証拠の提供に依存する合理的な説得的生成AIと、認知バイアスやヒューリスティックスの活用や情報の誤表現に依存する操作的生成AIとを区別する。 また、経済、物理的、環境、心理的、社会文化的、政治的、プライバシー、自律的危害の定義と例を含む、AIの説得による害のマップも公開しました。 次に、有害な説得に寄与するメカニズムのマップを導入する。 最後に、我々は、操作分類やレッド・チームリングのための迅速なエンジニアリングを含む、説得のプロセスの害を軽減するために使用できるアプローチの概要を提供する。 今後の研究は、これらの緩和を運用し、様々なタイプの説得機構間の相互作用を研究する。

Recent generative AI systems have demonstrated more advanced persuasive capabilities and are increasingly permeating areas of life where they can influence decision-making. Generative AI presents a new risk profile of persuasion due the opportunity for reciprocal exchange and prolonged interactions. This has led to growing concerns about harms from AI persuasion and how they can be mitigated, highlighting the need for a systematic study of AI persuasion. The current definitions of AI persuasion are unclear and related harms are insufficiently studied. Existing harm mitigation approaches prioritise harms from the outcome of persuasion over harms from the process of persuasion. In this paper, we lay the groundwork for the systematic study of AI persuasion. We first put forward definitions of persuasive generative AI. We distinguish between rationally persuasive generative AI, which relies on providing relevant facts, sound reasoning, or other forms of trustworthy evidence, and manipulative generative AI, which relies on taking advantage of cognitive biases and heuristics or misrepresenting information. We also put forward a map of harms from AI persuasion, including definitions and examples of economic, physical, environmental, psychological, sociocultural, political, privacy, and autonomy harm. We then introduce a map of mechanisms that contribute to harmful persuasion. Lastly, we provide an overview of approaches that can be used to mitigate against process harms of persuasion, including prompt engineering for manipulation classification and red teaming. Future work will operationalise these mitigations and study the interaction between different types of mechanisms of persuasion.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# 深層強化学習を用いた共通プール資源問題における持続的人間行動の促進

Using deep reinforcement learning to promote sustainable human behaviour on a common pool resource problem ( http://arxiv.org/abs/2404.15059v1 )

ライセンス: Link先を確認
Raphael Koster, Miruna Pîslar, Andrea Tacchetti, Jan Balaguer, Leqi Liu, Romuald Elie, Oliver P. Hauser, Karl Tuyls, Matt Botvinick, Christopher Summerfield, (参考訳) 標準的な社会的ジレンマは、有限資源が利害関係で互恵するか、利益を自分たちで維持するかを選択することができる人々のグループに割り当てられるときに生じる。 資源割り当てメカニズムは、コモンズを維持できる相反のレベルを促進するのか? ここでは,マルチプレイヤー・トラストゲームにおいて,人間から共通のプールリソースへの持続的コントリビューションを不均一に促進するアロケーション機構を設計するために,深層強化学習(RL)を用いる。 私たちはまず、人間のプレイヤーのように振る舞うようにニューラルネットワークを訓練し、異なるメカニズムがレセプションと往復のダイナミクスにどのように影響するかを研究できるように刺激された経済を生み出しました。 次に、RLを使用してソーシャルプランナーをトレーニングし、プレイヤーへの集合戻りを最大化する。 ソーシャルプランナーは、大きな余剰と包括的経済に繋がる再分配政策を発見し、プレイヤーは概ね同等の利益を得た。 RL剤は、利用可能な資源に寛大さを条件付け、不足者を一時的に制裁することで、制限のない福祉や条件付協力に基づくベースライン機構に対する人的余剰を増大させた。 AIポリシーを理解することで、同様に機能し、プレイヤーの間でより人気があった説明可能なメカニズムを開発することができました。 深層強化学習は、持続可能な人間の行動を促進するメカニズムを発見するために用いられる。

A canonical social dilemma arises when finite resources are allocated to a group of people, who can choose to either reciprocate with interest, or keep the proceeds for themselves. What resource allocation mechanisms will encourage levels of reciprocation that sustain the commons? Here, in an iterated multiplayer trust game, we use deep reinforcement learning (RL) to design an allocation mechanism that endogenously promotes sustainable contributions from human participants to a common pool resource. We first trained neural networks to behave like human players, creating a stimulated economy that allowed us to study how different mechanisms influenced the dynamics of receipt and reciprocation. We then used RL to train a social planner to maximise aggregate return to players. The social planner discovered a redistributive policy that led to a large surplus and an inclusive economy, in which players made roughly equal gains. The RL agent increased human surplus over baseline mechanisms based on unrestricted welfare or conditional cooperation, by conditioning its generosity on available resources and temporarily sanctioning defectors by allocating fewer resources to them. Examining the AI policy allowed us to develop an explainable mechanism that performed similarly and was more popular among players. Deep reinforcement learning can be used to discover mechanisms that promote sustainable human behaviour.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# Superblockify: 都市における潜在的スーパーブロックの自動生成、可視化、分析のためのPythonパッケージ

superblockify: A Python Package for Automated Generation, Visualization, and Analysis of Potential Superblocks in Cities ( http://arxiv.org/abs/2404.15062v1 )

ライセンス: Link先を確認
Carlson Moses Büth, Anastassia Vybornova, Michael Szell, (参考訳) Superblockifyは、都市部のストリートネットワークをSuperblockのような地区に分割し、パーティション結果を視覚化し分析するためのPythonパッケージである。 スーパーブロック (Superblock) は、歩行者やサイクリングに優先される交通の車線が遮断または平和化される、隣接する都市ブロックの集合体である。 Superblockifyによって生成されたSuperblock Blueprintと記述統計は、データ駆動計画パイプラインの第1ステップとして都市プランナーや、Superblockパーティションを評価する効率的な計算方法として都市データ科学者によって利用することができる。 このソフトウェアはAGPLv3でライセンスされており、https://superblockify.city.comで入手できる。

superblockify is a Python package for partitioning an urban street network into Superblock-like neighborhoods and for visualizing and analyzing the partition results. A Superblock is a set of adjacent urban blocks where vehicular through traffic is prevented or pacified, giving priority to people walking and cycling. The Superblock blueprints and descriptive statistics generated by superblockify can be used by urban planners as a first step in a data-driven planning pipeline, or by urban data scientists as an efficient computational method to evaluate Superblock partitions. The software is licensed under AGPLv3 and is available at https://superblockify.city.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# 不確かさノード特徴と不確かさグラフ構造を有するグラフ畳み込みネットワークの形式的検証

Formal Verification of Graph Convolutional Networks with Uncertain Node Features and Uncertain Graph Structure ( http://arxiv.org/abs/2404.15065v1 )

ライセンス: Link先を確認
Tobias Ladner, Michael Eichelbeck, Matthias Althoff, (参考訳) グラフニューラルネットワークは、グラフで構造化されたデータを処理するユニークな能力のために、機械学習の分野でますます人気が高まっている。 また、摂動が本質的に起こる安全クリティカルな環境にも適用されている。 しかし、ニューラルネットワークは敵の攻撃を受けやすいため、安全クリティカルな環境に展開する前に、ニューラルネットワークを正式に検証する必要がある。 ニューラルネットワークの形式的検証に関する研究は存在するが、ノードの特徴やグラフ構造に不確実性のある汎用グラフ畳み込みネットワークアーキテクチャの堅牢性を検証する作業は、複数のメッセージパスステップで行われていない。 この研究は、(行列)多項式ゾノトープを用いた到達可能性解析を通じて、基礎となる計算における全ての要素の非凸依存性を明示的に保存することで、この研究ギャップに対処する。 3つの一般的なベンチマークデータセットにアプローチを示します。

Graph neural networks are becoming increasingly popular in the field of machine learning due to their unique ability to process data structured in graphs. They have also been applied in safety-critical environments where perturbations inherently occur. However, these perturbations require us to formally verify neural networks before their deployment in safety-critical environments as neural networks are prone to adversarial attacks. While there exists research on the formal verification of neural networks, there is no work verifying the robustness of generic graph convolutional network architectures with uncertainty in the node features and in the graph structure over multiple message-passing steps. This work addresses this research gap by explicitly preserving the non-convex dependencies of all elements in the underlying computations through reachability analysis with (matrix) polynomial zonotopes. We demonstrate our approach on three popular benchmark datasets.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# ソーシャルメディアへのテキスト・パーソナリティ検出の強化 : 長期的・短期的視点の統合

Enhancing Textual Personality Detection toward Social Media: Integrating Long-term and Short-term Perspectives ( http://arxiv.org/abs/2404.15067v1 )

ライセンス: Link先を確認
Haohao Zhu, Xiaokun Zhang, Junyu Lu, Youlin Wu, Zewen Bai, Changrong Min, Liang Yang, Bo Xu, Dongyu Zhang, Hongfei Lin, (参考訳) テキスト・パーソナリティ検出は,ソーシャルメディア・プラットフォームに向けたユーザ生成コンテンツの分析によって性格特性を識別することを目的としている。 多くの心理学文献は、人格が長期的な安定な特徴と短期的な動的状態の両方を含んでいることを強調した。 しかし、既存の研究はしばしば、両方の側面を効果的に組み合わせることなく、長期的または短期的な人格表現にのみ集中する。 この制限は、安定した特性と動的状態の両方が不可欠であるため、個人の個性に対する包括的な理解を妨げる。 このギャップを埋めるため,テキスト・パーソナリティ検出のための長期的,短期的パーソナリティを共同でモデル化するDENを提案する。 DENでは、長期安定性格特性を効果的にモデル化するために、長期パーソナリティ符号化が考案されている。 短期的パーソナリティ・エンコーディングは、短期的動的パーソナリティ状態を取得するために提示される。 双方向インタラクションコンポーネントは、両方のパーソナリティの側面の統合を促進し、ユーザのパーソナリティの包括的な表現を可能にする。 2つの人格検出データセットの実験結果から、DENモデルの有効性と、人格特性の動的および安定性の両方を考慮したテキスト的人格検出の利点が示された。

Textual personality detection aims to identify personality characteristics by analyzing user-generated content toward social media platforms. Numerous psychological literature highlighted that personality encompasses both long-term stable traits and short-term dynamic states. However, existing studies often concentrate only on either long-term or short-term personality representations, without effectively combining both aspects. This limitation hinders a comprehensive understanding of individuals' personalities, as both stable traits and dynamic states are vital. To bridge this gap, we propose a Dual Enhanced Network(DEN) to jointly model users' long-term and short-term personality for textual personality detection. In DEN, a Long-term Personality Encoding is devised to effectively model long-term stable personality traits. Short-term Personality Encoding is presented to capture short-term dynamic personality states. The Bi-directional Interaction component facilitates the integration of both personality aspects, allowing for a comprehensive representation of the user's personality. Experimental results on two personality detection datasets demonstrate the effectiveness of the DEN model and the benefits of considering both the dynamic and stable nature of personality characteristics for textual personality detection.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# シリコンオン絶縁体における単一G中心中心のホッピング

Hopping of the center-of-mass of single G centers in silicon-on-insulator ( http://arxiv.org/abs/2404.15069v1 )

ライセンス: Link先を確認
Alrik Durand, Yoann Baron, Péter Udvarhelyi, Félix Cache, Krithika V. R., Tobias Herzig, Mario Khoury, Sébastien Pezzagna, Jan Meijer, Jean-Michel Hartmann, Shay Reboh, Marco Abbarchi, Isabelle Robert-Philip, Adam Gali, Jean-Michel Gérard, Vincent Jacques, Guillaume Cassabois, Anaïs Dréau, (参考訳) シリコンで最近検出された蛍光欠陥の多さの中で、G中心は準安定電子スピン三重項と結合可能なテレコムの単一光子放出に興味を抱いている。 G中心は、標準のボルン=オッペンハイマー近似が崩壊するユニークな欠陥であり、原子の1つが光学励起の下で6つの格子間を移動できる。 この原子再構成がG中心の発光特性に与える影響は、特にSi-on-insulator (SOI) 試料ではまだ分かっていない。 本稿では,シリコン中のG中心の質量中心の変位について検討する。 我々は、SOIの単一G欠陥が多重極性発光とゼロフォノン線微細構造を示し、最大$\sim1$ meVで、どちらも欠陥中心原子の時間的移動を示すことを示した。 単一光子レベルでの偏光とスペクトル分析を組み合わせることで、再構成ダイナミクスがバルクシリコンの未飽和G中心と大きく異なることを示す。 SOI構造はG欠陥中心の非局在化を凍結し、結果として線形偏光線を分離することができる。 上記のバンドギャップ光励起の下では、SOIのG中心の中心原子は6スロットのルーレットホイールであるかのように振る舞う。 バルクシリコン試料とアブイニト計算の比較では、ひずみがG中心の幾何学に影響を及ぼす主な摂動である可能性が示されている。 これらの結果は、シリコン中のG中心の発光特性を理解し制御するための原子再構成ダイナミクスの重要性に光を当てた。 より一般的に、これらの発見は、シリコンの色中心に基づく将来の量子集積フォトニクス応用のためのSOIウェハ固有のひずみ変動の影響を強調している。

Among the wealth of single fluorescent defects recently detected in silicon, the G center catches interest for its telecom single-photon emission that could be coupled to a metastable electron spin triplet. The G center is a unique defect where the standard Born-Oppenheimer approximation breaks down as one of its atoms can move between 6 lattice sites under optical excitation. The impact of this atomic reconfiguration on the photoluminescence properties of G centers is still largely unknown, especially in silicon-on-insulator (SOI) samples. Here, we investigate the displacement of the center-of-mass of the G center in silicon. We show that single G defects in SOI exhibit a multipolar emission and zero-phonon line fine structures with splittings up to $\sim1$ meV, both indicating a motion of the defect central atom over time. Combining polarization and spectral analysis at the single-photon level, we evidence that the reconfiguration dynamics are drastically different from the one of the unperturbed G center in bulk silicon. The SOI structure freezes the delocalization of the G defect center-of-mass and as a result, enables to isolate linearly polarized optical lines. Under above-bandgap optical excitation, the central atom of G centers in SOI behaves as if it were in a 6-slot roulette wheel, randomly alternating between localized crystal sites at each optical cycle. Comparative measurements in a bulk silicon sample and ab initio calculations highlight that strain is likely the dominant perturbation impacting the G center geometry. These results shed light on the importance of the atomic reconfiguration dynamics to understand and control the photoluminescence properties of the G center in silicon. More generally, these findings emphasize the impact of strain fluctuations inherent to SOI wafers for future quantum integrated photonics applications based on color centers in silicon.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# 動的グラフ変換器を用いた動的性を考慮したソーシャルボット検出

Dynamicity-aware Social Bot Detection with Dynamic Graph Transformers ( http://arxiv.org/abs/2404.15070v1 )

ライセンス: Link先を確認
Buyun He, Yingguang Yang, Qi Wu, Hao Liu, Renyu Yang, Hao Peng, Xiang Wang, Yong Liao, Pengyuan Zhou, (参考訳) ソーシャルボットの検出は、誤情報の拡散とオンラインインタラクションの真正性を維持することを目的とした、重要かつ複雑なタスクへと進化してきた。 初期のグラフベースのアプローチは、ソーシャルネットワークのトポロジ的構造を利用して、顕著な結果をもたらしたが、ソーシャルネットワークの本質的なダイナミクスを見落としていた。 ダイナミック性モデリングが欠如しているため、特に高度なソーシャルボットが他のユーザと対話し、カモフラージュのアイデンティティとエスケープ検出を行う場合、このようなアプローチは回避に脆弱である。 これらの課題に対処するために,トポロジ的構造だけでなく,ネットワークの動的性質を効果的に取り入れた新しいフレームワークであるBotDGTを提案する。 具体的には,ソーシャルネットワークを動的グラフとして特徴付ける。 各歴史的スナップショットからトポロジ情報を取得するために構造モジュールが使用される。 さらに、歴史的文脈の統合と、社会的ボットや正当なユーザによって表される進化する行動パターンをモデル化するために、時間モジュールを提案する。 実験結果は,ソーシャルネットワークのダイナミックな性質を,精度,リコール,F1スコアの観点から無視する主要な手法に対するBotDGTの優位性を実証した。

Detecting social bots has evolved into a pivotal yet intricate task, aimed at combating the dissemination of misinformation and preserving the authenticity of online interactions. While earlier graph-based approaches, which leverage topological structure of social networks, yielded notable outcomes, they overlooked the inherent dynamicity of social networks -- In reality, they largely depicted the social network as a static graph and solely relied on its most recent state. Due to the absence of dynamicity modeling, such approaches are vulnerable to evasion, particularly when advanced social bots interact with other users to camouflage identities and escape detection. To tackle these challenges, we propose BotDGT, a novel framework that not only considers the topological structure, but also effectively incorporates dynamic nature of social network. Specifically, we characterize a social network as a dynamic graph. A structural module is employed to acquire topological information from each historical snapshot. Additionally, a temporal module is proposed to integrate historical context and model the evolving behavior patterns exhibited by social bots and legitimate users. Experimental results demonstrate the superiority of BotDGT against the leading methods that neglected the dynamic nature of social networks in terms of accuracy, recall, and F1-score.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# エネルギー効率のよい量子エンハンスマシン

An energy efficient quantum-enhanced machine ( http://arxiv.org/abs/2404.15075v1 )

ライセンス: Link先を確認
Waner Hou, Xingyu Zhao, Kamran Rehan, Yi Li, Yue Li, Eric Lutz, Yiheng Lin, Jiangfeng Du, (参考訳) 古典的な摩擦の量子アナログである量子摩擦は、熱エンジンなどの量子機械の性能を低下させ、エネルギー効率を低下させる。 本稿では, 線形ポールトラップ内の単一イオンを用いたエネルギー効率のよい量子エンジンを, 生成した作業を保存する量子電池に結合した実験的実現を報告する。 まず、電池のエネルギー測定によって検証されたサイクル数で非古典的な作業振動を観測することにより、装置の量子的性質を確立した。 さらに, 量子摩擦を抑制し, 作業効率を向上させるために, ショートカット・トゥ・アディバティティティ手法をうまく適用した。 ショートカットプロトコルの平均エネルギーコストは約$3\%であるが、ワークアウトプットは最大33$\%まで向上し、マシンのエネルギー効率は大幅に向上する。 さらに、量子エンジンは、この状態において古典的よりも一貫して優れていることを示す。 我々の結果は、量子化性能を持つエネルギー効率の良い機械の道を開いた。

Quantum friction, a quantum analog of classical friction, reduces the performance of quantum machines, such as heat engines, and makes them less energy efficient. We here report the experimental realization of an energy efficient quantum engine coupled to a quantum battery that stores the produced work, using a single ion in a linear Paul trap. We first establish the quantum nature of the device by observing nonclassical work oscillations with the number of cycles as verified by energy measurements of the battery. We moreover successfully apply shortcut-to-adiabaticity techniques to suppress quantum friction and improve work production. While the average energy cost of the shortcut protocol is only about $3\%$, the work output is enhanced by up to approximately 33$\%$, making the machine significantly more energy efficient. In addition, we show that the quantum engine consistently outperforms its classical counterpart in this regime. Our results pave the way for energy efficient machines with quantum-enhanced performance.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# 遠心分離型遠心分離モデル「Subtle Imaging Perturbations」

Perturbing Attention Gives You More Bang for the Buck: Subtle Imaging Perturbations That Efficiently Fool Customized Diffusion Models ( http://arxiv.org/abs/2404.15081v1 )

ライセンス: Link先を確認
Jingyao Xu, Yuetong Lu, Yandong Li, Siyang Lu, Dongdong Wang, Xiang Wei, (参考訳) 拡散モデル(DM)は、生成モデリングの新しい時代に乗り出し、高品質で現実的なデータサンプルを効率的に生成する機会を提供する。 しかし、彼らの普及した利用はまた、モデルセキュリティにおける新たな課題をもたらし、その脆弱性を理解するためにDM上でより効果的な敵攻撃者を作成する動機となった。 本稿では,遅延拡散モデル(LDM)を効果的に騙すために,コストのかかるトレーニングを必要としない,シンプルで汎用的で効率的なアプローチであるCAATを提案する。 このアプローチは、交差したアテンション層が勾配変化に対する高い感度を示し、公開画像の微妙な摂動を利用して生成された画像を著しく劣化させる、という観察に基づいている。 画像上の微妙な摂動が、関心層に大きく影響することを示し、カスタマイズされた拡散モデルの微調整中にテキストと画像のマッピングを変更する。 広範囲にわたる実験により、CAATは多様な拡散モデルと互換性があり、より効果的な(よりノイズの多い)ベースライン攻撃法と効率の良い(反DreamBoothとMistの2倍の速さ)方法に優れることが示された。

Diffusion models (DMs) embark a new era of generative modeling and offer more opportunities for efficient generating high-quality and realistic data samples. However, their widespread use has also brought forth new challenges in model security, which motivates the creation of more effective adversarial attackers on DMs to understand its vulnerability. We propose CAAT, a simple but generic and efficient approach that does not require costly training to effectively fool latent diffusion models (LDMs). The approach is based on the observation that cross-attention layers exhibits higher sensitivity to gradient change, allowing for leveraging subtle perturbations on published images to significantly corrupt the generated images. We show that a subtle perturbation on an image can significantly impact the cross-attention layers, thus changing the mapping between text and image during the fine-tuning of customized diffusion models. Extensive experiments demonstrate that CAAT is compatible with diverse diffusion models and outperforms baseline attack methods in a more effective (more noise) and efficient (twice as fast as Anti-DreamBooth and Mist) manner.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# 大気散乱媒質による高調波光イメージング限界

Harnessing Optical Imaging Limit through Atmospheric Scattering Media ( http://arxiv.org/abs/2404.15082v1 )

ライセンス: Link先を確認
Libang Chen, Jun Yang, Lingye Chen, Yuyang Shui, Yikun Liu, Jianying Zhou, (参考訳) 光システムによる大気散乱媒体によるかすかな物体の記録と識別は、基本的に興味深く、技術的に重要である。 本研究では, 対象特性, 大気効果, 画像システム, デジタル処理, 視覚知覚からの貢献を取り入れた包括的モデルを導入し, 幾何学的画像の究極の知覚限界, 特に可視距離の境界における角分解能を評価する。 このモデルでは、従来の画像記録、処理、知覚の有効性を再評価し、大気中における画像認識能力を制限する制限要因を分析することができる。 シミュレーションは、霧室と屋外設定で測定された実験結果と比較した。 その結果, 散乱媒質における光学的イメージングの物理的限界を利用する方法が指摘され, 解析と実験の一般的な一致が明らかとなった。 この研究の直接の応用は、マルチフレーム平均化によるノイズ低減を伴う1.2倍の画像範囲の拡張であり、それによって大気中の光学イメージングの能力を大幅に向上させる。

Recording and identifying faint objects through atmospheric scattering media by an optical system are fundamentally interesting and technologically important. In this work, we introduce a comprehensive model that incorporates contributions from target characteristics, atmospheric effects, imaging system, digital processing, and visual perception to assess the ultimate perceptible limit of geometrical imaging, specifically the angular resolution at the boundary of visible distance. The model allows to reevaluate the effectiveness of conventional imaging recording, processing, and perception and to analyze the limiting factors that constrain image recognition capabilities in atmospheric media. The simulations were compared with the experimental results measured in a fog chamber and outdoor settings. The results reveal general good agreement between analysis and experimental, pointing out the way to harnessing the physical limit for optical imaging in scattering media. An immediate application of the study is the extension of the image range by an amount of 1.2 times with noise reduction via multi-frame averaging, hence greatly enhancing the capability of optical imaging in the atmosphere.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# ハイパーパラメータ最適化は、オフ・ポリティ・ラーニングにおいて有害である可能性と対処方法

Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It ( http://arxiv.org/abs/2404.15084v1 )

ライセンス: Link先を確認
Yuta Saito, Masahiro Nomura, (参考訳) 推薦システムやパーソナライズドメディカル医療などの文献における非政治評価への関心が高まっている。 これまで、偏りのあるログデータに基づく対実的ポリシーの有効性を正確に推定することを目的とした推定器の開発において、大きな進展が見られた。 しかし、これらの推定器は意思決定ポリシーの価値を評価するだけでなく、大きな候補空間から最適なハイパーパラメータを探すために使われるケースも多い。 この研究は、非政治学習のための後者のハイパーパラメータ最適化(HPO)タスクを探求する。 我々は,HPOのサロゲート目的としての一般化性能の偏りのない推定器を実験的に適用すると予期せぬ失敗を生じさせ,単に一般化性能が過大評価されているハイパーパラメータを追求するだけであることを実証的に示す。 次に、上記の問題に同時に対処する典型的なHPO手順に対して、単純で効率的な修正を提案する。 提案手法の有効性を実証的に検証し,提案手法の有効性を検証した。

There has been a growing interest in off-policy evaluation in the literature such as recommender systems and personalized medicine. We have so far seen significant progress in developing estimators aimed at accurately estimating the effectiveness of counterfactual policies based on biased logged data. However, there are many cases where those estimators are used not only to evaluate the value of decision making policies but also to search for the best hyperparameters from a large candidate space. This work explores the latter hyperparameter optimization (HPO) task for off-policy learning. We empirically show that naively applying an unbiased estimator of the generalization performance as a surrogate objective in HPO can cause an unexpected failure, merely pursuing hyperparameters whose generalization performance is greatly overestimated. We then propose simple and computationally efficient corrections to the typical HPO procedure to deal with the aforementioned issues simultaneously. Empirical investigations demonstrate the effectiveness of our proposed HPO algorithm in situations where the typical procedure fails severely.
翻訳日:2024-04-24 13:42:03 公開日:2024-04-23
# 誰が実際に研究されているのか? ソフトウェア工学研究における人口分析の呼びかけ

Who's actually being Studied? A Call for Population Analysis in Software Engineering Research ( http://arxiv.org/abs/2404.15093v1 )

ライセンス: Link先を確認
Jefferson Seide Molléri, (参考訳) 人口分析は、経験的ソフトウェア工学(ESE)研究が代表的であり、その発見が有効であることを保証するために重要である。 しかし、サンプリングプロセスと集団の全体的調査の間には、永続的なギャップがある。 個々のソフトウェアエンジニアの人口分析から組織やプロジェクトまで,さまざまな課題について検討する。 一般化可能性と伝達可能性の相互作用を議論し、適切な人口枠を提唱する。 また,ESE研究の実証的厳密さと外的妥当性を高めることを目的とした,人口分析の改善に向けた説得力のある事例も提示する。

Population analysis is crucial for ensuring that empirical software engineering (ESE) research is representative and its findings are valid. Yet, there is a persistent gap between sampling processes and the holistic examination of populations, which this position paper addresses. We explore the challenges ranging from analysing populations of individual software engineers to organizations and projects. We discuss the interplay between generalizability and transferability and advocate for appropriate population frames. We also present a compelling case for improved population analysis aiming to enhance the empirical rigor and external validity of ESE research.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# ARIMAを用いた加入者データ消費の拡大予測

Using ARIMA to Predict the Expansion of Subscriber Data Consumption ( http://arxiv.org/abs/2404.15095v1 )

ライセンス: Link先を確認
Mike Wa Nkongolo, (参考訳) 本研究では,ARIMAモデルのような機械学習技術を用いた予測モデルに着目し,加入者データから得られる洞察が通信における意思決定に与える影響について考察する。 本研究は,ARIMAモデルの性能を様々な指標を用いて評価し,加入者の利用傾向を予測する時系列予測について検討した。 また、ARIMAとCNN(Convolutional Neural Network)モデルを比較し、精度と実行速度におけるARIMAの優位性を強調している。 この研究は、新たな予測モデルの調査や、加入者データ利用に影響を与える他の要因を検討するなど、研究の今後の方向性を示唆している。

This study discusses how insights retrieved from subscriber data can impact decision-making in telecommunications, focusing on predictive modeling using machine learning techniques such as the ARIMA model. The study explores time series forecasting to predict subscriber usage trends, evaluating the ARIMA model's performance using various metrics. It also compares ARIMA with Convolutional Neural Network (CNN) models, highlighting ARIMA's superiority in accuracy and execution speed. The study suggests future directions for research, including exploring additional forecasting models and considering other factors affecting subscriber data usage.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# インピーダンスマッチング:四足歩行ロボットのRLベースランニングジャンプの実現

Impedance Matching: Enabling an RL-Based Running Jump in a Quadruped Robot ( http://arxiv.org/abs/2404.15096v1 )

ライセンス: Link先を確認
Neil Guan, Shangqun Yu, Shifan Zhu, Donghyun Kim, (参考訳) 動物に見られる顕著な運動を再現することは、ロボット制御における長年の課題である。 強化学習(Reinforcement Learning, RL)は, 動的足の移動制御において顕著な進歩をみせているが, 実世界における実動運動の実証を妨げることがしばしばある。 本研究では,周波数領域解析に基づく実ロボットと実ロボットのインピーダンスマッチングにより,このギャップを緩和する新しい枠組みを提案する。 本フレームワークはパラメータ選択のための構造的ガイドラインとシミュレーションにおける動的ランダム化の範囲を提供し,より安全なsim-to-real転送を容易にする。 学習方針は, 55cm, 高さ38cmの距離を飛び越えることを可能にした。 その結果は、我々の知る限り、実四足歩行ロボットにおけるRLベースの制御ポリシーによって実証された最も高く、最長のジャンプの1つである。 得られたジャンプ高さの約85%は、与えられたロボットハードウェアの物理的限界と見なせる最先端の軌道最適化法から得られるものであることに注意されたい。 また,制御方針は,前後方向に最大2m/s,横方向に最大1m/sの速度で安定歩行を達成できた。

Replicating the remarkable athleticism seen in animals has long been a challenge in robotics control. Although Reinforcement Learning (RL) has demonstrated significant progress in dynamic legged locomotion control, the substantial sim-to-real gap often hinders the real-world demonstration of truly dynamic movements. We propose a new framework to mitigate this gap through frequency-domain analysis-based impedance matching between simulated and real robots. Our framework offers a structured guideline for parameter selection and the range for dynamics randomization in simulation, thus facilitating a safe sim-to-real transfer. The learned policy using our framework enabled jumps across distances of 55 cm and heights of 38 cm. The results are, to the best of our knowledge, one of the highest and longest running jumps demonstrated by an RL-based control policy in a real quadruped robot. Note that the achieved jumping height is approximately 85% of that obtained from a state-of-the-art trajectory optimization method, which can be seen as the physical limit for the given robot hardware. In addition, our control policy accomplished stable walking at speeds up to 2 m/s in the forward and backward directions, and 1 m/s in the sideway direction.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# 出力誤差設定におけるデータ駆動出力予測器の不確かさの定量化

Uncertainty Quantification of Data-Driven Output Predictors in the Output Error Setting ( http://arxiv.org/abs/2404.15098v1 )

ライセンス: Link先を確認
Farzan Kaviani, Ivan Markovsky, Hamid R. Ossareh, (参考訳) 動作設定において、オフライン入力出力データ(およびパラメトリックモデルを使用しない)を直接使用して、LTIシステムの出力を予測する問題を再検討する。 既存の作業では、オフライン入力出力データからなるハンケル行列のカラムスパンに、入力信号と出力信号の最近のサンプルを投影することにより、出力予測を算出する。 しかし、オフラインデータがノイズによって破損した場合、出力予測はもはや正確ではない。 いくつかの先行研究では、乱れ特異値分解のような行列式低階近似ヒューリスティックスによるノイズデータの緩和が提案されているが、その後の予測精度は未定である。 本稿では,ノイズがオフラインデータの大きさに対して十分に小さいという条件下で,予測誤差の上限を2つ導入することによって,これらのギャップを埋める。 第1の限界は、生のオフラインデータを直接使用する予測に関係し、第2の限界は、低階近似ヒューリスティック(英語版)の場合に適用される。 特に、境界はシステム出力に関する基礎的な真実を必要とせず、既知のノイズレベルとシステム順序によるノイズ測定にのみ依存する。 大規模な数値シミュレーションにより、両方の境界はノイズレベルの関数として単調(および線形)に減少することを示した。 さらに, 出力誤差設定におけるノイズ除去ヒューリスティックの適用は, 生データを直接使用する場合や, 予測誤差の上限が小さい場合に比べて, 予測精度が良くないことを示す。 しかし、第1の上界はハンケル行列の分割に特定の条件を必要とするため、より一般的な上界を許す。

We revisit the problem of predicting the output of an LTI system directly using offline input-output data (and without the use of a parametric model) in the behavioral setting. Existing works calculate the output predictions by projecting the recent samples of the input and output signals onto the column span of a Hankel matrix consisting of the offline input-output data. However, if the offline data is corrupted by noise, the output prediction is no longer exact. While some prior works propose mitigating noisy data through matrix low-ranking approximation heuristics, such as truncated singular value decomposition, the ensuing prediction accuracy remains unquantified. This paper fills these gaps by introducing two upper bounds on the prediction error under the condition that the noise is sufficiently small relative to the offline data's magnitude. The first bound pertains to prediction using the raw offline data directly, while the second one applies to the case of low-ranking approximation heuristic. Notably, the bounds do not require the ground truth about the system output, relying solely on noisy measurements with a known noise level and system order. Extensive numerical simulations show that both bounds decrease monotonically (and linearly) as a function of the noise level. Furthermore, our results demonstrate that applying the de-noising heuristic in the output error setup does not generally lead to a better prediction accuracy as compared to using raw data directly, nor a smaller upper bound on the prediction error. However, it allows for a more general upper bound, as the first upper bound requires a specific condition on the partitioning of the Hankel matrix.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# マルチモーダル大言語モデル : テキスト・画像生成のためのアノテータ

Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation ( http://arxiv.org/abs/2404.15100v1 )

ライセンス: Link先を確認
Xun Wu, Shaohan Huang, Furu Wei, (参考訳) 近年の研究では、人間の嗜好データセットを活用してテキスト・ツー・イメージ生成モデルを洗練し、生成した画像とテキスト・プロンプトの整合性を高めるという異例の可能性を実証している。 これらの進歩にもかかわらず、現在の人間の嗜好データセットは、好みの次元の多様性が欠如しているため、オープンソースのテキスト・ツー・イメージ生成モデルにおける命令チューニングの適用性が制限され、さらなる探索が妨げられる。 これらの課題に対処し、命令チューニングによる生成モデルのアライメントを促進するために、マルチモーダルな大規模言語モデルを用いて、複数の嗜好面をキャプチャする高品質できめ細かい選好データセットであるVisionPreferを作成します。 私たちはAIアノテータからのフィードバックを、VisionPreferを構築するために、プロンプトフォロー、美学、忠実さ、無害性の4つの側面に集約します。 VisionPreferの有効性を検証するために、VisionPreferよりも報酬モデルVP-Scoreを訓練し、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテータに匹敵する。 さらに、2つの強化学習手法を用いて微調整生成モデルを用いてVisionPreferの性能評価を行い、VisionPreferは様々な側面、例えば美的側面、および様々な画像分布における従来の人為的基準指標よりも優れた合成画像生成におけるテキスト画像アライメントを著しく改善することを示した。 さらに、VisionPreferは、AI生成した合成データを監視信号として統合することは、視覚生成モデルにおける人間の嗜好との整合性を改善するための有望な道であることを示している。

Recent studies have demonstrated the exceptional potentials of leveraging human preference datasets to refine text-to-image generative models, enhancing the alignment between generated images and textual prompts. Despite these advances, current human preference datasets are either prohibitively expensive to construct or suffer from a lack of diversity in preference dimensions, resulting in limited applicability for instruction tuning in open-source text-to-image generative models and hinder further exploration. To address these challenges and promote the alignment of generative models through instruction tuning, we leverage multimodal large language models to create VisionPrefer, a high-quality and fine-grained preference dataset that captures multiple preference aspects. We aggregate feedback from AI annotators across four aspects: prompt-following, aesthetic, fidelity, and harmlessness to construct VisionPrefer. To validate the effectiveness of VisionPrefer, we train a reward model VP-Score over VisionPrefer to guide the training of text-to-image generative models and the preference prediction accuracy of VP-Score is comparable to human annotators. Furthermore, we use two reinforcement learning methods to supervised fine-tune generative models to evaluate the performance of VisionPrefer, and extensive experimental results demonstrate that VisionPrefer significantly improves text-image alignment in compositional image generation across diverse aspects, e.g., aesthetic, and generalizes better than previous human-preference metrics across various image distributions. Moreover, VisionPrefer indicates that the integration of AI-generated synthetic data as a supervisory signal is a promising avenue for achieving improved alignment with human preferences in vision generative models.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# 長期文書検索のための多視点コンテンツ認識インデックス作成

Multi-view Content-aware Indexing for Long Document Retrieval ( http://arxiv.org/abs/2404.15103v1 )

ライセンス: Link先を確認
Kuicai Dong, Derrick Goh Xin Deik, Yi Quan Lee, Hao Zhang, Xiangyang Li, Cong Zhang, Yong Liu, (参考訳) Long Document Question answering (DocQA) は、10kワード以上の長いドキュメントからの質問に答えることを目的としている。 これらは通常、セクション、サブセクション、および段落区切りなどのコンテンツ構造を含む。 しかし、長い文書の索引付け手法は未探索のままであり、既存のシステムは一般に固定長のチャンクを用いる。 コンテンツ構造を考慮しないため、結果のチャンクはバイタル情報を除外したり、無関係なコンテンツを含むことができる。 そこで我々は,より効果的な長期DocQAのためのMulti-view Content-Aware Indexing (MC-indexing)を提案する。 i) 構造化文書をコンテンツチャンクに分割し、 (ii)各コンテンツチャンクを、生のテキスト、キーワード、要約ビューで表現する。 MCインデクシングはトレーニングも微調整も必要としない。 プラグアンドプレイ機能があるので、どのレトリバーともシームレスに統合してパフォーマンスを向上できる。 さらに,質問応答対だけでなく,文書構造や回答範囲も含む長いDocQAデータセットを提案する。 最先端のチャンキング方式と比較して、MCインデクシングは、それぞれトップk=1.5、3、5、10で42.8%、30.0%、23.9%、および16.3%のリコールを著しく増加させた。 これらの改良されたスコアは、広範囲な実験を通じて広く使われている8つのレトリバー(2つのスパース、6つの密度)の平均である。

Long document question answering (DocQA) aims to answer questions from long documents over 10k words. They usually contain content structures such as sections, sub-sections, and paragraph demarcations. However, the indexing methods of long documents remain under-explored, while existing systems generally employ fixed-length chunking. As they do not consider content structures, the resultant chunks can exclude vital information or include irrelevant content. Motivated by this, we propose the Multi-view Content-aware indexing (MC-indexing) for more effective long DocQA via (i) segment structured document into content chunks, and (ii) represent each content chunk in raw-text, keywords, and summary views. We highlight that MC-indexing requires neither training nor fine-tuning. Having plug-and-play capability, it can be seamlessly integrated with any retrievers to boost their performance. Besides, we propose a long DocQA dataset that includes not only question-answer pair, but also document structure and answer scope. When compared to state-of-art chunking schemes, MC-indexing has significantly increased the recall by 42.8%, 30.0%, 23.9%, and 16.3% via top k= 1.5, 3, 5, and 10 respectively. These improved scores are the average of 8 widely used retrievers (2 sparse and 6 dense) via extensive experiments.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# 自動生成テストコンテンツにおける公平性問題

Identifying Fairness Issues in Automatically Generated Testing Content ( http://arxiv.org/abs/2404.15104v1 )

ライセンス: Link先を確認
Kevin Stowe, Benny Longwill, Alyssa Francis, Tatsuya Aoyama, Debanjan Ghosh, Swapna Somasundaran, (参考訳) 自然言語生成ツールは、コンテンツを生成するのに強力で効果的です。 しかし、言語モデルはバイアスや公平性の問題を示すことで知られており、多くのユースケースにデプロイするのは現実的ではない。 ここでは、フェアネスの問題が自動生成されたテストコンテンツにどのように影響するかに注目します。 具体的には、特定の領域に焦点をあてたテスト内容を特定し、特定の人口層のみを反映する、あるいは潜在的に感情的に動揺する可能性のある体験を特定する。 この種のコンテンツは、コンテキストの典型的なバイアスを反映しません。 フェアネスにアノテートされた621個のテキストのデータセットを構築し、微調整、トピックベースの分類、プロンプトなど、さまざまな手法を探索する。 即時自己補正と少数ショット学習を組み合わせることで,F1スコアの.791が得られるのに対して,BERTとトピックベースのモデルの方がはるかに小さなモデルでは,ドメイン外データ上での競合性能が向上することがわかった。

Natural language generation tools are powerful and effective for generating content. However, language models are known to display bias and fairness issues, making them impractical to deploy for many use cases. We here focus on how fairness issues impact automatically generated test content, which can have stringent requirements to ensure the test measures only what it was intended to measure. Specifically, we identify test content that is focused on particular domains and experiences that only reflect a certain demographic or that are potentially emotionally upsetting; both of which could inadvertently impact a test-taker's score. This kind of content doesn't reflect typical biases out of context, making it challenging even for modern models that contain safeguards. We build a dataset of 621 generated texts annotated for fairness and explore a variety of methods for classification: fine-tuning, topic-based classification, and prompting, including few-shot and self-correcting prompts. We find that combining prompt self-correction and few-shot learning performs best, yielding an F1 score of .791 on our held-out test set, while much smaller BERT- and topic-based models have competitive performance on out-of-domain data.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# Compete and Compose: モジュール世界モデルのための独立したメカニズムの学習

Compete and Compose: Learning Independent Mechanisms for Modular World Models ( http://arxiv.org/abs/2404.15109v1 )

ライセンス: Link先を確認
Anson Lei, Frederik Nolte, Bernhard Schölkopf, Ingmar Posner, (参考訳) 異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMET(Commpetitive Mechanisms for Efficient Transfer)を提案する。 COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。 これにより、モデルが認識し、伝達可能なメカニズムを学ぶことができる。 具体的には、コンペティションフェーズでは、COMETは勝者の全てをグラデーションアロケーションでトレーニングし、独立したメカニズムの出現を奨励する。 これらはコンポジションフェーズで再利用され、COMETは、インターベンションされた環境のダイナミクスを捉える方法で学習機構を再構成することを学ぶ。 そのため、COMETは事前知識を明示的に再利用し、効率的かつ解釈可能な適応を可能にする。 画像に基づく観測により,COMETを環境上で評価する。 競合するベースラインとは対照的に、COMETは監視なしで認識可能なメカニズムをキャプチャすることを示した。 さらに, COMETは, 従来のファインタニング手法と比較して, サンプル効率を向上し, 多様なオブジェクト数で新しい環境に適応できることを示す。

We present COmpetitive Mechanisms for Efficient Transfer (COMET), a modular world model which leverages reusable, independent mechanisms across different environments. COMET is trained on multiple environments with varying dynamics via a two-step process: competition and composition. This enables the model to recognise and learn transferable mechanisms. Specifically, in the competition phase, COMET is trained with a winner-takes-all gradient allocation, encouraging the emergence of independent mechanisms. These are then re-used in the composition phase, where COMET learns to re-compose learnt mechanisms in ways that capture the dynamics of intervened environments. In so doing, COMET explicitly reuses prior knowledge, enabling efficient and interpretable adaptation. We evaluate COMET on environments with image-based observations. In contrast to competitive baselines, we demonstrate that COMET captures recognisable mechanisms without supervision. Moreover, we show that COMET is able to adapt to new environments with varying numbers of objects with improved sample efficiency compared to more conventional finetuning approaches.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# キャビティ-マグノン光学における可変ガウスエンタングルメント

Tunable Gaussian Entanglement in Cavity-Magnon Optomechanics ( http://arxiv.org/abs/2404.15111v1 )

ライセンス: Link先を確認
Ming-Yue Liu, Xian-Xian Huang, Jiaojiao Chen, Wei Xiong, (参考訳) キャビティ光学は、光子とフォノンの間に本質的に非線形な相互作用を与えるが、マクロな量子絡みを発生させる際には、不均一なポテンシャルを示す。 本稿では,キャビティ-マグノン光学系における多様な二分極および三分極の絡み合いを実現することを提案する。 標準空洞光学にマグノンを導入することにより、調節可能なオプティメカルエンタングルメントやマグノン-マグノンエンタングルメントだけでなく、マグノン-フォノンエンタングル、マグノン-マグノン-フォノン、フォノンエンタングルメントを含む柔軟な三部構造エンタングルメントを生成することができる。 さらに、最適二部分節と三部分節の絡み合いは、パラメータのチューニングによって達成できる。 さらに,マグノン-光子結合の工学的手法によりすべての絡み合いを向上できることが示され,生存温度内の浴槽温度に対して堅牢であることが証明された。 さらに, 崩壊速度の悪いマグノンによって, 光学的絡み合いを保護したり, 復元したりできるのに対し, 他の絡み合いは著しく減少することがわかった。 その結果,ハイブリッドキャビティ-マグノン光力学における波長可変量子効果の探索と制御のための新しい手法が提案されていることが示唆された。

Cavity optomechanics, providing an inherently nonlinear interaction between photons and phonons, have shown enomerous potential in generating macroscopic quantum entanglement. Here we propose to realize diverse bipartite and tripartite entanglement in cavity-magnon optomechanics. By introducing magnons to standard cavity optomechanics, not only tunable optomechanical entanglement and magnon-magnon entanglement can be achieved, but also flexible tripartite entanglement including magnon-photon-phonon entanglement, magnon-magnon-photon and -phonon entanglement can be generated. Moreover, optimal bipartite and tripartite entanglement can be achieved by tuning parameters. We further show that all entanglement can be enhanced via engineering the magnon-photon coupling,and is proven to be robust against the bath temperature within the survival temperature. Besides, we find that the optomechanical entanglement can be protected or restored by bad magnons with large decay rate, while other entanglement is severely reduced. The results indicate that our proposal provides a novel avenue to explore and control tunable macroscopic quantum effects in hybrid cavity-magnon optomechanics.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# ニューラルネットワークを用いた物理系における相転移の同定--ニューラルアーキテクチャ探索の観点から

Identifying phase transitions in physical systems with neural networks: a neural architecture search perspective ( http://arxiv.org/abs/2404.15118v1 )

ライセンス: Link先を確認
Rodrigo Carmo Terin, Zochil González Arenas, Roberto Santana, (参考訳) 物理系における位相遷移を研究するための機械学習アルゴリズムの利用は、これらの系の特徴をよりよく理解するための貴重な方法である。 ニューラルネットワークは、多体構成から直接相転移や相転移の情報を取り出すために使われてきた。 しかしながら、ニューラルネットワークの1つの制限は、それらがアプリケーションに先行するモデルアーキテクチャとパラメータの定義を必要とすることであり、そのような決定はそれ自体が難しい問題である。 本稿では,位相情報に対するニューラルネットワークの精度とネットワーク構成(アーキテクチャとハイパーパラメータを含む)との関係を初めて検討する。 本稿では、位相解析を回帰タスクとして定式化し、物理系の異なる状態を反映したデータ生成の問題に対処し、このタスクのニューラルネットワーク探索の性能を評価する。 最適化されたアーキテクチャを得た後、ニューロンカバレッジメトリクスを用いて、スマートなデータ処理と分析を実装し、フェーズ遷移を推定するこれらのメトリクスの能力を評価する。 以上の結果から, ニューロンのカバレッジ測定は, 物理系における相転移の検出に有望であると考えられた。

The use of machine learning algorithms to investigate phase transitions in physical systems is a valuable way to better understand the characteristics of these systems. Neural networks have been used to extract information of phases and phase transitions directly from many-body configurations. However, one limitation of neural networks is that they require the definition of the model architecture and parameters previous to their application, and such determination is itself a difficult problem. In this paper, we investigate for the first time the relationship between the accuracy of neural networks for information of phases and the network configuration (that comprises the architecture and hyperparameters). We formulate the phase analysis as a regression task, address the question of generating data that reflects the different states of the physical system, and evaluate the performance of neural architecture search for this task. After obtaining the optimized architectures, we further implement smart data processing and analytics by means of neuron coverage metrics, assessing the capability of these metrics to estimate phase transitions. Our results identify the neuron coverage metric as promising for detecting phase transitions in physical systems.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# 文字制御のための拡散確率モデル

Taming Diffusion Probabilistic Models for Character Control ( http://arxiv.org/abs/2404.15121v1 )

ライセンス: Link先を確認
Rui Chen, Mingyi Shi, Shaoli Huang, Ping Tan, Taku Komura, Xuelin Chen, (参考訳) 動作拡散確率モデルを効果的に活用して,様々な動的ユーザ供給制御信号にリアルタイムに応答する,高品質で多様な文字アニメーションを生成する,新しい文字制御フレームワークを提案する。 提案手法の核心はトランスフォーマーをベースとした条件付き自己回帰運動拡散モデル(CAMDM)であり,文字の歴史的動きを入力として,高レベルで粗いユーザ制御を前提とした多種多様な将来の動きを生成することができる。 リアルタイムコントローラが要求する多様性,制御性,計算効率の要求を満たすため,いくつかの重要なアルゴリズム設計を取り入れた。 これらには、異なる条件トークン化、過去の動きに関する分類子なしガイダンス、およびヒューリスティックな将来の軌跡拡張が含まれており、これらは全て、文字制御のための動き拡散確率モデルを使用する際の課題に対処するよう設計されている。 その結果、ユーザ対話型制御に基づく高品質で多様なキャラクタアニメーションをリアルタイムに生成できる最初のモデルとなり、単一の統一モデルで複数のスタイルのキャラクタをアニメーション化できるようになりました。 本手法の有効性を,既存の文字制御装置に比較して検証し,多様な動作スキルのセットで評価した。 プロジェクトページとソースコード:https://aiganimation.github.io/CAMDM/

We present a novel character control framework that effectively utilizes motion diffusion probabilistic models to generate high-quality and diverse character animations, responding in real-time to a variety of dynamic user-supplied control signals. At the heart of our method lies a transformer-based Conditional Autoregressive Motion Diffusion Model (CAMDM), which takes as input the character's historical motion and can generate a range of diverse potential future motions conditioned on high-level, coarse user control. To meet the demands for diversity, controllability, and computational efficiency required by a real-time controller, we incorporate several key algorithmic designs. These include separate condition tokenization, classifier-free guidance on past motion, and heuristic future trajectory extension, all designed to address the challenges associated with taming motion diffusion probabilistic models for character control. As a result, our work represents the first model that enables real-time generation of high-quality, diverse character animations based on user interactive control, supporting animating the character in multiple styles with a single unified model. We evaluate our method on a diverse set of locomotion skills, demonstrating the merits of our method over existing character controllers. Project page and source codes: https://aiganimation.github.io/CAMDM/
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# MedDr:大規模医用ビジョンランゲージ学習のための診断ガイド付きブートストラップ

MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning ( http://arxiv.org/abs/2404.15127v1 )

ライセンス: Link先を確認
Sunan He, Yuxiang Nie, Zhixuan Chen, Zhiyuan Cai, Hongmei Wang, Shu Yang, Hao Chen, (参考訳) 大規模視覚言語モデルの急速な進歩は、様々なタスクにおいて顕著な能力を示した。 しかし、医学における画像テキストデータの広範かつ高品質の欠如は、大規模医療ビジョン言語モデルの開発を著しく妨げている。 本研究では,画像情報とラベル情報を利用して視覚言語データセットを構築する,診断誘導型ブートストラッピング戦略を提案する。 構築したデータセットに基づいて,放射線学,病理学,皮膚科,網膜撮影,内視鏡などの多様な医療データモダリティを扱える医療の一般基盤モデルであるMedDrを開発した。 さらに,推測において,モデルの一般化能力を高める,単純かつ効果的な検索強化型医療診断戦略を提案する。 視覚的質問応答, 医療報告生成, 医用画像診断に関する広範囲な実験は, 本手法の優位性を示している。

The rapid advancement of large-scale vision-language models has showcased remarkable capabilities across various tasks. However, the lack of extensive and high-quality image-text data in medicine has greatly hindered the development of large-scale medical vision-language models. In this work, we present a diagnosis-guided bootstrapping strategy that exploits both image and label information to construct vision-language datasets. Based on the constructed dataset, we developed MedDr, a generalist foundation model for healthcare capable of handling diverse medical data modalities, including radiology, pathology, dermatology, retinography, and endoscopy. Moreover, during inference, we propose a simple but effective retrieval-augmented medical diagnosis strategy, which enhances the model's generalization ability. Extensive experiments on visual question answering, medical report generation, and medical image diagnosis demonstrate the superiority of our method.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# YOLOと高速R-CNNを用いた超音波画像における胆嚢癌検出

Gallbladder Cancer Detection in Ultrasound Images based on YOLO and Faster R-CNN ( http://arxiv.org/abs/2404.15129v1 )

ライセンス: Link先を確認
Sara Dadjouy, Hedieh Sajedi, (参考訳) 医用画像解析は、人工知能の疾患診断への重要な応用である。 このプロセスにおける重要なステップは、画像内の関心領域を特定することである。 このタスクはオブジェクト検出アルゴリズムを使って自動化することができる。 YOLOとFaster R-CNNは、それぞれ独自の長所と短所を持つアルゴリズムで有名である。 本研究の目的は, 超音波画像から胆嚢検出のためのより正確な境界ボックスを選択することであり, 胆嚢癌分類の精度を高めることである。 本研究では,両手法の利点を活かした融合法について述べる。 提案手法は,90.16%,82.79%の精度で精度92.62%,Faster R-CNNとYOLOv8の個別使用と比較して優れた分類性能を示した。

Medical image analysis is a significant application of artificial intelligence for disease diagnosis. A crucial step in this process is the identification of regions of interest within the images. This task can be automated using object detection algorithms. YOLO and Faster R-CNN are renowned for such algorithms, each with its own strengths and weaknesses. This study aims to explore the advantages of both techniques to select more accurate bounding boxes for gallbladder detection from ultrasound images, thereby enhancing gallbladder cancer classification. A fusion method that leverages the benefits of both techniques is presented in this study. The proposed method demonstrated superior classification performance, with an accuracy of 92.62%, compared to the individual use of Faster R-CNN and YOLOv8, which yielded accuracies of 90.16% and 82.79%, respectively.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# CutDiffusion: 単純・高速・チープ・強拡散外挿法

CutDiffusion: A Simple, Fast, Cheap, and Strong Diffusion Extrapolation Method ( http://arxiv.org/abs/2404.15141v1 )

ライセンス: Link先を確認
Mingbao Lin, Zhihang Lin, Wengyi Zhan, Liujuan Cao, Rongrong Ji, (参考訳) 大規模な事前学習された低分解能拡散モデルから高分解能要求、すなわち拡散補間への変換は、拡散適応性を著しく改善する。 本研究では,拡散補間プロセスの簡素化と高速化を目的として,チューニング不要なCutDiffusionを提案する。 CutDiffusionは、既存のパッチワイド外挿法に依拠するが、標準的なパッチ拡散プロセスは、包括的構造に焦点をあてた初期フェーズと、それに続く特定の詳細精細化に特化したフェーズに切り替わる。 包括的実験では,(1)サードパーティの関与なしに高精度な高分解能拡散プロセスを可能にする簡易な手法構築,(2)単一ステップの高分解能拡散プロセスによって達成される高速な推論速度,および少ない推論パッチ,(3)包括的構造におけるパッチワイド推論と少ないパッチによる安価なGPUコスト,(4)具体的細かな精細化に重点を置いた強靭な生成性能が強調されている。

Transforming large pre-trained low-resolution diffusion models to cater to higher-resolution demands, i.e., diffusion extrapolation, significantly improves diffusion adaptability. We propose tuning-free CutDiffusion, aimed at simplifying and accelerating the diffusion extrapolation process, making it more affordable and improving performance. CutDiffusion abides by the existing patch-wise extrapolation but cuts a standard patch diffusion process into an initial phase focused on comprehensive structure denoising and a subsequent phase dedicated to specific detail refinement. Comprehensive experiments highlight the numerous almighty advantages of CutDiffusion: (1) simple method construction that enables a concise higher-resolution diffusion process without third-party engagement; (2) fast inference speed achieved through a single-step higher-resolution diffusion process, and fewer inference patches required; (3) cheap GPU cost resulting from patch-wise inference and fewer patches during the comprehensive structure denoising; (4) strong generation performance, stemming from the emphasis on specific detail refinement.
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# ディープフェイクで音声を検知する「Breath」(動画あり)

Every Breath You Don't Take: Deepfake Speech Detection Using Breath ( http://arxiv.org/abs/2404.15143v1 )

ライセンス: Link先を確認
Seth Layton, Thiago De Andrade, Daniel Olszewski, Kevin Warren, Carrie Gates, Kevin Butler, Patrick Traynor, (参考訳) ディープフェイク・スピーチは、システムや社会に対する脅威を現実にそして増大させている。 多くの検出器が音声のディープフェイクに対する防御を支援するために作られた。 これらの検出器は無数の手法を実装しているが、多くは音声生成プロセスの低レベルフラグメントに依存している。 我々は、音声の高レベル部分である呼吸が自然音声の重要な要素であり、ディープフェイク音声における不適切な生成は、パフォーマンスの差別化要因である、と仮定する。 これを評価するために、呼吸検知器を作成し、これをオンラインニュース記事音声のカスタムデータセットと比較し、実・深層音声の識別を行う。 さらに、このカスタムデータセットを公開して、将来の作業の比較を容易にする。 我々の単純な呼吸検知器を深呼吸音声識別装置として、ミリ波サンプルに適用することで、33.6時間にわたる正確な分類(テストデータでは1.0 AUPRC、0.0 EER)が可能になる。 我々は、最先端のSSL-wav2vecモデルと比較し、この複雑なディープラーニングモデルが、同じ組込みサンプル(0.72 AUPRCと0.99 EER)の分類に完全に失敗していることを示す。

Deepfake speech represents a real and growing threat to systems and society. Many detectors have been created to aid in defense against speech deepfakes. While these detectors implement myriad methodologies, many rely on low-level fragments of the speech generation process. We hypothesize that breath, a higher-level part of speech, is a key component of natural speech and thus improper generation in deepfake speech is a performant discriminator. To evaluate this, we create a breath detector and leverage this against a custom dataset of online news article audio to discriminate between real/deepfake speech. Additionally, we make this custom dataset publicly available to facilitate comparison for future work. Applying our simple breath detector as a deepfake speech discriminator on in-the-wild samples allows for accurate classification (perfect 1.0 AUPRC and 0.0 EER on test data) across 33.6 hours of audio. We compare our model with the state-of-the-art SSL-wav2vec model and show that this complex deep learning model completely fails to classify the same in-the-wild samples (0.72 AUPRC and 0.99 EER).
翻訳日:2024-04-24 13:32:19 公開日:2024-04-23
# 絡み合いエンジンの有限時間ダイナミクス--電流・揺らぎ・不確実性の関係

Finite-time dynamics of an entanglement engine: current, fluctuations and kinetic uncertainty relations ( http://arxiv.org/abs/2404.15144v1 )

ライセンス: Link先を確認
Jeanne Bourgeois, Gianmichele Blasi, Shishir Khandelwal, Géraldine Haack, (参考訳) エンタングルメントエンジン(Entanglement engine)は、デバイスを流れる粒子電流の存在から絡み合いを生成するように設計された自律型量子熱機械である。 本研究では,定常状態を超えた2ビットエンタングルメントエンジンの機能について検討する。 マスター方程式のアプローチでは、時間依存状態、粒子電流、および関連する電流相関関数を導出する。 本研究は,定常状態における絡み合いの指標となる臨界電流の存在を解明し,コヒーレンスと内部電流の直接的関連性を確立した。 次に, 有限時間における運動的不確実性関係(KUR)について検討する。 我々は、KUR に対して有限時間で複数の可能な定義が存在することを示した。 2つの定義は定常状態に一致するが、KURを有限時間で破るパラメータの範囲が異なる。

Entanglement engines are autonomous quantum thermal machines designed to generate entanglement from the presence of a particle current flowing through the device. In this work, we investigate the functioning of a two-qubit entanglement engine beyond the steady-state regime. Within a master equation approach, we derive the time-dependent state, the particle current, as well as the associated current correlation functions. Our findings establish a direct connection between coherence and internal current, elucidating the existence of a critical current that serves as an indicator for entanglement in the steady state. We then apply our results to investigate kinetic uncertainty relations (KURs) at finite times. We demonstrate that there are more than one possible definitions for KURs at finite times. While the two definitions agree in the steady-state regime, they lead to different parameter's ranges for violating KUR at finite times.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# 逆圧縮レンズによるLDM記憶の再考

Rethinking LLM Memorization through the Lens of Adversarial Compression ( http://arxiv.org/abs/2404.15146v1 )

ライセンス: Link先を確認
Avi Schwarzschild, Zhili Feng, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter, (参考訳) Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。 ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。 答えは、大まかに言えば、$\textit{how} で暗記を定義する。 本研究では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。 言い換えれば、これらの文字列は、より少ないトークンの逆プロンプトを計算することによって、モデルと「圧縮」することができる。 既存の記憶概念の限界を概説し、ACRがこれらの課題をいかに克服するかを示す。 一 暗記の計測、特に未学習及びコンプライアンスの監視に対する敵視を提供すること。 (ii)任意の文字列のメモリ化を適度に低い計算で測定できる柔軟性を実現する。 私たちの定義は、モデル所有者がデータ使用に関する条件に違反している可能性があるかどうかを判断するための価値ある実用的なツールとして機能し、そのようなシナリオに対処する潜在的な法的ツールとクリティカルレンズを提供する。 プロジェクトページ: https://locuslab.github.io/acr-memorization

Large language models (LLMs) trained on web-scale datasets raise substantial concerns regarding permissible data usage. One major question is whether these models "memorize" all their training data or they integrate many data sources in some way more akin to how a human would learn and synthesize information. The answer hinges, to a large degree, on $\textit{how we define memorization}$. In this work, we propose the Adversarial Compression Ratio (ACR) as a metric for assessing memorization in LLMs -- a given string from the training data is considered memorized if it can be elicited by a prompt shorter than the string itself. In other words, these strings can be "compressed" with the model by computing adversarial prompts of fewer tokens. We outline the limitations of existing notions of memorization and show how the ACR overcomes these challenges by (i) offering an adversarial view to measuring memorization, especially for monitoring unlearning and compliance; and (ii) allowing for the flexibility to measure memorization for arbitrary strings at a reasonably low compute. Our definition serves as a valuable and practical tool for determining when model owners may be violating terms around data usage, providing a potential legal tool and a critical lens through which to address such scenarios. Project page: https://locuslab.github.io/acr-memorization.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# LLMの臨床的意思決定支援におけるバイアスパターン:総合的研究

Bias patterns in the application of LLMs for clinical decision support: A comprehensive study ( http://arxiv.org/abs/2404.15149v1 )

ライセンス: Link先を確認
Raphael Poulain, Hamed Fayyaz, Rahmatollah Beheshti, (参考訳) 大きな言語モデル (LLMs) は、臨床意思決定プロセスを伝える強力な候補として登場した。 これらのモデルは、デジタルランドスケープを形成する上で、ますます顕著な役割を担っているが、ヘルスケアアプリケーションには2つの懸念が浮かび上がっている。 1)LLMは、患者の保護された属性(人種など)に基づいて、どの程度の社会的偏見を示すか、そして、 2) 設計選択(アーキテクチャ設計や促進戦略など)は、観察されたバイアスにどのように影響しますか? これらの疑問に厳格に答えるために, 偏見評価に標準化された臨床用ヴィグネット(患者説明)を用いて, 3つの質問回答(QA)データセットにまたがる8つの人気のLCMを評価した。 我々は、人口統計学がLCMのアウトプットに与える影響を分析するために、赤チーム戦略を採用し、汎用モデルと臨床訓練モデルを比較した。 広範囲にわたる実験により、保護されたグループ間での様々な格差(いくつかの重要な)が明らかになりました。 また,医療データに対して必ずしもバイアスが小さくない大規模モデルや,汎用モデルよりも必ずしも良くない微調整モデルなど,いくつかの逆直観的パターンも観察する。 さらに、本研究では、素早い設計がバイアスパターンに与える影響を実証し、特定の表現がバイアスパターンや反射型アプローチ(例えば、Chain of Thought)に影響を及ぼすことを示した。 本研究は先行研究と一致し,臨床診断支援に使用されるLSMのさらなる評価,精査,強化を訴える。

Large Language Models (LLMs) have emerged as powerful candidates to inform clinical decision-making processes. While these models play an increasingly prominent role in shaping the digital landscape, two growing concerns emerge in healthcare applications: 1) to what extent do LLMs exhibit social bias based on patients' protected attributes (like race), and 2) how do design choices (like architecture design and prompting strategies) influence the observed biases? To answer these questions rigorously, we evaluated eight popular LLMs across three question-answering (QA) datasets using clinical vignettes (patient descriptions) standardized for bias evaluations. We employ red-teaming strategies to analyze how demographics affect LLM outputs, comparing both general-purpose and clinically-trained models. Our extensive experiments reveal various disparities (some significant) across protected groups. We also observe several counter-intuitive patterns such as larger models not being necessarily less biased and fined-tuned models on medical data not being necessarily better than the general-purpose models. Furthermore, our study demonstrates the impact of prompt design on bias patterns and shows that specific phrasing can influence bias patterns and reflection-type approaches (like Chain of Thought) can reduce biased outcomes effectively. Consistent with prior studies, we call on additional evaluations, scrutiny, and enhancement of LLMs used in clinical decision support applications.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# マイミック・学生の誤解に対する学習言語モデルの回帰的側面の影響

Regressive Side Effects of Training Language Models to Mimic Student Misconceptions ( http://arxiv.org/abs/2404.15156v1 )

ライセンス: Link先を確認
Shashank Sonkar, Naiming Liu, Richard G. Baraniuk, (参考訳) 本稿では,個人化教育における学生の誤解を模倣する大規模言語モデル(LLM)を訓練する際の回帰的側面について,新たな考察を行う。 LLMは学生の誤解をより正確に模倣するように訓練されているので、モデルの事実的完全性と推論能力に妥協がある、という問題を強調する。 本研究は,学生と教師の対話データセット上でLLMを訓練し,学生の反応を予測することを目的とした。 その結果、ARC推論チャレンジや、モデルが生成した応答の真偽を評価するTrathfulQAなど、複数のベンチマークデータセットでのモデル性能の低下が示された。 さらに、幻覚検出に使用されるHaluEval Dialデータセットと、メモリベースのタスクデータセットであるMemoTrapも、モデル精度の低下を報告している。 これらの副作用に対処するために、私たちは「幻覚トークン」技術を導入しました。 このトークンは、トレーニング中に各学生の反応の先頭に付加され、学生の誤解を模倣することと、事実的に正確な反応を提供することを切り替えるようモデルに指示する。 すべてのデータセットで大幅に改善されているにもかかわらず、この手法はLLMのベースライン性能を完全に回復するものではなく、この分野でさらなる研究の必要性を示している。 本稿では,個人化教育と事実的精度のバランスをとることの必要性を強調し,学生モデリングにおけるLLMの使用に関する議論の継続に寄与する。

This paper presents a novel exploration into the regressive side effects of training Large Language Models (LLMs) to mimic student misconceptions for personalized education. We highlight the problem that as LLMs are trained to more accurately mimic student misconceptions, there is a compromise in the factual integrity and reasoning ability of the models. Our work involved training an LLM on a student-tutor dialogue dataset to predict student responses. The results demonstrated a decrease in the model's performance across multiple benchmark datasets, including the ARC reasoning challenge and TruthfulQA, which evaluates the truthfulness of model's generated responses. Furthermore, the HaluEval Dial dataset, used for hallucination detection, and MemoTrap, a memory-based task dataset, also reported a decline in the model accuracy. To combat these side effects, we introduced a "hallucination token" technique. This token, appended at the beginning of each student response during training, instructs the model to switch between mimicking student misconceptions and providing factually accurate responses. Despite the significant improvement across all datasets, the technique does not completely restore the LLM's baseline performance, indicating the need for further research in this area. This paper contributes to the ongoing discussion on the use of LLMs for student modeling, emphasizing the need for a balance between personalized education and factual accuracy.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# エゴセントリックな動画をテストで見る

Combating Missing Modalities in Egocentric Videos at Test Time ( http://arxiv.org/abs/2404.15161v1 )

ライセンス: Link先を確認
Merey Ramazanova, Alejandro Pardo, Bernard Ghanem, Motasem Alfarra, (参考訳) 様々な感覚入力を組み合わせることで、アクション認識やモーメントローカライゼーションといったタスクが大幅に改善される。 しかし、現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。 現在の手法は、有効ではあるが、欠落したモダリティを扱うために、モデルを完全に再トレーニングする必要がしばしばあり、特に大規模なトレーニングデータセットにおいて、計算的に集中している。 本研究では,再トレーニングを必要とせず,テスト時にこの問題に対処する新しい手法を提案する。 テスト時間適応タスクとして、テスト時に利用可能なラベルのないデータにモデルを調整します。 我々の手法であるMiDl~は、予測と利用可能なモダリティの相互情報の最小化により、試験中に存在する特定のモダリティ源に無関心であることを奨励する。 さらに、両モードが利用可能である場合、モデルの本来の性能を維持するために自己蒸留を組み込む。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。 さまざまな事前トレーニングされたモデルとデータセットによる実験を通じて、MiDlは、再トレーニングを必要とせずに、大幅なパフォーマンス改善を実演する。

Understanding videos that contain multiple modalities is crucial, especially in egocentric videos, where combining various sensory inputs significantly improves tasks like action recognition and moment localization. However, real-world applications often face challenges with incomplete modalities due to privacy concerns, efficiency needs, or hardware issues. Current methods, while effective, often necessitate retraining the model entirely to handle missing modalities, making them computationally intensive, particularly with large training datasets. In this study, we propose a novel approach to address this issue at test time without requiring retraining. We frame the problem as a test-time adaptation task, where the model adjusts to the available unlabeled data at test time. Our method, MiDl~(Mutual information with self-Distillation), encourages the model to be insensitive to the specific modality source present during testing by minimizing the mutual information between the prediction and the available modality. Additionally, we incorporate self-distillation to maintain the model's original performance when both modalities are available. MiDl represents the first self-supervised, online solution for handling missing modalities exclusively at test time. Through experiments with various pretrained models and datasets, MiDl demonstrates substantial performance improvement without the need for retraining.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# ブラインドAIによる画像品質評価のための適応混合スケール特徴融合ネットワーク

Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2404.15163v1 )

ライセンス: Link先を確認
Tianwei Zhou, Songbai Tan, Wei Zhou, Yu Luo, Yuan-Gen Wang, Guanghui Yue, (参考訳) テキスト・ツー・画像生成モデルの成熟化に伴い、AI生成画像(AGI)は、広告、エンターテイメント、教育、ソーシャルメディアなどにおいて大きな応用可能性を示している。 生成モデルにおいて顕著な進歩が達成されているが、関連する品質評価モデルを設計するための努力はほとんど支払われていない。 本稿では,新しい画像品質評価ネットワークであるAMFF-Netを提案する。 AMFF-Netは、AGIの品質を「視覚的品質」、「美容性」、「一貫性」の3次元から評価する。 具体的には、人間の視覚システムの特徴に触発され、「視覚的品質」と「美容性」は局地的側面とグローバルな側面の両方で特徴付けられるという観察に動機付けられ、AMFF-Netは画像を上下に拡大し、スケールした画像とオリジナルサイズの画像を入力として取り込んでマルチスケールの特徴を得る。 その後、アダプティブ・フィーチャー・フュージョン(AFF)ブロックを使用して、学習可能な重み付きマルチスケール特徴を適応的に融合させる。 さらに、画像とプロンプトの相関を考慮すると、AMFF-Netはテキストエンコーダと画像エンコーダのセマンティック特徴を比較し、テキストと画像のアライメントを評価する。 我々は3つのAGI品質評価データベースについて広範な実験を行い、実験の結果、AMFF-Netは9つの最先端の盲点IQA法よりも優れた性能が得られることが示された。 アブレーション実験の結果はさらに,提案したマルチスケール入力戦略とAFFブロックの有効性を実証した。

With the increasing maturity of the text-to-image and image-to-image generative models, AI-generated images (AGIs) have shown great application potential in advertisement, entertainment, education, social media, etc. Although remarkable advancements have been achieved in generative models, very few efforts have been paid to design relevant quality assessment models. In this paper, we propose a novel blind image quality assessment (IQA) network, named AMFF-Net, for AGIs. AMFF-Net evaluates AGI quality from three dimensions, i.e., "visual quality", "authenticity", and "consistency". Specifically, inspired by the characteristics of the human visual system and motivated by the observation that "visual quality" and "authenticity" are characterized by both local and global aspects, AMFF-Net scales the image up and down and takes the scaled images and original-sized image as the inputs to obtain multi-scale features. After that, an Adaptive Feature Fusion (AFF) block is used to adaptively fuse the multi-scale features with learnable weights. In addition, considering the correlation between the image and prompt, AMFF-Net compares the semantic features from text encoder and image encoder to evaluate the text-to-image alignment. We carry out extensive experiments on three AGI quality assessment databases, and the experimental results show that our AMFF-Net obtains better performance than nine state-of-the-art blind IQA methods. The results of ablation experiments further demonstrate the effectiveness of the proposed multi-scale input strategy and AFF block.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# 帯域最小化問題の変数による量子系エミュレーションの最適化

Optimization of Quantum Systems Emulation via a Variant of the Bandwidth Minimization Problem ( http://arxiv.org/abs/2404.15165v1 )

ライセンス: Link先を確認
M. Yassine Naghmouchi, Joseph Vovrosh, Wesley da Silva Coelho, Alexandre Dauphin, (参考訳) 本稿では、帯域最小化問題(BMP)の変種である重み付きBMPを紹介し、量子エミュレーションの最適化に重要な応用について述べる。 重み付きBMPは、強い相互作用を可能な限り対角線に近づける粒子相互作用行列を設計することで、エミュレーションコストを削減するために粒子秩序を最適化する。 我々は、MILP(Mixed Integer Linear Program)を用いて問題を定式化し、最先端の解法を用いて最適に解く。 MILPモデルを強化するために,対称性を破る不等式を導入し,下界を確立する。 数値解析により,これらの拡張が解法の性能に与える影響について検討する。 導入された強化により、CPU時間は平均25.61パーセント削減された。 さらに、現実的なインスタンスの量子エミュレーションを行う。 我々の数値実験によると、重み付きBMP手法は、量子エミュレーションにおけるサイトの順序付けタスクに使用される効率的なヒューリスティックであるReverse Cuthill-McKee(RCM)アルゴリズムよりも優れており、平均記憶容量は24.48パーセント減少している。 応用の観点からは、量子エミュレーション前処理におけるサイトオーダの相互作用を考慮し、コスト削減において重要な役割を担っている、厳密な最適化手法である重み付きBMPを初めて適用した。 アルゴリズムの観点からは、重要な強化を導入し、特にMILPの弱い線形緩和強化に関する今後の研究の基盤となる。

This paper introduces weighted-BMP, a variant of the Bandwidth Minimization Problem (BMP), with a significant application in optimizing quantum emulation. Weighted-BMP optimizes particles ordering to reduce the emulation costs, by designing a particle interaction matrix where strong interactions are placed as close as possible to the diagonal. We formulate the problem using a Mixed Integer Linear Program (MILP) and solve it to optimality with a state of the art solver. To strengthen our MILP model, we introduce symmetry-breaking inequalities and establish a lower bound. Through extensive numerical analysis, we examine the impacts of these enhancements on the solver's performance. The introduced reinforcements result in an average CPU time reduction of 25.61 percent. Additionally, we conduct quantum emulations of realistic instances. Our numerical tests show that the weighted-BMP approach outperforms the Reverse Cuthill-McKee (RCM) algorithm, an efficient heuristic used for site ordering tasks in quantum emulation, achieving an average memory storage reduction of 24.48 percent. From an application standpoint, this study is the first to apply an exact optimization method, weighted-BMP, that considers interactions for site ordering in quantum emulation pre-processing, and shows its crucial role in cost reduction. From an algorithmic perspective, it contributes by introducing important reinforcements and lays the groundwork for future research on further enhancements, particularly on strengthening the weak linear relaxation of the MILP.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# マルチスペクトル・ハイパースペクトル画像融合のためのフーリエ強化インシシシトニューラルフュージョンネットワーク

Fourier-enhanced Implicit Neural Fusion Network for Multispectral and Hyperspectral Image Fusion ( http://arxiv.org/abs/2404.15174v1 )

ライセンス: Link先を確認
Yu-Jie Liang, Zihan Cao, Liang-Jian Deng, Xiao Wu, (参考訳) 近年、暗黙的神経表現(INR)は様々な視覚関連領域において大きな進歩を遂げており、MHIF(Multispectral and Hyperspectral Image Fusion)タスクのための新しいソリューションを提供している。 しかし、INRは高周波情報を失う傾向にあり、世界的な知覚能力の欠如に限られている。 これらの問題に対処するために, HR-HSI潜時符号とLR-HSIのフーリエ振幅は相似であるが, 相は異なるパターンを示す。 FeINFNでは、空間的および周波数的暗黙的融合関数(Spa-Fre IFF)を革新的に提案し、INRが高周波情報を捕捉し、受容場を拡大するのに役立つ。 さらに、複雑なGaborウェーブレット活性化機能(Spatial-Frequency Interactive Decoder (SFID))を用いた新しいデコーダを発明し、INR特徴の相互作用を強化する。 特に、ガボルウェーブレットの活性化は、デコーダにおける最適な帯域幅の学習を好む時間周波数のタイトネス特性を有することを理論的に証明する。 2つのベンチマークMHIFデータセットの実験は、提案手法の最先端(SOTA)性能を視覚的かつ定量的に検証する。 また、アブレーション研究は上記の貢献を実証している。 コードはAnonymous GitHub (https://anonymous.4open.science/r/FeINFN-15C9/)で利用可能になる。

Recently, implicit neural representations (INR) have made significant strides in various vision-related domains, providing a novel solution for Multispectral and Hyperspectral Image Fusion (MHIF) tasks. However, INR is prone to losing high-frequency information and is confined to the lack of global perceptual capabilities. To address these issues, this paper introduces a Fourier-enhanced Implicit Neural Fusion Network (FeINFN) specifically designed for MHIF task, targeting the following phenomena: The Fourier amplitudes of the HR-HSI latent code and LR-HSI are remarkably similar; however, their phases exhibit different patterns. In FeINFN, we innovatively propose a spatial and frequency implicit fusion function (Spa-Fre IFF), helping INR capture high-frequency information and expanding the receptive field. Besides, a new decoder employing a complex Gabor wavelet activation function, called Spatial-Frequency Interactive Decoder (SFID), is invented to enhance the interaction of INR features. Especially, we further theoretically prove that the Gabor wavelet activation possesses a time-frequency tightness property that favors learning the optimal bandwidths in the decoder. Experiments on two benchmark MHIF datasets verify the state-of-the-art (SOTA) performance of the proposed method, both visually and quantitatively. Also, ablation studies demonstrate the mentioned contributions. The code will be available on Anonymous GitHub (https://anonymous.4open.science/r/FeINFN-15C9/) after possible acceptance.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# 音声受動 : トランスジェンダー音声遷移評価のための非バイナリ音声性予測システム

Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition ( http://arxiv.org/abs/2404.15176v1 )

ライセンス: Link先を確認
David Doukhan, Simon Devauchelle, Lucile Girard-Monneron, Mía Chávez Ruz, V. Chaddouk, Isabelle Wagner, Albert Rilliard, (参考訳) 本稿では,VFP(Continuous Voice Femininity Percentage)を用いて音声を記述可能なソフトウェアを提案する。 このシステムは、トランスジェンダー話者の音声移行と、これらをサポートする音声セラピストを対象としている。 41のフランス語 cis- and transgender 話者のコーパスが記録されている。 知覚的評価により、57人の参加者が各声のVFPを推定することができた。 二元性分類モデルは、外的性別バランスデータに基づいて訓練され、重なり合うウィンドウ上で平均性予測値を得るために用いられ、VFPを推定するために校正され、F_0$または声帯長に基づくモデルよりも高い精度を得た。 トレーニングデータとDNNアーキテクチャは,VFP推定に影響を及ぼすことが示された。 モデルの精度は話者の年齢に影響された。 これは、文化的概念の適切な統計的表現を構築するために、スタイル、年齢、男女の概念の重要性を強調している。

This paper presents a software allowing to describe voices using a continuous Voice Femininity Percentage (VFP). This system is intended for transgender speakers during their voice transition and for voice therapists supporting them in this process. A corpus of 41 French cis- and transgender speakers was recorded. A perceptual evaluation allowed 57 participants to estimate the VFP for each voice. Binary gender classification models were trained on external gender-balanced data and used on overlapping windows to obtain average gender prediction estimates, which were calibrated to predict VFP and obtained higher accuracy than $F_0$ or vocal track length-based models. Training data speaking style and DNN architecture were shown to impact VFP estimation. Accuracy of the models was affected by speakers' age. This highlights the importance of style, age, and the conception of gender as binary or not, to build adequate statistical representations of cultural concepts.
翻訳日:2024-04-24 13:22:34 公開日:2024-04-23
# 米国の大学158校における199 CS BS/BAデグリーの数学要件の分析

An Analysis of the Math Requirements of 199 CS BS/BA Degrees at 158 U.S. Universities ( http://arxiv.org/abs/2404.15177v1 )

ライセンス: Link先を確認
Carla E. Brodley, McKenna Quam, Mark A. Weiss, (参考訳) 少なくとも40年間、コンピュータサイエンスのカリキュラムにおける数学の役割について議論や意見の相違があった。 本稿では,米国158大学における199のコンピュータサイエンスBS/BA学位の数学要件の分析結果を紹介する。 我々の分析では、離散数学はCSの学位には不可欠であるという意見が一致しており、さらにCSのBSには計算がほぼ常に必要とされているが、学生がこれらの科目をいつマスターすべきであったかについてのコンセンサスはほとんどない。 CS における BS と BA のアクセス・保持・オンタイム次数補完に数学的要件がどう影響するかを分析した結果,CS 部門が考慮すべきいくつかの推奨事項について述べる。

For at least 40 years, there has been debate and disagreement as to the role of mathematics in the computer science curriculum. This paper presents the results of an analysis of the math requirements of 199 Computer Science BS/BA degrees from 158 U.S. universities, looking not only at which math courses are required, but how they are used as prerequisites (and corequisites) for computer science (CS) courses. Our analysis shows that while there is consensus that discrete math is critical for a CS degree, and further that calculus is almost always required for the BS in CS, there is little consensus as to when a student should have mastered these subjects. Based on our analysis of how math requirements impact access, retention and on-time degree completion for the BS and the BA in CS, we provide several recommendations for CS departments to consider.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# イマジナリー座標の探索:偶数次元とオッド次元における量子状態空間の形状の差異

Exploring Imaginary Coordinates: Disparity in the Shape of Quantum State Space in Even and Odd Dimensions ( http://arxiv.org/abs/2404.15179v1 )

ライセンス: Link先を確認
Simon Morelli, Santiago Llorens, Jens Siewert, (参考訳) 有限次元量子系の状態は、実対角線、実対角線、実対角線、虚対角線に分解できる密度行列によって記述される。 後者は独特な役割を演じている。 直感的には、虚数座標の一部が実数と同一の拡張を持たないことは明らかであるが、正確な関係は明らかではない。 実および虚数のブロッホ型座標に対する厳密な不等式の観点から、制約の完全な特徴づけを与える。 この記述は状態空間に対する3次元ブロッホ球型モデルを含む。 偶数次元および奇数次元における状態空間境界に対する驚くべき定性的差を明らかにする。

The state of a finite-dimensional quantum system is described by a density matrix that can be decomposed into a real diagonal, a real off-diagonal and and an imaginary off-diagonal part. The latter plays a peculiar role. While it is intuitively clear that some of the imaginary coordinates cannot have the same extension as their real counterparts the precise relation is not obvious. We give a complete characterization of the constraints in terms of tight inequalities for real and imaginary Bloch-type coordinates. Our description entails a three-dimensional Bloch ball-type model for the state space. We uncover a surprising qualitative difference for the state-space boundaries in even and odd dimensions.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# 反ウンルー効果は量子絡み合いとコヒーレンスを支援するか?

Does anti-Unruh effect assist quantum entanglement and coherence? ( http://arxiv.org/abs/2404.15180v1 )

ライセンス: Link先を確認
Shu-Min Wu, Xiao-Wei Teng, Jin-Xuan Li, Hao-Sheng Zeng, Tonghua Liu, (参考訳) 本稿では,量子エンタングルメントとコヒーレンスの概念を用いて,Unruh-DeWitt検出器のモデルに基づくUnruh効果と反Unruh効果を解析する。 われわれは初めてそれを知った。 (i)ウンルー効果は量子絡みを減少させるが、量子コヒーレンスを高める。 (II)反ウンルー効果は量子エンタングルメントを高めるが、量子コヒーレンスを減少させる。 この驚くべき結果は、ウンルー効果は同時に量子の絡み合いとコヒーレンスを破壊できるだけであり、反ウンルー効果は量子資源のみを保護することができるという考えを否定する。 その結果、ウンルー効果と反アンルー効果の存在を支持する実験的な証拠を発見するための新たな情報源が開かれた。

In this paper, we use the concepts of quantum entanglement and coherence to analyze the Unruh and anti-Unruh effects based on the model of Unruh-DeWitt detector. For the first time, we find that (i) the Unruh effect reduces quantum entanglement but enhances quantum coherence; (ii) the anti-Unruh effect enhances quantum entanglement but reduces quantum coherence. This surprising result refutes the notion that the Unruh effect can only destroy quantum entanglement and coherence simultaneously, and that the anti-Unruh can only protect quantum resources. Consequently, it opens up a new source for discovering experimental evidence supporting the existence of the Unruh and anti-Unruh effects.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# 英語からウクライナ語への機械翻訳を改良したデータプリンタのセットアップ

Setting up the Data Printer with Improved English to Ukrainian Machine Translation ( http://arxiv.org/abs/2404.15196v1 )

ライセンス: Link先を確認
Yurii Paniv, Dmytro Chaplynskyi, Nikita Trynus, Volodymyr Kyrylov, (参考訳) ウクライナ語のための大規模な言語モデルを構築するには、自然言語で表現された大量の新しいアルゴリズムタスクでコーパスを拡張する必要がある。 英語で表現されたタスクパフォーマンスの例は豊富であるため、高品質な翻訳システムでは、コミュニティがデータセットを高速にキュレートすることが可能になります。 この目的を達成するために、ウクライナ語と英語の3M対のノイズの多い並列データセットを用いた大規模事前学習言語モデルの教師付き微調整を用いた翻訳システムの構築法を紹介し、それに続いて、k-fold perplexity filtering(k-fold perplexity filtering)によって選択された17K例を高品質のデータセット上で選択した第2フェーズのトレーニングを行う。 我々のデコーダのみのモデルであるDragomanは、FLORESのデペレーティングセットにおける従来の最先端のエンコーダ-デコーダモデルのパフォーマンスを上回りました。

To build large language models for Ukrainian we need to expand our corpora with large amounts of new algorithmic tasks expressed in natural language. Examples of task performance expressed in English are abundant, so with a high-quality translation system our community will be enabled to curate datasets faster. To aid this goal, we introduce a recipe to build a translation system using supervised finetuning of a large pretrained language model with a noisy parallel dataset of 3M pairs of Ukrainian and English sentences followed by a second phase of training using 17K examples selected by k-fold perplexity filtering on another dataset of higher quality. Our decoder-only model named Dragoman beats performance of previous state of the art encoder-decoder models on the FLORES devtest set.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# インストラクションチューニングはLLMをより一貫性のあるものにするか?

Does Instruction Tuning Make LLMs More Consistent? ( http://arxiv.org/abs/2404.15206v1 )

ライセンス: Link先を確認
Constanza Fierro, Jiaang Li, Anders Søgaard, (参考訳) 命令チューニングの目的は、ゼロショットのパフォーマンスを実現することであるが、命令チューニングはまた、チェーン・オブ・ソート推論と値アライメントを改善することが示されている(Si et al , 2023)。 ここでは、$\textit{consistency}$、すなわち入力の小さな摂動に対する言語モデルの感度への影響について考察する。 10個の命令調整されたLLaMAモデルと元のLLaMA-7bモデルを比較し、その表現とゼロショットタスクとダウンストリームタスクの予測の両方において、ほぼ一貫したものになることを示す。 本稿では,これらの改善について,実リコールの力学解析を通して説明する。

The purpose of instruction tuning is enabling zero-shot performance, but instruction tuning has also been shown to improve chain-of-thought reasoning and value alignment (Si et al., 2023). Here we consider the impact on $\textit{consistency}$, i.e., the sensitivity of language models to small perturbations in the input. We compare 10 instruction-tuned LLaMA models to the original LLaMA-7b model and show that almost across-the-board they become more consistent, both in terms of their representations and their predictions in zero-shot and downstream tasks. We explain these improvements through mechanistic analyses of factual recall.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# CHCのためのボトムアップ: 線形制約されたホーンクロースの新しいソフトウェア検証への変換

Bottoms Up for CHCs: Novel Transformation of Linear Constrained Horn Clauses to Software Verification ( http://arxiv.org/abs/2404.15215v1 )

ライセンス: Link先を確認
Márk Somorjai, Mihály Dobos-Kovács, Zsófia Ádám, Levente Bajczi, András Vörös, (参考訳) 制約付きホーンクロース(CHC)は、従来、形式的検証において低レベルな表現として用いられてきた。 既存の問題解決者は、直接状態空間トラバーサルや非近似抽象、目的に構築された複雑なアルゴリズムを必要とするなど、様々な特殊技術を使っている。 他の解決者は、既存のアルゴリズムの強みを利用して、問題を他の検証タスクの入力に翻訳することで、検証ワークフローをシンプルにしました。 このようなアプローチの1つは、CHC問題を、推論タスクのトップダウン解決器を大まかにエミュレートした再帰プログラムに変換し、制御位置として指定された安全違反の到達可能性を検証する。 本稿では,線形CHCに対する新たなボトムアップ手法を提案し,オープンソースモデルチェックフレームワーク THETA における2つの選択肢を,合成例と工業例の両方で評価する。 トップダウン手法とは対照的に,新たなボトムアップ手法が検証ワークフローで使用される場合,解決タスク数が2倍以上に増加することが判明した。

Constrained Horn Clauses (CHCs) have conventionally been used as a low-level representation in formal verification. Most existing solvers use a diverse set of specialized techniques, including direct state space traversal or under-approximating abstraction, necessitating purpose-built complex algorithms. Other solvers successfully simplified the verification workflow by translating the problem to inputs for other verification tasks, leveraging the strengths of existing algorithms. One such approach transforms the CHC problem into a recursive program roughly emulating a top-down solver for the deduction task; and verifying the reachability of a safety violation specified as a control location. We propose an alternative bottom-up approach for linear CHCs, and evaluate the two options in the open-source model checking framework THETA on both synthetic and industrial examples. We find that there is a more than twofold increase in the number of solved tasks when the novel bottom-up approach is used in the verification workflow, in contrast with the top-down technique.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# 雑音チャネルのパワー:LLMを用いた教師なしエンドツーエンドタスク指向対話

The Power of the Noisy Channel: Unsupervised End-to-End Task-Oriented Dialogue with LLMs ( http://arxiv.org/abs/2404.15219v1 )

ライセンス: Link先を確認
Brendan King, Jeffrey Flanigan, (参考訳) タスク指向の対話システムのトレーニングには、通常、各ステップで取られた対話状態やシステムアクションなど、APIと対話するためのターンレベルのアノテーションが必要です。 これらのアノテーションは、作成、エラーを起こし、ドメインとアノテーションの両方の専門知識を必要とする。 LLMの進歩に伴い、未学習データとスキーマ定義は、完全に教師なしの作業タスク指向対話システムを構築するのに十分である、という仮説を立てる。 1) 適切に定義されたAPIスキーマ (2) ユーザとエージェント間の非競合的な対話の集合を用いて,ノイズチャネルモデルを用いてターンレベルのアノテーションを潜在変数として推論する新しいアプローチを開発する。 予測最大化(EM)を用いてこれらの擬似ラベルを反復的に改善し、推定ラベルを用いてエンドツーエンドの対話エージェントを訓練する。 提案手法は,MultiWOZベンチマークに対するアプローチを評価することで,強力なGPT-3.5ベースラインの対話成功率を2倍以上に向上させる。

Training task-oriented dialogue systems typically requires turn-level annotations for interacting with their APIs: e.g. a dialogue state and the system actions taken at each step. These annotations can be costly to produce, error-prone, and require both domain and annotation expertise. With advances in LLMs, we hypothesize unlabelled data and a schema definition are sufficient for building a working task-oriented dialogue system, completely unsupervised. Using only (1) a well-defined API schema (2) a set of unlabelled dialogues between a user and agent, we develop a novel approach for inferring turn-level annotations as latent variables using a noisy channel model. We iteratively improve these pseudo-labels with expectation-maximization (EM), and use the inferred labels to train an end-to-end dialogue agent. Evaluating our approach on the MultiWOZ benchmark, our method more than doubles the dialogue success rate of a strong GPT-3.5 baseline.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# マルチビュー3次元物体認識のためのディープモデル : レビュー

Deep Models for Multi-View 3D Object Recognition: A Review ( http://arxiv.org/abs/2404.15224v1 )

ライセンス: Link先を確認
Mona Alzahrani, Muhammad Usman, Salma Kammoun, Saeed Anwar, Tarek Helmy, (参考訳) 人間の意思決定は、しばしば複数の視点や視点からの視覚情報に依存する。 対照的に、機械学習に基づく物体認識は、物体の1つの画像からの情報を利用する。 しかし、単一の画像によって伝達される情報は、特に複雑な認識問題において、正確な意思決定には不十分である。 オブジェクト認識における多視点3D表現の利用は,最先端の性能を実現する上で最も有望な結果である。 本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。 具体的には,Deep Learning-basedおよびTransformer-based技術に焦点をあてる。 本稿では,3次元データセット,カメラ構成,ビュー数,ビュー選択戦略,事前学習されたCNNアーキテクチャ,融合戦略,3次元分類および3次元検索タスクにおける認識性能など,既存のディープラーニングベースおよびトランスフォーマーベースの多視点オブジェクト認識モデルの詳細情報を提供する。 さらに,マルチビュー分類を用いた様々なコンピュータビジョンアプリケーションについて検討する。 最後に,多視点3Dオブジェクト認識手法の開発における重要な発見と今後の方向性に注目し,その分野の総合的な理解を読者に提供する。

Human decision-making often relies on visual information from multiple perspectives or views. In contrast, machine learning-based object recognition utilizes information from a single image of the object. However, the information conveyed by a single image may not be sufficient for accurate decision-making, particularly in complex recognition problems. The utilization of multi-view 3D representations for object recognition has thus far demonstrated the most promising results for achieving state-of-the-art performance. This review paper comprehensively covers recent progress in multi-view 3D object recognition methods for 3D classification and retrieval tasks. Specifically, we focus on deep learning-based and transformer-based techniques, as they are widely utilized and have achieved state-of-the-art performance. We provide detailed information about existing deep learning-based and transformer-based multi-view 3D object recognition models, including the most commonly used 3D datasets, camera configurations and number of views, view selection strategies, pre-trained CNN architectures, fusion strategies, and recognition performance on 3D classification and 3D retrieval tasks. Additionally, we examine various computer vision applications that use multi-view classification. Finally, we highlight key findings and future directions for developing multi-view 3D object recognition methods to provide readers with a comprehensive understanding of the field.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# PHLP: リンク予測のためのソレ永続ホモロジー -- 解釈可能な特徴抽出

PHLP: Sole Persistent Homology for Link Prediction -- Interpretable Feature Extraction ( http://arxiv.org/abs/2404.15225v1 )

ライセンス: Link先を確認
Junwon You, Eunwoo Heo, Jae-Hun Jung, (参考訳) ノード間の接続を推定するリンク予測(LP)は、ノード間の関係に関する重要な情報を表すリンクであるグラフデータにおいて重要な研究領域である。 グラフニューラルネットワーク(GNN)ベースのモデルはLPでは高いパフォーマンスを実現しているが、多くの場合は複雑なニューラルネットワークで構成されているため、うまく機能する理由を理解することは難しい。 我々は,グラフのトポロジ的情報解析を支援するトポロジ的データ解析手法である永続的ホモロジー(PH)を用いて,ハイパフォーマンスの原因を説明する。 対象リンクの有無が全体トポロジにどのように影響するかに着目し,PHLP(PHLP)を用いた新しい手法を提案する。 PHLPは、角度ホップサブグラフとDRNL(Dregree DRNL)と呼ばれる新しいノードラベリングを利用して、DRNLよりもグラフの情報を識別する。 PHLPは分類器のみを使用して、ほとんどのベンチマークデータセットの最先端(SOTA)モデルと同様に動作する。 PHLPを用いて計算した出力を既存のGNNベースのSOTAモデルに組み込むことで、すべてのベンチマークデータセットのパフォーマンスが向上する。 我々の知る限り、PHLP は GNN を使わずに PH を LP に適用する最初の方法である。 提案手法は、ニューラルネットワークを頼らずにPHを用いることで、性能向上のための重要な要因を特定することができる。

Link prediction (LP), inferring the connectivity between nodes, is a significant research area in graph data, where a link represents essential information on relationships between nodes. Although graph neural network (GNN)-based models have achieved high performance in LP, understanding why they perform well is challenging because most comprise complex neural networks. We employ persistent homology (PH), a topological data analysis method that helps analyze the topological information of graphs, to explain the reasons for the high performance. We propose a novel method that employs PH for LP (PHLP) focusing on how the presence or absence of target links influences the overall topology. The PHLP utilizes the angle hop subgraph and new node labeling called degree double radius node labeling (Degree DRNL), distinguishing the information of graphs better than DRNL. Using only a classifier, PHLP performs similarly to state-of-the-art (SOTA) models on most benchmark datasets. Incorporating the outputs calculated using PHLP into the existing GNN-based SOTA models improves performance across all benchmark datasets. To the best of our knowledge, PHLP is the first method of applying PH to LP without GNNs. The proposed approach, employing PH while not relying on neural networks, enables the identification of crucial factors for improving performance.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# 大規模言語モデルを用いた逆グラフの再合成

Re-Thinking Inverse Graphics With Large Language Models ( http://arxiv.org/abs/2404.15228v1 )

ライセンス: Link先を確認
Peter Kulits, Haiwen Feng, Weiyang Liu, Victoria Abrevaya, Michael J. Black, (参考訳) 逆グラフィックス - イメージを物理変数に変換するタスクで、レンダリングされると観察されたシーンの再生を可能にする - は、コンピュータビジョンとグラフィックスの基本的な課題である。 画像をその構成要素(形状、色、およびそれを作った3Dシーンの物体の材料特性など)に切り離すには、環境を包括的に理解する必要がある。 この要件は、ドメインをまたいで一般化する既存の慎重に設計されたアプローチの能力を制限する。 大規模言語モデル(LLM)が新しい文脈に一般化するゼロショット能力に着想を得て,そのようなモデルに符号化された広い世界的知識を,逆グラフ問題の解法として活用する可能性を検討する。 そこで本研究では,LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。 我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。 本研究は,画像空間の監督を使わずに,次から次へと予測することで,逆グラフィックスを促進するLLMの可能性を実証するものである。 本研究では,LLMの視覚的知識を活かした画像について,空間的推論の精度を高める新たな可能性を明らかにする。 調査の再現性を確保し、https://ig-llm.is.tue.mpg.de/で将来の研究を促進するために、コードとデータを公開します。

Inverse graphics -- the task of inverting an image into physical variables that, when rendered, enable reproduction of the observed scene -- is a fundamental challenge in computer vision and graphics. Disentangling an image into its constituent elements, such as the shape, color, and material properties of the objects of the 3D scene that produced it, requires a comprehensive understanding of the environment. This requirement limits the ability of existing carefully engineered approaches to generalize across domains. Inspired by the zero-shot ability of large language models (LLMs) to generalize to novel contexts, we investigate the possibility of leveraging the broad world knowledge encoded in such models in solving inverse-graphics problems. To this end, we propose the Inverse-Graphics Large Language Model (IG-LLM), an inverse-graphics framework centered around an LLM, that autoregressively decodes a visual embedding into a structured, compositional 3D-scene representation. We incorporate a frozen pre-trained visual encoder and a continuous numeric head to enable end-to-end training. Through our investigation, we demonstrate the potential of LLMs to facilitate inverse graphics through next-token prediction, without the use of image-space supervision. Our analysis opens up new possibilities for precise spatial reasoning about images that exploit the visual knowledge of LLMs. We will release our code and data to ensure the reproducibility of our investigation and to facilitate future research at https://ig-llm.is.tue.mpg.de/
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# 顔認識における合成・実データ評価のための大量の注釈付きデータセット

Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition ( http://arxiv.org/abs/2404.15234v1 )

ライセンス: Link先を確認
Pedro C. Neto, Rafael M. Mamede, Carolina Albuquerque, Tiago Gonçalves, Ana F. Sequeira, (参考訳) 顔認識アプリケーションは、データセットのサイズ、ディープラーニングモデルの複雑さ、計算能力と並行して成長している。 しかし、ディープラーニングモデルはより有能になるように進化し、計算能力は増加し続けていますが、利用可能なデータセットは取り外され、パブリックアクセスから取り除かれています。 プライバシと倫理的懸念は、これらの領域内の関連するトピックである。 ジェネレーティブな人工知能を通じて、研究者たちは顔認識システムのトレーニングに使用できる、完全に合成されたデータセットの開発に力を注いでいる。 しかし、最近の進歩は、実際のデータでトレーニングされた最先端モデルに匹敵するパフォーマンスを達成するには不十分である。 実データセットと合成データセットでトレーニングされたモデルのパフォーマンスのドリフトを調べるために,大容量属性分類器(MAC)を用いて4つのデータセットのアノテーションを生成する。 これらのアノテーションから,各属性の分布を4つのデータセットに分けて検討する。 さらに,属性集合上の実データと合成データセットの違いについても検討する。 Kullback-Leibler の発散を比較したところ、実際のサンプルと合成サンプルの違いが判明した。 興味深いことに、我々は実際のサンプルが合成分布を説明するのに十分であるにもかかわらず、その逆はもはや真実ではないことを検証した。

Face recognition applications have grown in parallel with the size of datasets, complexity of deep learning models and computational power. However, while deep learning models evolve to become more capable and computational power keeps increasing, the datasets available are being retracted and removed from public access. Privacy and ethical concerns are relevant topics within these domains. Through generative artificial intelligence, researchers have put efforts into the development of completely synthetic datasets that can be used to train face recognition systems. Nonetheless, the recent advances have not been sufficient to achieve performance comparable to the state-of-the-art models trained on real data. To study the drift between the performance of models trained on real and synthetic datasets, we leverage a massive attribute classifier (MAC) to create annotations for four datasets: two real and two synthetic. From these annotations, we conduct studies on the distribution of each attribute within all four datasets. Additionally, we further inspect the differences between real and synthetic datasets on the attribute set. When comparing through the Kullback-Leibler divergence we have found differences between real and synthetic samples. Interestingly enough, we have verified that while real samples suffice to explain the synthetic distribution, the opposite could not be further from being true.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# 大規模言語モデルにおける自動プログラム修復のための不自然さの再考

Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models ( http://arxiv.org/abs/2404.15236v1 )

ライセンス: Link先を確認
Aidan Z. H. Yang, Sophia Kolak, Vincent J. Hellendoorn, Ruben Martins, Claire Le Goues, (参考訳) 言語モデルは、Transformer-based Large Language Models (LLMs) の出現により、桁違いに改善されている。 LLMは、プロの開発者が書いたコードと非常によく似た自然なコードを生成する能力を示した。 LLMが出力できる1つの中間値はエントロピーであり、コードのトークンの自然性を測定する。 エントロピーは自動プログラム修復(APR)タスクの性能向上に利用できると仮定する。 自動プログラム修復(APR)において、多くの進歩があったが、欠陥ローカライゼーション技術はランキングスコアの多様性の欠如に悩まされ、パッチ生成ツールは、パッチが正しいかどうかを判断する前に全てのテストを実行する必要があるため、非効率になりがちである。 しかし、ALMを直接APRに使用すると、データ漏洩のトレーニングに関する懸念が生じる。 本研究では,従来のAPRツールと組み合わせてLLMのエントロピーを利用する新しい手法を導入し,APRのすべての段階を改善する。 エントロピーは, 先行故障の局所化ツールと非常に相補的であることを示す。 提案手法は,SBFLよりも50%Top-5スコアが向上する。 本研究では,テンプレートベースの補修技術の効率向上を目的としたパッチ自然度測定(エントロピーデルタ)を提案する。 パッチのランク付けと分類にエントロピーデルタを用いる場合、提案手法は最先端の機械学習ツールよりも効果的に正パッチをランク付けでき、Top-1は49%改善されている。 本研究は,LLMが従来のAPRタスクの補完に有効な追加であり,テストスイートオーバーフィット問題とLLMデータ漏洩問題の両方を最小化できることを示唆している。

Language models have improved by orders of magnitude with the recent emergence of Transformer-based Large Language Models (LLMs). LLMs have demonstrated their ability to generate natural code that is highly similar to code written by professional developers. One intermediate value an LLM can emit is entropy, which measures the naturalness of a token of code. We hypothesize that entropy can be used to improve the performance of Automated Program Repair (APR) tasks. While much progress has been made in Automated Program Repair (APR), fault localization techniques suffer from a lack of diversity in ranking scores, patch generation tools tend to be inefficient as all tests need to run before determining if a patch is likely to be correct, and patch ranking often suffers from the test-suite over-fitting problem. However, using an LLM directly for APR introduces concerns for training data leakage. In this work, we introduce a novel way of using the entropy of LLMs in combination with prior APR tools to improve all stages of APR. We show that entropy is highly complementary with prior fault localization tools. Our proposed re-ranking method achieves a 50% Top-5 score improvement over SBFL. We propose a patch-naturalness measurement, entropy-delta, to improve the efficiency of template-based repair techniques by ranking plausible patches before undergoing testing. When using entropy-delta for patch ranking and classification, our proposed method can rank correct patches more effectively than state-of-the-art machine learning tools with an 49% improvement in Top-1. Our work suggests that LLMs can be an effective addition to compliment prior APR tasks while minimizing both the test-suite overfitting problem and the LLM data leakage problem.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# CultureBank: 文化的に認識可能な言語技術を目指す,オンラインコミュニティ駆動の知識ベース

CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies ( http://arxiv.org/abs/2404.15238v1 )

ライセンス: Link先を確認
Weiyan Shi, Ryan Li, Yutong Zhang, Caleb Ziems, Chunhua yu, Raya Horesh, Rogério Abreu de Paula, Diyi Yang, (参考訳) 言語モデルの文化的意識を高めるため,我々は,異なるオンラインコミュニティの文化的知識基盤を大規模に構築するための一般化可能なパイプラインを設計する。 このパイプラインでは、TikTokから12Kの文化記述子とRedditから1Kの文化記述子を使って、ユーザの自己物語に基づいて構築された知識ベースであるCultureBankを構築します。 従来の文化知識資源とは異なり、カルチャーバンクは文化的知識の柔軟な解釈を可能にする文化記述子についての多様な見解と、文脈化された文化的シナリオが評価の基礎となる。 CultureBankでは、異なるLLMの文化的意識を評価し、改善すべき領域を特定します。 実験では、ゼロショット設定で、下流の2つの文化的タスクのパフォーマンスが向上していることが示されています。 最後に,今後の文化に配慮した言語技術に対する知見に基づくレコメンデーションを提案する。 プロジェクトページはhttps://culturebank.github.io である。 コードとモデルはhttps://github.com/SALT-NLP/CultureBankにある。 CultureBankのデータセットはhttps://huggingface.co/datasets/SALT-NLP/CultureBankにある。

To enhance language models' cultural awareness, we design a generalizable pipeline to construct cultural knowledge bases from different online communities on a massive scale. With the pipeline, we construct CultureBank, a knowledge base built upon users' self-narratives with 12K cultural descriptors sourced from TikTok and 11K from Reddit. Unlike previous cultural knowledge resources, CultureBank contains diverse views on cultural descriptors to allow flexible interpretation of cultural knowledge, and contextualized cultural scenarios to help grounded evaluation. With CultureBank, we evaluate different LLMs' cultural awareness, and identify areas for improvement. We also fine-tune a language model on CultureBank: experiments show that it achieves better performances on two downstream cultural tasks in a zero-shot setting. Finally, we offer recommendations based on our findings for future culturally aware language technologies. The project page is https://culturebank.github.io . The code and model is at https://github.com/SALT-NLP/CultureBank . The released CultureBank dataset is at https://huggingface.co/datasets/SALT-NLP/CultureBank .
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# Mask2Formerスタイルモデルの効率的なトランスフォーマーエンコーダ

Efficient Transformer Encoders for Mask2Former-style models ( http://arxiv.org/abs/2404.15244v1 )

ライセンス: Link先を確認
Manyi Yao, Abhishek Aich, Yumin Suh, Amit Roy-Chowdhury, Christian Shelton, Manmohan Chandraker, (参考訳) ビジョントランスフォーマーベースのモデルは、イメージセグメンテーションタスクに大幅な改善をもたらす。 これらのアーキテクチャは、特定のセグメンテーションタスクに関係なく強力な機能を提供するが、それらの計算リソースの使用は、デプロイされたデバイスに課税することができる。 この課題を克服する1つの方法は、現在のワンサイズ・オールアプローチではなく、入力画像の特定のニーズに計算レベルを適用することである。 この目的のために,Mask2Former 形式のモデルに対して ECO-M2F あるいは EffiCient TransfOrmer Encoders を導入する。 ECO-M2Fは、M2Fスタイルのモデルのエンコーダモジュールが高リソース集約的な計算を行うのに注意し、入力画像に条件付きエンコーダ内の隠蔽層数を自己選択する戦略を提供する。 性能と計算効率のバランスをとるための自己選択機能を実現するために,3段階のレシピを提案する。 最初のステップは、エンコーダからの早期離脱を可能にするために、親アーキテクチャをトレーニングすることです。 2番目のステップは、トレーニングの各例に必要なエンコーダ層の理想的な数の派生データセットを作成することだ。 第3のステップは、前述の派生データセットを使用して、入力イメージに条件付きで使用するエンコーダレイヤの数を予測するゲーティングネットワークをトレーニングすることだ。 さらに、計算精度のトレードオフを変更するためには、再トレーニング時間を著しく短縮するステップ2と3のみを繰り返す必要がある。 公開データセットの実験では、提案手法はパフォーマンスを維持しながら、期待されるエンコーダ計算コストを削減し、様々なユーザ計算リソースに適応し、アーキテクチャ構成に柔軟であり、セグメンテーションタスクを超えてオブジェクト検出に拡張可能であることが示されている。

Vision transformer based models bring significant improvements for image segmentation tasks. Although these architectures offer powerful capabilities irrespective of specific segmentation tasks, their use of computational resources can be taxing on deployed devices. One way to overcome this challenge is by adapting the computation level to the specific needs of the input image rather than the current one-size-fits-all approach. To this end, we introduce ECO-M2F or EffiCient TransfOrmer Encoders for Mask2Former-style models. Noting that the encoder module of M2F-style models incur high resource-intensive computations, ECO-M2F provides a strategy to self-select the number of hidden layers in the encoder, conditioned on the input image. To enable this self-selection ability for providing a balance between performance and computational efficiency, we present a three step recipe. The first step is to train the parent architecture to enable early exiting from the encoder. The second step is to create an derived dataset of the ideal number of encoder layers required for each training example. The third step is to use the aforementioned derived dataset to train a gating network that predicts the number of encoder layers to be used, conditioned on the input image. Additionally, to change the computational-accuracy tradeoff, only steps two and three need to be repeated which significantly reduces retraining time. Experiments on the public datasets show that the proposed approach reduces expected encoder computational cost while maintaining performance, adapts to various user compute resources, is flexible in architecture configurations, and can be extended beyond the segmentation task to object detection.
翻訳日:2024-04-24 13:12:44 公開日:2024-04-23
# XFT: コードのインストラクションチューニングのパワーをシンプルにマージする

XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts ( http://arxiv.org/abs/2404.15247v1 )

ライセンス: Link先を確認
Yifeng Ding, Jiawei Liu, Yuxiang Wei, Terry Yue Zhuo, Lingming Zhang, (参考訳) 命令調整型コードLarge Language Models (LLM) の性能限界を解き放つために、Mixture-of-Experts (MoE) を単純にマージすることで、単純ながら強力なトレーニングスキームであるXFTを導入する。 バニラスパースアップサイクリングは命令チューニングを改善するのに失敗するが、XFTは新しいルーティングウェイト正規化戦略をスパースアップサイクリングに導入し、命令チューニングを大幅に向上させる。 アップサイクルMoEモデルを微調整した後、XFTは、アップサイクルMoEモデルを高密度モデルにコンパイルするための学習可能なモデルマージ機構を導入し、高密度モデル計算のみでアップサイクルMoEレベルのパフォーマンスを実現する。 1.3BモデルにXFTを適用することで、HumanEvalとHumanEval+でそれぞれ67.1と64.6 pass@1を持つ、最先端の小さなコード LLM (<3B) を新たに作成する。 同じデータとモデルアーキテクチャで、XFTはHumanEval+で教師付き微調整(SFT)を13%改善し、MBPP+、MultiPL-E、DS-1000で2%から13%改善した。 XFTは、Evol-InstructやOSS-Instructといった既存の技術と完全に直交しており、コード命令チューニングを改善するための新しい次元を開く。 コードはhttps://github.com/ise-uiuc/xft で公開されている。

We introduce XFT, a simple yet powerful training scheme, by simply merging upcycled Mixture-of-Experts (MoE) to unleash the performance limit of instruction-tuned code Large Language Models (LLMs). While vanilla sparse upcycling fails to improve instruction tuning, XFT introduces a shared expert mechanism with a novel routing weight normalization strategy into sparse upcycling, which significantly boosts instruction tuning. After fine-tuning the upcycled MoE model, XFT introduces a learnable model merging mechanism to compile the upcycled MoE model back to a dense model, achieving upcycled MoE-level performance with only dense-model compute. By applying XFT to a 1.3B model, we create a new state-of-the-art tiny code LLM (<3B) with 67.1 and 64.6 pass@1 on HumanEval and HumanEval+ respectively. With the same data and model architecture, XFT improves supervised fine-tuning (SFT) by 13% on HumanEval+, along with consistent improvements from 2% to 13% on MBPP+, MultiPL-E, and DS-1000, demonstrating its generalizability. XFT is fully orthogonal to existing techniques such as Evol-Instruct and OSS-Instruct, opening a new dimension for improving code instruction tuning. Codes are available at https://github.com/ise-uiuc/xft .
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# 逆画像条件下での映像オブジェクト検出のためのソースフリー領域適応

Source-free Domain Adaptation for Video Object Detection Under Adverse Image Conditions ( http://arxiv.org/abs/2404.15252v1 )

ライセンス: Link先を確認
Xingguang Zhang, Chih-Hsien Chou, (参考訳) 実世界のシナリオで事前訓練されたビデオオブジェクト検出装置をデプロイする場合、悪い画像条件によって引き起こされるトレーニングデータとテストデータの間の領域ギャップは、しばしば性能劣化を引き起こす。 この問題に対処することは、事前訓練されたモデルと劣化したビデオのみが利用できる場合、特に困難になる。 ソースフリードメイン適応法 (SFDA) は, 単一フレームオブジェクト検出法として提案されているが, ビデオオブジェクト検出法 (VOD) については未検討である。 さらに、オブジェクト検出のための殆どの教師なしドメイン適応は2段階検出器に依存し、一方1段階検出器のFDAは微調整に弱いが、文献ではうまく対応していない。 本稿では,VODの簡易かつ効果的なSFDA法であるSTAR-MT(Spatial-Temporal Alternate Refinement with Mean Teacher)を提案する。 具体的には,1段VOD法であるYOLOVの性能を,騒音,空気乱流,迷路などの画像条件下で改善することを目的としている。 画像NetVODデータセットとその劣化したバージョンに対する大規模な実験により,本手法は撮影環境に挑戦する際の映像オブジェクト検出性能を常に向上し,実世界の応用の可能性を示している。

When deploying pre-trained video object detectors in real-world scenarios, the domain gap between training and testing data caused by adverse image conditions often leads to performance degradation. Addressing this issue becomes particularly challenging when only the pre-trained model and degraded videos are available. Although various source-free domain adaptation (SFDA) methods have been proposed for single-frame object detectors, SFDA for video object detection (VOD) remains unexplored. Moreover, most unsupervised domain adaptation works for object detection rely on two-stage detectors, while SFDA for one-stage detectors, which are more vulnerable to fine-tuning, is not well addressed in the literature. In this paper, we propose Spatial-Temporal Alternate Refinement with Mean Teacher (STAR-MT), a simple yet effective SFDA method for VOD. Specifically, we aim to improve the performance of the one-stage VOD method, YOLOV, under adverse image conditions, including noise, air turbulence, and haze. Extensive experiments on the ImageNetVOD dataset and its degraded versions demonstrate that our method consistently improves video object detection performance in challenging imaging conditions, showcasing its potential for real-world applications.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# UniMERNet: 実世界の数学的表現認識のためのユニバーサルネットワーク

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition ( http://arxiv.org/abs/2404.15254v1 )

ライセンス: Link先を確認
Bin Wang, Zhuangcheng Gu, Chao Xu, Bo Zhang, Botian Shi, Conghui He, (参考訳) 本稿では,UniMERデータセットを用いて,複雑な実世界のシナリオに対する数学的表現認識(MER)に関する最初の研究を行う。 UniMERデータセットは、100万のトレーニングインスタンスを持つ前代未聞のスケールと多様性を提供する大規模なトレーニングセットUniMER-1Mと、現実世界のシナリオで広く見られる様々な公式分布を反映した精巧に設計されたテストセットUniMER-Testで構成されている。 したがって、UniMERデータセットは、堅牢で高精度なMERモデルのトレーニングと、モデル性能の包括的な評価を可能にする。 さらに,実用シナリオにおけるMERの強化を目的とした革新的フレームワークであるUniMERNetを導入する。 UniMERNetはLongth-Aware Moduleを組み込んで、様々な長さの式を効率的に処理することで、複雑な数学的表現をより高精度に処理することができる。 さらに、UniMERNetは、我々のUniMER-1Mデータと画像拡張技術を用いて、異なるノイズ条件下でのモデルの堅牢性を改善する。 我々の広範な実験は、UniMERNetが既存のMERモデルより優れており、様々なシナリオで新しいベンチマークを設定し、現実世界のアプリケーションにおいて優れた認識品質を確保することを実証している。 データセットとモデルはhttps://github.com/opendatalab/UniMERNetで公開されている。

This paper presents the UniMER dataset to provide the first study on Mathematical Expression Recognition (MER) towards complex real-world scenarios. The UniMER dataset consists of a large-scale training set UniMER-1M offering an unprecedented scale and diversity with one million training instances and a meticulously designed test set UniMER-Test that reflects a diverse range of formula distributions prevalent in real-world scenarios. Therefore, the UniMER dataset enables the training of a robust and high-accuracy MER model and comprehensive evaluation of model performance. Moreover, we introduce the Universal Mathematical Expression Recognition Network (UniMERNet), an innovative framework designed to enhance MER in practical scenarios. UniMERNet incorporates a Length-Aware Module to process formulas of varied lengths efficiently, thereby enabling the model to handle complex mathematical expressions with greater accuracy. In addition, UniMERNet employs our UniMER-1M data and image augmentation techniques to improve the model's robustness under different noise conditions. Our extensive experiments demonstrate that UniMERNet outperforms existing MER models, setting a new benchmark in various scenarios and ensuring superior recognition quality in real-world applications. The dataset and model are available at https://github.com/opendatalab/UniMERNet.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# TOP-Nav:Terrin, Obstacle, Proprioception Estimationを統合した脚付きナビゲーション

TOP-Nav: Legged Navigation Integrating Terrain, Obstacle and Proprioception Estimation ( http://arxiv.org/abs/2404.15256v1 )

ライセンス: Link先を確認
Junli Ren, Yikai Liu, Yingru Dai, Guijin Wang, (参考訳) 脚のついたナビゲーションは通常、オープンワールド、オフロード、挑戦的な環境で検査される。 これらのシナリオでは、外乱を推定するには、多重モーダル情報の複雑な合成が必要である。 これは、主に障害を避けることに焦点を当てた既存の作業において、大きな制限となる。 本研究では,包括的パスプランナとTerrain認識,Obstacle回避,クローズループプロプライオセプションを統合した新しい脚付きナビゲーションフレームワークTOP-Navを提案する。 TOP-Navは、経路計画と運動計画の両方において、視覚とプロプレセプションの相乗効果を強調している。 経路プランナ内では、障害物を効果的に回避しつつ、高い走行性を有する地形上の経路をロボットが選択できる地形推定器を提示し、統合する。 動作計画レベルでは、ナビゲーションコマンドを追跡するために移動制御器を実装できるだけでなく、経路プランナーに動作評価を提供するための受容アドバイザも構築する。 クローズループ動作フィードバックに基づいて、視覚に基づく地形と障害物推定のオンライン修正を行う。 そのため、TOP-Navは、ロボットが以前の知識の分布を超えて地形や乱れを扱えるように、オープンワールドナビゲーションを実現し、視覚条件によって課される制約を克服する。 TOP-Navは、シミュレーションと実世界の環境の両方で実施された広範な実験に基づいて、既存の手法と比較して、オープンワールドナビゲーションにおいて優れた性能を示す。

Legged navigation is typically examined within open-world, off-road, and challenging environments. In these scenarios, estimating external disturbances requires a complex synthesis of multi-modal information. This underlines a major limitation in existing works that primarily focus on avoiding obstacles. In this work, we propose TOP-Nav, a novel legged navigation framework that integrates a comprehensive path planner with Terrain awareness, Obstacle avoidance and close-loop Proprioception. TOP-Nav underscores the synergies between vision and proprioception in both path and motion planning. Within the path planner, we present and integrate a terrain estimator that enables the robot to select waypoints on terrains with higher traversability while effectively avoiding obstacles. In the motion planning level, we not only implement a locomotion controller to track the navigation commands, but also construct a proprioception advisor to provide motion evaluations for the path planner. Based on the close-loop motion feedback, we make online corrections for the vision-based terrain and obstacle estimations. Consequently, TOP-Nav achieves open-world navigation that the robot can handle terrains or disturbances beyond the distribution of prior knowledge and overcomes constraints imposed by visual conditions. Building upon extensive experiments conducted in both simulation and real-world environments, TOP-Nav demonstrates superior performance in open-world navigation compared to existing methods.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# 部分リーマン橋サンプリングのためのスコアマッチング

Score matching for sub-Riemannian bridge sampling ( http://arxiv.org/abs/2404.15258v1 )

ライセンス: Link先を確認
Erlend Grong, Karen Habermann, Stefan Sommer, (参考訳) 条件付き拡散過程のシミュレーションは、確率過程、データ計算、生成モデリング、幾何学統計学の推論に欠かせない道具である。 ユークリッド空間上では拡散ブリッジ過程をシミュレートすることは既に困難であるが、リーマン多様体上の拡散過程を考えると、幾何学はさらなる複雑さをもたらす。 さらに高次一般性において、リーマン幾何学から準リーマン幾何学へ進むと、準楕円性が導入され、拡散過程のスコアに対して適切な明示的な近似が見つかる可能性が排除される。 これらの課題に対処し、サブリーマン多様体上でのスコア近似器のトレーニングを可能にするため、機械学習の最近の進歩をいかに修正できるかを示すことによって、サブリーマン多様体上のブリッジシミュレーションの手法を構築する。 勾配は水平分布に依存するため、確率的テイラー展開(英語版)を用いて非ホロノミックなフレームで作業するために損失を分解するという通常の概念を一般化し、その結果のスキームをハイゼンベルク群上で明示的に示し、より一般に適応座標を用いて示す。 本研究では,ハイゼンベルク層群における橋梁プロセスの試料の数値実験を行い,その濃度を短時間で測定した。

Simulation of conditioned diffusion processes is an essential tool in inference for stochastic processes, data imputation, generative modelling, and geometric statistics. Whilst simulating diffusion bridge processes is already difficult on Euclidean spaces, when considering diffusion processes on Riemannian manifolds the geometry brings in further complications. In even higher generality, advancing from Riemannian to sub-Riemannian geometries introduces hypoellipticity, and the possibility of finding appropriate explicit approximations for the score of the diffusion process is removed. We handle these challenges and construct a method for bridge simulation on sub-Riemannian manifolds by demonstrating how recent progress in machine learning can be modified to allow for training of score approximators on sub-Riemannian manifolds. Since gradients dependent on the horizontal distribution, we generalise the usual notion of denoising loss to work with non-holonomic frames using a stochastic Taylor expansion, and we demonstrate the resulting scheme both explicitly on the Heisenberg group and more generally using adapted coordinates. We perform numerical experiments exemplifying samples from the bridge process on the Heisenberg group and the concentration of this process for small time.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# FlowMap: グラディエントDescentによる高画質カメラの可能性、内在性、奥行き

FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent ( http://arxiv.org/abs/2404.15259v1 )

ライセンス: Link先を確認
Cameron Smith, David Charatan, Ayush Tewari, Vincent Sitzmann, (参考訳) 本稿では、カメラの正確なポーズ、カメラの内在性、フレームごとの深度を解消する、エンドツーエンドの差別化手法であるFlowMapを紹介する。 本手法は,奥行き,内在性によって誘導される光の流れを比較し,オフザシェルフ光の流れと点追跡によって得られる対応に対処する,最小2乗目的の映像ごとの勾配・ディフレッシブ最小化を行う。 長期的幾何整合性を促進するために点線を用いるとともに、一階最適化に寄与する深度、内在性、ポーズの微分可能な再パラメータ化を導入する。 提案手法により得られたカメラパラメータと密度深度は,ガウススプラッティングを用いた360度軌道上での光リアルな新規ビュー合成を可能にすることを実証的に示す。 提案手法は, 従来の勾配差に基づくバンドル調整法よりもはるかに優れるだけでなく, 従来のSfM法であるCOLMAPと同等に動作し, 従来のSfM法と完全に相違し, 従来のSfM法と完全に相違しているにもかかわらず, 360度新規ビュー合成の下流タスクにおいて, 従来のSfM法と同等に機能する。

This paper introduces FlowMap, an end-to-end differentiable method that solves for precise camera poses, camera intrinsics, and per-frame dense depth of a video sequence. Our method performs per-video gradient-descent minimization of a simple least-squares objective that compares the optical flow induced by depth, intrinsics, and poses against correspondences obtained via off-the-shelf optical flow and point tracking. Alongside the use of point tracks to encourage long-term geometric consistency, we introduce differentiable re-parameterizations of depth, intrinsics, and pose that are amenable to first-order optimization. We empirically show that camera parameters and dense depth recovered by our method enable photo-realistic novel view synthesis on 360-degree trajectories using Gaussian Splatting. Our method not only far outperforms prior gradient-descent based bundle adjustment methods, but surprisingly performs on par with COLMAP, the state-of-the-art SfM method, on the downstream task of 360-degree novel view synthesis (even though our method is purely gradient-descent based, fully differentiable, and presents a complete departure from conventional SfM).
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# 微分可能ワイドベースラインポーズ最適化を用いたマルチセッションSLAM

Multi-Session SLAM with Differentiable Wide-Baseline Pose Optimization ( http://arxiv.org/abs/2404.15263v1 )

ライセンス: Link先を確認
Lahav Lipson, Jia Deng, (参考訳) マルチセッションSLAM(Multi-Session SLAM)のための新しいシステムを導入する。 我々のアプローチは、カメラのポーズを推定するために、光学的流れの予測とソルバ層を結合する。 バックボーンは、ワイドベースライン2ビューポーズのための新しい微分可能ソルバを使用して、エンドツーエンドでトレーニングされる。 完全なシステムは、解離列を接続し、視覚的オドメトリーを実行し、大域的な最適化を行うことができる。 既存のアプローチと比較して、私たちの設計は正確で、破滅的な失敗に対して堅牢です。 コードはgithub.com/princeton-vl/MultiSlam_DiffPoseで入手できる。

We introduce a new system for Multi-Session SLAM, which tracks camera motion across multiple disjoint videos under a single global reference. Our approach couples the prediction of optical flow with solver layers to estimate camera pose. The backbone is trained end-to-end using a novel differentiable solver for wide-baseline two-view pose. The full system can connect disjoint sequences, perform visual odometry, and global optimization. Compared to existing approaches, our design is accurate and robust to catastrophic failures. Code is available at github.com/princeton-vl/MultiSlam_DiffPose
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# TalkingGaussian: Gaussian Splattingによる構造持続型3次元音声頭合成

TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting ( http://arxiv.org/abs/2404.15264v1 )

ライセンス: Link先を確認
Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Xin Ning, Jun Zhou, Lin Gu, (参考訳) 放射場は、ライフライクな3D音声ヘッドを合成する際、印象的な性能を示した。 しかし, 急激な外観変化の適応が困難であることから, 顔の動きを直接修正することで動的領域の歪みが生じる可能性がある。 この課題に対処するために,高忠実な音声ヘッド合成のための変形型放射場フレームワークであるTalkingGaussianを紹介する。 点ベースガウススプラッティングを応用した顔の動きは、従来の手法のような難易度変化を学習することなく、スムーズで連続的な変形を持続的なガウスプリミティブに適用することで、我々の方法で表現することができる。 この単純化により、高度に無傷な顔の特徴を維持しつつ、正確な顔の動きを合成することができる。 このような変形パラダイムの下では、詳細な発話動作の学習に影響を及ぼすような、対面運動の不整合をさらに特定する。 この対立に対処するために、我々は、モデルを顔と口の内側の2つの枝に分割し、学習タスクを簡素化し、より正確な口の領域の動きと構造を再構築する。 大規模な実験により, 従来の方法に比べて顔の忠実度が良く, 効率も良く, 高品質な唇同期音声ヘッドビデオが得られた。

Radiance fields have demonstrated impressive performance in synthesizing lifelike 3D talking heads. However, due to the difficulty in fitting steep appearance changes, the prevailing paradigm that presents facial motions by directly modifying point appearance may lead to distortions in dynamic regions. To tackle this challenge, we introduce TalkingGaussian, a deformation-based radiance fields framework for high-fidelity talking head synthesis. Leveraging the point-based Gaussian Splatting, facial motions can be represented in our method by applying smooth and continuous deformations to persistent Gaussian primitives, without requiring to learn the difficult appearance change like previous methods. Due to this simplification, precise facial motions can be synthesized while keeping a highly intact facial feature. Under such a deformation paradigm, we further identify a face-mouth motion inconsistency that would affect the learning of detailed speaking motions. To address this conflict, we decompose the model into two branches separately for the face and inside mouth areas, therefore simplifying the learning tasks to help reconstruct more accurate motion and structure of the mouth region. Extensive experiments demonstrate that our method renders high-quality lip-synchronized talking head videos, with better facial fidelity and higher efficiency compared with previous methods.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# 部品から全体へ:制御可能な人体画像生成のための統一参照フレームワーク

From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation ( http://arxiv.org/abs/2404.15267v1 )

ライセンス: Link先を確認
Zehuan Huang, Hongxing Fan, Lipeng Wang, Lu Sheng, (参考訳) 制御可能な人間の画像生成の最近の進歩は、構造信号(例えば、ポーズ、深さ)や顔の外観を使ったゼロショット生成につながっている。 しかし、人間の外見の複数の部分に条件付けされた人間の画像を生成することは、依然として困難である。 そこで我々は,複数の参照画像からカスタマイズされた肖像画を生成するための新しいフレームワークParts2Wholeを紹介した。 そこで本研究では,まず,各画像のテキストラベルに基づいて,各画像を1つの画像トークンではなく,一連のマルチスケール特徴マップに処理し,画像次元を保存する,意味認識型外観エンコーダを開発した。 第2に,本フレームワークは,拡散過程における参照・対象特徴間の共有自己アテンション機構により,マルチイメージ条件付き生成をサポートする。 我々は、基準画像からマスク情報を取り込むことで、バニラ注意機構を強化し、任意の部分の正確な選択を可能にする。 大規模な実験により、既存の代替手段よりもアプローチが優れていることが示され、多部制御可能な人間の画像のカスタマイズのための高度な能力が提供される。 プロジェクトページはhttps://huanngzh.github.io/Parts2Whole/にある。

Recent advancements in controllable human image generation have led to zero-shot generation using structural signals (e.g., pose, depth) or facial appearance. Yet, generating human images conditioned on multiple parts of human appearance remains challenging. Addressing this, we introduce Parts2Whole, a novel framework designed for generating customized portraits from multiple reference images, including pose images and various aspects of human appearance. To achieve this, we first develop a semantic-aware appearance encoder to retain details of different human parts, which processes each image based on its textual label to a series of multi-scale feature maps rather than one image token, preserving the image dimension. Second, our framework supports multi-image conditioned generation through a shared self-attention mechanism that operates across reference and target features during the diffusion process. We enhance the vanilla attention mechanism by incorporating mask information from the reference human images, allowing for the precise selection of any part. Extensive experiments demonstrate the superiority of our approach over existing alternatives, offering advanced capabilities for multi-part controllable human image customization. See our project page at https://huanngzh.github.io/Parts2Whole/.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# ユーザ編集からの潜在選好学習によるLLMエージェントの調整

Aligning LLM Agents by Learning Latent Preference from User Edits ( http://arxiv.org/abs/2404.15269v1 )

ライセンス: Link先を確認
Ge Gao, Alexey Taymanov, Eduardo Salinas, Paul Mineiro, Dipendra Misra, (参考訳) 本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。 アシスタントを書くなどの典型的な設定では、ユーザは言語エージェントと対話して、与えられた状況に応じて応答を生成し、オプションでエージェント応答を編集して、潜伏した好みに基づいてパーソナライズし、正確性を改善することができる。 編集フィードバックは自然に生成され、ユーザの好みに合わせてエージェントのアライメントを改善するのに適した候補となり、時間の経過とともに編集コストを削減できる。 本稿では,過去の編集データに基づいてユーザの潜在嗜好を推測し,それを用いて,今後の応答生成を推し進める迅速なポリシーを定義する学習フレームワークであるPreLUDEを提案する。 これによってエージェントの微調整が回避されるため、コストがかかり、ユーザ数に合わせてスケールが難しくなり、他のタスクのパフォーマンスが低下する可能性がある。 さらに、記述的嗜好の学習は解釈可能性を改善し、学習した嗜好の閲覧と修正を可能にする。 しかし、ユーザの好みは複雑で、コンテキストによって異なるため、学習が困難になる。 そこで本稿では,大規模な言語モデル(LLM)を利用したCIPHERというシンプルなアルゴリズムを提案する。 将来的には、CIPHERはk-closestコンテキストから推論された嗜好を検索し、応答生成の集合的嗜好を形成する。 GPT-4シミュレートされたユーザによる評価のために,要約とメール書き込みという2つの対話型環境を導入する。 ユーザ編集を直接検索するが、記述的嗜好を学習しないアルゴリズムと、文脈に依存しない選好を学習するアルゴリズムとを比較した。 両方のタスクにおいて、CIPHERは最小編集距離コストを達成し、基礎的な真実の好みと大きな類似性を示す好みを学習する。

We study interactive learning of language agents based on user edits made to the agent's output. In a typical setting such as writing assistants, the user interacts with a language agent to generate a response given a context, and may optionally edit the agent response to personalize it based on their latent preference, in addition to improving the correctness. The edit feedback is naturally generated, making it a suitable candidate for improving the agent's alignment with the user's preference, and for reducing the cost of user edits over time. We propose a learning framework, PRELUDE that infers a description of the user's latent preference based on historic edit data and using it to define a prompt policy that drives future response generation. This avoids fine-tuning the agent, which is costly, challenging to scale with the number of users, and may even degrade its performance on other tasks. Furthermore, learning descriptive preference improves interpretability, allowing the user to view and modify the learned preference. However, user preference can be complex and vary based on context, making it challenging to learn. To address this, we propose a simple yet effective algorithm named CIPHER that leverages a large language model (LLM) to infer the user preference for a given context based on user edits. In the future, CIPHER retrieves inferred preferences from the k-closest contexts in the history, and forms an aggregate preference for response generation. We introduce two interactive environments -- summarization and email writing, for evaluation using a GPT-4 simulated user. We compare with algorithms that directly retrieve user edits but do not learn descriptive preference, and algorithms that learn context-agnostic preference. On both tasks, CIPHER achieves the lowest edit distance cost and learns preferences that show significant similarity to the ground truth preferences
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# 指示追従モデルを用いたビジュアルリッチ文書の自動レイアウト計画

Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models ( http://arxiv.org/abs/2404.15271v1 )

ライセンス: Link先を確認
Wanrong Zhu, Jennifer Healey, Ruiyi Zhang, William Yang Wang, Tong Sun, (参考訳) 近年,命令追従モデルの進歩により,ユーザフレンドリで効率的なモデルとのインタラクションが向上し,適用性も向上している。 グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。 本研究では,レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し,本の表紙やポスター,パンフレット,メニューなど,キャンバスのサイズや設計目的を指定することで,視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。 レイアウト命令の理解と実行をモデルに訓練するための3つのレイアウト推論タスクを開発した。 2つのベンチマーク実験により,本手法は非専門職の設計プロセスを単純化するだけでなく,数発のGPT-4Vモデルの性能を上回り,mIoUはCrelloで12%高い値を示した。 この進歩は、設計プロセスを自動化し、単純化するためのマルチモーダルな命令フォローモデルの可能性を強調し、視覚的にリッチなドキュメントに対する幅広い設計タスクに対するアプローチ可能なソリューションを提供する。

Recent advancements in instruction-following models have made user interactions with models more user-friendly and efficient, broadening their applicability. In graphic design, non-professional users often struggle to create visually appealing layouts due to limited skills and resources. In this work, we introduce a novel multimodal instruction-following framework for layout planning, allowing users to easily arrange visual elements into tailored layouts by specifying canvas size and design purpose, such as for book covers, posters, brochures, or menus. We developed three layout reasoning tasks to train the model in understanding and executing layout instructions. Experiments on two benchmarks show that our method not only simplifies the design process for non-professionals but also surpasses the performance of few-shot GPT-4V models, with mIoU higher by 12% on Crello. This progress highlights the potential of multimodal instruction-following models to automate and simplify the design process, providing an approachable solution for a wide range of design tasks on visually-rich documents.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# CT-GLIP:3Dグラウンドド言語--CTスキャンによる事前訓練と全身性シナリオに対する放射線検査報告

CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios ( http://arxiv.org/abs/2404.15272v1 )

ライセンス: Link先を確認
Jingyang Lin, Yingda Xia, Jianpeng Zhang, Ke Yan, Le Lu, Jiebo Luo, Ling Zhang, (参考訳) Medical Vision-Language Pretraining (Med-VLP)は、医用画像からの視覚コンテンツと関連するテキスト記述との関連性を確立する。 既存のMed-VLP法は主に1つの身体部分、特に胸部X線を描いた2D画像に焦点を当てている。 本稿では,Med-VLPの範囲を,CT画像とレポートのマルチモーダルデータセットを用いて,特に全身シナリオを対象とする3次元画像に拡張する。 2Dと比較すると、3D VLPは3D画像において非常にスペーサー表現から重要な意味を効果的に捉えるのに必要である。 本稿では,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を提案する。 さらに,各種陰性サンプルを用いたコントラスト学習を増強する異常辞書を開発した。 本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。 CT-GLIPの成績は,7臓器で最も頻度の高い16症例を対象に,1,130例の別検体で検証した。 実験の結果、CNNとViTアーキテクチャの両方を用いて、ゼロショットおよび微調整シナリオにおける標準CLIPフレームワークよりも優れた性能を示した。

Medical Vision-Language Pretraining (Med-VLP) establishes a connection between visual content from medical images and the relevant textual descriptions. Existing Med-VLP methods primarily focus on 2D images depicting a single body part, notably chest X-rays. In this paper, we extend the scope of Med-VLP to encompass 3D images, specifically targeting full-body scenarios, by using a multimodal dataset of CT images and reports. Compared with the 2D counterpart, 3D VLP is required to effectively capture essential semantics from significantly sparser representation in 3D imaging. In this paper, we introduce CT-GLIP (Grounded Language-Image Pretraining with CT scans), a novel method that constructs organ-level image-text pairs to enhance multimodal contrastive learning, aligning grounded visual features with precise diagnostic text. Additionally, we developed an abnormality dictionary to augment contrastive learning with diverse negative samples. Our method, trained on a multimodal CT dataset comprising 44,011 organ-level vision-text pairs from 17,702 patients across 104 organs, demonstrates it can identify organs and abnormalities in a zero-shot manner using natural languages. The performance of CT-GLIP is validated on a separate test set of 1,130 patients, focusing on the 16 most frequent abnormalities across 7 organs. The experimental results show our model's superior performance over the standard CLIP framework across zero-shot and fine-tuning scenarios, using both CNN and ViT architectures.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# 等角的予測による距離誘導画像再構成境界

Metric-guided Image Reconstruction Bounds via Conformal Prediction ( http://arxiv.org/abs/2404.15274v1 )

ライセンス: Link先を確認
Matt Y Cheung, Tucker J Netherton, Laurence E Court, Ashok Veeraraghavan, Guha Balakrishnan, (参考訳) 機械学習の最近の進歩は、不適切な問題に対処する新しいイメージングシステムやアルゴリズムに繋がった。 信頼性を評価し、テスト時に安全にデプロイする方法を理解することは、依然として重要かつオープンな問題です。 本稿では,下流の指標の予測間隔に基づいて,コンフォメーション予測を利用して上/下境界と統計的インレーヤ/アウトレーヤを検索する手法を提案する。 下流放射線治療計画のためのスパース・ビューCTへの本手法の適用と表示 1) 測度誘導境界が下流の測度に対して有効なカバレッジを持つのに対して、従来の画素単位境界はそうでない。 2) 距離誘導法と画素ワイド法における上/下境界の解剖学的差異について検討した。 我々の仕事は、より意味のある再建の道を開く。 https://github.com/matthewyccheung/conformal-metricで利用可能なコード

Recent advancements in machine learning have led to novel imaging systems and algorithms that address ill-posed problems. Assessing their trustworthiness and understanding how to deploy them safely at test time remains an important and open problem. We propose a method that leverages conformal prediction to retrieve upper/lower bounds and statistical inliers/outliers of reconstructions based on the prediction intervals of downstream metrics. We apply our method to sparse-view CT for downstream radiotherapy planning and show 1) that metric-guided bounds have valid coverage for downstream metrics while conventional pixel-wise bounds do not and 2) anatomical differences of upper/lower bounds between metric-guided and pixel-wise methods. Our work paves the way for more meaningful reconstruction bounds. Code available at https://github.com/matthewyccheung/conformal-metric
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# IDアニメーター:ゼロショットアイデンティティ保存ヒューマンビデオ生成

ID-Animator: Zero-Shot Identity-Preserving Human Video Generation ( http://arxiv.org/abs/2404.15275v1 )

ライセンス: Link先を確認
Xuanhua He, Quande Liu, Shengju Qian, Xin Wang, Tao Hu, Ke Cao, Keyu Yan, Man Zhou, Jie Zhang, (参考訳) 特定のアイデンティティを持つ高忠実度人間ビデオの生成は、コンテンツ生成コミュニティにおいて大きな注目を集めている。 しかし、既存の技術は、面倒なケース・バイ・ケースの微調整や、ビデオ生成プロセスにおけるアイデンティティの詳細の欠如など、トレーニング効率とアイデンティティの保存のバランスを崩すことに苦慮している。 本研究では,1つの参照顔画像に対して,それ以上のトレーニングを行なわずにパーソナライズされた映像を生成する,ゼロショット映像生成手法であるID-Animatorを提案する。 ID-Animatorは既存の拡散ベースのビデオ生成バックボーンをフェイスアダプタで継承し、学習可能な顔認識クエリからID関連埋め込みを符号化する。 映像生成におけるアイデンティティ情報の抽出を容易にするため、構築された顔画像プールから、切り離された人間の属性とアクションキャプション技術を組み込んだID指向データセット構築パイプラインを導入する。 このパイプラインに基づいて,参照画像からID関連埋め込みを的確に捕捉するランダムな顔参照訓練法が考案され,本モデルにおけるID固有ビデオ生成の忠実度と一般化能力の向上が図られた。 大規模な実験は、以前のモデルよりもパーソナライズされた人間ビデオを生成するためのID-アニメーションの優位性を実証している。 さらに,本手法は,アニメーションフや各種コミュニティバックボーンモデルといった,トレーニング済みのT2Vモデルと互換性が高く,アイデンティティの保存が望まれる実世界のビデオ生成アプリケーションにおいて,高い拡張性を示す。 私たちのコードとチェックポイントはhttps://github.com/ID-Animator/ID-Animator.comでリリースされます。

Generating high fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case finetuning or usually missing the identity details in video generation process. In this study, we present ID-Animator, a zero-shot human-video generation approach that can perform personalized video generation given single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline, which incorporates decoupled human attribute and action captioning technique from a constructed facial image pool. Based on this pipeline, a random face reference training method is further devised to precisely capture the ID-relevant embeddings from reference images, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints will be released at https://github.com/ID-Animator/ID-Animator.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# SMPLer:単眼の3次元人体形状と姿勢推定のためのモデリング変換器

SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation ( http://arxiv.org/abs/2404.15276v1 )

ライセンス: Link先を確認
Xiangyu Xu, Lijuan Liu, Shuicheng Yan, (参考訳) 既存のモノラルな3次元人間の形状とポーズ推定のためのトランスフォーマーは、典型的には2次計算とメモリの複雑さを持ち、精度の高い復元に有用な高精細な特徴におけるきめ細かい情報の活用を妨げる。 本稿では,この問題に対処するためのSMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。 SMPLerは、切り離された注意操作とSMPLベースの目標表現という2つの重要な要素を組み込んでおり、トランスフォーマーの高解像度特徴を効果的に活用することができる。 さらに, この2つの設計に基づき, 再建性能をさらに向上させるために, マルチスケール・アテンションや共同アテンションなど, 新たなモジュールもいくつか導入する。 SMPLerの既存の3次元人体形状に対する効果を実証し,定量的かつ定性的にポーズ推定方法を示した。 特に、提案アルゴリズムは、Human3.6Mデータセット上で45.2mmのMPJPEを達成し、パラメータの3分の1以下でMesh Graphormerを10%以上改善した。 コードと事前訓練されたモデルはhttps://github.com/xuxy09/SMPLer.comで入手できる。

Existing Transformers for monocular 3D human shape and pose estimation typically have a quadratic computation and memory complexity with respect to the feature length, which hinders the exploitation of fine-grained information in high-resolution features that is beneficial for accurate reconstruction. In this work, we propose an SMPL-based Transformer framework (SMPLer) to address this issue. SMPLer incorporates two key ingredients: a decoupled attention operation and an SMPL-based target representation, which allow effective utilization of high-resolution features in the Transformer. In addition, based on these two designs, we also introduce several novel modules including a multi-scale attention and a joint-aware attention to further boost the reconstruction performance. Extensive experiments demonstrate the effectiveness of SMPLer against existing 3D human shape and pose estimation methods both quantitatively and qualitatively. Notably, the proposed algorithm achieves an MPJPE of 45.2 mm on the Human3.6M dataset, improving upon Mesh Graphormer by more than 10% with fewer than one-third of the parameters. Code and pretrained models are available at https://github.com/xuxy09/SMPLer.
翻訳日:2024-04-24 13:03:00 公開日:2024-04-23
# ロボットマニピュレーションのためのループ型対話型共振器

Closed Loop Interactive Embodied Reasoning for Robot Manipulation ( http://arxiv.org/abs/2404.15194v1 )

ライセンス: Link先を確認
Michal Nazarczuk, Jan Kristof Behrens, Karla Stepanova, Matej Hoffmann, Krystian Mikolajczyk, (参考訳) 身体的推論システムは、ロボットハードウェアと認知プロセスを統合して、特定の物理的環境に関する自然言語クエリに応答して、複雑なタスクを実行する。 これは通常、シーンについての信念を変更したり、物理的に相互作用したり、シーンを変更したりする(例:「最も軽いものから重いものへ」)。 このようなシステムの開発を容易にするために,MuJoCo物理エンジンと高品質レンダラーブレンダーを用いたシミュレーション環境を導入する。 シミュレータとともに,視覚と身体の同時計測を必要とする10種類の多段階推論シナリオからなる新しいベンチマークを提案する。 最後に,非視覚的物体特性の測定,外乱によるシーンの変化,ロボット動作の不確実な結果を考慮した,新しいモジュラー・クローズドループ・インタラクティブ・推論(CLIER)手法を開発した。 シミュレーションおよび実世界の操作タスクにおける推論手法を,それぞれ76%,64%以上の成功率で広く評価した。

Embodied reasoning systems integrate robotic hardware and cognitive processes to perform complex tasks typically in response to a natural language query about a specific physical environment. This usually involves changing the belief about the scene or physically interacting and changing the scene (e.g. 'Sort the objects from lightest to heaviest'). In order to facilitate the development of such systems we introduce a new simulating environment that makes use of MuJoCo physics engine and high-quality renderer Blender to provide realistic visual observations that are also accurate to the physical state of the scene. Together with the simulator we propose a new benchmark composed of 10 classes of multi-step reasoning scenarios that require simultaneous visual and physical measurements. Finally, we develop a new modular Closed Loop Interactive Reasoning (CLIER) approach that takes into account the measurements of non-visual object properties, changes in the scene caused by external disturbances as well as uncertain outcomes of robotic actions. We extensively evaluate our reasoning approach in simulation and in the real world manipulation tasks with a success rate above 76% and 64%, respectively.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 臨界系の安全制御のための適応制御規則化による強化学習

Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems ( http://arxiv.org/abs/2404.15199v1 )

ライセンス: Link先を確認
Haozhe Tian, Homayoun Hamedmoghadam, Robert Shorten, Pietro Ferraro, (参考訳) 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な方法であるが、その学習メカニズムは、クリティカルシステムの安全性を損なう予測不可能な行動を引き起こす可能性がある。 本稿では、RLポリシーと、予測されたシステム動作に対する安全性制約をハードコードする制御正則化器を組み合わせることにより、RLの安全性を保証する適応制御規則化(RL-ACR)を用いたRLを提案する。 適応性は、政策の組み合わせの累積報酬を最大化するために訓練された学習可能な「焦点」重みを使用することによって達成される。 RL政策は、政治外の学習を通じて改善されるので、焦点重みは、RL政策に徐々に依存することで、初期最適化戦略を改善する。 RL-ACRの医療制御への応用を実証し、4つの古典的制御環境におけるその性能について検討する。

Reinforcement Learning (RL) is a powerful method for controlling dynamic systems, but its learning mechanism can lead to unpredictable actions that undermine the safety of critical systems. Here, we propose RL with Adaptive Control Regularization (RL-ACR) that ensures RL safety by combining the RL policy with a control regularizer that hard-codes safety constraints over forecasted system behaviors. The adaptability is achieved by using a learnable "focus" weight trained to maximize the cumulative reward of the policy combination. As the RL policy improves through off-policy learning, the focus weight improves the initial sub-optimum strategy by gradually relying more on the RL policy. We demonstrate the effectiveness of RL-ACR in a critical medical control application and further investigate its performance in four classic control environments.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# CORE-BEHRT: 慎重に最適化され、厳格に評価されるBEHRT

CORE-BEHRT: A Carefully Optimized and Rigorously Evaluated BEHRT ( http://arxiv.org/abs/2404.15201v1 )

ライセンス: Link先を確認
Mikkel Odgaard, Kiril Vadimovic Klein, Sanne Møller Thysen, Espen Jimenez-Solem, Martin Sillesen, Mads Nielsen, (参考訳) BERTベースのElectronic Health Records(EHR)モデルはBEHRTとMed-BERTのリリース以降、人気が高まっている。 その後のモデルは主にこれらの基礎の上に構築されてきたが、これらの先駆的なモデルの基本設計選択は未調査のままである。 この問題に対処するために、ケアリー・オプティマイズとリゴリズ・評価されたBEHRTであるCORE-BEHRTを紹介する。 インクリメンタルな最適化を通じて、重要な設計選択のための改善の源泉を分離し、データ表現と個々の技術コンポーネントがパフォーマンスに与える影響について洞察する。 一連の総合的な課題(死、痛み治療、一般感染)で評価した結果、データ表現の改善は、主に薬品やタイムスタンプを含む場合、平均下流性能を0.785AUROCから0.797AUROCに向上させることができることがわかった。 アーキテクチャとトレーニングプロトコルの改善により、平均ダウンストリーム性能は0.801 AUROCに向上した。 次に,25種類の臨床予測課題に対して厳密な評価を行うことで,最適化の整合性を実証した。 その結果,25タスク中17タスクが顕著に向上し,24タスクが改善した。 本研究は,今後の研究の基盤となるとともに,BERTベースのEHRモデルの信頼性向上をめざすものである。

BERT-based models for Electronic Health Records (EHR) have surged in popularity following the release of BEHRT and Med-BERT. Subsequent models have largely built on these foundations despite the fundamental design choices of these pioneering models remaining underexplored. To address this issue, we introduce CORE-BEHRT, a Carefully Optimized and Rigorously Evaluated BEHRT. Through incremental optimization, we isolate the sources of improvement for key design choices, giving us insights into the effect of data representation and individual technical components on performance. Evaluating this across a set of generic tasks (death, pain treatment, and general infection), we showed that improving data representation can increase the average downstream performance from 0.785 to 0.797 AUROC, primarily when including medication and timestamps. Improving the architecture and training protocol on top of this increased average downstream performance to 0.801 AUROC. We then demonstrated the consistency of our optimization through a rigorous evaluation across 25 diverse clinical prediction tasks. We observed significant performance increases in 17 out of 25 tasks and improvements in 24 tasks, highlighting the generalizability of our findings. Our findings provide a strong foundation for future work and aim to increase the trustworthiness of BERT-based EHR models.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 熱平衡外における誘電体ナノスフィア近傍の2レベル原子の幾何学的位相

Geometric phase of a two-level atom near a dielectric nanosphere out of thermal equilibrium ( http://arxiv.org/abs/2404.15216v1 )

ライセンス: Link先を確認
Ehsan Amooghorban, Sareh Shahidani, Somaye Mohamadi Abdhvand, (参考訳) 自由空間と誘電体ナノスフィアからなる環境に結合した2層原子の温度・熱平衡外における幾何相(GP)について検討した。 誘電体媒体の光学特性と損失と環境のGPに対する非平衡効果を解析的・数値的に解析した。 弱い結合限界では、GPに対する補正は原子位置におけるフォトニック状態の部分的な局所密度と、系の非平衡構成から生じる有効パラメータに依存する。 GPは、その共鳴周波数におけるエバネッセント表面波の励起による顕著な増強を示す。 原子系が熱平衡から取得したGPは常に熱平衡と熱平衡の間で結合していることが示されている。 さらに、ナノスフィアと自由空間の温度差は、ナノスフィアから中程度の原子距離でのみ、GPにおいて重要な役割を果たす。 本結果は,音速モードをサポートし,量子計算の資源としてGPのさらなる研究の道を開くことができる物質媒体近傍のGPの特性をエレガントに示すものである。

We study the geometric phase (GP) of a two-level atom coupled to an environment composed of free space and a dielectric nanosphere in thermal and out of thermal equilibrium. We analytically and numerically analyze the optical properties and loss of the dielectric medium, along with the non-equilibrium effects of the environment on the GP. In the weak coupling limit, we find that the correction to the GP depends on the partial local density of photonic states at the atom position, and an effective parameter that emerges out of the non-equilibrium configuration of the system. The GP exhibits a significant enhancement due to the excitation of evanescent surface waves at its resonance frequency. It is shown that the GP acquired by the atomic system out of thermal equilibrium is always bounded between the thermal-equilibrium counterparts. Furthermore, the temperature difference between the nanosphere and free space can play an important role in the GP only at moderate atomic distances from the nanosphere. Our results elegantly demonstrate properties of the GP near material media that can support phononic modes and pave the way for further research of GP as a resource for quantum computation.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 位相共変量子アンサンブルによる量子ビットネットワークの有効ダイナミクス

Effective dynamics of qubit networks via phase-covariant quantum ensembles ( http://arxiv.org/abs/2404.15223v1 )

ライセンス: Link先を確認
Sean Prudhoe, Unnati Akhouri, Tommy Chin, Sarah Shandera, (参考訳) 位相共変チャネルのアンサンブルについて検討する。 そのようなアンサンブルは、特別な初期状態のクラスを持つよく知られたスピン鎖モデル(例えば XXZ)から自然に生じ、乱れたスピン鎖の無秩序平均写像は分布の弱い対称性の制約の下で位相共変であることが示される。 これらの例は、単体チャネルと非単体チャネルの両方を含む、より広い位相共変アンサンブルのクラスを動機付けるために使用します。 アンサンブル上の平均写像の時間制限によって得られた物理特性を実演する。

We study ensembles of phase-covariant channels. We show that such ensembles arise naturally from familiar spin-chain models (e.g., XXZ) with a special class of initial states, and that the disorder-averaged map of disordered spin chains is phase-covariant under a weak symmetry constraint on the distribution. We use those examples to motivate a broader class of phase-covariant ensembles, which include both unital and non-unital channels. We demonstrate the physical properties captured by the late-time limit of the average map over the ensemble.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 深層学習を用いた点拡散関数と拡張画像からのZernike係数の直接予測

Direct Zernike Coefficient Prediction from Point Spread Functions and Extended Images using Deep Learning ( http://arxiv.org/abs/2404.15231v1 )

ライセンス: Link先を確認
Yong En Kok, Alexander Bentley, Andrew Parkes, Amanda J. Wright, Michael G. Somekh, Michael Pound, (参考訳) 光画像の品質は、システムとサンプル誘起収差によって著しく劣化する。 既存の適応光学系は通常、収差を補正し、画像を改善するために反復探索アルゴリズムに依存している。 本研究では,2段階から3段階の光画像からZernike係数を直接予測することにより,畳み込みニューラルネットワークによる光収差の特徴づけを実証する。 我々は,最初の25のゼルニケ係数を用いて,1から1のラジアンの範囲でランダムに生成された60,000個のシミュレーションポイントスプレッド関数(PSF)データセットを用いてネットワークを評価した。 その結果,1の振幅を持つ焦点面上および下および下における3つの位相差画像のみを用いて,シミュレーションされたPSFデータセット上で0.10ラディアンの低いRMSEが得られることがわかった。 さらに、このアプローチは、拡張された2Dサンプルをシミュレートしたゼルニケモードを直接予測し、0.15ラディアンのRMSEと同等の値を維持する。 このアプローチは,単一の予測ステップのみを用いて効果的であること,あるいは数回反復可能であることを実証する。 このシンプルで簡単な手法は、3つ以下の位相差画像を用いて収差補正を迅速かつ正確に予測し、実世界のデータセットで評価する方法を提供する。

Optical imaging quality can be severely degraded by system and sample induced aberrations. Existing adaptive optics systems typically rely on iterative search algorithm to correct for aberrations and improve images. This study demonstrates the application of convolutional neural networks to characterise the optical aberration by directly predicting the Zernike coefficients from two to three phase-diverse optical images. We evaluated our network on 600,000 simulated Point Spread Function (PSF) datasets randomly generated within the range of -1 to 1 radians using the first 25 Zernike coefficients. The results show that using only three phase-diverse images captured above, below and at the focal plane with an amplitude of 1 achieves a low RMSE of 0.10 radians on the simulated PSF dataset. Furthermore, this approach directly predicts Zernike modes simulated extended 2D samples, while maintaining a comparable RMSE of 0.15 radians. We demonstrate that this approach is effective using only a single prediction step, or can be iterated a small number of times. This simple and straightforward technique provides rapid and accurate method for predicting the aberration correction using three or less phase-diverse images, paving the way for evaluation on real-world dataset.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# ハイブリッドSAT-ソルバのランタイムコヒーレンストレードオフ

Runtime-coherence trade-offs for hybrid SAT-solvers ( http://arxiv.org/abs/2404.15235v1 )

ライセンス: Link先を確認
Vahideh Eshaghian, Sören Wilkening, Johan Åberg, David Gross, (参考訳) 計算タスクを並列化可能なサブプロブレムの集合に分割する方法の疑問が提起され、それぞれがコヒーレンス時間に制限された量子コンピュータで解ける。 ここでは、k-SAT問題に対するハイブリッドアルゴリズムを用いてこの問題にアプローチする。 我々の解析はSch\"oning's algorithm(英語版)に基づいており、これは潜在的な割り当ての空間をランダムにウォークすることでk-SATのインスタンスを解く。 この設定では、全体ランタイムとコヒーレンスタイムの間には単純なトレードオフ関係があり、そのような分割ベースのハイブリッドスキームは超えられない、と論じる。 分割の具体的な選択については、特定の実行時コヒーレンス時間関係を明示的に決定し、理想的なトレードオフの飽和を示す。 最後に、最適トレードオフを持つハイブリッドアルゴリズムの実装において、さらなる柔軟性を示唆する数値シミュレーションを提案する。

Many search-based quantum algorithms that achieve a theoretical speedup are not practically relevant since they require extraordinarily long coherence times, or lack the parallelizability of their classical counterparts.This raises the question of how to divide computational tasks into a collection of parallelizable sub-problems, each of which can be solved by a quantum computer with limited coherence time. Here, we approach this question via hybrid algorithms for the k-SAT problem. Our analysis is based on Sch\"oning's algorithm, which solves instances of k-SAT by performing random walks in the space of potential assignments. The search space of the walk allows for "natural" partitions, where we subject only one part of the partition to a Grover search, while the rest is sampled classically, thus resulting in a hybrid scheme. In this setting, we argue that there exists a simple trade-off relation between the total runtime and the coherence-time, which no such partition based hybrid-scheme can surpass. For several concrete choices of partitions, we explicitly determine the specific runtime coherence-time relations, and show saturation of the ideal trade-off. Finally, we present numerical simulations which suggest additional flexibility in implementing hybrid algorithms with optimal trade-off.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 複素領域におけるパラメトリック部分微分方程式の解法のための演算子学習を用いたハイブリッドカーネルフリー境界積分法

A Hybrid Kernel-Free Boundary Integral Method with Operator Learning for Solving Parametric Partial Differential Equations In Complex Domains ( http://arxiv.org/abs/2404.15242v1 )

ライセンス: Link先を確認
Shuo Ling, Liwei Tan, Wenjun Ying, (参考訳) カーネル自由境界積分法(KFBI)は、楕円偏微分方程式(PDE)から生じる境界積分方程式に対する反復解を提示する。 この方法は、修正されたヘルムホルツ、ストークス、弾性方程式を含む不規則領域上の楕円型PDEを効果的に処理する。 ニューラルネットワークとディープラーニングの急速な進化により、数値PDEの探索が活発になった。 数値PDEを解析するための数学的原理をシームレスに統合する深層学習手法に注目が集まっている。 本稿では,KFBI法の基本原理と深層学習能力を統合するハイブリッドKFBI法を提案する。 この手法は、境界積分法の枠組みの中で、PDEのパラメータ、不均一項、境界情報を境界密度関数にマッピングすることで、対応する積分方程式の解作用素を近似するネットワークを設計し、積分方程式の解と見なすことができる。 モデルは、カルテシアングリッドベースのKFBIアルゴリズムによって生成されたデータを用いて訓練され、堅牢な一般化能力を示す。 同じ方程式のクラス内の様々な境界条件とパラメータにまたがる密度関数を正確に予測する。 実験結果から, 学習モデルでは, 境界密度関数を良好な精度で直接推算することができ, 境界積分方程式の解法における反復的なステップの必要性を回避できることがわかった。 さらに、モデルの推論結果をイテレーションの初期値として適用することは合理的であり、約50%のイテレーションを削減し、従来のKFBIアプローチを加速させながら、KFBI法固有の2次精度を維持することができる。

The Kernel-Free Boundary Integral (KFBI) method presents an iterative solution to boundary integral equations arising from elliptic partial differential equations (PDEs). This method effectively addresses elliptic PDEs on irregular domains, including the modified Helmholtz, Stokes, and elasticity equations. The rapid evolution of neural networks and deep learning has invigorated the exploration of numerical PDEs. An increasing interest is observed in deep learning approaches that seamlessly integrate mathematical principles for investigating numerical PDEs. We propose a hybrid KFBI method, integrating the foundational principles of the KFBI method with the capabilities of deep learning. This approach, within the framework of the boundary integral method, designs a network to approximate the solution operator for the corresponding integral equations by mapping the parameters, inhomogeneous terms and boundary information of PDEs to the boundary density functions, which can be regarded as the solution of the integral equations. The models are trained using data generated by the Cartesian grid-based KFBI algorithm, exhibiting robust generalization capabilities. It accurately predicts density functions across diverse boundary conditions and parameters within the same class of equations. Experimental results demonstrate that the trained model can directly infer the boundary density function with satisfactory precision, obviating the need for iterative steps in solving boundary integral equations. Furthermore, applying the inference results of the model as initial values for iterations is also reasonable; this approach can retain the inherent second-order accuracy of the KFBI method while accelerating the traditional KFBI approach by reducing about 50% iterations.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 非線形マルチ環境データからのマイニング不変性:バイナリ分類

Mining Invariance from Nonlinear Multi-Environment Data: Binary Classification ( http://arxiv.org/abs/2404.15245v1 )

ライセンス: Link先を確認
Austin Goddard, Kang Du, Yu Xiang, (参考訳) 複数のトレーニング環境からのデータを元にした、目に見えない環境での予測は、難しい作業です。 我々はこの問題を不変の観点からアプローチし、二項分類に焦点をあて、一般的な非線形データ生成機構に光を当てる。 環境上で不変なモデルをトレーニングできるような、バイナリ設定にのみ存在するユニークな不変性の形式を特定します。 我々は, 環境条件が大きく変化する場合でも, 十分な環境条件を提供し, 頑健であることを示す。 我々の定式化は因果解釈を認めており、様々なフレームワークと比較することができる。 最後に,実データと合成データを用いたヒューリスティックな予測手法を提案し,実験を行った。

Making predictions in an unseen environment given data from multiple training environments is a challenging task. We approach this problem from an invariance perspective, focusing on binary classification to shed light on general nonlinear data generation mechanisms. We identify a unique form of invariance that exists solely in a binary setting that allows us to train models invariant over environments. We provide sufficient conditions for such invariance and show it is robust even when environmental conditions vary greatly. Our formulation admits a causal interpretation, allowing us to compare it with various frameworks. Finally, we propose a heuristic prediction method and conduct experiments using real and synthetic datasets.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# GIST: 局所適応型ハミルトンモンテカルロのギブズ自習

GIST: Gibbs self-tuning for locally adaptive Hamiltonian Monte Carlo ( http://arxiv.org/abs/2404.15253v1 )

ライセンス: Link先を確認
Nawaf Bou-Rabee, Bob Carpenter, Milo Marsden, (参考訳) 本稿では,各ステップの位置と運動量に基づいて,アルゴリズムのチューニングパラメータを条件付きでサンプリングすることにより,ハミルトン・モンテカルロ・サンプリング器の局所化チューニングのための新しいフレキシブルなフレームワークを提案する。 経路長を適応的にサンプリングするために、ランダム化されたハミルトニアンモンテカルロ、No-U-Turn Sampler、Apogee-to-Apogee Path Samplerが特別な場合としてこの統合されたフレームワークに適合することを示す。 このフレームワークは、経路長を局所的に適応するNo-U-Turn Samplerの簡単な代替策で説明されている。

We present a novel and flexible framework for localized tuning of Hamiltonian Monte Carlo samplers by sampling the algorithm's tuning parameters conditionally based on the position and momentum at each step. For adaptively sampling path lengths, we show that randomized Hamiltonian Monte Carlo, the No-U-Turn Sampler, and the Apogee-to-Apogee Path Sampler all fit within this unified framework as special cases. The framework is illustrated with a simple alternative to the No-U-Turn Sampler for locally adapting path lengths.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# アクティベーションパッチの使い方と解釈

How to use and interpret activation patching ( http://arxiv.org/abs/2404.15255v1 )

ライセンス: Link先を確認
Stefan Heimersheim, Neel Nanda, (参考訳) アクティベーションパッチング(Activation patching)は、一般的な機械的解釈可能性技術であるが、どのように適用され、どのように結果を解釈するかについては微妙な点が多い。 私たちは、このテクニックを実践した経験に基づいて、アドバイスとベストプラクティスの要約を提供します。 本稿では、アクティベーションパッチの適用方法の概要と、結果の解釈方法についての議論を紹介する。 我々は、回路に関するエビデンスパッチ実験がもたらすもの、およびメートル法と関連する落とし穴の選択に焦点を当てる。

Activation patching is a popular mechanistic interpretability technique, but has many subtleties regarding how it is applied and how one may interpret the results. We provide a summary of advice and best practices, based on our experience using this technique in practice. We include an overview of the different ways to apply activation patching and a discussion on how to interpret the results. We focus on what evidence patching experiments provide about circuits, and on the choice of metric and associated pitfalls.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# FPGAを用いた超電導量子ビット制御のための分散アーキテクチャ

Distributed Architecture for FPGA-based Superconducting Qubit Control ( http://arxiv.org/abs/2404.15260v1 )

ライセンス: Link先を確認
Neelay Fruitwala, Gang Huang, Yilun Xu, Abhi Rajagopala, Akel Hashim, Ravi K. Naik, Kasra Nowrouzi, David I. Santiago, Irfan Siddiqi, (参考訳) リアルタイムフィードバック技術(能動リセットや中回路計測など)を利用した量子回路は、NISQ時代の量子コンピューティングの強力なツールである。 このような手法は誤り訂正プロトコルの実装に不可欠であり、特定の量子アルゴリズムのリソース要求を減らすことができる。 これらの機能を実現するには、フレキシブルで低レイテンシな古典的な制御が必要です。 超伝導量子ビット制御のためのオープンソースプラットフォームであるQubiC用のFPGAベースのカスタムプロセッサアーキテクチャを開発した。 我々のアーキテクチャは本質的に分散しており、それぞれ1-3個の信号発生チャネルを制御できるように構成された軽量コアのバンクで構成されています。 各コアはパラメータ化制御とリードアウトパルスを実行でき、中間回路計測結果に基づいて任意の制御フローを実行することができる。 また、モジュール型コンパイラスタックと、プロセッサをプログラミングするためのドメイン固有の中間表現も開発した。 我々の表現では、ゲートレベルとパルスレベルの両方の抽象化を使って回路を指定でき、高レベルの制御フロー構造(例えば、if-elseブロックとループ)を含んでいる。 コンパイラスタックは、TrueQ、pyGSTi、OpenQASM3などの量子ソフトウェアツールとプログラミング言語を統合するように設計されている。 本稿では,プロセッサスタックとコンパイラスタックの両方の設計について詳述し,LBNL Advanced Quantum Testbedにおけるトランスモン量子ビットを用いた量子状態テレポーテーション実験でその能力を実証する。

Quantum circuits utilizing real time feedback techniques (such as active reset and mid-circuit measurement) are a powerful tool for NISQ-era quantum computing. Such techniques are crucial for implementing error correction protocols, and can reduce the resource requirements of certain quantum algorithms. Realizing these capabilities requires flexible, low-latency classical control. We have developed a custom FPGA-based processor architecture for QubiC, an open source platform for superconducting qubit control. Our architecture is distributed in nature, and consists of a bank of lightweight cores, each configured to control a small (1-3) number of signal generator channels. Each core is capable of executing parameterized control and readout pulses, as well as performing arbitrary control flow based on mid-circuit measurement results. We have also developed a modular compiler stack and domain-specific intermediate representation for programming the processor. Our representation allows users to specify circuits using both gate and pulse-level abstractions, and includes high-level control flow constructs (e.g. if-else blocks and loops). The compiler stack is designed to integrate with quantum software tools and programming languages, such as TrueQ, pyGSTi, and OpenQASM3. In this work, we will detail the design of both the processor and compiler stack, and demonstrate its capabilities with a quantum state teleportation experiment using transmon qubits at the LBNL Advanced Quantum Testbed.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 抵抗は必要なこと--グラフ上での有効抵抗と最適輸送問題の等価性について

All You Need is Resistance: On the Equivalence of Effective Resistance and Certain Optimal Transport Problems on Graphs ( http://arxiv.org/abs/2404.15261v1 )

ライセンス: Link先を確認
Sawyer Robertson, Zhengchao Wan, Alexander Cloninger, (参考訳) グラフ上の効果的な抵抗と最適な輸送の分野は、組合せ論、幾何学、機械学習などへの豊富な接続で満たされている。 この記事では、大胆な主張を述べた: 2つの体は1つと同一であり、$p$を選択するまで理解されるべきである。 この主張は、グラフ上の確率測度に対して$p$-ベックマン距離のパラメータ化された族を導入し、それをワッサーシュタイン距離と鋭く関連付けることによって、正確にする。 次に、最適停止時間への明示的な接続、グラフ上のランダムウォーク、グラフソボレフ空間、ベナモ・ブレニエ型式を2ドルベックマン距離に分割する。 さらに、グラフデータに対する教師なし学習の世界における経験的意味を探求し、ワッサーシュタイン距離が計算ボトルネックを生み出す可能性のあるこれらの指標の利用について、さらなる研究を提案する。

The fields of effective resistance and optimal transport on graphs are filled with rich connections to combinatorics, geometry, machine learning, and beyond. In this article we put forth a bold claim: that the two fields should be understood as one and the same, up to a choice of $p$. We make this claim precise by introducing the parameterized family of $p$-Beckmann distances for probability measures on graphs and relate them sharply to certain Wasserstein distances. Then, we break open a suite of results including explicit connections to optimal stopping times and random walks on graphs, graph Sobolev spaces, and a Benamou-Brenier type formula for $2$-Beckmann distance. We further explore empirical implications in the world of unsupervised learning for graph data and propose further study of the usage of these metrics where Wasserstein distance may produce computational bottlenecks.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 超指数スピードアップを用いた量子光学分類器

Quantum optical classifier with superexponential speedup ( http://arxiv.org/abs/2404.15266v1 )

ライセンス: Link先を確認
Simone Roncallo, Angela Rosy Morgillo, Chiara Macchiavello, Lorenzo Maccone, Seth Lloyd, (参考訳) 本稿では,バイナリ分類タスクのための量子光学パターン認識手法を提案する。 直接画像再構成なしでは、入力と分類器パラメータの両方が単一光子状態に符号化される香港・ウー・マンデル干渉計の出力で2光子偶然の速度でオブジェクトを分類する。 本手法は, 単位深さの古典ニューロンと同じ挙動を示す。 一度訓練すると、1つの分類で必要とされる計算演算数と光子数に一定の$\mathcal{O}(1)$複雑さを示す。 これは古典ニューロン(少なくとも画像分解能において線形である)に対する超指数的優位性である。 我々は、類似のニューラルネットワークアーキテクチャとシミュレーションおよび分析比較を行う。

We present a quantum optical pattern recognition method for binary classification tasks. Without direct image reconstruction, it classifies an object in terms of the rate of two-photon coincidences at the output of a Hong-Ou-Mandel interferometer, where both the input and the classifier parameters are encoded into single-photon states. Our method exhibits the same behaviour of a classical neuron of unit depth. Once trained, it shows a constant $\mathcal{O}(1)$ complexity in the number of computational operations and photons required by a single classification. This is a superexponential advantage over a classical neuron (that is at least linear in the image resolution). We provide simulations and analytical comparisons with analogous neural network architectures.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# 効率的な分散最適化のための推定ネットワーク設計フレームワーク

Estimation Network Design framework for efficient distributed optimization ( http://arxiv.org/abs/2404.15273v1 )

ライセンス: Link先を確認
Mattia Bianchi, Sergio Grammatico, (参考訳) 分散決定問題は、中央メモリなしでピアツーピアネットワーク上でのみ通信できるエージェントのグループを特徴とする。 ネットワーク制御やデータランキングのようなアプリケーションでは、各エージェントは決定ベクトルのごく一部しか影響を受けない。 この問題に対処するため,本稿では,分散イテレーションの解析と設計のためのグラフ理論言語である推定ネットワーク設計(END)を紹介した。 ENDアルゴリズムは、特定の問題インスタンスのスパーシ性を利用して、通信オーバーヘッドを減らし、冗長性を最小化するが、ケースバイケースの収束解析を必要としないように調整することができる。 本稿では,分散最適化におけるENDの柔軟性について述べる。 特に、ADMM、AugDGM、Push-Sum DGDなど、確立された多くのメソッドのスパーシティ対応バージョンについて検討する。 センサネットワークにおける推定問題に関するシミュレーションでは、ENDアルゴリズムが収束速度を向上し、通信とメモリコストを大幅に削減できることが示されている。

Distributed decision problems features a group of agents that can only communicate over a peer-to-peer network, without a central memory. In applications such as network control and data ranking, each agent is only affected by a small portion of the decision vector: this sparsity is typically ignored in distributed algorithms, while it could be leveraged to improve efficiency and scalability. To address this issue, our recent paper introduces Estimation Network Design (END), a graph theoretical language for the analysis and design of distributed iterations. END algorithms can be tuned to exploit the sparsity of specific problem instances, reducing communication overhead and minimizing redundancy, yet without requiring case-by-case convergence analysis. In this paper, we showcase the flexility of END in the context of distributed optimization. In particular, we study the sparsity-aware version of many established methods, including ADMM, AugDGM and Push-Sum DGD. Simulations on an estimation problem in sensor networks demonstrate that END algorithms can boost convergence speed and greatly reduce the communication and memory cost.
翻訳日:2024-04-24 12:53:16 公開日:2024-04-23
# リアルライセンスプレートのデブロアリングのためのデータセットとモデル

A Dataset and Model for Realistic License Plate Deblurring ( http://arxiv.org/abs/2404.13677v2 )

ライセンス: Link先を確認
Haoyan Gong, Yuzheng Feng, Zhenrong Zhang, Xianxu Hou, Jingxin Liu, Siqi Huang, Hongbin Liu, (参考訳) 車両ナンバープレート認識はインテリジェント交通管理システムにおいて重要な課題である。 しかし、高速移動車からの運動のぼやけにより、正確な認識を実現するという課題は継続する。 既存のデブロアリングと認識アルゴリズムに画像合成アプローチが広く用いられているにもかかわらず、現実のシナリオにおけるそれらの有効性は証明されていない。 これを解決するために,デュアルカメラシステムによってキャプチャされ,処理後パイプラインを通じて処理されるライセンスプレートブラア(LPBlur)と呼ばれる,最初の大規模ライセンスプレートデブロアデータセットを紹介した。 そこで我々は,ライセンスプレートデブロアリングに対処するライセンスプレートデブロアリングジェネレーティブ・アドバイザリアル・ネットワーク(LPDGAN)を提案する。 1) マルチスケール潜伏符号を統合する機能融合モジュール 2 テクスト復元モジュールは、テクストのモダリティにより構造を復元する。 3) 分割識別器モジュールは、各文字の細部に対するモデルの認識を高める。 モデルトレーニングとテストの両方において,LPBlurデータセットの信頼性が検証され,本モデルが現実的なナンバープレートの劣化シナリオにおいて,他の最先端の動作不良手法よりも優れていることが示された。 データセットとコードはhttps://github.com/haoyGONG/LPDGANで公開されている。

Vehicle license plate recognition is a crucial task in intelligent traffic management systems. However, the challenge of achieving accurate recognition persists due to motion blur from fast-moving vehicles. Despite the widespread use of image synthesis approaches in existing deblurring and recognition algorithms, their effectiveness in real-world scenarios remains unproven. To address this, we introduce the first large-scale license plate deblurring dataset named License Plate Blur (LPBlur), captured by a dual-camera system and processed through a post-processing pipeline to avoid misalignment issues. Then, we propose a License Plate Deblurring Generative Adversarial Network (LPDGAN) to tackle the license plate deblurring: 1) a Feature Fusion Module to integrate multi-scale latent codes; 2) a Text Reconstruction Module to restore structure through textual modality; 3) a Partition Discriminator Module to enhance the model's perception of details in each letter. Extensive experiments validate the reliability of the LPBlur dataset for both model training and testing, showcasing that our proposed model outperforms other state-of-the-art motion deblurring methods in realistic license plate deblurring scenarios. The dataset and code are available at https://github.com/haoyGONG/LPDGAN.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# フィルタ直接選好最適化

Filtered Direct Preference Optimization ( http://arxiv.org/abs/2404.13846v2 )

ライセンス: Link先を確認
Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。 データセットの品質の重要性は一般的に認識されているが、我々の知る限り、RLHFフレームワークにおけるその影響に関する明確な調査は限られている。 本稿では,報酬モデルのないRLHF法であるDPO(Direct Preference Optimization)に着目し,嗜好データセットにおけるテキスト品質の問題に対処する。 テキストの品質が報酬モデルに基づくRLHFよりもDPOで最適化されたモデルの性能に大きく影響することを確認する。 この知見に基づいて,フィルタ直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。 fDPOはトレーニングされた報酬モデルを使用して、DPOトレーニング中の好みデータセット内のテキストの品質を監視する。 低品質のサンプルは、最適化されたモデルによって生成されたテキストとの比較に基づいて破棄されるため、より正確なデータセットが生成される。 実験結果から,fDPOは最終モデルの性能を向上させることが示された。 私たちのコードはhttps://github.com/CyberAgentAILab/filtered-dpo.comで公開されています。

Reinforcement learning from human feedback (RLHF) plays a crucial role in aligning language models with human preferences. While the significance of dataset quality is generally recognized, explicit investigations into its impact within the RLHF framework, to our knowledge, have been limited. This paper addresses the issue of text quality within the preference dataset by focusing on Direct Preference Optimization (DPO), an increasingly adopted reward-model-free RLHF method. We confirm that text quality significantly influences the performance of models optimized with DPO more than those optimized with reward-model-based RLHF. Building on this new insight, we propose an extension of DPO, termed filtered direct preference optimization (fDPO). fDPO uses a trained reward model to monitor the quality of texts within the preference dataset during DPO training. Samples of lower quality are discarded based on comparisons with texts generated by the model being optimized, resulting in a more accurate dataset. Experimental results demonstrate that fDPO enhances the final model performance. Our code is available at https://github.com/CyberAgentAILab/filtered-dpo.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# 磁場中における荷電ブラウン粒子の脱コヒーレンス : 位置と運動量変数によるカップリングの役割の解析

Decoherence of a charged Brownian particle in a magnetic field : an analysis of the roles of coupling via position and momentum variables ( http://arxiv.org/abs/2404.13883v2 )

ライセンス: Link先を確認
Suraka Bhattacharjee, Koushik Mandal, Supurna Sinha, (参考訳) デコヒーレンスの研究は、量子から古典世界への遷移を理解する上で重要な役割を担っている。 典型的には、開放量子系のモデルを形成する外部浴に結合した系を考える。 研究の大部分はシステムと環境の間の位置結合に関するものであるが、運動量結合を伴い、異常な拡散モデルを引き起こすものもある。 ここでは、既存の研究を超えて、磁場の存在下で調和的に振動するブラウン粒子の量子ランゲヴィン力学を解析し、位置と運動量結合の両方を通してオーミック熱浴に結合した。 位置カップリングと運動量カップリングの両方の存在は環境との相互作用を強くし、位置カップリングのみが存在する状況に比べてコヒーレンスが失われる。 位置と運動量結合パラメータの相対強度を制御することにより、デコヒーレンス率を調整できる。 さらに、磁場は、システムと浴とのカップリングの性質に関係なく、システムからの情報の損失を遅くする。 本結果は, 適切なイオントラップを設計することで実験的に検証できる。

The study of decoherence plays a key role in our understanding of the transition from the quantum to the classical world. Typically, one considers a system coupled to an external bath which forms a model for an open quantum system. While most of the studies pertain to a position coupling between the system and the environment, some involve a momentum coupling, giving rise to an anomalous diffusive model. Here we have gone beyond existing studies and analysed the quantum Langevin dynamics of a harmonically oscillating charged Brownian particle in the presence of a magnetic field and coupled to an Ohmic heat bath via both position and momentum couplings. The presence of both position and momentum couplings leads to a stronger interaction with the environment, resulting in a faster loss of coherence compared to a situation where only position coupling is present. The rate of decoherence can be tuned by controlling the relative strengths of the position and momentum coupling parameters. In addition, the magnetic field results in the slowing down of the loss of information from the system, irrespective of the nature of coupling between the system and the bath. Our results can be experimentally verified by designing a suitable ion trap setup.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# Retrieval-Augmented Audio Deepfake Detection

Retrieval-Augmented Audio Deepfake Detection ( http://arxiv.org/abs/2404.13892v2 )

ライセンス: Link先を確認
Zuheng Kang, Yayun He, Botao Zhao, Xiaoyang Qu, Junqing Peng, Jing Xiao, Jianzong Wang, (参考訳) テキスト音声合成(TTS)や音声変換(VC)システムなどの音声合成の進歩により、超現実的なオーディオディープフェイクの生成が可能になったため、その潜在的な誤用に対する懸念が高まっている。 しかし、ほとんどのディープフェイク(DF)検出方法は単一のモデルで学んだファジィな知識にのみ依存しており、結果としてパフォーマンスのボトルネックと透明性の問題が発生する。 検索拡張生成(RAG)に着想を得て,検索拡張検出(RAD)フレームワークを提案する。 また、マルチフュージョン注意分類器を拡張し、提案したRADフレームワークと統合する。 ASVspoof 2021 DF セットの最先端結果と2019 と 2021 LA セットの競争結果の達成により,提案した RAD フレームワークのベースライン法よりも優れた性能を示した。 さらなるサンプル分析により、検索者は、クエリ音声と高度に整合した音響特性を持つ同一話者から、ほぼ一貫してサンプルを検索し、検出性能を向上させることが示唆された。

With recent advances in speech synthesis including text-to-speech (TTS) and voice conversion (VC) systems enabling the generation of ultra-realistic audio deepfakes, there is growing concern about their potential misuse. However, most deepfake (DF) detection methods rely solely on the fuzzy knowledge learned by a single model, resulting in performance bottlenecks and transparency issues. Inspired by retrieval-augmented generation (RAG), we propose a retrieval-augmented detection (RAD) framework that augments test samples with similar retrieved samples for enhanced detection. We also extend the multi-fusion attentive classifier to integrate it with our proposed RAD framework. Extensive experiments show the superior performance of the proposed RAD framework over baseline methods, achieving state-of-the-art results on the ASVspoof 2021 DF set and competitive results on the 2019 and 2021 LA sets. Further sample analysis indicates that the retriever consistently retrieves samples mostly from the same speaker with acoustic characteristics highly consistent with the query audio, thereby improving detection performance.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# CT-NeRF:増分最適化ニューラルラジアンス場と複雑な軌跡を持つ可能性

CT-NeRF: Incremental Optimizing Neural Radiance Field and Poses with Complex Trajectory ( http://arxiv.org/abs/2404.13896v2 )

ライセンス: Link先を確認
Yunlong Ran, Yanxu Li, Qi Ye, Yuchi Huo, Zechun Bai, Jiahao Sun, Jiming Chen, (参考訳) ニューラルレイディアンス場(NeRF)は高品質な3次元シーン再構成において顕著な成果を上げている。 しかし、NeRFは正確なカメラのポーズに大きく依存している。 BARFのような最近の研究は、NeRF内にカメラポーズ最適化を導入しているが、その適用性は単純な軌跡シーンに限られている。 既存の方法は、大きな回転を含む複雑な軌道に対処しながら苦労する。 この制限に対処するために,ポーズや深さの入力を伴わずにRGB画像のみを用いた逐次再構成最適化パイプラインであるCT-NeRFを提案する。 本稿では,まず,周辺フレームを接続するポーズグラフに基づいて,シーン構造との整合性のみによって生じる局所的なミニマから逃れるために,ポーズ間の整合性を確保することを提案する。 さらに、入力画像対間の画素レベルの対応から生じる幾何的画像距離制約として、ポーズ間の一貫性をインスタンス化する。 インクリメンタルな再構成により、CT-NeRFは、カメラポーズとシーン構造の両方の回復を可能にし、複雑な軌道でシーンを処理できる。 我々は,複雑な軌跡を持つ2つの実世界のデータセットであるNeRFBusterとFree-DatasetにおけるCT-NeRFの性能を評価する。 その結果、CT-NeRFは、新しいビュー合成法やポーズ推定精度において、既存の手法よりも優れていた。

Neural radiance field (NeRF) has achieved impressive results in high-quality 3D scene reconstruction. However, NeRF heavily relies on precise camera poses. While recent works like BARF have introduced camera pose optimization within NeRF, their applicability is limited to simple trajectory scenes. Existing methods struggle while tackling complex trajectories involving large rotations. To address this limitation, we propose CT-NeRF, an incremental reconstruction optimization pipeline using only RGB images without pose and depth input. In this pipeline, we first propose a local-global bundle adjustment under a pose graph connecting neighboring frames to enforce the consistency between poses to escape the local minima caused by only pose consistency with the scene structure. Further, we instantiate the consistency between poses as a reprojected geometric image distance constraint resulting from pixel-level correspondences between input image pairs. Through the incremental reconstruction, CT-NeRF enables the recovery of both camera poses and scene structure and is capable of handling scenes with complex trajectories. We evaluate the performance of CT-NeRF on two real-world datasets, NeRFBuster and Free-Dataset, which feature complex trajectories. Results show CT-NeRF outperforms existing methods in novel view synthesis and pose estimation accuracy.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# サブパス線形近似モデルによる画像生成の高速化

Accelerating Image Generation with Sub-path Linear Approximation Model ( http://arxiv.org/abs/2404.13903v2 )

ライセンス: Link先を確認
Chen Xu, Tianhui Song, Weixin Feng, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang, (参考訳) 拡散モデルは、画像、オーディオ、ビデオ生成タスクの最先端を著しく進歩させてきた。 しかし、実際のシナリオにおけるそれらの応用は、推論速度の遅さによって妨げられる。 一貫性モデルで利用される近似戦略からインスピレーションを得たサブパス線形近似モデル(SLAM)を提案し,高品質な画像生成を維持しながら拡散モデルを加速する。 SLAMは、PF-ODEサブパスをサンプルポイントで分割した一連のPF-ODEサブパスとして扱い、サブパス線形(SL)ODEを用いて個々のPF-ODEサブパスに沿って進行的かつ連続的なエラー推定を生成する。 このようなSL-ODEの最適化により、SLAMはより小さい累積近似誤差でデノナイジングマッピングを構築することができる。 また, 潜伏拡散モデルなど, より高度な拡散モデルの導入を容易にするため, 効率的な蒸留法も開発されている。 以上の結果から,SLAMは2段階から4段階の高速生成が可能な高品質な生成モデルを生成するのに6A100 GPU日しか必要とせず,効率のよいトレーニングレギュレーションを実現することが示された。 LAION、MS COCO 2014、MS COCO 2017データセットに関する総合的な評価は、SLAMが既存のアクセラレーションメソッドを数ステップ生成タスクで超越し、FIDと生成された画像の品質の両方で最先端のパフォーマンスを達成することを示している。

Diffusion models have significantly advanced the state of the art in image, audio, and video generation tasks. However, their applications in practical scenarios are hindered by slow inference speed. Drawing inspiration from the approximation strategies utilized in consistency models, we propose the Sub-path Linear Approximation Model (SLAM), which accelerates diffusion models while maintaining high-quality image generation. SLAM treats the PF-ODE trajectory as a series of PF-ODE sub-paths divided by sampled points, and harnesses sub-path linear (SL) ODEs to form a progressive and continuous error estimation along each individual PF-ODE sub-path. The optimization on such SL-ODEs allows SLAM to construct denoising mappings with smaller cumulative approximated errors. An efficient distillation method is also developed to facilitate the incorporation of more advanced diffusion models, such as latent diffusion models. Our extensive experimental results demonstrate that SLAM achieves an efficient training regimen, requiring only 6 A100 GPU days to produce a high-quality generative model capable of 2 to 4-step generation with high performance. Comprehensive evaluations on LAION, MS COCO 2014, and MS COCO 2017 datasets also illustrate that SLAM surpasses existing acceleration methods in few-step generation tasks, achieving state-of-the-art performance both on FID and the quality of the generated images.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# 大規模言語モデル評価のためのユーザ中心ベンチマーク

A User-Centric Benchmark for Evaluating Large Language Models ( http://arxiv.org/abs/2404.13940v2 )

ライセンス: Link先を確認
Jiayin Wang, Fengran Mo, Weizhi Ma, Peijie Sun, Min Zhang, Jian-Yun Nie, (参考訳) 大きな言語モデル(LLM)は、異なるタスクでユーザと協調するために必要なツールである。 実際のシナリオにおいて、ユーザのニーズを満たすためにパフォーマンスを評価することが重要です。 多くのベンチマークが作成されているが、主に定義された特定のモデル能力に焦点を当てている。 実際のユーザによる LLM の利用を意図した例はほとんどない。 そこで本研究では,データセット構築と評価設計の両方において,ユーザの視点からLCMをベンチマークする手法を提案する。 まず,23カ国712人を対象に,実世界の実例1846件,LLM15件をユーザスタディから収集した。 これらの自己報告されたケースは、7つのユーザの意図を分類したUser Reported Scenarios(URS)データセットを構成する。 第2に、この認証されたマルチカルチャーデータセットにおいて、ユーザニーズを満たすための有効性について、10のLCMサービスをベンチマークする。 第3に、我々のベンチマークスコアは、多様な意図にまたがるLLMインタラクションにおけるユーザ報告された経験とよく一致していることを示し、どちらも主観的なシナリオの見落としを強調している。 本研究は,実際のユーザニーズを反映した評価を促進することを目的として,ユーザ中心の観点からLCMをベンチマークすることを提案する。 ベンチマークデータセットとコードはhttps://github.com/Alice1998/URSで公開されている。

Large Language Models (LLMs) are essential tools to collaborate with users on different tasks. Evaluating their performance to serve users' needs in real-world scenarios is important. While many benchmarks have been created, they mainly focus on specific predefined model abilities. Few have covered the intended utilization of LLMs by real users. To address this oversight, we propose benchmarking LLMs from a user perspective in both dataset construction and evaluation designs. We first collect 1846 real-world use cases with 15 LLMs from a user study with 712 participants from 23 countries. These self-reported cases form the User Reported Scenarios(URS) dataset with a categorization of 7 user intents. Secondly, on this authentic multi-cultural dataset, we benchmark 10 LLM services on their efficacy in satisfying user needs. Thirdly, we show that our benchmark scores align well with user-reported experience in LLM interactions across diverse intents, both of which emphasize the overlook of subjective scenarios. In conclusion, our study proposes to benchmark LLMs from a user-centric perspective, aiming to facilitate evaluations that better reflect real user needs. The benchmark dataset and code are available at https://github.com/Alice1998/URS.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# PeLiCal:共同視認性に制限のあるRGB-Dカメラの貫入線による無目標極端校正

PeLiCal: Targetless Extrinsic Calibration via Penetrating Lines for RGB-D Cameras with Limited Co-visibility ( http://arxiv.org/abs/2404.13949v2 )

ライセンス: Link先を確認
Jaeho Shin, Seungsang Yun, Ayoung Kim, (参考訳) RGB-Dカメラは、深度データを付加した画像を生成する能力を考えると、ロボットの知覚に不可欠である。 しかし、FOVは広い範囲をカバーするために複数のカメラを必要とすることが多い。 マルチカメラのRGB-Dセットアップでは、通常はカメラのオーバーラップを減らし、できるだけ少ないカメラで空間範囲を最適化する。 これらのシステムの外部キャリブレーションは、さらなる複雑さをもたらす。 既存のキャリブレーション法では、特定のツールを必要とするか、カメラモーション推定の精度に大きく依存する。 これらの問題に対処するために,RGB-Dカメラシステムのためのラインベースキャリブレーション手法であるPeLiCalを提案する。 提案手法は, 周辺環境からの長い線の特徴を活用し, 新たな収束投票アルゴリズムを用いて, 既存の手法と比較して, 目標のない, リアルタイム, アウトリア・ロバストな性能を実現する。 実装はhttps://github.com/joomeok/PeLiCal.git.comで公開しています。

RGB-D cameras are crucial in robotic perception, given their ability to produce images augmented with depth data. However, their limited FOV often requires multiple cameras to cover a broader area. In multi-camera RGB-D setups, the goal is typically to reduce camera overlap, optimizing spatial coverage with as few cameras as possible. The extrinsic calibration of these systems introduces additional complexities. Existing methods for extrinsic calibration either necessitate specific tools or highly depend on the accuracy of camera motion estimation. To address these issues, we present PeLiCal, a novel line-based calibration approach for RGB-D camera systems exhibiting limited overlap. Our method leverages long line features from surroundings, and filters out outliers with a novel convergence voting algorithm, achieving targetless, real-time, and outlier-robust performance compared to existing methods. We open source our implementation on https://github.com/joomeok/PeLiCal.git.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# ジェネレーティブAIの著作権問題に対する経済的解決策

An Economic Solution to Copyright Challenges of Generative AI ( http://arxiv.org/abs/2404.13964v2 )

ライセンス: Link先を確認
Jiachen T. Wang, Zhun Deng, Hiroaki Chiba-Okabe, Boaz Barak, Weijie J. Su, (参考訳) 生成人工知能(AI)システムは、テキスト、画像、ビデオ、その他のメディアを生成するために、大規模なデータコーパスで訓練されている。 このようなシステムは、データコントリビュータのトレーニングに関する著作権権に侵害されるのではないか、という懸念が高まっている。 生成AIの著作権問題に対処するため、我々は、AI生成コンテンツ作成への貢献に比例して著作権所有者を補償する枠組みを提案する。 コントリビューションの計量は、現代の生成AIモデルの確率的性質を活用し、経済学における協調ゲーム理論の技法を用いて定量的に決定される。 このフレームワークは、AI開発者が高品質なトレーニングデータにアクセスすることで、モデルパフォーマンスを向上させるプラットフォームを可能にする。 一方、著作権所有者は公正な補償を受け、生成モデルトレーニングのための関連データの継続的な提供を推進している。 実験により,本フレームワークは,著作権所有者間の収益の公平かつ解釈可能な分配を確保するため,美術作品生成において最も関連性の高いデータソースの同定に成功していることが示された。

Generative artificial intelligence (AI) systems are trained on large data corpora to generate new pieces of text, images, videos, and other media. There is growing concern that such systems may infringe on the copyright interests of training data contributors. To address the copyright challenges of generative AI, we propose a framework that compensates copyright owners proportionally to their contributions to the creation of AI-generated content. The metric for contributions is quantitatively determined by leveraging the probabilistic nature of modern generative AI models and using techniques from cooperative game theory in economics. This framework enables a platform where AI developers benefit from access to high-quality training data, thus improving model performance. Meanwhile, copyright owners receive fair compensation, driving the continued provision of relevant data for generative model training. Experiments demonstrate that our framework successfully identifies the most relevant data sources used in artwork generation, ensuring a fair and interpretable distribution of revenues among copyright owners.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# コンプライアンスアセスメントに焦点をあててスクラムを教える

Teaching Scrum with a focus on compliance assessment ( http://arxiv.org/abs/2404.14029v2 )

ライセンス: Link先を確認
Marco Torchiano, Antonio Vetrò, Riccardo Coppola, (参考訳) スクラムフレームワークは、コラボレーションと継続的改善に重点を置いて、業界で広く採用されています。 しかし、ソフトウェア工学(SE)のカリキュラムには同様の関連性はない。 この研究は、MSc内のSEコースの5つのエディションの経験を報告する。 専門は計算機工学。 コースの主な教育目的は、学生にスクラムでソフトウェア開発プロジェクトを管理するスキルを提供することです。 このコースは、チームプロジェクトの実行と、スクラムの適用を評価する質的で定量的な手段の定義に基づいています。 コースの5つのエディションの実施により、アジャイルの学生プロジェクトにおける時間予算やチーム構成について学んだいくつかの教訓と、そのフレームワークがソフトウェア開発コースに適用可能であることの証拠を特定できるようになりました。

The Scrum framework has gained widespread adoption in the industry for its emphasis on collaboration and continuous improvement. However, it has not reached a similar relevance in Software Engineering (SE) curricula. This work reports the experience of five editions of a SE course within an MSc. Degree in Computer Engineering. The course primary educational objective is to provide students with the skills to manage software development projects with Scrum. The course is based on the execution of a team project and on the definition of qualitative and quantitative means of assessment of the application of Scrum. The conduction of five editions of the course allowed us to identify several lessons learned about time budgeting and team compositions in agile student projects and its evidence of the applicability of the framework to software development courses.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# RingID:マルチキー識別のためのツリーリング透かしの再検討

RingID: Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification ( http://arxiv.org/abs/2404.14055v2 )

ライセンス: Link先を確認
Hai Ci, Pei Yang, Yiren Song, Mike Zheng Shou, (参考訳) 我々は,様々な攻撃に対して強い堅牢性を示す拡散モデル透かし法であるツリーリング透かしを再検討する。 本研究は,透かしパターンマッチングとは別に,透かし処理によって意図せず導入される分布変化が,その異常な強靭性に寄与することを明らかにする。 我々の調査は、元の設計に固有の欠陥、特に分散シフトが役に立たない複数の異なるキーを識別する能力をさらに明らかにしている。 これらの知見と分析に基づいて,マルチキー識別の強化を目的としたリングIDを提案する。 多様な透かしから顕著な長所をシームレスにアマルガメートするために設計された、新しい多チャンネル不均一透かしアプローチで構成されている。 RingIDは、提案された一連の拡張と合わせて、マルチキー識別の大幅な進歩を示している。 Githubページ:https://github.com/showlab/RingID

We revisit Tree-Ring Watermarking, a recent diffusion model watermarking method that demonstrates great robustness to various attacks. We conduct an in-depth study on it and reveal that the distribution shift unintentionally introduced by the watermarking process, apart from watermark pattern matching, contributes to its exceptional robustness. Our investigation further exposes inherent flaws in its original design, particularly in its ability to identify multiple distinct keys, where distribution shift offers no assistance. Based on these findings and analysis, we present RingID for enhanced multi-key identification. It consists of a novel multi-channel heterogeneous watermarking approach designed to seamlessly amalgamate distinctive advantages from diverse watermarks. Coupled with a series of suggested enhancements, RingID exhibits substantial advancements in multi-key identification. Github Page: https://github.com/showlab/RingID
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# 物理学に基づく顕微鏡による報酬駆動画像解析

Physics-based reward driven image analysis in microscopy ( http://arxiv.org/abs/2404.14146v2 )

ライセンス: Link先を確認
Kamyar Barakati, Hui Yuan, Amit Goyal, Sergei V. Kalinin, (参考訳) 電子顕微鏡の出現により、複雑な物質のナノメートルと原子分解画像を取得する能力が拡大した。 結果として得られる膨大なデータセットは、典型的には人間のオペレータによって分析される。複数の分析ステップと、それに対応する複雑な分析ワークフローの構築と最適化の必要性により、本質的に困難なプロセスである。 本稿では,ベイズ最適化と結合したリワード関数の概念に基づく手法を提案し,画像解析のワークフローを動的に最適化する。 Reward関数は実験目的やより広い文脈と密接に一致するように設計されており、分析が完了すると定量化される。 ここでは、イオン照射した$(Y, Dy)Ba_2Cu_3O_{7-\delta}$薄膜の断面高角環状暗視野(HAADF)像をモデル系として用いた。 報酬関数は、期待される材料密度と原子間隔に基づいて形成され、古典的なラプラシアン・オブ・ガウス法(LoG)の多目的最適化に使用された。 これらの結果はDCNNセグメンテーションに対してベンチマークすることができる。 この最適化されたLoG*は、追加ノイズの存在下でDCNNと好意的に比較する。 さらに、偏った部分領域の同定に対する報酬関数のアプローチを拡張し、物理駆動の報酬関数と高次元クラスタリングのアクション空間を作成する。 提案手法は,従来のDCNNに基づく推論よりもはるかに高速で計算コストの低い複雑な解析ワークフローをリアルタイムに最適化し,精度と人間の定義した目的に整合した結果の達成を確実にするものである。

The rise of electron microscopy has expanded our ability to acquire nanometer and atomically resolved images of complex materials. The resulting vast datasets are typically analyzed by human operators, an intrinsically challenging process due to the multiple possible analysis steps and the corresponding need to build and optimize complex analysis workflows. We present a methodology based on the concept of a Reward Function coupled with Bayesian Optimization, to optimize image analysis workflows dynamically. The Reward Function is engineered to closely align with the experimental objectives and broader context and is quantifiable upon completion of the analysis. Here, cross-section, high-angle annular dark field (HAADF) images of ion-irradiated $(Y, Dy)Ba_2Cu_3O_{7-\delta}$ thin-films were used as a model system. The reward functions were formed based on the expected materials density and atomic spacings and used to drive multi-objective optimization of the classical Laplacian-of-Gaussian (LoG) method. These results can be benchmarked against the DCNN segmentation. This optimized LoG* compares favorably against DCNN in the presence of the additional noise. We further extend the reward function approach towards the identification of partially-disordered regions, creating a physics-driven reward function and action space of high-dimensional clustering. We pose that with correct definition, the reward function approach allows real-time optimization of complex analysis workflows at much higher speeds and lower computational costs than classical DCNN-based inference, ensuring the attainment of results that are both precise and aligned with the human-defined objectives.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# Phi-3テクニカルレポート:スマートフォンでローカルに高機能な言語モデル

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone ( http://arxiv.org/abs/2404.14219v2 )

ライセンス: Link先を確認
Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Parul Chopra, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Dan Iter, Amit Garg, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Chen Liang, Weishung Liu, Eric Lin, Zeqi Lin, Piyush Madan, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Xia Song, Masahiro Tanaka, Xin Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Michael Wyatt, Can Xu, Jiahang Xu, Sonali Yadav, Fan Yang, Ziyi Yang, Donghan Yu, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yue Zhang, Yunan Zhang, Xiren Zhou, (参考訳) 我々は、3.3兆のトークンでトレーニングされた3.8億のパラメータ言語モデルであるphi-3-miniを紹介し、その全体的な性能は、電話に展開できるほど小さいにもかかわらず、Mixtral 8x7BやGPT-3.5(例えば、phi-3-miniはMMLUで69%、MT-benchで8.38)のようなモデルに匹敵する。 このイノベーションは、十分にフィルタリングされたWebデータと合成データで構成されるphi-2のスケールアップバージョンである、トレーニングのためのデータセットに完全に含まれています。 モデルはさらに堅牢性、安全性、チャットフォーマットに整合している。 また,4.8Tトークンに対して訓練された7Bおよび14Bモデルであるphi-3-smallおよびphi-3-mediumを,それぞれMMLUで75%,78%,MT-benchで8.7,8.9)よりも有意に高いパラメータスケーリング結果を示した。

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# 最適・オン・ポリティクスデータを活用するLLMの選好微調整

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data ( http://arxiv.org/abs/2404.14367v2 )

ライセンス: Link先を確認
Fahim Tajwar, Anikait Singh, Archit Sharma, Rafael Rafailov, Jeff Schneider, Tengyang Xie, Stefano Ermon, Chelsea Finn, Aviral Kumar, (参考訳) 好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。 好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。 異なる手法は異なる実装のトレードオフと性能の違いを持ち、既存の経験的発見は異なる結論を示し、例えば、オンラインRLが優れた微調整結果を得るために非常に重要であることを示す結果もある。 好みのデータを使って微調整する上で,どのようなアプローチが重要であるのか? 本稿では, ドクティックおよびフルスケールLLM問題における多数の微調整手法を厳密に分析することにより, この問題に対処する。 我々の主な発見は、一般に、オンラインサンプリングを使用するアプローチや、特定の応答(すなわち、"負の勾配"を採用する)に対する可能性を押し下げようとするアプローチが、オフラインおよび最大可能性目標を上回っていることである。 我々は, カテゴリー分布のモード探索目標という概念の下で, オンラインサンプリングや負の勾配を利用する手法を概念化し, 統一する。 モード探索の目的は、カテゴリー分布の特定のビンの確率質量を最大確率よりも速い速度で変化させることで、ビンをまたいでより効率的に質量を移動させることができる。 本分析では,LLMの選好微調整に関する実用的な知見を定式化し,最大改善のためのデータ収集方法について報告する。

Learning from preference labels plays a crucial role in fine-tuning large language models. There are several distinct approaches for preference fine-tuning, including supervised learning, on-policy reinforcement learning (RL), and contrastive learning. Different methods come with different implementation tradeoffs and performance differences, and existing empirical findings present different conclusions, for instance, some results show that online RL is quite important to attain good fine-tuning results, while others find (offline) contrastive or even purely supervised methods sufficient. This raises a natural question: what kind of approaches are important for fine-tuning with preference data and why? In this paper, we answer this question by performing a rigorous analysis of a number of fine-tuning techniques on didactic and full-scale LLM problems. Our main finding is that, in general, approaches that use on-policy sampling or attempt to push down the likelihood on certain responses (i.e., employ a "negative gradient") outperform offline and maximum likelihood objectives. We conceptualize our insights and unify methods that use on-policy sampling or negative gradient under a notion of mode-seeking objectives for categorical distributions. Mode-seeking objectives are able to alter probability mass on specific bins of a categorical distribution at a fast rate compared to maximum likelihood, allowing them to relocate masses across bins more effectively. Our analysis prescribes actionable insights for preference fine-tuning of LLMs and informs how data should be collected for maximal improvement.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23
# Gross-Pitaevskii方程式に対するPython GPU加速解法と多体空洞QEDへの応用

A Python GPU-accelerated solver for the Gross-Pitaevskii equation and applications to many-body cavity QED ( http://arxiv.org/abs/2404.14401v2 )

ライセンス: Link先を確認
Lorenzo Fioroni, Luca Gravina, Justyna Stefaniak, Alexander Baumgärtner, Fabian Finger, Davide Dreon, Tobias Donner, (参考訳) TorchGPEはGross-Pitaevskii方程式(GPE)を解くために開発された汎用Pythonパッケージである。 この解法は線形ポテンシャルと非線形ポテンシャルのスペクトルにわたって波動関数を統合するように設計されている。 TorchGPEの特異な側面はモジュラーアプローチであり、任意の自己整合性および時間依存ポテンシャル、例えば多体空洞QEDモデルに関係のあるポテンシャルを組み込むことができる。 このパッケージは、実時間と虚時間の両方で有効である対称分割ステップフーリエ伝搬法を用いている。 本稿では,GPUの計算能力を活用することにより,計算効率の大幅な向上を実証する。 後者の技術の統合により、TorchGPEは従来のCPUベースの手法に比べて大幅にスピードアップし、この分野の研究範囲と可能性を大きく広げる。

TorchGPE is a general-purpose Python package developed for solving the Gross-Pitaevskii equation (GPE). This solver is designed to integrate wave functions across a spectrum of linear and non-linear potentials. A distinctive aspect of TorchGPE is its modular approach, which allows the incorporation of arbitrary self-consistent and time-dependent potentials, e.g., those relevant in many-body cavity QED models. The package employs a symmetric split-step Fourier propagation method, effective in both real and imaginary time. In our work, we demonstrate a significant improvement in computational efficiency by leveraging GPU computing capabilities. With the integration of the latter technology, TorchGPE achieves a substantial speed-up with respect to conventional CPU-based methods, greatly expanding the scope and potential of research in this field.
翻訳日:2024-04-24 12:43:32 公開日:2024-04-23